Next Generation Sequencing (NGS) ist ein leistungsfähiges Werkzeug für die genomische Charakterisierung, die durch die hohe Fehlerquote der Plattform (~0.5–2.0%) begrenzt ist. Wir beschreiben unsere Methoden zur Sequenzierung Fehler korrigiert, mit denen wir umgehen die NGS Fehlerquote und erkennen Mutationen bei Variante Allel Brüche so selten wie 0,0001.
Techniken der konventionellen Next Generation Sequencing (NGS) haben immense genomische Charakterisierung für mehr als zehn Jahren ermöglicht. Insbesondere wurde NGS verwendet, das Spektrum der klonalen Mutationen in Bösartigkeit zu analysieren. Obwohl wesentlich effizienter als herkömmliche Sanger, NGS Kämpfe mit der Identifizierung von seltenen klonaler und subclonal Mutationen aufgrund seiner hohen Fehlerquote von ~0.5–2.0 %. So standard NGS hat ein Limit von Erkennung für Mutationen, die > 0,02 Variante Allel Bruchteil (VAF). Während die klinische Signifikanz für Mutationen dieser selten bei Patienten ohne bekannte Krankheit unklar für Leukämie behandelte Patienten haben sich deutlich verbessert Ergebnisse wenn Resterkrankung ist < 0,0001 durch Durchflusszytometrie. Um diese artifizielle Hintergrund der NGS zu mildern, wurden zahlreiche Methoden entwickelt. Hier beschreiben wir eine Methode für Fehler korrigiert DNA und RNA Sequenzierung (ECS), die Kennzeichnung einzelner Moleküle mit einem 16 bp zufällige Index für Fehlerkorrektur und 8 bp patientenspezifische Index für multiplexing beinhaltet. Unsere Methode erkennt und klonale Mutationen bei Variante Allel Brüche (VAFs) zwei Größenordnungen niedriger als die Nachweisgrenze von NGS und so selten wie 0,0001 VAF zu verfolgen.
Wie wir Alter, Belastung durch Mutagene und stochastische Fehler während der Zellteilung führen zu die Ansammlung von somatischen Aberrationen in das Genom, und dies zugrunde liegt die grundlegende Pathogenese der malignen Transformation, Neuro-developmental Krankheiten, pädiatrische Störungen und normalem Altern1,2. Somatische Mutationen mit Krankheit fahren Potenzial sind wichtige diagnostische und prognostische Biomarker zur Früherkennung und Risiko Management3,4,5. Um physiologische Clonogenesis besser zu verstehen, ist die klinische informieren und Entscheidungen, die genaue Quantifizierung Charakterisierung dieser Mutationen und von vorrangiger Bedeutung. Next Generation Sequencing (NGS) wird derzeit zur klonale Mutationen in heterogenen DNA-Proben zu studieren; NGS ist jedoch begrenzt zur Identifizierung von Mutationen bei > 0,02 Variante Allel Bruchteil (VAF) – aufgrund der inhärenten Fehler-Rate von 0,5-2,0 % der Sequenzierung Plattformen6,7,8. Infolgedessen tracking diagnostisch und prognostisch bedeutende somatische Varianten am unteren VAF gelingt nicht mit standard NGS.
Vor kurzem wurden verschiedene Methoden entwickelt, um die Fehlerquote von NGS8,9,10,11zu umgehen. Diese Methoden nutzen Molekulare Kennzeichnung, wodurch Fehlerkorrektur nach Sequenzierung. Jedes Molekül oder genomische Fragment in der Sequenzierung Bibliothek ist mit einer zufälligen einzigartige molekulare Bezeichner (UMI) markiert, die spezifisch für dieses Molekül ist. Die UMIs sind von Permutationen einer Reihe von randomisierten Nukleotiden (8 – 16 N) gebaut. Ein zweite Probe-spezifischen Barcode ist auch in den Workflow integriert, die es ermöglicht, Multiplexen mehrerer Proben in der gleichen NGS-Sequenzierung ausgeführt. PCR-Amplifikation erfolgt auf der Molekular tagged Bibliothek, und anschließend wird die Bibliothek für die Sequenzierung gesendet. Während der Vorbereitung der Bibliothek wird erwartet, dass Fehler nach dem Zufallsprinzip auf die genomische Fragment während der PCR-Amplifikation und Sequenzierung8eingeführt werden. Um zufällige Abfolge Fehler zu entfernen, sind rohe Sequenzierung liest nach UMI gruppiert. Artefakte aus Sequenzierung sollen nicht in alle Lesevorgänge mit der gleichen UMI an derselben genomische Position durch die stochastische Natur der Einführung, vorhanden sein, während eine wahre Variante wird originalgetreu verstärkt und sequenziert in alle Lesevorgänge, die die gleichen UMI teilen. Die Artefakte sind Bioinformatically entfernt. Hier beschreiben wir drei Methoden der Fehler korrigiert Sequenzierung (ECS) optimiert, im Labor für DNA, Einzel-Nukleotid-Varianten (SNVs) und kleinen einfügen-Löschungen (Indels) zu identifizieren, und RNA zur Quantifizierung der Genexpression unten erleichtern die NGS Fehlerschwellenwert.
Die erste Methode beschreibt eine Möglichkeit, somatische selten mit Gen spezifische Primer entwickelt von Forschern zu suchen. Vor der Bibliothek Vorbereitung sollten Forscher Primer an die Fragmente von Interesse gezielt gestalten. Wir haben die Web-app-Primer3 (http://bioinfo.ut.ee/primer3-0.4.0/). Amplifikate von 200 – 250 bp sind ideal für Polymerase-Kettenreaktion (PCR), da diese werden sobald UMIs eingeflossen sind, erzeugen, überlappende gepaart Ende liest mit 150 bp gepaart Ende liest. Die optimale Grundierung Gestaltung Bedingungen verwendet werden: Grundierung Mindestgröße = 19; Optimale Grundierung Größe = 25; Maximale Grundierung Größe = 30; Minimale Tm = 64 ° C; Optimale Tm = 70 ° C; Maximale Tm = 74 ° C; Maximale Differenz Tm = 5 ° C; Minimale GC-Gehalt = 45; Maximale GC-Gehalt = 80; Anzahl zurück = 20; Maximal 3′ Ende Stabilität = 100.
In Methode 2 beschreiben wir eine Methode kombiniert die ECS-DNA-Protokoll mit Illumina Chemie für klonale SNVs und so selten wie 0,0001 VAF mit handelsüblichen gen-Paneele, die Hunderte von Amplifikate enthalten kleine Indels vermessen. Wir haben die TruSight myeloische Sequenzierung Panel (Illumina) für unser Experiment verwendet und entwickelt eine erweiterte Gruppe um zusätzliche Gene von Interesse für pädiatrische myeloische Erkrankungen gehören. Diese Platten haben nicht eindeutige molekularen Kennungen (UMIs) angeboten, die Fehlerkorrektur, erleichtern würde, so dass wir unsere eigene Adapter Strategie diese Platten hinzugefügt haben. ECS sollte funktionieren ebenso gut mit allen anderen Panels entwickelt, um nach Genen verbunden mit verschiedenen Krankheiten zu bereichern. Nach DNA-Isolierung und anschließende Quantifizierung von Gewebe oder Probe von Interesse, es wird empfohlen, mindestens 500 ng des Bestandes DNA pro Probe. Wir machen regelmäßig eine einzelne Sequenzierung Bibliothek mit 250 ng DNA um flussabwärts als viel einzigartige genomische Fragment wie möglich erfassen liest Deduplizierung und VAF-Berechnung. Eine optionale replizieren Sequenzierung Bibliothek vorgenommen werden, mit dem restlichen 250 ng DNA. Wir machen immer zwei replizieren Bibliotheken pro Probe, und wir betrachten nur die Ereignisse, die unabhängig voneinander in beide Replikate als richtig positive Ergebnisse festgestellt. Wir implementierten auch eine genomische Position-spezifischen binomische Fehlermodell zur Erhöhung der Genauigkeit der Variante4,13aufrufen.
Schließlich beschreiben wir eine Methode, die Kopplung von ECS an RNA Sequenzierung für Transkript Quantifizierung mit handelsüblichen QIAseq gezielt RNA-Paneele (Qiagen). Die UMIs erforderlich für Deduplizierung können und Fehlerkorrektur in den Kits aufgenommen wurden, und Forscher Bibliotheken nach Empfehlungen des Herstellers. Bioinformatically, können Forscher folgen die Pipeline für ECS-DNA, die im Detail im Abschnitt Protokoll erklärt werden skizziert.
Hier zeigen wir eine Reihe von Fehler korrigiert Sequenzierung Protokolle, die leicht umsetzbar sind, um Mutationen mit niedrigen VAFs bei verschiedenen Krankheiten zu studieren. Der wichtigste Faktor ist die Einarbeitung von UMIs mit jedem Molekül vor der Sequenzierung, da sie Fehlerkorrektur des rohen lautet ermöglichen. Die hier beschriebenen Methoden erlauben Forschern, maßgeschneiderte UMIs zu handelsüblichen gen Panels und selbst entworfenen Gen-spezifischen Oligos zu integrieren.
Standardprotokoll NGS schließt den Nachweis von Mutationen mit VAF unter 2 % aufgrund der Sequenzierung Fehlerquote, und dies schränkt die Anwendung der NGS in Studien, in denen der Nachweis von seltenen Varianten entscheidend ist. Unter Umgehung den Normalsatz der NGS-Fehler, ermöglicht ECS empfindliche Detektion dieser rohen Varianten. Nachweis von pathogenen Mutationen, wenn diese Mutationen erst entstehen (also mit niedrigen VAF) unbedingt zum Beispiel Frühförderung der Krankheit14,15zu informieren. In der Leukämie-Forschung, die Erkennung von minimal Residual Krankheit (residual leukämischen Zellen nach der Behandlung) informiert risikostratifizierung und Behandlungsmöglichkeiten in einer Art und Weise zu informieren, die binäre Fluss durchflusszytometrischen Bewertungen können nicht genutzt werden. Darüber hinaus gilt ECS zirkulierenden Tumor Nukleinsäure erkennen und bewerten metastasiertem Potenzial bei soliden Tumorpatienten durch die Bewertung für die Anwesenheit/Abwesenheit sowie die Variante Belastung durch bestimmte Mutationen, die Merkmale des primären Tumor-16.
Wie in Tabelle 1gezeigt hat, hängt die Macht der Verwendung Binomialverteilung-basierte Position-spezifischen Fehlermodell Varianten nennen die Anzahl der sequenzierten Bibliotheken sowie die Tiefe der Sequenzierung verwendet, um das Fehlermodell zu bauen. Die Robustheit des Modells Fehler steigt mit höheren Anzahl von Proben und Sequenzierung eingehender. Es wird empfohlen, mindestens 10 sequenzierte Proben mit einem Durchschnitt von Fehler-Korrektur lesen Sie Abdeckung von 3000 X pro Probe verwenden, um für jede Probe ein Fehler-Profil zu erstellen. Die Position-spezifischen Ansatz ist ähnlich wie MAGERI, sondern anstelle einer aggregierten Fehlerquote für alle sechs unterschiedliche Substitution (A > C/T > G, A > G/T > C, A > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)13, modellieren wir jede Ersetzung unabhängig voneinander in jeder Position. Zum Beispiel eine Fehlerrate von C > T an einer bestimmten genomische Position unterscheidet sich von einer anderen Position. Unser Ansatz berücksichtigt auch eine Sequencing Batch Wirkung, wie die Basis Substitution Rate beobachtet in einem Sequenzierung Lauf laufen unterschiedlich sein könnte. Daher ist es wichtig, jede Position für alle Arten der Substitution zu modellieren, vor allem, wenn Proben aus verschiedenen Sequenzierung läuft für die Modellerstellung zusammengefasst sind.
Ein wichtiger Aspekt bei der Gestaltung ein ECS-Experiment ist der gewünschte Nachweisgrenze. Die Schönheit der NGS Studien ist, dass sie in Bezug auf die Gene/Ziele von Interesse, Nachweisgrenze (diktiert von der Tiefe der Sequenzierung) und Anzahl der Personen abgefragt leicht skaliert werden können. Zum Beispiel, wenn die Forscher interessiert, seltene Mutationen in zwei Amplifikate mit einer Nachweisgrenze von 0,0001 zu finden sind, können sie maximal 75 Proben in einem einzigen Sequenzierung mit MiSeq V2-Chemie, die bis zu 15 Millionen mal gelesen Ausgänge ausgeführt bündeln (2 Amplifikate * 10.000 Moleküle * 10 liest für Fehlerkorrektur * 75 Proben = 15 Millionen Sequenzierung liest). Forscher können die Anzahl der Moleküle ins Sequenzierung oder die Anzahl der gepoolten Proben in einer einzigen Sequenzierung ausgeführt, um die Nachweisgrenze anpassen variieren. In unseren Studien sollen wir Mutationen mit einer Nachweisgrenze von 0,0001 VAF (01:10, 000) mit dem Illumina-gen-Panel. Wir verwenden routinemäßig 250 ng DNA, um sicherzustellen, dass genügend Moleküle erfasst werden, zur Erreichung die oben genannten Nachweisgrenze zu starten. Forscher können um mit geringeren Menge an DNA zu beginnen (50 ng empfohlen) Wenn die gewünschte Nachweisgrenze liegt > 0,001 VAF.
Da die UMIs auf die i5-Indizes angehängt sind, verfügen über Sequenzierung Einstellungen entsprechend geändert werden. Zum Beispiel wir 16 N UMIs verwendet, und die Sequenzierung Einstellungen waren 2 x 144 gekoppelten Ende liest, 8 Zyklen der Index 1 und 16 Zyklen von Index 2 im Gegensatz zu den üblichen 8 Zyklen der Index 2. Der Index 2 Takt ist durch einen Rückgang der Gesamtzahl der Zyklen zugeteilt, der liest ausgeglichen. Wenn Forscher 12N UMIs10,17verwenden entscheiden, sollten die Einstellungen 12 Zyklen der Index 2 geändert werden.
Diese UMI-basierte Sequenzierung Methode ist optimiert, um für Sequenzierung Fehler zu korrigieren. Es bleibt suboptimale im Umgang mit PCR-Jackpotting, das ist ein Thema für alle Verstärkung basierende Methode. Wir Runden von Post-Sequenzierung und Post-Bioinformatik-Validierung mit DdPCR durchgeführt, und wir kaum erkennen Fehlalarme durch PCR Jackpotting. Dennoch empfiehlt es sich, dass Forscher die Experimente mit High Fidelity Polymerase um zu niedrige Verstärkung Fehler zu gewährleisten.
The authors have nothing to disclose.
Wir danken die Teilnehmern in der Kinder-Onkologie-Gruppe AAML1531-Studie und der Nurses’ Health Studie für ihre Beiträge in Form von Patientenproben. Diese Arbeit wurde von der National Institutes of Health (UM1 CA186107, RO1 CA49449 und RO1 CA149445), der Kinderuni Discovery Institute of Washington St. Louis Children Hospital (MC-II-2015-461) und Eli Seth Matthews Leukämie Stiftung finanziert.
Q5 High Fidelity Hot Start Master Mix | New England BioLabs | M0492S | |
Agencourt AMPure XP | Beckman Coulter | A63880 | |
Qubit dsDNA HS Assay Kit | Thermo Fisher Scientific | Q32854 | |
SYBR Safe DNA Gel Stain | Thermo Fisher Scientific | S33102 | |
Truseq Custom Amplicon Index Kit | Illumina | FC-130-1003 | |
UMI i5 adapter sequences | Integrated DNA Technologies | – | |
NEBNext Ultra End Repair/dA-Tailing Module | New England BioLabs | E7442S | |
NEBNext Ultra II Ligation Module | New England BioLabs | E7595S | |
QX200 ddPCR EvaGreen Supermix | Bio-Rad | 1864034 | |
QX200 Droplet Generation Oil for EvaGreen | Bio-Rad | 1864005 | |
QX200 Droplet Digital PCR System | Bio-Rad | 1864001 | |
ddPCR 96-Well Plates | Bio-Rad | 12001925 | |
DG8 Cartridges for QX200/QX100 Droplet Generator | Bio-Rad | 1864008 | |
DG8 Gaskets for QX200/QX100 Droplet Generator | Bio-Rad | 1863009 | |
Bioanalyzer | Agilent Genomics | G2939BA | |
TapeStation | Agilent Genomics | G2991AA | |
TruSight Myeloid Sequencing Panel | Illumina | FC-130-1010 | |
Bowtie 2 | Johns Hopkins University | – | |
Customized QIAseq Targeted RNA Panel | Qiagen | – | |
Rneasy Plus Mini Kit (50) | Qiagen | 74134 |