Volgende-generatie rangschikken (NGS) is een krachtig hulpmiddel voor genomische karakterisering die wordt beperkt door het hoge foutenpercentage van het platform (~0.5–2.0%). Wij beschrijven onze methoden van fout-gecorrigeerde sequentie die ons toelaten te ondervangen van het NGS foutenpercentage en mutaties op variant allel breuken zo zeldzaam als 0,0001 detecteren.
Conventionele volgende-generatie sequencing technieken (NGS) hebben toegestaan voor enorme genomische karakterisering voor meer dan een decennium. Specifiek, is NGS gebruikt voor het analyseren van het spectrum van klonen mutaties in maligniteit. Hoewel veel efficiënter dan de traditionele methoden Sanger, NGS worstelt met het identificeren van zeldzame mutaties voor klonen en subclonal toe te schrijven aan zijn hoge foutmarge van ~0.5–2.0%. Dus, standaard NGS heeft een limiet van de detectie van mutaties die > 0,02 variant allel breuk (VAF). Terwijl de klinische betekenis voor mutaties dit zeldzame bij patiënten zonder bekende ziekte onduidelijk blijft, patiënten die behandeld werden voor leukemie hebben aanzienlijk verbeterd resultaten wanneer residuele ziekte is < 0,0001 door stroom cytometry. Om deze artefactual achtergrond van NGS, zijn tal van methoden ontwikkeld. Hier beschrijven we een methode voor fout-gecorrigeerd DNA en RNA Sequencing (ECS), waarbij de individuele moleculen met een 16 bp willekeurige index voor foutcorrectie én een 8 bp patiënt-specifieke index voor multiplexing tagging. Onze methode kunt detecteren en klonen mutaties op variant allel breuken (VAFs) twee ordes van grootte lager dan de detectiegrens van NGS en zo zeldzaam als 0.0001 VAF bijhouden.
Zoals we leeftijd, blootstelling aan mutagene en stochastische fouten tijdens de celdeling in de accumulatie van somatische afwijkingen in het genoom, en dit resultaat ligt ten grondslag aan het fundamentele pathogenese van maligne transformatie, neuro-ontwikkelings ziekten, pediatrische aandoeningen en normale veroudering1,2. Somatische mutaties met ziekte-rijden potentieel zijn belangrijke diagnostische en prognostische biomarkers voor vroegtijdige opsporing en risico management3,4,5. Om fysiologische clonogenesis beter te begrijpen, is die klinische kennis en onderzoek van besluiten, de nauwkeurige kwantificering en karakterisering van deze mutaties van primair belang. Volgende-generatie sequencing (NGS) wordt momenteel gebruikt om te studeren klonale mutaties in heterogene DNA-monsters; NGS is echter beperkt tot het identificeren van mutaties op > 0,02 variant allel breuk (VAF) — als gevolg van de inherente foutmarge van 0,5 – 2.0% van de sequencing platformen6,7,8. Dientengevolge, worden bijhouden van diagnostisch en prognostically belangrijke somatische varianten op lagere VAF niet bereikt met behulp van standaard NGS.
Onlangs, zijn verschillende methoden ontwikkeld om het omzeilen van het foutenpercentage van NGS8,9,10,11. Deze methoden maken gebruik van moleculaire tagging, waardoor foutcorrectie na sequencing. Elke molecuul of genomic fragment in de sequencing-bibliotheek is gelabeld met een willekeurige unieke moleculaire Identifier (UMI) die specifiek is voor dat molecuul. De UMIs worden door permutaties van een string van gerandomiseerde nucleotiden (8 – 16 N) geconstrueerd. Een tweede monster-specifieke barcode is ook geïntegreerd in de werkstroom waarmee multiplexing van meerdere monsters in de dezelfde NGS volgorde uitvoeren. PCR versterking op de moleculair tagged bibliotheek wordt uitgevoerd, en vervolgens de bibliotheek wordt gestuurd voor het rangschikken. Tijdens de voorbereiding van de bibliotheek verwacht wordt dat fouten willekeurig zal worden ingevoerd aan de genomic fragment tijdens PCR versterking en sequencing8. Als u wilt verwijderen van willekeurige volgorde fouten, ruwe sequencing leest gegroepeerd volgens de UMI. Artefacten van sequencing verwachting niet aanwezig te zijn in alle leest met de dezelfde UMI op dezelfde genomic positie vanwege de stochastische aard van invoering, overwegende dat een ware variant getrouw zal worden versterkt en sequenced in alle leest die delen van de dezelfde UMI. De artefacten zijn bioinformatically verwijderd. Hier beschrijven we drie methoden van fout-gecorrigeerd Sequencing (ECS) geoptimaliseerd in het laboratorium voor DNA om één nucleotide varianten (SNVs) en kleine invoeging-verwijderingen (microdeleties) te identificeren en voor RNA ter vergemakkelijking van de kwantificering van de genexpressie hieronder de NGS foutdrempel.
De eerste methode beschreven een manier om te zoeken naar zeldzame somatische gebeurtenis met behulp van specifieke primers gen ontworpen door onderzoekers. Voorafgaand aan de voorbereiding van de bibliotheek, onderzoekers moeten het ontwerpen van inleidingen te richten op de fragmenten van belang. We gebruikten de web-app Primer3 (http://bioinfo.ut.ee/primer3-0.4.0/). Waarbij van 200 – 250 bp zijn ideaal voor de Kettingreactie van de polymerase (PCR) zoals deze zal, eenmaal UMIs hebben overgenomen, genereren overlappende gekoppeld-einde leest met 150 bp gekoppeld-einde leest. De voorwaarden waaraan van optimale primer, ontwerp moet worden gebruikt: minimale primer grootte = 19; Optimale primer grootte = 25; Maximale primer grootte = 30; Minimale Tm = 64 ° C; Optimale Tm = 70 ° C; Maximale Tm = 74 ° C; Maximale Tm verschil = 5 ° C; Minimumgehalte aan GC = 45; Maximumgehalte GC = 80; Nummer om terug te keren = 20; Maximaal 3′ eind stabiliteit = 100.
In methode 2 beschrijven we een methode die het ECS-DNA-protocol met Illumina chemie enquête voor klonen SNVs en kleine microdeleties zo zeldzaam als 0.0001 VAF met behulp van commercieel verkrijgbare gene panelen die honderden waarbij bevatten combineren. Wij hebben het TruSight myeloïde Sequencing paneel (Illumina) gebruikt voor ons experiment en ontworpen een uitgevouwen paneel te nemen van extra genen van belang voor pediatrische myeloïde ziekten. Deze panelen hebben unieke moleculaire-id’s (UMIs) die foutcorrectie, vergemakkelijken zou dus we hebben onze eigen strategie adapter toegevoegd aan deze panelen niet aangeboden. ECS moeten werken even goed met een van de andere deelvensters ter verrijking van genen die is gekoppeld aan verschillende ziekten. Na DNA isolatie en daaropvolgende kwantificering van de weefsels of monster van belang, is het aangeraden om te hebben van ten minste 500 ng van voorraad DNA per model. We maken regelmatig een enkele sequentie-bibliotheek met behulp van 250 ng van DNA om te vangen als veel unieke genomic fragment mogelijk voor stroomafwaarts leest-duplicatie en VAF berekening. Een optionele repliceren sequencing-bibliotheek kan worden gemaakt met de resterende 250 ng van DNA. Wij maken altijd twee repliceren bibliotheken per model, en wij vinden alleen die gebeurtenissen onafhankelijk van elkaar in beide wordt gerepliceerd als ware positieven ontdekt. Wij kunnen ook een genomic positie-specifieke binomiale servicefout model voor het verhogen van de nauwkeurigheid van variant roepen4,,13.
Tot slot, beschrijven we een methode ECS koppelen aan RNA sequencing voor transcript kwantificering met behulp van off-the-shelf QIAseq gericht RNA panelen (Qiagen). De UMIs vereist voor de-duplicatie kunnen en foutcorrectie zijn opgenomen in de kits, en onderzoekers bibliotheken de aanbevelingen van de fabrikant. Bioinformatically, onderzoekers kunnen de pijpleiding geschetst voor ECS-DNA, die zal worden toegelicht in de sectie PROTOCOL volgen.
Wij tonen hier, een suite van de protocollen van de fout-gecorrigeerde sequentie die gemakkelijk kunnen worden geïmplementeerd om te bestuderen van mutaties met lage VAFs in de verschillende ziekten. De belangrijkste factor is de integratie van UMIs met elke molecuul voordat sequencing zoals ze fout-correctie van de ruwe luidt inschakelen. De hier beschreven methoden toestaan onderzoekers op te nemen van aangepaste UMIs verkrijgbare gene panelen zowel zelf ontworpen gen-specifieke oligos.
NGS standaardprotocol verzet zich tegen de detectie van mutaties met VAF minder dan 2% als gevolg van het foutenpercentage sequencing en dit beperkt de toepassing van NGS in studies waar de opsporing van zeldzame varianten is van cruciaal belang. Door het omzeilen van het standaardtarief van de NGS-fout, kunt ECS gevoelige detectie van deze ruwe varianten. Bijvoorbeeld is detectie van pathogene mutaties wanneer deze mutaties ontstaan eerst (dus met lage VAF) noodzakelijk om vroegtijdige interventie van de ziekte14,15. Leukemie onderzoek, de opsporing van minimale residuele ziekte (residuele leukemische cellen nabehandeling) informeert Risicostratificatie en kan worden gebruikt om de behandelingsopties op een wijze die binaire stroom cytometrische evaluaties kunnen niet op de hoogte. ECS is bovendien toepassing te detecteren circulerende tumor nucleïnezuur en te evalueren gemetastaseerde potentieel in solide tumor patiënten door te beoordelen voor de aanwezigheid/afwezigheid evenals de variant last van bepaalde mutaties die kenmerken van de primaire zijn tumor16.
Zoals blijkt uit tabel 1, de kracht van het gebruik van de binomiale verdeling gebaseerde positie-specifieke servicefout model Bel varianten hangt grotendeels af van het aantal gesequenceerd Bibliotheken, alsmede de diepte van sequencing gebruikt om te bouwen van het model van de fout. De robuustheid van het model fout neemt toe met hogere aantal monsters en meer sequencing diepte. Het wordt aanbevolen om ten minste 10 gesequenceerd monsters met een gemiddelde van fout-gecorrigeerd Lees dekking van 3000 x per monster gebruiken om een fout-profiel voor elk monster te bouwen. De positie-specifieke benadering is gelijkaardig aan MAGERI, maar in plaats van met behulp van een statistische foutenpercentage voor alle zes de vervanging van de verschillende typen (A > C/T > G, A > G/T > C, A > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)13, we model elke vervanging afzonderlijk op elke positie. Bijvoorbeeld een foutmarge van C > T op een bepaalde genomic positie verschilt van een andere positie. Onze aanpak ook rekening een sequencing batch effect, zoals de base vervanging tarief waargenomen in één sequencing run van gescoord afwijken kan. Daarom is het belangrijk om elke positie voor alle soorten van vervanging model vooral wanneer monsters van andere sequencing loopt zijn samengevoegd om het model te bouwen.
Een belangrijke overweging bij het ontwerpen van een ECS-experiment is de detectie van de gewenste drempelwaarde. De schoonheid van NGS studies is dat ze gemakkelijk kunnen worden aangepast in termen van genen/doelstellingen van belang, detectie drempel (ingegeven door de diepte van sequencing) en aantal personen bevraagd. Bijvoorbeeld, als de onderzoekers benieuwd zeldzame mutaties in twee waarbij met een drempel van de detectie van 0,0001 zijn, kunnen ze maximaal 75 monsters in een enkele volgorde uitgevoerd met behulp van MiSeq V2 chemie die tot 15 miljoen leest uitgangen bundelen (2 waarbij * 10.000 moleculen * 10 leest voor foutcorrectie * 75 monsters = 15 miljoen sequencing leest). Onderzoekers kunnen het aantal moleculen gaan op volgorde of het aantal samengevoegde monsters in een enkele sequencing lopen naar de detectie drempel aanpassen variëren. In onze studies, we gericht op het vinden van mutaties met een drempel van detectie van 0.0001 VAF (1:10, 000) via het deelvenster Illumina gen. We gebruiken routinematig 250 ng DNA om ervoor te zorgen dat voldoende moleculen worden vastgelegd met het oog op de drempel van de bovengenoemde detectie te starten. Onderzoekers kunnen opteren om te beginnen met lagere hoeveelheid DNA (50 ng is aanbevolen) als de gewenste detectiegrens > 0,001 VAF.
Zoals de UMIs worden toegevoegd op de i5-indexen, moeten sequencing instellingen dienovereenkomstig worden gewijzigd. Bijvoorbeeld, we gebruikten 16 N UMIs, en de sequencing-instellingen waren 2 x 144 gepaarde einde leest, 8 cycli van Index 1 en 16 cycli van index 2 in tegenstelling tot de gebruikelijke 8 cycli van Index 2. De stijging van de Index 2 cyclus wordt gecompenseerd door een daling van het totale aantal cycli toegewezen aan het luidt als volgt. Als onderzoekers kiezen voor het gebruik van 12N UMIs10,17, worden de instellingen gewijzigd tot 12 cycli van Index 2.
Deze volgorde UMI gebaseerde methode is geoptimaliseerd om te corrigeren voor sequencing fouten. Het blijft suboptimaal in de omgang met PCR jackpotting, dat is een zaak voor alle versterking gebaseerde methode. We ronden van post Sequencen en post-bioinformatics validatie met behulp van ddPCR uitgevoerd en we nauwelijks enige valse positieven als gevolg van PCR jackpotting detecteren. Toch is het raadzaam dat onderzoekers de experimenten met behulp van high-fidelity polymerase om lage amplificatie fouten verrichten.
The authors have nothing to disclose.
Wij danken de deelnemers aan de Children’s Oncology Group AAML1531 studie en de verpleegkundigen gezondheid studeren voor hun bijdragen in de vorm van patiënt monsters. Dit werk werd gefinancierd door de National Institutes of Health (UM1 CA186107, RO1-CA49449 en RO1 CA149445), het Children’s Discovery Institute of Washington University en St. Louis kinder ziekenhuis (MC-II-2015-461) en Eli Seth Matthews leukemie Foundation.
Q5 High Fidelity Hot Start Master Mix | New England BioLabs | M0492S | |
Agencourt AMPure XP | Beckman Coulter | A63880 | |
Qubit dsDNA HS Assay Kit | Thermo Fisher Scientific | Q32854 | |
SYBR Safe DNA Gel Stain | Thermo Fisher Scientific | S33102 | |
Truseq Custom Amplicon Index Kit | Illumina | FC-130-1003 | |
UMI i5 adapter sequences | Integrated DNA Technologies | – | |
NEBNext Ultra End Repair/dA-Tailing Module | New England BioLabs | E7442S | |
NEBNext Ultra II Ligation Module | New England BioLabs | E7595S | |
QX200 ddPCR EvaGreen Supermix | Bio-Rad | 1864034 | |
QX200 Droplet Generation Oil for EvaGreen | Bio-Rad | 1864005 | |
QX200 Droplet Digital PCR System | Bio-Rad | 1864001 | |
ddPCR 96-Well Plates | Bio-Rad | 12001925 | |
DG8 Cartridges for QX200/QX100 Droplet Generator | Bio-Rad | 1864008 | |
DG8 Gaskets for QX200/QX100 Droplet Generator | Bio-Rad | 1863009 | |
Bioanalyzer | Agilent Genomics | G2939BA | |
TapeStation | Agilent Genomics | G2991AA | |
TruSight Myeloid Sequencing Panel | Illumina | FC-130-1010 | |
Bowtie 2 | Johns Hopkins University | – | |
Customized QIAseq Targeted RNA Panel | Qiagen | – | |
Rneasy Plus Mini Kit (50) | Qiagen | 74134 |