Summary

Zeldzame gebeurtenis detectie met behulp van fout-gecorrigeerd DNA en RNA Sequencing

Published: August 03, 2018
doi:

Summary

Volgende-generatie rangschikken (NGS) is een krachtig hulpmiddel voor genomische karakterisering die wordt beperkt door het hoge foutenpercentage van het platform (~0.5–2.0%). Wij beschrijven onze methoden van fout-gecorrigeerde sequentie die ons toelaten te ondervangen van het NGS foutenpercentage en mutaties op variant allel breuken zo zeldzaam als 0,0001 detecteren.

Abstract

Conventionele volgende-generatie sequencing technieken (NGS) hebben toegestaan voor enorme genomische karakterisering voor meer dan een decennium. Specifiek, is NGS gebruikt voor het analyseren van het spectrum van klonen mutaties in maligniteit. Hoewel veel efficiënter dan de traditionele methoden Sanger, NGS worstelt met het identificeren van zeldzame mutaties voor klonen en subclonal toe te schrijven aan zijn hoge foutmarge van ~0.5–2.0%. Dus, standaard NGS heeft een limiet van de detectie van mutaties die > 0,02 variant allel breuk (VAF). Terwijl de klinische betekenis voor mutaties dit zeldzame bij patiënten zonder bekende ziekte onduidelijk blijft, patiënten die behandeld werden voor leukemie hebben aanzienlijk verbeterd resultaten wanneer residuele ziekte is < 0,0001 door stroom cytometry. Om deze artefactual achtergrond van NGS, zijn tal van methoden ontwikkeld. Hier beschrijven we een methode voor fout-gecorrigeerd DNA en RNA Sequencing (ECS), waarbij de individuele moleculen met een 16 bp willekeurige index voor foutcorrectie én een 8 bp patiënt-specifieke index voor multiplexing tagging. Onze methode kunt detecteren en klonen mutaties op variant allel breuken (VAFs) twee ordes van grootte lager dan de detectiegrens van NGS en zo zeldzaam als 0.0001 VAF bijhouden.

Introduction

Zoals we leeftijd, blootstelling aan mutagene en stochastische fouten tijdens de celdeling in de accumulatie van somatische afwijkingen in het genoom, en dit resultaat ligt ten grondslag aan het fundamentele pathogenese van maligne transformatie, neuro-ontwikkelings ziekten, pediatrische aandoeningen en normale veroudering1,2. Somatische mutaties met ziekte-rijden potentieel zijn belangrijke diagnostische en prognostische biomarkers voor vroegtijdige opsporing en risico management3,4,5. Om fysiologische clonogenesis beter te begrijpen, is die klinische kennis en onderzoek van besluiten, de nauwkeurige kwantificering en karakterisering van deze mutaties van primair belang. Volgende-generatie sequencing (NGS) wordt momenteel gebruikt om te studeren klonale mutaties in heterogene DNA-monsters; NGS is echter beperkt tot het identificeren van mutaties op > 0,02 variant allel breuk (VAF) — als gevolg van de inherente foutmarge van 0,5 – 2.0% van de sequencing platformen6,7,8. Dientengevolge, worden bijhouden van diagnostisch en prognostically belangrijke somatische varianten op lagere VAF niet bereikt met behulp van standaard NGS.

Onlangs, zijn verschillende methoden ontwikkeld om het omzeilen van het foutenpercentage van NGS8,9,10,11. Deze methoden maken gebruik van moleculaire tagging, waardoor foutcorrectie na sequencing. Elke molecuul of genomic fragment in de sequencing-bibliotheek is gelabeld met een willekeurige unieke moleculaire Identifier (UMI) die specifiek is voor dat molecuul. De UMIs worden door permutaties van een string van gerandomiseerde nucleotiden (8 – 16 N) geconstrueerd. Een tweede monster-specifieke barcode is ook geïntegreerd in de werkstroom waarmee multiplexing van meerdere monsters in de dezelfde NGS volgorde uitvoeren. PCR versterking op de moleculair tagged bibliotheek wordt uitgevoerd, en vervolgens de bibliotheek wordt gestuurd voor het rangschikken. Tijdens de voorbereiding van de bibliotheek verwacht wordt dat fouten willekeurig zal worden ingevoerd aan de genomic fragment tijdens PCR versterking en sequencing8. Als u wilt verwijderen van willekeurige volgorde fouten, ruwe sequencing leest gegroepeerd volgens de UMI. Artefacten van sequencing verwachting niet aanwezig te zijn in alle leest met de dezelfde UMI op dezelfde genomic positie vanwege de stochastische aard van invoering, overwegende dat een ware variant getrouw zal worden versterkt en sequenced in alle leest die delen van de dezelfde UMI. De artefacten zijn bioinformatically verwijderd. Hier beschrijven we drie methoden van fout-gecorrigeerd Sequencing (ECS) geoptimaliseerd in het laboratorium voor DNA om één nucleotide varianten (SNVs) en kleine invoeging-verwijderingen (microdeleties) te identificeren en voor RNA ter vergemakkelijking van de kwantificering van de genexpressie hieronder de NGS foutdrempel.

De eerste methode beschreven een manier om te zoeken naar zeldzame somatische gebeurtenis met behulp van specifieke primers gen ontworpen door onderzoekers. Voorafgaand aan de voorbereiding van de bibliotheek, onderzoekers moeten het ontwerpen van inleidingen te richten op de fragmenten van belang. We gebruikten de web-app Primer3 (http://bioinfo.ut.ee/primer3-0.4.0/). Waarbij van 200 – 250 bp zijn ideaal voor de Kettingreactie van de polymerase (PCR) zoals deze zal, eenmaal UMIs hebben overgenomen, genereren overlappende gekoppeld-einde leest met 150 bp gekoppeld-einde leest. De voorwaarden waaraan van optimale primer, ontwerp moet worden gebruikt: minimale primer grootte = 19; Optimale primer grootte = 25; Maximale primer grootte = 30; Minimale Tm = 64 ° C; Optimale Tm = 70 ° C; Maximale Tm = 74 ° C; Maximale Tm verschil = 5 ° C; Minimumgehalte aan GC = 45; Maximumgehalte GC = 80; Nummer om terug te keren = 20; Maximaal 3′ eind stabiliteit = 100.

In methode 2 beschrijven we een methode die het ECS-DNA-protocol met Illumina chemie enquête voor klonen SNVs en kleine microdeleties zo zeldzaam als 0.0001 VAF met behulp van commercieel verkrijgbare gene panelen die honderden waarbij bevatten combineren. Wij hebben het TruSight myeloïde Sequencing paneel (Illumina) gebruikt voor ons experiment en ontworpen een uitgevouwen paneel te nemen van extra genen van belang voor pediatrische myeloïde ziekten. Deze panelen hebben unieke moleculaire-id’s (UMIs) die foutcorrectie, vergemakkelijken zou dus we hebben onze eigen strategie adapter toegevoegd aan deze panelen niet aangeboden. ECS moeten werken even goed met een van de andere deelvensters ter verrijking van genen die is gekoppeld aan verschillende ziekten. Na DNA isolatie en daaropvolgende kwantificering van de weefsels of monster van belang, is het aangeraden om te hebben van ten minste 500 ng van voorraad DNA per model. We maken regelmatig een enkele sequentie-bibliotheek met behulp van 250 ng van DNA om te vangen als veel unieke genomic fragment mogelijk voor stroomafwaarts leest-duplicatie en VAF berekening. Een optionele repliceren sequencing-bibliotheek kan worden gemaakt met de resterende 250 ng van DNA. Wij maken altijd twee repliceren bibliotheken per model, en wij vinden alleen die gebeurtenissen onafhankelijk van elkaar in beide wordt gerepliceerd als ware positieven ontdekt. Wij kunnen ook een genomic positie-specifieke binomiale servicefout model voor het verhogen van de nauwkeurigheid van variant roepen4,,13.

Tot slot, beschrijven we een methode ECS koppelen aan RNA sequencing voor transcript kwantificering met behulp van off-the-shelf QIAseq gericht RNA panelen (Qiagen). De UMIs vereist voor de-duplicatie kunnen en foutcorrectie zijn opgenomen in de kits, en onderzoekers bibliotheken de aanbevelingen van de fabrikant. Bioinformatically, onderzoekers kunnen de pijpleiding geschetst voor ECS-DNA, die zal worden toegelicht in de sectie PROTOCOL volgen.

Protocol

1. gericht fout-gecorrigeerd voor DNA Sequencing PCR versterking van genomic fragmenten van belang. Gebruik een hifi-polymerase van DNA te vergroten de waarbij (Materialen tabel, punt 1). Versterken van de PCR-reactie met de volgende voorwaarden in een thermische cycler: 30 s bij 98 ° C; 18-40 cycli van 10 bij 98 ° C, 30 s s bij 66 ° C en 30 s bij 72 ° C; 2 min bij 72 ° C; Houd bij 4 ° C. Zuiveren van de PCR producten met paramagnetisch kralen (Materialen tabel, punt 2). Toevoegen van de PCR-reactie op de kralen in een verhouding van 1: 1.8 (PCR reactie volume: volume bead) volgens protocol van de fabrikant. Elueer met 20 µL van ddH2O. Concentratie van DNA (Materialen tabel, punt 3) om te bepalen van de uiteindelijke concentratie van DNA te kwantificeren. Voer een aliquoot gedeelte van het DNA op een 2% agarose gel (Materialen tabel, punt 4) om te bevestigen de grootte van de waarbij.Opmerking: U kunt ook onderzoekers kunnen kiezen voor een Bioanalyzer analyses uit te voeren op de PCR producten om te bepalen van de grootte van versterkte genomic fragmenten en de concentratie van de producten. Sequencing adapter gloeien Verkrijgen i7 adapters (Materialen tabel, punt 5). Gebruik ze zoals ze zijn volgende stappen voorzien. Koop 16N i5 adapters commercieel met de volgende oligo-reeks (materialen tabel punt 6): AATGATACGGCGACCACCGAGATCTACAC(N1:25252525)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1) (N1) ACACTCTTTCCCTACACGACGCTCTTCCGATCTOpmerking: De 16N i5 adapters vervangen de standaard i5-adapters en adapters met een tekenreeks van 16 willekeurige-nucleotide ter vergemakkelijking van ECS zijn. 16N i5 adapter werkoplossing maken: 40 µL van 100 µM 16N i5 adapter materieel, 10 µL van TE buffer en 10 µL van 500 µM NaCl-oplossing. Aliquot 7,5 µL van de i5-werkoplossing bereid in stap 1.2.3 in aparte PCR wells. Voeg 5 µL van monster-specifieke i7 adapter in overeenkomstige wells. Incubeer bij 95 ° C gedurende 5 min en vervolgens afkoelen met 1 ° C elke 30 s tot 4 ° C in een thermische cycler. Houd bij 4 ° C. Einde-reparatie & dA-tailing van bibliothekenOpmerking: Parallel met adapter gloeien, een kunt uitvoeren einde reparatie en dA-tailing op de PCR waarbij uit stap 1.1. Na het voltooien van deze stappen, Afbinding van ontharde adapters vanaf stap 1.2 op het einde gerepareerd en dA-tailed PCR waarbij wordt uitgevoerd. Na adapter Afbinding is de bouw van de bibliotheek ECS voltooid. Begin met hooguit 1 µg DNA te starten (minimaal ~ 200 ng) Einde-reparatie en dA-staart uitvoeren op waarbij (Materialen tabel, punt 7). Voeg 3.0 µL van einde Prep enzym Mix en 6.5 µL van einde reparatie Buffer. Incubeer de mix gedurende 30 minuten bij 20 ° C, vervolgens gedurende 30 minuten bij 65 ° C en houd bij 4 ° C. Afbinding uitvoeren op de ontharde adapters (Materialen tabel, punt 8). 2.5 µL van de ontharde adapters uit stap 2, 15 µL van Blunt/TA Ligase Mastermix en 1 µL van afbinding enhancer toevoegen. Incubeer de mix gedurende 15 minuten bij 20 ° C, vervolgens gedurende 15 minuten bij 37 ° C. Opruimen van bibliotheken met magnetische kralen (materialen tabel punt 2): de PCR reactie op kralen toevoegen in een verhouding van 1: 0,75 gemodificeerde (PCR reactie volume: magnetische kraal volume): Pipetteer 62.6 µL van magnetische kraal oplossing in de 83,5 µL van het PCR producten uit stap 1.2.7. Het mengsel overbrengen in een tube van 1,5 mL lage bindend. Meng door pipetteren op en neer ten minste 10 keer. Laat het mengsel 5 minuten staan bij kamertemperatuur. Plaats de buis op een magnetische houder. Incubeer gedurende 2 minuten bij kamertemperatuur of totdat het supernatans helder is. Verwijder de bovendrijvende vloeistof. Wassen van de kralen met 200 µL van 70% ethanol. Incubeer gedurende 30 s. verwijderen ethanol. Ethanol wassen stap eenmaal herhaald. Het drogen van de kralen. Elueer met 20 µL van ddH2O.Opmerking: Deze wijziging in de PCR reactie op magnetische kraal verhouding zal bij voorkeur verwijderen DNA-fragmenten die kleiner dan 200 zijn bp. Kwantificering door druppel digitale PCROpmerking: Precieze mutatie kwantificering vereist strikte naleving van het aantal moleculen van elke bibliotheek die worden geladen op de sequencer. Om dit te bereiken, kwantificeren van het aantal moleculen voor individuele bibliotheken per eenheid volume wordt uitgevoerd met behulp van de QX200 druppel digitale PCR (ddPCR) platform — kwantitatieve PCR is een alternatief. Na analyse van de ddPCR geeft de uitlezing het aantal moleculen per µL per bibliotheek. Verdun ECS bibliotheken 1:1,000 door stapsgewijs verder verdunnen met een factor 10 in PCR strip-buizen. De volgende mastermix voorbereiden ddPCR in 1,5 mL buis: 10 µL van het PCR-Mix (Materialen tabel, punt 9), 0,2 µL van P5 Primer, 0.2 µL van P7 Primer, 5 µL van ECS schoongemaakt-up product uit stap 1.4.1., en 4.5 µL van ddH2O. Aliquot 20 µL van de mastermix in elk monster goed om ervoor te zorgen er zijn veelvouden van 8. Aliquot 70 µL druppel generatie olie (Materialen tabel, punt 10) in elk putje van de olie. Betrekking hebben op de cassette met een rubberen afdichting. Maken van druppels met behulp van de generator van de druppel (Materialen tabel, punt 11). Met behulp van een meerkanaalspipet, laden de druppels gegenereerd in stap 1.4.4 in een PCR plaat waardoor wordt verzekerd dat langzaam de pipetteren van het monster wordt gedaan over een tijdsspanne van 5 seconden om te voorkomen dat het DNA schuintrekken. Het signaal in de druppels versterken voor 40 cycli in een thermische cycler met behulp van de volgende voorwaarden: 5 min bij 95 ° C; 40 cycli van 30 s bij 95 ° C, 1 min. bij 63 ° C; 5 min bij 4 ° C, 5 min bij 90 ° C; en houd vervolgens bij 4 ° C. Voorbereiden ddPCR sjabloon druppel lezer machine (Materialen tabel, punt 11). Zorgen van de specificatie voor de parameters voor Absolute kwantificering en met behulp van de QX200 ddPCR Eva Green Supermix. Zodra ddPCR analyse voltooid is, zorg ervoor om in te stellen van de dezelfde verdeeldheid drempel over alle monsters. Met behulp van de uitlezing van de concentratie van de QX200 druppel lezer, aliquot het juiste volume om het gewenste aantal moleculen in een latere stap. PCR versterking van de bibliotheken voor het rangschikken De volgende mastermix voorbereiden op het gewenste aantal moleculen uit stap 1.4.9: 25 µL van Q5 Mastermix (Materialen tabel, punt 1) 2,5 µL van P5 Primer (10 µM), 2,5 µL van P7 Primer (10 µM), X µL van DNA, 20-X µL van ddH2O. Versterken van de bibliotheken van stap 1.5.1 in een thermische cycler met behulp van de volgende voorwaarden: 30 s bij 98 ° C; 20 cycli van 10 bij 98 ° C, 30 s bij 63 ° C, 30 s s bij 72 ° C; 2 min bij 72 ° C; en houd vervolgens bij 4 ° C. Opruimen van bibliotheken met magnetische kralen (materialen tabel, punt 2): Voeg de PCR reactie op magnetische kralen in een gewijzigde verhouding van 1: 0,75 (PCR reactie volume: magnetische kraal volume). Pipetteer 37,5 µL van magnetische kraal oplossing in de 50 µL PCR producten uit stap 1.5.2. Het mengsel overbrengen in een tube van 1,5 mL lage bindend. Meng door pipetteren op en neer ten minste 10 keer. Laat het mengsel staan bij kamertemperatuur gedurende 5 minuten. Plaats de buis op een magnetische houder. Incubeer gedurende 2 minuten bij kamertemperatuur of totdat het supernatans helder is. Verwijder de bovendrijvende vloeistof. Wassen van de kralen met 200 µL van 70% ethanol. Incubeer gedurende 30 s. verwijderen ethanol. Ethanol wassen stap eenmaal herhaald. Het drogen van de kralen. Elueer met 20 µL van ddH2O. Voer een aliquoot gedeelte van het DNA op een 2% agarose gel te bevestigen de grootte van de waarbij. Concentratie van DNA (Materialen tabel, punt 3) om te bepalen van de concentratie van de afzonderlijke ECS-bibliotheken te kwantificeren. Het zwembad van de bibliotheken in mengsel bedragen.Opmerking: bijvoorbeeld, onderzoekers kunnen acht bibliotheken in een mengsel groep4 met 4 miljoen beginnen moleculen voor het rangschikken met behulp van een sequencing-platform dat uitgangen van maximaal 400 miljoen leest bundelen. Conservatief, is het aanbevolen om het gebruik van een gemiddelde van tien raw luidt voor fout-correctie per moleculen. Dit zou nemen 360 miljoen leest (4 miljoen moleculen * 8 bibliotheken * 10 leest voor foutcorrectie). Met 4 miljoen unieke moleculen per bibliotheek, kunnen onderzoekers verwachten om een theoretische gemiddelde consensus lezen dekking van 7042 x per amplicon (4 miljoen/568 waarbij vanuit het deelvenster gen). Concentratie van DNA (Materialen tabel, punt 3) om te bepalen van de concentratie van gebundelde ECS bibliotheek te kwantificeren. Legt de gepoolde ECS-bibliotheek op ongeveer 4 nM. Bieden de volgende sequencing instellingen Illumina sequencing platformen (MiSeq, HiSeq of NextSeq): 2 x 144 gekoppeld-einde leest, 8 cycli Index 1 en 16 cycli Index 2. 2. Gene panelen met fout gecorrigeerd van DNA Sequencing Kruising van oligos van gene panelenOpmerking: In deze stap zal men construeren sequencing bibliotheken met behulp van een gemodificeerde Illumina TruSight of TruSeq-protocol op te nemen de UMIs (Materialen tabel, punt 17). Oligos op genomic fragment volgens protocol van de fabrikant te vermengen. Gebruik 250 ng van DNA (of een willekeurige gewenste hoeveelheid grondstof). Verwijder niet-afhankelijke oligos volgens protocol van de fabrikant. Uitbreiding-afbinding uitvoeren volgens protocol van de fabrikant.Opmerking: Wijzigingen in het protocol van de fabrikant gaan hieronder. Opneming van i5 en i7 Adapters via PCR De PCR mastermix voorbereiden door de volgende reagentia pipetteren in een buis van passende volumegrootte: 37.5 µL van Q5 Mastermix (Materialen tabel, punt 1), 6 µL van 10 µM 16N i5 adapters (beschreven in methode 1, stap 1.2.2), 6 µL van i7 adapters (gebruik verschillende i7 adapters voor afzonderlijke monsters voor multiplexing), en 22 µL van extensie-afbinding oplossing met kralen uit stap 2.1.3.Opmerking: De Q5 Mastermix vervangt de polymerase mastermix geboden door Illumina. De polymerase van Q5 versterkt de genomic fragment met hogere betrouwbaarheid en minder geïntroduceerde fouten. PCR-programma uitvoeren op een thermische cycler met behulp van de volgende parameters: 30 s bij 98 ° C, 4 – 6 cycli van 10 bij 98 ° C, 30 s bij 66 ° C, 30 s s bij 72 ° C; 2 min bij 72 ° C en vervolgens ingedrukt bij 4 ° C.Opmerking: Het aantal cycli afhankelijk van de grootte van het deelvenster. Uit onze ervaring is een 4-cyclus-PCR voldoende als de gen-panel ongeveer 1.500 verschillende paren van gene specifieke oligos heeft, terwijl een paneel met 500-600 paren van oligos 6 cycli van PCR vereist. Opruimen van PCR reacties met magnetische kralen (materialen tabel, punt 2): de PCR reactie op magnetische kralen in een gemodificeerde 1 PCR reactie toevoegen: 0,75 magnetische kraal verhouding: Pipetteer 56.25 µL van magnetische kraal oplossing in de 75 µL van het PCR producten uit stap 2.2.2. Het mengsel overbrengen in een tube van 1,5 mL lage bindend. Meng door pipetteren op en neer ten minste 10 keer. Laat het mengsel staan bij kamertemperatuur gedurende 5 minuten. Plaats de buis op een magnetische houder. Incubeer gedurende 2 minuten bij kamertemperatuur of totdat het supernatans helder is. Verwijder de bovendrijvende vloeistof. Wassen van de kralen met 200 µL van 70% ethanol. Incubeer gedurende 30 s. verwijderen ethanol. Ethanol wassen stap eenmaal herhaald. Het drogen van de kralen. Elueer met 20 µL van ddH2O. Kwantificeren van bibliotheken met behulp van QX200 ddPCR platform. Volg stap 1.4 in methode 1.Opmerking: 4 miljoen moleculen waren genormaliseerd teneinde een theoretische gemiddelde van 7,042 uniek geïndexeerde moleculen (4 miljoen gedeeld door 568 gen-specifieke oligos) per monster bibliotheek4 in het representatieve resultaat (Figuur 2). Versterken, en normalize bibliotheken voor het rangschikken. Versterken van het gewenste aantal moleculen met behulp van de volgende mastermix voor de definitieve PCR totaal 50 µL: 25 µL van Q5 Mastermix, 2 µL van P5 Primer (1 µM), 2 µL van P7 Primer (1 µM), en 21 µL van DNA moleculen. PCR-programma uitvoeren op een thermische cycler met behulp van de volgende parameter: 30 s bij 98 ° C; 16 cycli van 10 bij 98 ° C, 30 s bij 66 ° C, 30 s s bij 72 ° C; 2 min bij 72 ° C; en houd vervolgens bij 4 ° C. Opruimen sequencing bibliotheken met behulp van magnetische kralen (Materialen tabel, punt 2): de PCR reactie op magnetische kralen in een gemodificeerde 1 PCR reactie toevoegen: 0,75 magnetische kraal verhouding: Pipetteer 37,5 µL van magnetische kraal oplossing in de 50 µL PCR producten uit stap 2.4.2. Het mengsel overbrengen in een tube van 1,5 mL lage bindend. Meng door pipetteren op en neer ten minste 10 keer. Laat het mengsel staan bij kamertemperatuur gedurende 5 minuten. Plaats de buis op een magnetische houder. Incubeer gedurende 2 minuten bij kamertemperatuur of totdat het supernatans helder is. Verwijder de bovendrijvende vloeistof. Wassen van de kralen met 200 µL van 70% ethanol. Incubeer gedurende 30 s. verwijderen ethanol. Ethanol wassen stap eenmaal herhaald. Het drogen van de kralen. Elueer met 20 µL van ddH2O. Uitvoeren van een aliquoot gedeelte van het DNA geëlueerd (~ 3 µL) op een 2% agarose gel te bevestigen de grootte van de waarbij. Concentratie van DNA (Materialen tabel, punt 3) om te bepalen van de concentratie van de afzonderlijke ECS-bibliotheken te kwantificeren. Het zwembad van de bibliotheken in mengsel bedragen. Zie methode 1 stap 1.5.6. en ook de discussie voor meer details over de bundeling. Legt de gepoolde ECS-bibliotheek op ongeveer 4 nM. Bieden de volgende sequencing instellingen Illumina sequencing platformen (MiSeq, HiSeq of NextSeq): 2 x 144 gekoppeld-einde leest, 8 cycli Index 1 en 16 cycli Index 2. ECS Bioinformatic verwerking en analyse De monster-demultiplexed leest te verkrijgen van de sequencer of demultiplexing van ruwe volgorde leest in verschillende monsters i7 adapter sequenties bioinformatically met een aangepast script uit te voeren. Trim uit de eerste 30 nucleotiden van elk demultiplexed Lees oligo sequenties verwijderen uit het deelvenster gen. Hiermee lijnt u leest dat delen van de dezelfde UMIs aan elkaar tot Lees gezinnen.Opmerking: Onderzoekers kunt UMI-aware software zoals MAGERI13 uitpakken Lees gezinnen. Geen hamming-afstand mocht binnen de volgorde van de UMI in dit experiment te verhogen van de specificiteit van de methode. -Duplicatie en fout-correctie met behulp van de volgende aanbevolen parameters uitvoeren. Gebruik ≥5 lezen paren in dezelfde familie. Een minimum van drie Lees paren wordt aanbevolen. Nucleotide op elke positie van alle leest in dezelfde Lees familie met elkaar vergelijken, en het genereren van een consensus nucleotide, als er ten minste 90% concordantie tussen de leest voor de bijzondere nucleotide. Een N als er minder dan 90% overeenkomst aangedrongen door de nucleotide-positie. Negeren van consensus leest die > 10% van het totale aantal consensus nucleotiden N. wordt genoemd Hiermee lijnt u alle bewaarde consensus leest lokaal aan hg19 of hg38 menselijke referentie genoom met behulp van de onderzoeker de voorkeur aligner(s) zoals Bowtie2 en BWA. Proces leest afgestemd op Mpileup met behulp van de parameters – BQ0 – d 10,000,000,000,000 te verwijderen dekking drempels om ervoor te zorgen een uitgang van de juiste pileup ongeacht VAF. Posities uitfilteren met minder dan 1000 x consensus lezen dekking.Opmerking: De onderzoeker bepaalt de minimale dekking voor elke positie van de nucleotide willekeurig, het is aanbevolen om het hebben van ten minste 500 x consensus lezen dekking voor downstream-analyse. Binomiale verdeling Bel één nucleotide varianten (SNPs) in bewaarde gegevens uit stap 2.5.7 met de volgende parameters gebruiken. De binomiale statistiek zal worden gebaseerd op een genomic positie-specifieke servicefout model. Elke genomic positie is onafhankelijk gemodelleerd na de foutenpercentages van alle monsters voor die specifieke positie op te tellen. Naar het voorbeeld:Waarschijnlijkheid van nucleotide profiel bij een bepaalde genomic positie, p∑ Variant RF2 ∑ totale RFs26/255505 == 0.000101759Binomiale waarschijnlijkheid van 24 variant RFs uit 35911 totale RFs, P(X ≥ x) in monster K= 1 – binomial(24, 35911, 0.000101759)= 2.26485E-13Opmerking: Voor elke genomic positie opgevraagd, zou er drie mogelijke vogelgriepvirus veranderingen (bijvoorbeeldA > T, A > C, A > G), en die elk worden vertegenwoordigd als achtergrond artefact. Somatische gebeurtenissen die aanzienlijk afwijken van de achtergrond na Bonferroni correctie worden bewaard. In het voorbeeld in tabel 1aangegeven, het aantal uitgevoerde proeven was 11, vandaar een Bonferroni gecorrigeerd p-waarde van ≤0.00454545 (0.05/11) moest een event als statistisch significante noemen. Somatische gebeurtenissen zijn verplicht aanwezig te zijn in beide wordt gerepliceerd van de dezelfde specimen; anders, beschouwen ze als valse positieven. Tabel 1: Voorbeeld aan te tonen de weg voor de bouw van een binomiale positie-specifieke servicefout model. 3. in de fout gecorrigeerd van RNA Sequencing Naast de beoordeling voor mutaties op DNA niveau, door ECS te integreren in verschillende gerichte RNA sequencing panelen te detecteren van zeldzame of lage overvloed transcript op het niveau van RNA. We toonden door ECS te combineren met de off-the-shelf Qiagen RNA sequencing panelen, digitale kwantificering van genexpressie voor chat-kopieën met zo weinig als tien exemplaren zonder de behoefte aan een normalisatie tegen een huishouden-gen. De UMIs vereist voor foutcorrectie zijn geïntegreerd in het deelvenster. Uitvoeren van totale RNA extractie (Materialen tabel, punt 20). Verrichten van ECS-RNA bibliotheek voorbereiding volgens protocol van de fabrikant (Materialen tabel, punt 19). Bioinformatics pijpleiding volgens stap 2.5.1–2.5.6 uitvoeren Methode 2 die worden beschreven in de vorige sectie. Na stap 2.5.6 vertegenwoordigt het aantal uitgelijnde consensus leest per gen het niveau van de expressie van het gen zonder de behoefte aan gene lengte normalisatie.

Representative Results

Met Targeted Error-Corrected Sequencing voor DNA, die wij hebben uitgevoerd een bewijs van beginsel experiment verdunnen mutant patiënt DNA in commerciële genomic DNA. De patiënt had een mutatie in GATA1 (chrX:48650264, C > G) met originele VAF van 0,19. Wij laten zien in Figuur 1 dat ECS kwantitatieve tot een niveau van 1:10,000 voor één nucleotide variant. Figuur 1: verdunningsreeks van GATA1 SNV waaruit blijkt dat ECS kwantitatieve naar het niveau van 1:10,000. Klik hier voor een grotere versie van dit cijfer. Ook laten we zien dat het ECS-DNA betrouwbaar zeldzame klonale mutaties in de genen productlevering in volwassen acute myeloïde leukemie (AML) in gezonde oudere personen4 detecteert. Wij verkregen buffy coat monsters van 20 gezonde individuen in de verpleegkundige de gezondheid studie dwarshelling ongeveer ~ 10 jaar uit elkaar. We het protocol van het deelvenster ECS-DNA toegepast op deze monsters. Voor dit experiment, we aangepast Illumina TruSight myeloïde Sequencing hettoezichtpanel die uit 568 waarbij (meer informatie over gen lijst op https://www.illumina.com/products/by-type/clinical-research-products/trusight-myeloid.html bestaat) en sequenced 80 bibliotheken van 20 personen (2 collecties op verschillende tijdstippen, 2 duplo’s per persoon per keer punt) met behulp van Illumina NextSeq platform, die gegenereerd een gemiddelde van 47,7 miljoen gekoppeld-einde leest en gemiddeld 3,4 miljoen fout gecorrigeerd consensus reeksen per bibliotheek4. De gemiddelde nucleotide dekking per bibliotheek was ongeveer 6.000 x (3.4 miljoen gedeeld door 568). Voor elk monster; we hebben een positie-specifieke servicefout profiel met behulp van gesequenceerd bibliotheken die niet van hetzelfde monster gebouwd. We vonden 109 klonale somatische mutaties die in beide replicatieonderzoeken van ten minste één collectie tijdstip aanwezig waren. Deze mutaties hebben VAF variërend van 0.0003-0.1451. We geselecteerd 21 mutaties met bekende kosmische representaties en gevalideerd alle 21 mutaties in één of twee collectie tijd punt met behulp van ddPCR (n = 34, Figuur 2, aangepast van jonge et al. 20164). Figuur 2: mutaties geïdentificeerd door ECS werden geverifieerd via ddPCR met zeer concordant VAFs. (n = 34, aangepast ten opzichte van jonge et al. 20164). Klik hier voor een grotere versie van dit cijfer. Met betrekking tot de fout gecorrigeerd expressie niveau met ECS-RNA-protocol, aangepast we een gen panel met behulp van QIAseq-chemie die uit 416 genen bekend bestaat te worden betrokken bij verschillende soorten kanker (aangepast van QIAseq menselijke kanker Transcriptome deelvenster), en we versterkt de meest uitgesproken exon van een bepaald gen (Gene lijst in aanvullende materiaal 1). We sequenced de bibliotheken met behulp van Illumina MiSeq platform in gepaarde-beëindigen opmaak dat gaf een gemiddelde van 8.3 miljoen leest per bibliotheek, en wij erin geslaagd om vangen van een gemiddelde van 0.417 miljoen fout gecorrigeerd consensus sequenties. We toonden dat het niveau van de expressie van lage overvloed transcript (< 1.000 transcript graaf in 50 ng van totale RNA) is zeer reproduceerbaar tussen replicatieonderzoeken (gegevenspunt n = 300, Figuur 3). Validering door ddPCR (zes geselecteerde genen van variërende mate van expressie) aangetoond dat het niveau van de expressie van genen correct had veroverd door de ECS-protocol zonder de noodzaak voor normalisatie. Figuur 3: Top, correlatie van transcript telt door ECS-RNA tussen replicaties van hetzelfde monster (n = 300). Bodem, transcript graven geïdentificeerd door ECS werden gecontroleerd door de ddPCR (n = 6). Klik hier voor een grotere versie van dit cijfer.

Discussion

Wij tonen hier, een suite van de protocollen van de fout-gecorrigeerde sequentie die gemakkelijk kunnen worden geïmplementeerd om te bestuderen van mutaties met lage VAFs in de verschillende ziekten. De belangrijkste factor is de integratie van UMIs met elke molecuul voordat sequencing zoals ze fout-correctie van de ruwe luidt inschakelen. De hier beschreven methoden toestaan onderzoekers op te nemen van aangepaste UMIs verkrijgbare gene panelen zowel zelf ontworpen gen-specifieke oligos.

NGS standaardprotocol verzet zich tegen de detectie van mutaties met VAF minder dan 2% als gevolg van het foutenpercentage sequencing en dit beperkt de toepassing van NGS in studies waar de opsporing van zeldzame varianten is van cruciaal belang. Door het omzeilen van het standaardtarief van de NGS-fout, kunt ECS gevoelige detectie van deze ruwe varianten. Bijvoorbeeld is detectie van pathogene mutaties wanneer deze mutaties ontstaan eerst (dus met lage VAF) noodzakelijk om vroegtijdige interventie van de ziekte14,15. Leukemie onderzoek, de opsporing van minimale residuele ziekte (residuele leukemische cellen nabehandeling) informeert Risicostratificatie en kan worden gebruikt om de behandelingsopties op een wijze die binaire stroom cytometrische evaluaties kunnen niet op de hoogte. ECS is bovendien toepassing te detecteren circulerende tumor nucleïnezuur en te evalueren gemetastaseerde potentieel in solide tumor patiënten door te beoordelen voor de aanwezigheid/afwezigheid evenals de variant last van bepaalde mutaties die kenmerken van de primaire zijn tumor16.

Zoals blijkt uit tabel 1, de kracht van het gebruik van de binomiale verdeling gebaseerde positie-specifieke servicefout model Bel varianten hangt grotendeels af van het aantal gesequenceerd Bibliotheken, alsmede de diepte van sequencing gebruikt om te bouwen van het model van de fout. De robuustheid van het model fout neemt toe met hogere aantal monsters en meer sequencing diepte. Het wordt aanbevolen om ten minste 10 gesequenceerd monsters met een gemiddelde van fout-gecorrigeerd Lees dekking van 3000 x per monster gebruiken om een fout-profiel voor elk monster te bouwen. De positie-specifieke benadering is gelijkaardig aan MAGERI, maar in plaats van met behulp van een statistische foutenpercentage voor alle zes de vervanging van de verschillende typen (A > C/T > G, A > G/T > C, A > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)13, we model elke vervanging afzonderlijk op elke positie. Bijvoorbeeld een foutmarge van C > T op een bepaalde genomic positie verschilt van een andere positie. Onze aanpak ook rekening een sequencing batch effect, zoals de base vervanging tarief waargenomen in één sequencing run van gescoord afwijken kan. Daarom is het belangrijk om elke positie voor alle soorten van vervanging model vooral wanneer monsters van andere sequencing loopt zijn samengevoegd om het model te bouwen.

Een belangrijke overweging bij het ontwerpen van een ECS-experiment is de detectie van de gewenste drempelwaarde. De schoonheid van NGS studies is dat ze gemakkelijk kunnen worden aangepast in termen van genen/doelstellingen van belang, detectie drempel (ingegeven door de diepte van sequencing) en aantal personen bevraagd. Bijvoorbeeld, als de onderzoekers benieuwd zeldzame mutaties in twee waarbij met een drempel van de detectie van 0,0001 zijn, kunnen ze maximaal 75 monsters in een enkele volgorde uitgevoerd met behulp van MiSeq V2 chemie die tot 15 miljoen leest uitgangen bundelen (2 waarbij * 10.000 moleculen * 10 leest voor foutcorrectie * 75 monsters = 15 miljoen sequencing leest). Onderzoekers kunnen het aantal moleculen gaan op volgorde of het aantal samengevoegde monsters in een enkele sequencing lopen naar de detectie drempel aanpassen variëren. In onze studies, we gericht op het vinden van mutaties met een drempel van detectie van 0.0001 VAF (1:10, 000) via het deelvenster Illumina gen. We gebruiken routinematig 250 ng DNA om ervoor te zorgen dat voldoende moleculen worden vastgelegd met het oog op de drempel van de bovengenoemde detectie te starten. Onderzoekers kunnen opteren om te beginnen met lagere hoeveelheid DNA (50 ng is aanbevolen) als de gewenste detectiegrens > 0,001 VAF.

Zoals de UMIs worden toegevoegd op de i5-indexen, moeten sequencing instellingen dienovereenkomstig worden gewijzigd. Bijvoorbeeld, we gebruikten 16 N UMIs, en de sequencing-instellingen waren 2 x 144 gepaarde einde leest, 8 cycli van Index 1 en 16 cycli van index 2 in tegenstelling tot de gebruikelijke 8 cycli van Index 2. De stijging van de Index 2 cyclus wordt gecompenseerd door een daling van het totale aantal cycli toegewezen aan het luidt als volgt. Als onderzoekers kiezen voor het gebruik van 12N UMIs10,17, worden de instellingen gewijzigd tot 12 cycli van Index 2.

Deze volgorde UMI gebaseerde methode is geoptimaliseerd om te corrigeren voor sequencing fouten. Het blijft suboptimaal in de omgang met PCR jackpotting, dat is een zaak voor alle versterking gebaseerde methode. We ronden van post Sequencen en post-bioinformatics validatie met behulp van ddPCR uitgevoerd en we nauwelijks enige valse positieven als gevolg van PCR jackpotting detecteren. Toch is het raadzaam dat onderzoekers de experimenten met behulp van high-fidelity polymerase om lage amplificatie fouten verrichten.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Wij danken de deelnemers aan de Children’s Oncology Group AAML1531 studie en de verpleegkundigen gezondheid studeren voor hun bijdragen in de vorm van patiënt monsters. Dit werk werd gefinancierd door de National Institutes of Health (UM1 CA186107, RO1-CA49449 en RO1 CA149445), het Children’s Discovery Institute of Washington University en St. Louis kinder ziekenhuis (MC-II-2015-461) en Eli Seth Matthews leukemie Foundation.

Materials

Q5 High Fidelity Hot Start Master Mix New England BioLabs M0492S
Agencourt AMPure XP Beckman Coulter A63880
Qubit dsDNA HS Assay Kit Thermo Fisher Scientific Q32854
SYBR Safe DNA Gel Stain Thermo Fisher Scientific S33102
Truseq Custom Amplicon Index Kit Illumina FC-130-1003
UMI i5 adapter sequences Integrated DNA Technologies
NEBNext Ultra End Repair/dA-Tailing Module New England BioLabs E7442S
NEBNext Ultra II Ligation Module New England BioLabs E7595S
QX200 ddPCR EvaGreen Supermix Bio-Rad 1864034
QX200 Droplet Generation Oil for EvaGreen Bio-Rad 1864005
QX200 Droplet Digital PCR System Bio-Rad 1864001
ddPCR 96-Well Plates Bio-Rad 12001925
DG8 Cartridges for QX200/QX100 Droplet Generator Bio-Rad 1864008
DG8 Gaskets for QX200/QX100 Droplet Generator Bio-Rad 1863009
Bioanalyzer Agilent Genomics G2939BA
TapeStation Agilent Genomics G2991AA
TruSight Myeloid Sequencing Panel Illumina FC-130-1010
Bowtie 2 Johns Hopkins University
Customized QIAseq Targeted RNA Panel Qiagen
Rneasy Plus Mini Kit (50) Qiagen 74134

References

  1. Hoang, M. L., et al. Genome-wide quantification of rare somatic mutations in normal tissues using massively parallel sequencing. Proceedings of the National Academy of Sciences USA. 113, 9846-9851 (2016).
  2. O’Roak, B. J., et al. Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations. Nature. 485, 246-250 (2012).
  3. Young, A. L., et al. Quantifying ultra-rare pre-leukemic clones via targeted error-corrected sequencing. Leukemia. 29 (7), 1608-1611 (2015).
  4. Young, A. L., Challen, G. A., Birmann, B. M., Druley, T. E. Clonal hematopoiesis harbouring AML-associated mutations is ubiquitous in healthy adults. NatureCommunications. 7, 12484 (2016).
  5. Patel, J. P., et al. Prognostic relevance of integrated genetic profiling in acute myeloid leukemia. New England Journal of Medicine. 366, 1079-1089 (2012).
  6. Shendure, J., Ji, H. Next-generation DNA sequencing. Nature Biotechnology. 26 (10), 1135-1145 (2008).
  7. Kohlmann, A., et al. Monitoring of residual disease by next-generation deep-sequencing of RUNX1 mutations can identify acute myeloid leukemia patients with resistant disease. Leukemia. 28, 129-137 (2014).
  8. Luthra, R., et al. Next-generation sequencing-based multigene mutational screening for acute myeloid leukemia using MiSeq: applicability for diagnostics and disease monitoring. Haematologica. 99, 465-473 (2014).
  9. Kinde, I., Wu, J., Papadopoulos, N., Kinzler, K. W., Vogelstein, B. Detection and quantification of rare mutations with massively parallel sequencing. Proceedings of the National Academy of Sciences USA. 108 (23), 9530-9535 (2011).
  10. Schmitt, M., et al. Detection of ultra-rare mutations by next-generation sequencing. Proceedings of the National Academy of Sciences USA. 109 (36), 14508-14513 (2012).
  11. Vander Heiden, J. A., et al. pRESTO: a toolkit for processing high-throughput sequencing raw reads of lymphocyte receptor repertoires. Bioinformatics. 30 (13), 1930-1932 (2014).
  12. Newman, A. M., et al. Integrated digital error suppression for improved detection of circulating tumor DNA. NatureBiotechnology. 34, 547-555 (2016).
  13. Shugay, M., et al. MAGERI: Computational pipeline for molecular-barcoded targeted resequencing. PLOSComputationalBiology. 13 (5), e1005480 (2017).
  14. Wong, T. N., et al. Role of TP53 mutations in the origin and evolution of therapy-related acute myeloid leukaemia. Nature. 518, 552-555 (2014).
  15. Krimmel, J. D., et al. Ultra-deep sequencing detects ovarian cancer cells in peritoneal fluid and reveals somatic TP53 mutations in noncancerous tissues. Proceedings of the National Academy of Sciences USA. 113 (21), 6005-6010 (2016).
  16. Phallen, J., et al. Direct detection of early-stage cancers using circulating tumor DNA. ScienceTranslationalMedicine. 9, eaan2415 (2017).
  17. Egorov, E. S., et al. Quantitative profiling of immune repertoires for minor lymphocyte counts using unique molecular identifiers. The Journal of Immunology. 194 (12), 6155-6163 (2015).

Play Video

Cite This Article
Wong, W. H., Tong, R. S., Young, A. L., Druley, T. E. Rare Event Detection Using Error-corrected DNA and RNA Sequencing. J. Vis. Exp. (138), e57509, doi:10.3791/57509 (2018).

View Video