Summary

Detectie van zogenaamde Rare Genomic Varianten uit gepoold Sequencing gebruiken SPLINTER

Published: June 23, 2012
doi:

Summary

Gepoolde DNA-sequencing is een snelle en kosteneffectieve strategie voor zeldzame varianten geassocieerd met complexe fenotypes in grote cohorten op te sporen. Hier beschrijven we de computationele analyse van gecombineerde, next-generation sequencing van 32 kanker-gerelateerde genen met behulp van de SPLINTER softwarepakket. Deze methode is schaalbaar, en van toepassing op alle fenotype van belang.

Abstract

Zoals DNA sequencing technologie aanzienlijk uitgebreid in de laatste jaren twee, is het steeds duidelijker dat de hoeveelheid genetische variatie tussen twee personen groter dan eerder 3 gedacht. Daarentegen is array-gebaseerde genotypering niet tot een significante bijdrage van de gemeenschappelijke sequentievarianten te identificeren op de fenotypische variabiliteit van veel voorkomende ziekte 4,5. Al met al hebben deze waarnemingen leidden tot de evolutie van de veel voorkomende ziekte / Rare Variant hypothese suggereert dat de meerderheid van de "ontbrekende erfelijkheid" in gemeenschappelijke en complexe fenotypes in plaats daarvan is het gevolg van persoonlijke van een individu profiel van zeldzame of prive-DNA-varianten 6-8 . Echter, het karakteriseren van hoe zeldzaam variatie complexe fenotypes van invloed vereist de analyse van een groot aantal getroffen personen op vele genomische loci, en is ideaal ten opzichte van een vergelijkbaar onderzoek in een cohort niet aangetast. Ondanks de sequencing stroom die door platforms van vandaag, eende bevolking op basis van onderzoek van een groot aantal genomische loci en de daarop volgende vereist computationele analyse blijft onbetaalbaar voor vele onderzoekers.

Om aan deze behoefte aan te pakken, hebben we een gecombineerde aanpak volgorde 1,9 en een nieuw software pakket 1 voor zeer nauwkeurige zeldzame variant detectie van de resulterende gegevens. De mogelijkheid tot het zwembad genomen van de gehele bevolking van de getroffen individuen en onderzoek de mate van genetische variatie op meerdere beoogde regio's in een enkele volgorde bibliotheek biedt een uitstekende kosten-en tijdsbesparing voor de traditionele single-sample sequencing methode. Met een gemiddelde sequencing dekking per allel van 25-voudig onze aangepaste algoritme, SPLINTER, maakt gebruik van een interne variant bellen controle strategie om inserties, deleties en substituties oproepen tot vier baseparen lang zijn met een hoge gevoeligheid en specificiteit van de zwembaden van maximaal 1 mutant allel in 500 individuen. Hier beschrijven we de werkwijze voor de bereiding van de samengevoegde sequencing bibliotheek gevolgd door een stap-voor-stap instructies over hoe de SPLINTER pakket te gebruiken voor mengmonsters van sequentie-analyse ( http://www.ibridgenetwork.org/wustl/splinter ). We tonen een vergelijking tussen gepoolde sequencing van 947 individuen, die allemaal onderging ook genome-wide array, op meer dan 20kb van sequencing per persoon. Overeenstemming tussen genotypering van gelabeld en nieuwe varianten genoemd in het verzamelmonster waren uitstekend. Deze methode kan gemakkelijk worden opgeschaald naar een willekeurig aantal genomische loci en een aantal individuen. Door de integratie van de interne positieve en negatieve amplicon de controles aan de ratio's die de bevolking na te bootsen onder studie, kan het algoritme worden gekalibreerd voor optimale prestaties. Deze strategie kan ook worden aangepast voor gebruik met hybridisatie vangen of individuele specifieke barcodes en kan worden toegepast om de volgorde van nature heterogene monsters, zoals tumor DNA.

Protocol

Deze methode werd gebruikt in het onderzoek gerapporteerd in Vallania FML et al.. Genome Research 2010. 1. Sample pooling en PCR Capture van gerichte Genomic Loci Combineer een genormaliseerde hoeveelheid van genomisch DNA van elk individu in uw zwembad (s). Met 0,3 ng DNA per persoon per PCR zal nemen ongeveer 50 diploïde genoom per persoon in elke PCR-reactie, waardoor de kans uniforme versterking per allel in de pool verbetert. De genomische sequenties kunnen worden verkregen bij de NCBI ( http://www.ncbi.nlm.nih.gov/ ) of UCSC Genome Browser ( http://genome.ucsc.edu/index.html ). Zorg ervoor dat u de te gebruiken "RepeatMasker" (aangeduid met "N") voor het verkrijgen van sequentie te ontwerpen, een primer in een herhaalde gebied. Gebruik de web-based Primer3 (rimer3/input.htm "target =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm) gebruiken om primers te ontwerpen door te knippen en plakken van de genomische gebieden van belang plus een aantal flankerende sequenties (amplicons van 600-2000 bp zijn meestal ideaal) De optimale primer ontwerp van de voorwaarden voor Primer 3 te gebruiken 10 zijn: Minimum primer size = 19; Optimale primer size = 25; Maximum primer size = 30; Minimum Tm = 64 ° C; Optimale Tm. = 70 ° C; Maximum Tm = 74 ° C; Maximum Tm verschil = 5 ° C; Minimum GC-gehalte = 45; Maximum GC-gehalte = 80, aantal te = 20 terug (dit is willekeurig); Maximaal 3 'einde stabiliteit = 100 . ontwerp primers alle genomische loci van belang te amplificeren. Bij ontvangst van de primers kan het gevriesdroogde voorraden verdund in 10 mM Tris, pH 7.5 + 0.1 mM EDTA toe tot een eindconcentratie van 100 uM, gevolgd door een extra 10:01 verdunning DDH 2 O 10 uM. PCR-amplificatie: Wij raden het gebruik van een high-fidelity DNA-polymerase om grote genomische versterkenamplicons door de lage error rate (10 -7) en het genereren van stomp producten (dit voor het stroomafwaartse ligatiestap). We hebben gebruik gemaakt PfuUltra High-Fidelity, maar enzymen met vergelijkbare kenmerken (zoals Phusion) te voorzien in vergelijkbare resultaten. Elke PCR reactie bevat een eindconcentratie van 2,5 U PfuUltra hoge Fidelity polymerase, 1 M betaïne, 400 nM van elke primer, 200 uM dNTP's, 1x PfuUltra buffer (of een buffer die ≥ 2 mM Mg2 + om enzymatische trouw handhaven) , 5-50 ng DNA samengevoegd in een eindvolume van 50 ul. Gebruik de volgende PCR-condities: 1. 93-95 ° C gedurende 2 minuten, 2. 93-95 ° C gedurende 30 seconden, 3. 58-60 ° C gedurende 30 seconden, 4. 65-70 ° C voor 60-90 seconden voor amplicons van 250-500 bp / 1,5-3 minuten voor amplicons 500-1000 bp / 3-5 minuten voor amplicons> 1 kb, 5. Herhaal stap 2-4 voor 25-40 cycli; 6. 65 ° C gedurende 10 minuten 7. 4 ° C in de wacht. Indien gewenst kan PCR resultaten gewoonlijk worden verbeterd door: 1)verlaging van de hybridisatietemperatuur kleine amplicons, 2) het verhogen van de hybridisatietemperatuur voor grote amplicons 3. verlenging verlenging tijd voor een amplicon. Voorbereiding van de SPLINTER controles: Elke SPLINTER experiment vereist de aanwezigheid van een negatieve en positieve controle te verkrijgen optimale nauwkeurigheid. Een negatieve controle kan bestaan ​​uit alle homozygote basis functies in een persoon, bar-gecodeerde monster dat al eerder is gesequenced (bijvoorbeeld een HapMap monster). De positieve controle bestaat dan uit een mengsel van twee of meer monsters. Voor dit rapport, de negatieve controle is een 1934 bp geamplificeerde regio van de ruggengraat van de M13mp18 ssDNA vector. Het PCR-product was Sanger gesequenced voorafgaand aan het gebruik ervan in om te bevestigen dat er geen sequentievariatie bestaat uit het bronmateriaal of de PCR-amplificatie. De positieve controle bestaat uit een panel van pGEM-T Makkelijk vectoren met een 72 bp gekloonde plaats ontworpen met specifieke inserties, deleties, substitutions (Tabel 1). We mengen vectoren elkaar tegen wild type achtergrond op molaire verhoudingen, dat de mutaties aanwezig in de frequentie van een allel van de pool (bijvoorbeeld een 100 allel pool, de frequentie van een allel 1%). Vervolgens hebben we PCR versterken de mengregeling template met behulp van de M13 PUC primer sites in pGEM-T Easy, het genereren van een laatste 355bp lange PCR-product. 2. Gepoolde PCR Bibliotheek Voorbereiding en Sequencing PCR-product pooling: Elke PCR-product moet worden gereinigd van overtollige primers. We gebruikten Qiagen Qiaquick kolom zuivering of 96-well filter platen met vacuum spruitstuk voor grootschalige opruimen. Na zuivering, moet elke PCR-product worden gekwantificeerd met behulp van standaard technieken. Combineer elke PCR-product (met inbegrip van de controles) in een zwembad genormaliseerd door de molecule nummer als het bundelen van de concentratie zal leiden tot een oververtegenwoordiging van kleine amplicons ovre grotere producten. Concentraties worden geconverteerd naar de absolute aantal DNA moleculen per volume met de formule: (g / pL) x (1 mol x bp / 660 g) x (1 / # bp-amplicon) x (6 x 10 23 moleculen / 1 mol ) = moleculen / ul. Vervolgens bepalen wij het volume van elke reactie nodig is om zwembad een genormaliseerde aantal moleculen per amplicon. Dit aantal is willekeurig kan worden ingesteld en erg afhankelijk waarmee volumes groot genoeg om nauwkeurig te blijven. We typisch bundelen 1-2 x 10 10 moleculen per amplicon. Ligatie van PCR-producten: Deze stap is noodzakelijk om een uniforme sequencing dekking te bereiken als sonicatie van kleine amplicons zal bevooroordeeld hun vertegenwoordiging in de richting van hun doel. Om dit te ondervangen we afbinden de gepoolde PCR producten in grote concatemers (> 10 Kb) vóór fragmentatie. Pfu polymerase Ultra HF genereert stompe uiteinden, hetgeen voor een efficiënte ligatie (a Taq-polymerase gebaseerde een 3P "A" overhang die niet een voegenlg ligatie zonder invullen of stompen). Deze reactie kan worden opgeschaald 2-3 maal zo nodig. De ligatiereactie bevat 10 U T4 polynucleotide kinase, 200 U T4 ligase, 15% w / v polyethyleen, 1X T4 ligase buffer, glycol 8000 MW tot 2 ug PCR producten samengevoegd in een eindvolume van 50 ul. Reacties werden geïncubeerd bij 22 ° C gedurende 16 uur, gevolgd door 65 ° C gedurende 20 minuten aangehouden bij 4 ° C daarna. Het succes van deze stap kan worden gecontroleerd door het laden 50 ng van monsters in een 1% agarose gel. Succesvolle ligatie resulteert in een hoog molecuulgewicht band in de baan (zie figuur 2, laan 3). DNA-fragmentatie: Op dit punt moet je grote concatemers (> 10kb) van PCR-producten. Wij hebben een willekeurige sonicatie strategie met behulp van een 24-sample Diagenode Bioruptor ultrasoonapparaat dat kan fragment deze concatemers in 25 minuten (40 sec "aan" / 20 sec "uit" per minuut). Sonicatie wordt geremd door de viscositeit die door het PEG, zodatDit kan worden ondervangen door verdunning van het monster 10:01 in Qiagen PB buffer. De resultaten kunnen worden gecontroleerd op een 2% agarose gel (zie Figuur 2, lanen 4 en 5). Het monster is klaar om direct op te nemen in de Illumina genome bibliotheek Monstervoorbereiding protocol begint met de "End Repair" stap. De gegevens die hier zijn van single-end leest op de Illumina Genome Analyzer IIx, maar we hebben de HiSeq 2000 en uitgevoerd met een of gepaarde-end leest met vergelijkbare resultaten. Gezien de omvang van gemaakt de bibliotheek, hebben we ook gebruikt op maat barcode adapters om multiplex meerdere samengevoegde bibliotheken om de bandbreedte die door de HiSeq platform (gegevens niet getoond) tegemoet te komen. Volg protocol van de fabrikant en de aanbevelingen die bij de kit. Om optimale gevoeligheid en specificiteit variant detectie beoogde dekking van 25-voudig of meer per allel bereiken aanbevolen (figuur 3). Deze schatting is onafhankelijk van de grootte van het zwembaden het type variant worden gedetecteerd. Indien nodig meerdere rijstroken en loopt kunnen worden gecombineerd om een ​​adequate dekking te bereiken. 3. Sequencing Leest Alignment and Analysis File compressie en opmaak: Raw sequencing lezen bestanden moeten ofwel worden omgezet in SJAAL formaat of gecomprimeerd. Compressie is een optie als het bespaart tijd en ruimte voor de verdere analyse stappen zonder verlies van alle relevante informatie. Dit wordt bereikt door gebruik te maken van de meegeleverde script RAPGAP_read_compressor_v2.pl met het volgende commando: ./RAPGAP_read_compressor_v2.pl [Read bestand]> [Compressed Lees bestand] Geaccepteerde lezen file input formaten zijn sjaal en FASTQ, ofwel gzipped of ongecomprimeerd: SJAAL formaat voorbeeld: HWI-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW FASTQ formaat voorbeeld: @ HWI-EAS440_7_1_0_410 # 0/1 NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG + & / 8888888888888888888854588767777666! Ruwe lezen uitlijning de onbewerkte gelezen kan nu worden afgestemd om het geannoteerde FASTA referentie sequentie specifiek voor de beoogde regio in de PCR reacties en de positieve en de negatieve controles. De uitlijning kan worden uitgevoerd met behulp van de meegeleverde uitlijngereedschap RAPGAPHASH5d. De input-formaat op dit punt moet zijn sjaal of gecomprimeerd. De opdracht voor de uitlijning is: ./RAPGAPHASH5d [Gecomprimeerde Read bestand] [FASTA bestand] [aantal bewerkingen toegestaan]> [Uitgelijnd bestand] Het aantal mismatches per lezen dat mogen dan de referentie sequentie een gebruiker gedefinieerde parameter. Staat dat een extra aantal mismatches hebben zullen worden verwijderd. Wij raden waardoor twee mismatches voor 36 bp maal gelezen, 4 mismatches voor 76 bp leest en 5 mismatches voor 101 bp leest. Het toestaan ​​van meer inconsistenties zullen de kans van het toestaan ​​van meer dan sequencing fouten in de aligned data. Als gelezen lengte worden steeds meer kan deze waarde verhoogd worden. Tagging uitgelijnd bestanden van dezelfde doorstroomcel: Op dit punt de gehele lijn te lezen bestand moet worden voorzien van een unieke identifier ("tag") om te lezen bestanden die behoren tot dezelfde volgorde termijn (dat wil zeggen meerdere rijstroken van dezelfde doorstroomcel kunnen worden samengevoegd identificeren en slechts een tag). De tag is noodzakelijk omdat elke machine run genereert een unieke fout profiel dat kan worden gekarakteriseerd via de tag. Een tag is een alfanumerieke tekenreeks die wordt gebruikt om een ​​reeks leest (de underscore "_" mag niet worden gebruikt voor de parsing kwesties) te onderscheiden. Verschillende tags moet worden gebruikt voor uitgelijnd lezen bestanden die op verschillende flowcells of machine loopt. Labels kunnen worden toegevoegd met behulp van de meegeleverde RAPGAP_alignment_tagger.pl met het volgende commando: . / RAPGAP_alignment_tagger.pl [uitgericht bestand] [TAG]> [gebonden gelabeld bestand] Na dit punt uitgelijndbestanden van dezelfde bibliotheek gegenereerd op meerdere verschillende flowcells kunnen worden gecombineerd samen als hun respectievelijke labels houdt ze gescheiden. Fout generatie van het model: Zoals hierboven vermeld, elke machine run genereert een uniek profiel van sequencing fout die moet worden gekarakteriseerd voor een nauwkeurige variant bellen. Om deze fouten voor elke machine run te modelleren, is een interne controle-sequentie bekend is dat ze verstoken van sequentie variatie in elk verzamelmonster bibliotheek. Vanaf de lijn gelabeld bestand, kan een fout model bestand worden gegenereerd met behulp van het bijgeleverde gereedschap EMGENERATOR4 met de negatieve controle referentie sequentie. Alle negatieve controle sequentie kan worden gebruikt dan wel slechts een deel van het, door de 5 'en 3' meest bases in input. Unieke leest en pseudocounts moet altijd worden gebruikt: ./EMGENERATOR4 [Aligned gelabeld bestand] [negatieve controle volgorde] [Output file name] [5 'meest onderkant van de negatieve controle om te worden gebruikt] [3' meest basis vande negatieve controle om te worden gebruikt] [include unieke leest alleen? = Y] [uitlijning bewerkingen cutoff] [voer pseudocounts? = Y] De EMGENERATOR4 tool zal genereren 3 bestanden genoemd als de output file parameter name gevolgd door _0, _1 of _2. Deze bestanden komen overeen met een 0de, 1ste en 2de orde fout model respectievelijk. Voor variant bellen met Splinter, de 2e orde fout model altijd te worden gebruikt. Voor het visualiseren van het foutenpercentage profiel van een run, kan de error_model_tabler_v4.pl worden gebruikt om een PDF-fout perceel op de 0e orde fout model (figuur 4) te genereren: ./error_model_tabler_v4.pl [Error model 0e om bestand] [output bestandsnaam] De plot bestand blijkt run-specifieke fout trends kunnen worden gebruikt om het maximale aantal te lezen bases te gebruiken voor de analyse, die in het volgende gedeelte afgeleid. 4. Zeldzame Variant detectie met behulp van SPLINTER Variant calling door SPLINTER: De eerste stap in de analyse is om de SPLINTER hulpprogramma uit te voeren op de lijn bestand met behulp van de fout model en de referentie sequentie. De opdracht om dit te doen is: ./SPLINTER6r [Aligned gelabeld bestand] [FASTA bestand] [2e orde fout model bestand] [aantal gelezen grondslagen die] [Lees basen of cycli worden uitgesloten] [p-waarde cutoff = -1,301] [gebruik unieke leest = Y] [uitlijning bewerkingen cutoff] [grootte van het zwembad uit de beschikbare opties] [print de absolute dekking per streng = Y]> [SPLINTER bestand] Het aantal gelezen grondslagen die varieert en moet worden geëvalueerd volgens elke run. We adviseren in principe gebruik van de eerste 2/3e van de gelezen, aangezien zij de hoogste kwaliteit data (de eerste 24 te lezen basis van een 36bp lang lezen, bijvoorbeeld). Single lezen bases kunnen worden uitgesloten van de analyse, indien defect blijkt te zijn (gescheiden door een komma of N bijv. 5,7,11 of N). De p-waarde cutoff bepaalt hoe streng de variant roeping analyse gaat worden. Wij, nochformeel starten analyse dat een minimale afsnijfrequentie van -1,301 (overeenkomend met een p-waarde ≤ 0,05 in log10 schaal). De grootte van het zwembad voor het optimaliseren van algoritmes "signaal-ruis" discriminatie door het elimineren van mogelijke varianten met kleine allel frequenties lager dan dat van een enkel allel in de werkelijke zwembad. Bijvoorbeeld in een pool van 50 personen, kan de laagste waargenomen variant worden verwacht op 0,01 frequentie of 1 op de 100 allelen. Daarom moet de grootte van het zwembad optie worden ingesteld op de dichtstbijzijnde waarde die groter is dan het werkelijke aantal allelen geanalyseerd in het experiment (dat wil zeggen indien er 40 mensen zijn ondervraagd, hebben we 80 allelen verwachten, zodat de dichtstbijzijnde optie zou een pool van 100 zijn) . Varianten genoemd bij frequenties <0,01 wordt dan genegeerd als ruis. Dit bestand worden alle hits die zijn statistisch significant in het monster, met een beschrijving van de positie van de variant, het type van de variant, p-waarde per DNA-streng, de frequentie van de variant en de totale dekking per DNA-streng ( <strong> Tabel 2). Normaliseren dekking voor de gebelde varianten: Fluctuaties van de dekking in het monster kan genereren valse hits. Dit kan worden gecorrigeerd door de toepassing van de splinter_filter_v3.pl script als volgt: ./splinter_filter_v3.pl [SPLINTER bestand] [list bestand] [strenge]> [SPLINTER genormaliseerde bestand] waar de lijst bestand is een lijst van positieve controle hits in de vorm van een tab-gescheiden bestand. De eerste veld geeft het amplicon van belang, dat het tweede veld geeft de positie waarin de mutaties zijn. N geeft aan dat de rest van de sequentie bevat geen mutatie. Het bepalen van de optimale p-waarde drempels met behulp van de positieve controle gegevens: Na normalisatie, de analyse van de positieve controle is onmisbaar voor het maximaliseren van sensitiviteit en specificiteit van een bepaald monster analyse. Dit kan worden bereikt door de optimale p-waarde afgesneden met behulp van de informatieTIE van de positieve controle. Hoogst waarschijnlijk zal de eerste p-waarde van -1,301 niet streng genoeg, die, als dat zo is, zal resulteren in de roeping van valse positieven uit de positieve of negatieve controle. Elke SPLINTER analyse zal geven de werkelijke p-waarde voor elke zogenaamde variant (zie kolommen 5 en 6 op tabel 2), die niet konden a priori worden voorspeld. Echter kan het gehele onderzoek worden herhaald met de minst strenge p-waarde op de eerste uitgang van de bekende ware positieve grondposities. Dit zal dienen om alle ware positieven te behouden, terwijl met uitzondering van de meeste, zo niet alle, false positives en ze hebben meestal veel minder significant p-waarden in vergelijking met echte positieven. Om dit proces te automatiseren, kan de cutoff_tester.pl worden gebruikt cutoff_tester.pl vereist een SPLINTER output bestand en een lijst van de positieve controle hits in de vorm van een tab-gescheiden bestand als die gebruikt worden voor normalisatie.: . / Cutoff_tester.pl [SPLINTER filtered bestand] [list bestand] Het resultaat zal een lijst van cutoffs die geleidelijk bereiken de optimale (zie tabel 3). Het formaat is: [Afstand van max sensitiviteit en specificiteit] [gevoeligheid] [specificiteit] [cutoff] bijvoorbeeld: 7.76946294170104e-07 1 0,999118554429264 -16,1019999999967 De laatste regel geeft de meest optimale cut-off voor de run en kan daarom gebruikt worden voor data-analyse. De optimale resultaat te bereiken gevoeligheid en specificiteit van een. Indien dit resultaat niet wordt bereikt, kan de analyse SPLINTER herhaald door het aantal van geïntegreerde lezen basen tot de optimale conditie wordt bereikt. Final variant filteren: De laatste cutoff kan worden toegepast op de gegevens met behulp cutoff_cut.pl script, dat de Splinter output file zal filteren van hits onder de optimale cutoff, . / Cutoff_cut.pl [SPLINTER gefilterd bestand] [cutoff]> [SPLINTER finalebestand] Deze stap genereert de uiteindelijke SPLINTER uitgang bestand, dat bevat SNPs en INDELs in het monster. Let op: de uitgang voor inserties is iets anders dan voor vervangingen of schrappingen (tabel 2). 5. Representatieve resultaten We gepoolde een populatie van 947 individuen en doelgerichte meer dan 20 kb voor sequencing. We pasten SPLINTER voor de detectie van zeldzame varianten volgen onze standaard protocol. Ieder individu had eerder genotypering uitgevoerd door genoom-breed scala genotypering. Overeenstemming tussen genotypering van gelabeld en nieuwe varianten genoemd in het verzamelmonster waren uitstekend (Figuur 6). Drie varianten, waarvan er twee (rs3822343 en rs3776110) waren zeldzaam in de bevolking, werden de novo callde vanaf de sequencing resultaten en werden gevalideerd door individuele pyrosequencing. Kleine allel frequenties (MAF) in het zwembad waren vergelijkbaar met de MAF gerapporteerd in dbSNP build 129. De MAF overeenkomst tussen pyrosequencing en samengevoegd sequencing was uitstekend (tabel 3). Tabel 1. DNA oligonucleotide-sequenties voor de positieve controle. Elke reeks bestaat uit een DNA-fragment verschilt van de wild-type verwijzing door ofwel twee vervangingen of een insertie en een schrapping. Klik hier voor grotere afbeelding . Tabel 2. Voorbeeld SPLINTER output. De eerste twee rijen staan ​​voor de standaard SPLINTER uitgang voor een vervanging of een deletie (blauwe header). De laatste rij staat voor de standaard SPLINTER uitgang voor een insertie (paars header).rget = "_blank"> Klik hier voor grotere afbeelding. Tabel 3. Vijf bekende en drie nieuwe varianten werden geïdentificeerd uit grote populaties en gevalideerd door individuele genotypering. Individuele validatie werd uitgevoerd door pyrosequencing (rijen 1-3), TaqMan-assay (rijen 4-6) of Sanger-sequencing (rijen 7,8). Voor een breed scala van allel frequenties en met vijf posities met MAF <1%, concordantie tussen de gepoolde sequencing allel frequentie schatting en individuele genotypering was sterk. Posities met een asterisk (*) zijn afgeleid van eerder gemelde gegevens 9. Figuur 1. Gepoolde-DNA-sequencing en SPLINTER analyse overzicht. Patiënt DNA wordt samengevoegden geamplificeerd bij geselecteerde loci. De laatste PCR-producten worden samengevoegd met een positieve en negatieve controle op equimolaire verhoudingen. De gepoolde mix wordt vervolgens gesequenced en de daaruit voortvloeiende gelezen worden weer toegewezen aan hun referentie. In kaart gebracht negatieve controle maal gelezen worden gebruikt om een ​​run-specifieke fout model te genereren. SPLINTER kan dan worden gebruikt om zeldzame SNPs en indels detecteren door met informatie van de fout model en de positieve controle. [Bewerking van Vallania FLM et al., Genome Research 2010] Klik hier voor grotere afbeelding . Figuur 2. Gepoolde PCR-amplicon ligatie en ultrasoonapparaat. Als bewijs van het ligatiemengsel en willekeurige fragmentatie stappen in de bibliotheek bereidingsprotocol werd pUC19 vector enzymatisch gedigereerd tot fragmenten weergegeven in laan 2. Deze fragmenten werden normaseerd door de molecuul-nummer, gecombineerd en willekeurig geligeerd op basis van 1,7 boven de stap. De resulterende grote concatameren worden in laan 3. De geligeerde concatameren waren gelijk verdeeld en aan sonicatie zoals beschreven in stap 1.8 hierboven. De resulterende smeer van DNA fragmenten per technische duplo wordt in lanen 4 en 5. De beugel benadrukt de orde van grootte gebruikt worden voor gel-extractie en sequencing opbouwen van een bibliotheek. Figuur 3. Nauwkeurigheid als functie van de dekking voor een allel van een samengevoegde monster. De nauwkeurigheid wordt geschat als het gebied onder de curve (AUC) van een ontvanger Operator Curve (ROC), die varieert van 0,5 (random) tot 1,0 (perfecte nauwkeurigheid). AUC is uitgezet als functie van de dekking per allel voor de detectie van een mutante allelen in zwembaden 200, 500 en 1000 allelen (A). AUC is uitgezet als functie totale bereik van substituties, inserties en deletions (B). [Bewerking van Vallania FLM et al., Genome Research 2010]. Figuur 4. Bij figuur toont de kans waarin een foutieve base op een bepaalde positie. De fout profiel toont weinig fouten met een stijgende trend in de richting van het 3 'einde van de volgorde te lezen. Met name de verschillende referentie-nucleotiden weer te geven andere fout kansen (zie bijvoorbeeld waarschijnlijkheid van het opnemen van een C krijgt een G als referentie). [Bewerking van Vallania FLM et al., Genome Research 2010]. Figuur 5. Nauwkeurigheid van de splinter in het schatten van allel frequentie voor posities die groter zijn dan 25-voudig dekking had per allel. Gebaseerd op de resultaten in Paneel A, figuur 3 toont optimale gevoeligheid voor een variant detectie met ≥ 25-voudig bereik, eenvergelijking tussen de gepoolde-DNA-allel frequenties geschat door SPLINTER met allel telt gemeten door GWAS resulteert in een zeer hoge correlatie (r = 0,999). [Bewerking van Vallania FLM et al., Genome Research 2010]. Figuur 6. Vergelijking tussen allel-frequenties gemeten aan de hand GWAS in vergelijking met SPLINTER schattingen uit gepoold sequencing van 974 individuen. Er waren 19 gemeenschappelijke standpunten tussen het genotype loci en de volgorde regio's ter vergelijking. De resulterende correlatie is zeer hoog (r = 0,99538). Klik hier om een grotere afbeelding te bekijken .

Discussion

Er is steeds meer bewijs dat de incidentie en de therapeutische respons van gemeenschappelijke, complexe fenotypes en ziekten zoals obesitas 8, hypercholesterolemie 4, hypertensie 7 en anderen kunnen worden gemodereerd door persoonlijke profielen van zeldzame variatie. Het identificeren van de genen en paden waar deze varianten aggregaat in de getroffen bevolking zal ingrijpende diagnostische en therapeutische implicaties, maar het analyseren van de betrokken personen afzonderlijk kunnen worden tijd en kosten te hoog. Populatie-gebaseerde analyse biedt een meer efficiënte methode voor het onderzoeken van genetische variatie op meerdere loci.

We presenteren een nieuwe samengevoegde-DNA sequencing protocol gepaard met de SPLINTER softwarepakket ontworpen om dit soort van genetische variatie tussen populaties te identificeren. We tonen de nauwkeurigheid van deze methode bij het identificeren en kwantificeren van kleine allelen binnen een grote gepoolde populatie van 947 personen, waaronder zeldzame varianten die warende novo heet van de samengevoegde volgorde en gevalideerd door de afzonderlijke pyrosequencing. Onze strategie onderscheidt zich voornamelijk van andere protocollen door het opnemen van een positieve en een negatieve controle binnen elk experiment. Dit maakt SPLINTER te bereiken veel hogere nauwkeurigheid en kracht in vergelijking met andere benaderingen 1. De optimale behandeling van 25-voudig per allel is onafhankelijk van de grootte van het zwembad vast, zodat de analyse van grote groepen mogelijk dit vereiste alleen schalen lineair met de pool grootte. De benadering is zeer flexibel en kunnen worden toegepast op een fenotype van belang, maar ook monsters die van nature heterogene zoals gemengde celpopulaties tumorbiopsieën. Gezien de steeds toenemende belangstelling voor samengevoegde volgorde van grote doelgroep regio's zoals de exome of het genoom, onze bibliotheek prep en Splinter analyse is compatibel met op maat-capture en hele-exome sequencing, maar het hulpprogramma voor het uitlijnen van de SPLINTER pakket is niet ontworpen voor grootreferenties sequenties. Daarom hebben we met succes gebruik gemaakt van de dynamische programmering aligner, Novoalign, voor genoom-brede rooilijnen gevolgd door een variant noemen van de samengevoegde monster (Ramos et al.., Ingediend). Zo kan onze samengevoegd sequentie strategie succesvol schaal grotere groepen met toenemende hoeveelheden doelwitsequentie.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit werk werd ondersteund door het Children's Discovery Institute subsidie ​​MC-II-2006-1 (RDM en TED), de NIH Epigenetica Roadmap subsidie ​​[1R01DA025744-01 en 3R01DA025744-02S1] (RDM en FLMV), U01AG023746 (SC), de Saigh Foundation (FLMV en TED), 1K08CA140720-01A1 en Alex's Lemonade Stand "A" Award ondersteuning (TED). Wij danken de Genome Technology Access Center bij de afdeling Genetica aan de Washington University School of Medicine voor hulp bij genomische analyse. Het centrum wordt gedeeltelijk ondersteund door NCI Cancer Support Grant # P30 CA91842 aan de Siteman Cancer Center en door ICTS / CTSA Grant # UL1RR024992 van de NationalCenter voor onderzoek Resources (NCRR), een onderdeel van de National Institutes of Health (NIH), en NIH Roadmap for Medical Research. Deze publicatie is uitsluitend de verantwoordelijkheid van de auteurs en niet noodzakelijkerwijs het officiële standpunt van NCRR of NIH.

Materials

Reagent Name Company Catalogue Number Section
PfuUltra High-Fidelity Agilent 600384 1.4
Betaine SIGMA B2629 1.4
M13mp18 ssDNA vector NEB N4040S 1.5
pGEM-T Easy Promega A1360 1.5
T4 Polynucleotide Kinase NEB M0201S 2.2
T4 Ligase NEB M0202S 2.2
Polyethylene Glycol 8000 MW SIGMA P5413 2.2
Bioruptor sonicator Diagenode UCD-200-TS 2.3

References

  1. Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
  2. Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
  3. The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
  4. Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
  5. Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
  6. Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
  7. Ji, W., Foo, J. N., O’Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
  8. Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
  9. Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
  10. Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).

Play Video

Cite This Article
Vallania, F., Ramos, E., Cresci, S., Mitra, R. D., Druley, T. E. Detection of Rare Genomic Variants from Pooled Sequencing Using SPLINTER. J. Vis. Exp. (64), e3943, doi:10.3791/3943 (2012).

View Video