Summary

Rilevamento di Rare varianti genomiche da Sequencing pool Uso SPLINTER

Published: June 23, 2012
doi:

Summary

Sequenziamento del DNA pool è una strategia rapida ed efficace per individuare le varianti rare associate a fenotipi complessi in coorti di grandi dimensioni. Qui si descrive l'analisi computazionale del pool, sequenziamento di prossima generazione di 32 geni legati al cancro utilizzando il pacchetto software SPLINTER. Questo metodo è scalabile, e applicabile a qualsiasi fenotipo di interesse.

Abstract

Come tecnologia di sequenziamento del DNA è nettamente avanti negli ultimi anni 2, è diventato sempre più evidente che la quantità di variazione genetica tra due individui è maggiore di quanto si pensasse 3. Al contrario, array-based genotipizzazione non è riuscito a identificare un contributo significativo di varianti di sequenza comuni per la variabilità fenotipica di malattia comune 4,5. Prese insieme, queste osservazioni hanno portato alla evoluzione della malattia comune / ipotesi Variant Rare suggerendo che la maggioranza dei "ereditabilità mancante" in fenotipi comuni e complesso è invece dovuta al profilo personale di un individuo di varianti di DNA rare o private 6-8 . Tuttavia, caratterizzando come la variazione raro impatto fenotipi complessi richiede l'analisi di molti individui affetti in molti loci genomici, ed è idealmente rispetto a un'indagine simile in una coorte inalterato. Nonostante la potenza sequenza offerto dalle piattaforme di oggi,basato sulla popolazione sondaggio di molti loci genomici e la successiva analisi computazionale richiesto rimane proibitivo per molti ricercatori.

Per rispondere a questa esigenza, abbiamo sviluppato un approccio di sequenziamento pool 1,9 e un pacchetto software nuovo 1 per il rilevamento ad alta precisione rara variante dai dati risultanti. La capacità di genomi piscina da intere popolazioni di individui interessati e di indagine il grado di variazione genetica a più aree mirate in una libreria sequenza unica, offre ottimi risparmi sui costi e il tempo alla tradizionale single-campione metodologia di sequenziamento. Con una copertura di sequenziamento per allele media di 25 volte, il nostro algoritmo personalizzato, SPLINTER, utilizza una strategia di controllo interno variante chiamata per chiamare inserimenti, cancellazioni e sostituzioni fino a quattro paia di basi di lunghezza con alta sensibilità e specificità da pool di fino a 1 allele mutante in 500 individui. Qui si descrive il metodo per preparare il pool sequencing biblioteca seguita passo-passo le istruzioni su come usare il pacchetto per l'analisi di sequenziamento SPLINTER aggregati ( http://www.ibridgenetwork.org/wustl/splinter ). Mostriamo un confronto tra sequenziamento pool di 947 individui, ognuno dei quali sono stati sottoposti a genome-wide array, a più di 20kb di sequenziamento a persona. Concordanza tra genotipizzazione di tag e varianti romanzo intitolato nel campione pool erano eccellenti. Questo metodo può essere facilmente scalabile a qualsiasi numero di loci genomici e qualsiasi numero di individui. Con l'integrazione dei controlli interni ampliconi positivi e negativi a rapporti che imitano la popolazione in studio, l'algoritmo può essere calibrato per ottenere prestazioni ottimali. Questa strategia può anche essere modificato per l'utilizzo con la cattura ibridazione o individuale-specifici codici a barre e può essere applicato alla sequenza di campioni naturalmente eterogenei, come il DNA tumorale.

Protocol

Questo metodo è stato utilizzato nella ricerca riportata in Vallania FML et al. Genome Research 2010. 1. Esempio di Pooling e Capture PCR di mirati loci genomici Combina una quantità normalizzato di DNA genomico da ogni individuo nella vostra piscina (s). Utilizzo di 0,3 ng di DNA per persona per reazione PCR comprenderà circa 50 genoma diploide per persona in ciascuna reazione di PCR, che migliora la probabilità di amplificazione uniforme per allele nella piscina. Le sequenze genomiche possono essere ottenute presso il NCBI ( http://www.ncbi.nlm.nih.gov/ ) o UCSC Genome Browser ( http://genome.ucsc.edu/index.html ). Assicurarsi di utilizzare il "RepeatMasker" (contrassegnato a "N") quando si ottiene la sequenza per evitare di progettare un primer in una regione ripetitiva. Utilizzare il web-based Primer3 (rimer3/input.htm "target =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm) utilità per progettare primers tagliando e incollando le regioni genomiche di interesse, più alcune sequenze fiancheggianti (ampliconi di 600-2000 bp sono in genere ideale) Le condizioni ottimali di primer di progettazione per 3 Primer da utilizzare sono 10: Dimensione minima del fondo = 19; size = 25 innesco ottimale, dimensione massima di innesco = 30; minima Tm = 64 ° C; ottimale Tm. = 70 ° C, massima Tm = 74 ° C; massima differenza Tm = 5 ° C; Contenuto minimo GC = 45; tenore massimo di GC = 80; Numero di tornare = 20 (questo è arbitraria); 3 Massimo 'stabilità end = 100 . primer progettazione per amplificare tutti i loci genomici di interesse. Alla ricezione dei primer, delle scorte liofilizzati possono essere diluiti in 10 mM Tris, pH 7,5 + 0,1 mM EDTA ad una concentrazione finale di 100 uM seguito da un ulteriore diluizione 10:01 in ddh 2 O a 10 uM. PCR: Si consiglia l'uso di un alta fedeltà DNA polimerasi per amplificare genomico di grandi dimensioniampliconi a causa del basso tasso di errore (10 -7) e la generazione di smussati prodotti finiti (questo è necessario per la fase di legatura a valle). Abbiamo usato PfuUltra ad alta fedeltà, ma gli enzimi con caratteristiche simili (come Phusion) dovrebbe fornire risultati comparabili. Ogni reazione di PCR contiene una concentrazione finale di 2,5 U PfuUltra alta fedeltà polimerasi, 1 M Betaina, 400 nM di ciascun primer, 200 pM dNTP, 1x PfuUltra tampone (o un tampone contenente ≥ 2 mM Mg 2 +, al fine di mantenere enzimatica fedeltà) , 5-50 ng di DNA riunito in un volume finale di 50 pl. Utilizzare le seguenti condizioni di PCR: 1. 93-95 ° C per 2 minuti; 2. 93-95 ° C per 30 secondi; 3. 58-60 ° C per 30 secondi; 4. 65-70 ° C per 60-90 secondi per amplificati di 250-500 bp / 1,5-3 minuti per ampliconi 500-1000 bp / 3-5 minuti per ampliconi> 1 kb, 5. Ripetere i passaggi 2-4 per 25-40 cicli; 6. 65 ° C per 10 minuti; 7. 4 ° C in attesa. Se necessario, i risultati di PCR può tipicamente essere migliorata: 1)abbassare la temperatura di ricottura per ampliconi piccole; 2) aumentare la temperatura di ricottura per ampliconi grandi; 3. allungando il tempo di estensione di ogni amplicone. Preparazione dei controlli Splinter: Ogni esperimento SPLINTER richiede la presenza di un controllo negativo e positivo per ottenere la precisione ottimale. Un controllo negativo può essere costituito da tutte le posizioni di base in un individuo omozigote, codice a barre campione che è stato precedentemente sequenziati (ad esempio un campione HapMap). Il controllo positivo sarebbe quindi costituito da una miscela di due o più tali campioni. Per questo report, il controllo negativo è una regione di 1934 bp amplificata dalla spina dorsale del vettore M13mp18 ssDNA. Il prodotto PCR è stato sequenziato Sanger prima del suo uso per confermare che non esiste variazione di sequenza dal materiale di partenza o l'amplificazione PCR. Il controllo positivo è costituito da un pannello di pGEM-T Easy con vettori di 72 bp clonati inserire progettato con inserti specifici, delezioni, substitutions (Tabella 1). Si mescolano i vettori insieme in un contesto di tipo selvatico in rapporti molari tali che le mutazioni sono presenti alla frequenza di un singolo allele in piscina (ossia per un 100-allele piscina, la frequenza di un singolo allele sarà 1%). Abbiamo poi PCR amplifica il modello misto di controllo utilizzando i siti di primer M13 PUC in pGEM-T Easy, generando un prodotto finale di 355bp lunga PCR. 2. Pool PCR Preparazione Biblioteca e Sequencing PCR prodotto pooling: Ogni prodotto PCR dovrebbe essere pulito di primer in eccesso. Abbiamo usato Qiagen purificazione su colonna Qiaquick o piastre a 96 pozzetti con filtro collettore di vuoto per la grande pulizia. Dopo purificazione, ciascun prodotto PCR deve essere quantificato utilizzando tecniche standard. Unire tutti i prodotti PCR (inclusi i controlli) in una piscina normalizzato in base al numero molecola come pooling dalla concentrazione comporterà sovrarappresentazione delle piccole ampliconi ovprodotti er grandi. Le concentrazioni vengono convertiti nel numero assoluto di molecole di DNA per volume usando la formula: (g / pl) x (1 mol x bp / 660 g) x (1 / # bp in amplicone) x (6 x 10 23 molecole / 1 mol ) = molecole / pl. Abbiamo poi determinare il volume da ogni reazione necessaria a mettere in comune un certo numero di molecole per normalizzato ampliconi. Questo numero è arbitrario, può essere regolato e dipende molto dal prelievo di volumi di dimensioni sufficienti a mantenere la precisione. Noi di solito mettono in comune 1-2 x 10 10 molecole di ogni amplicone. La legatura dei prodotti della PCR: questo passaggio è necessario per conseguire una copertura uniforme sequenziamento come sonicazione di piccole ampliconi della PCR sarà polarizzato la loro rappresentazione verso i loro fini. Per ovviare a questo, abbiamo legare i prodotti PCR in pool concatemers di grandi dimensioni (> = 10 Kb) prima della frammentazione. Pfu Ultra polimerasi HF genera le estremità smussate, che porta alla legatura efficiente (a base di Taq-polimerasi aggiunge una 3p sbalzo "A" che non unolegatura Llow senza previa fill-in o di ottundimento). Questa reazione può essere scalata 2-3 volte se necessario. La reazione di ligazione contiene 10 polinucleotide chinasi T4 U, 200 U di T4 ligasi, 15% w / v polietilene, 1X tampone di T4 ligasi, glicole 8000 MW, fino a 2 ug di aggregati prodotti di PCR in un volume finale di 50 pl. Le reazioni vengono incubate a 22 ° C per 16 ore seguito da 65 ° C per 20 minuti e mantenuta a 4 ° C seguito. Il successo di questo stadio può essere controllato caricando 50 ng di campioni in un gel di agarosio all'1%. Ligazione successo comporta un elevato peso molecolare presenti banda nella corsia (vedi figura 2, corsia 3). Frammentazione del DNA: A questo punto si dovrebbe avere concatemers di grandi dimensioni (> 10kb) di prodotti di PCR. Abbiamo una strategia casuale sonicazione utilizzando un campione di 24 Diagenode sonicatore Bioruptor che può frammentare questi concatemers in 25 minuti (40 sec "on" / 20 sec "off" al minuto). La sonicazione è inibita dalla viscosità introdotto dal PEG, cosìquesto può essere superato diluendo il campione 10:01 in tampone PB Qiagen. I risultati possono essere verificata su un gel di agarosio al 2% (vedi figura 2, corsie 4 e 5). Il campione è pronto a integrare direttamente nel Illumina inizio libreria genomica protocollo di preparazione del campione con la "Repair End" step. I dati qui riportati sono da single-end si legge sul genoma Illumina Analyzer IIx, ma abbiamo usato il HiSeq 2000 ed eseguito singola o in coppia-end legge con risultati comparabili. Data la portata della libreria creata, abbiamo utilizzato anche personalizzati adattatori a barre al fine di multiplex più librerie riunite per accogliere la larghezza di banda fornita dalla piattaforma HiSeq (dati non mostrati). Seguire il protocollo del produttore e le raccomandazioni che vengono con il kit. Al fine di ottenere una sensibilità ottimale e specificità per il rilevamento variante, la copertura obiettivo di 25-volte o più l'allele è raccomandato (Figura 3). Questa stima è indipendente dalla dimensione del pool die tipo di variante da rilevare. Se necessario più corsie e le piste possono essere combinati per raggiungere una copertura adeguata. 3. Sequencing and Analysis Legge Allineamento La compressione dei file e la formattazione: prime file letti sequenziamento deve essere o convertiti in formato sciarpa o compresso. La compressione è facoltativa e fa risparmiare tempo e spazio per le fasi successive di analisi senza perdere alcuna informazione rilevante. Questo si ottiene utilizzando il RAPGAP_read_compressor_v2.pl script incluso con il seguente comando: ./RAPGAP_read_compressor_v2.pl [File Read]> [Compressed file Read] Accettati leggere i formati di file di input sono Sciarpa e FASTQ, sia compresso con gzip o non compresso: Formato esempio SCIARPA: HWI-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW Formato FASTQ esempio: @ HWI-EAS440_7_1_0_410 # 0/1 NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG + E / 8888888888888888888854588767777666! Raw allineamento leggere: Il letture grezzo può essere allineato alla sequenza di riferimento annotato FASTA specifico alle regioni mirati incluse nelle reazioni PCR, nonché la positivi e controlli negativi. L'allineamento può essere eseguita utilizzando l'RAPGAPHASH5d strumento di allineamento. Il formato di ingresso a questo punto deve essere SCIARPA o compresso. Il comando per l'allineamento è: ./RAPGAPHASH5d [File compressi Leggi] [file FASTA] [numero di modifiche consentito]> [allineati file] Il numero dei disallineamenti di lettura per cui è consentito rispetto alla sequenza di riferimento è un parametro definito dall'utente. Letture che hanno un numero eccessivo di mancate corrispondenze verranno eliminati. Si consiglia consentendo 2 disallineamenti per 36 bp letture, 4 discordanze per 76 bp e 5 legge 101 bp per i disallineamenti di legge. Consentire ulteriori disallineamenti aumenterà la probabilità di permettere errori in eccesso nella sequenza aligned dati. Come lunghezze di lettura continuano a diventare più lungo, questo valore può essere ulteriormente aumentata. Tagging allineati i file dalla cella a flusso stesso: a questo punto l'intero allineato leggere il file deve essere assegnato un identificatore univoco ("tag") al fine di identificare i file che appartengono a leggere la corsa stessa sequenza (cioè corsie multiple da cella a flusso stessa possono essere aggregati e dato un singolo tag). Il tag è necessaria perché ogni ciclo macchina genera un profilo unico errore che può essere caratterizzato tramite il tag. Un tag è una stringa alfanumerica di caratteri utilizzati per distinguere una serie di letture (il carattere underscore "_" non dovrebbe essere usato per questioni di analisi). Diversi tag deve essere utilizzato per i file allineate di lettura generati flowcells differenti, piste di macchine. I tag possono essere aggiunti utilizzando il RAPGAP_alignment_tagger.pl incluso con il seguente comando: . / RAPGAP_alignment_tagger.pl [file allineati] [TAG]> [allineati file già marcato] Dopo questo punto, allineatofile dalla stessa libreria generato su più flowcells diverse possono essere combinate tra loro come le loro rispettive etichette li terrà separati. Modello di generazione di errore: Come menzionato sopra, ciascuna corsa macchina genera un profilo unico di errore di sequenziamento che deve essere caratterizzata per le chiamate variante accurate. Per modellare questi errori per ogni ciclo di macchina, una sequenza di controllo interno, noto per essere privi di variazione di sequenza è incluso in ogni libreria campione aggregato. Dal file allineate tag, un file di modello di errore può essere generato usando il EMGENERATOR4 strumento incluso con la sequenza negativa di riferimento di controllo. Tutti la sequenza di controllo negativo può essere utilizzato o in alternativa solo un sottoinsieme di esso, specificato dal 5 'e 3' maggior parte delle basi in ingresso. Unica legge e pseudocounts deve essere sempre utilizzato: ./EMGENERATOR4 [File Allineati tag] [sequenza di controllo negativo] [nome del file di output] [5 'la maggior parte base del controllo negativo per essere utilizzato] [3' maggior base diil controllo negativo per essere utilizzato] [uniche includono legge solo? = Y] Allineamento [modifiche taglio] [entra pseudocounts? = Y] Lo strumento EMGENERATOR4 genererà 3 file denominati come il parametro del nome del file di output seguito da _0, _1 e _2. Questi file corrispondono a uno 0, 1 ° e 2 ° ordine, rispettivamente modello di errore. Per la variante chiamare con SPLINTER, il secondo modello di errore ordine deve essere sempre utilizzato. Per visualizzare il profilo tasso di errore di una corsa, il error_model_tabler_v4.pl può essere utilizzato per generare una trama PDF errore sul 0a file di modello di errore ordine (Figura 4): ./error_model_tabler_v4.pl [modello di errore 0 file order] [nome del file di output] Il file di trama rivelerà run-specifici tendenze di errore e può essere utilizzato per dedurre il numero massimo di basi letti da utilizzare per l'analisi, che è spiegato nella sezione successiva. 4. Variante Detection Rare Uso SPLINTER Variante calling da SPLINTER: Il primo passo nell'analisi è quello di eseguire lo strumento SPLINTER sul file allineate utilizzando il modello di errore e la sequenza di riferimento. Il comando per farlo è: ./SPLINTER6r [Allineati file già marcato] [file FASTA] [2 ° errore di file per il modello] [numero di basi di lettura da utilizzare] [sola lettura basi o cicli da escludere] [p-value = cutoff -1,301] [uso unico recita = Y] Allineamento [modifiche taglio] [dimensioni della piscina tra le opzioni disponibili] [stampare la copertura assoluta per ogni filza = Y]> [file SPLINTER] Il numero di basi di lettura da utilizzare varia e deve essere valutata in base ad ogni run. In genere si consiglia di utilizzare i 2/3rds primi di lettura in quanto rappresentano i dati di alta qualità (le prime 24 basi di leggere un lungo 36bp leggere, per esempio). Singole basi di lettura possono essere esclusi dall'analisi se trovato per essere difettoso (separati da una virgola o ad esempio 5,7,11 N o N). Il p-valore limite impone come l'analisi rigorosa variante chiamata sta per essere. Noi nonnormalmente inizia l'analisi, consentendo un taglio minimo di -1,301 (corrispondente ad un valore p ≤ 0,05 log10 in scala). L'opzione dimensione del pool di ottimizzare gli algoritmi di discriminazione "segnale-rumore", eliminando le varianti possibili con le frequenze alleliche minori inferiore a quella di un singolo allele nella piscina vera e propria. Ad esempio in un pool di 50 individui, il più basso variante osservata può essere previsto a 0,01 frequenza o 1 in 100 alleli. Pertanto, l'opzione dimensione piscina deve essere impostato al valore più vicino che è maggiore del numero effettivo di alleli analizzati nell'esperimento (cioè se 40 persone sono rilevate, ci aspettiamo 80 alleli in modo più vicino opzione sarebbe una dimensione del pool di 100) . Varianti chiamati a frequenze <0,01 verrà ignorato come rumore. Questo file restituisce tutti i risultati che sono statisticamente significativo all'interno del campione, con una descrizione della posizione della variante, il tipo di variante, p-value per filamento di DNA, la frequenza della variante e della copertura totale per filamento di DNA ( <strong> Tabella 2). Normalizzazione copertura per le varianti cd: le variazioni di copertura all'interno del campione in grado di generare colpi spuri. Questo può essere corretto applicando lo script splinter_filter_v3.pl come segue: ./splinter_filter_v3.pl [file SPLINTER] [file list] [rigore]> [SPLINTER del file normalizzato] in cui il file list è una lista di visite di controllo positivi nella forma di un file delimitato da tabulazioni. Il primo campo indica l'amplicone di interesse, mentre il secondo campo indica la posizione in cui la mutazione è presente. N indica che il resto della sequenza non contiene alcuna mutazione. Determinare i valori ottimali p-soglie utilizzando i dati di controllo positivi: Dopo la normalizzazione, l'analisi del controllo positivo è indispensabile per massimizzare la sensibilità e la specificità di un campione particolare. Ciò può essere ottenuto per individuare la p-valore di taglio utilizzando informazionizione del controllo positivo. Molto probabilmente, l'iniziale p-value di -1,301 non saranno sufficientemente rigorosi, che in tal caso, comporterà la convocazione di falsi positivi dal controllo positivo o negativo. Ogni analisi SPLINTER mostra l'attuale valore di p per ciascuna variante chiamato (vedi colonne 5 e 6 su Tabella 2), che non poteva essere prevista a priori. Tuttavia, tutta l'analisi può essere ripetuto utilizzando il meno rigorose p-value visualizzato sulle uscite iniziale per le note posizioni reali base positivo. Questo servirà a mantenere tutti i veri positivi, escludendo la maggior parte, se non tutti, i falsi positivi e che in genere hanno p-valori molto meno significativo rispetto a veri positivi. Per automatizzare il processo, il cutoff_tester.pl può essere utilizzato cutoff_tester.pl richiede un file di output SPLINTER e un elenco di controllo positivi risultati sotto forma di una scheda file delimitato da quello utilizzato per la normalizzazione.: . / Cutoff_tester.pl [SPLINTER filtrofile di va] [list file] L'uscita risultante sarà un elenco di tagli che progressivamente raggiungono quella ottimale (vedi Tabella 3). Il formato è il seguente: [Distanza da sensibilità e specificità max] [sensibilità] [specificità] [taglio] per esempio: 7.76946294170104e-07 1 0,999118554429264 -16,1019999999967 L'ultima riga rappresenta il taglio ottimale per la corsa e può quindi essere utilizzato per l'analisi dei dati. Il risultato è ottimale per ottenere una sensibilità e specificità di 1. In caso questo risultato non viene raggiunto, l'analisi può essere ripetuta SPLINTER cambiando il numero di lettura incorporata basi fino a quando la condizione più ottimale si ottiene. Variante finale di filtraggio: Il taglio finale può essere applicata ai dati tramite script cutoff_cut.pl, che filtrano il file di output SPLINTER da colpi sotto del valore soglia ottimale, . / Cutoff_cut.pl [SPLINTER file filtrato] [taglio]> [SPLINTER finalefile] Questa operazione genera il file di output finale SPLINTER, che conterrà SNPs e indels presente nel campione. Si prega di notare che l'uscita per gli inserimenti è leggermente diverso da quello per sostituzioni o delezioni (Tabella 2). 5. Risultati rappresentativi Abbiamo riunito una popolazione di 947 individui e mirate più di 20 kb per il sequenziamento. Abbiamo applicato SPLINTER per la rilevazione di varianti rare seguendo il protocollo standard. Ogni individuo aveva in precedenza aveva genotipizzazione eseguita da genome-wide genotipizzazione array. Concordanza tra genotipizzazione di tag e varianti romanzo intitolato nel campione pool sono stati eccellenti (Figura 6). Tre varianti, due dei quali (rs3822343 e rs3776110) siano state rare nella popolazione, sono stati chiamati de novo dai risultati di sequenziamento e sono stati validati da pirosequenziamento individuale. Frequenze alleliche minori (MAF) nella piscina erano simili al MAF riportati in dbSNP generazione 129. La concordanza tra MAF pirosequenziamento e sequenziamento raggruppati era eccellente (Tabella 3). Tabella 1. Oligonucleotide sequenze di DNA per il controllo positivo. Ogni sequenza è costituito da un frammento di DNA diverso dal riferimento al tipo selvaggio da parte di due sostituzioni o un inserimento e una eliminazione. Clicca qui per vedere l'immagine ingrandita . Tabella 2. Esempio di uscita SPLINTER. Le prime due righe rappresentano lo standard output SPLINTER per una sostituzione o una delezione (header blu). L'ultima riga rappresenta lo standard output SPLINTER per un inserimento (colpo di testa viola).rget = "_blank"> Clicca qui per vedere l'immagine ingrandita. Tabella 3. Cinque note e tre nuove varianti sono stati identificati dalle popolazioni grandi e convalidato da genotipizzazione individuale. Validazione individuale è stato eseguito da pirosequenziamento (righe 1-3), TaqMan assay (righe 4-6) o sequenziamento Sanger (righe 7,8). Per una vasta gamma di frequenze alleliche e comprendente cinque posizioni con MAF <1%, la concordanza tra il pool di stima di frequenza allele sequenziamento e la genotipizzazione individuale era forte. Posizioni contrassegnati con un asterisco (*) sono adattato da dati riportati in precedenza 9. Figura 1. Pool-sequenziamento del DNA e l'analisi panoramica SPLINTER. DNA del paziente è riunitoe amplificato in loci selezionati. I prodotti finali di PCR sono raggruppate con un controllo positivo e negativo in concentrazioni equimolari. La miscela aggregati vengono poi sequenziato e la risultante letture vengono mappati nuovo al loro riferimento. Mappato controllo negativo letture vengono utilizzati per generare un run-specifico modello di errore. SPLINTER può quindi essere utilizzato per rilevare SNP rare e indels incorporando informazioni dal modello di errore e il controllo positivo. [Tratto da Vallania FLM et al, Genome Research 2010] Clicca qui per vedere l'immagine ingrandita . Figura 2. Pool PCR legatura amplicon e sonicazione. A dimostrazione della legatura e gradini frammentazione casuali nel protocollo di preparazione biblioteca, vettore pUC19 è stato digerito enzimaticamente ai frammenti riportati in corsia 2. Questi frammenti sono stati Normalizzati per numero di molecole, combinati e legato in modo casuale secondo la fase sopra 1,7. Le risultanti concatamers grandi sono mostrati nella corsia 3. Le concatamers erano ligati equamente divisa e sottoposta a sonicazione come descritto nel passaggio precedente 1,8. La striscio risultante di frammenti di DNA per ciascun replicato tecnica sono presenti in corsie 4 e 5. La staffa evidenzia l'intervallo di dimensioni utilizzato per l'estrazione del gel e la biblioteca la creazione di sequenziamento. Figura 3. Precisione in funzione di copertura per un singolo allele in un campione composito. La precisione è stimato come l'area sotto la curva (AUC) di una curva Receiver Operator (ROC), che varia da 0,5 (casuale) a 1.0 (la massima precisione). AUC viene tracciata come una funzione di copertura per allele per la rivelazione di singole alleli mutanti nel pool di alleli 200, 500 e 1000 (A). AUC è tracciata come funzione di una copertura totale per sostituzioni, inserimenti e deletions (B). [Tratto da Vallania FLM et al, Genome Research 2010]. Figura 4. Plot errore mostra la probabilità di incorporare una base errata in una data posizione. Il profilo di errore mostra bassi tassi di errore con una tendenza crescente verso l'estremità 3 'della sequenza lettura. In particolare, nucleotidi di riferimento differenti visualizzare diversi probabilità di errore (vedi ad esempio la probabilità di incorporante un C dato un G come riferimento). [Tratto da Vallania FLM et al, Genome Research 2010]. Figura 5. Precisione di scheggia nella stima della frequenza allele per le posizioni che hanno una copertura maggiore di 25 volte per allele. Sulla base dei risultati nel Pannello A, la figura 3 mostra una sensibilità ottimale per il rilevamento singola variante con ≥ 25-volte copertura,confronto tra pool-DNA frequenze alleliche stimate dal SPLINTER con conta alleliche misurata dai risultati GWAS in correlazione molto alta (r = 0,999). [Tratto da Vallania FLM et al, Genome Research 2010]. Figura 6. Confronto tra le frequenze alleliche misurate dal GWAS rispetto alle stime scheggia dal sequenziamento del pool di 974 individui. C'erano 19 posizioni comuni tra i luoghi sottoposti a genotipizzazione e le regioni di sequenza per il confronto. La correlazione che ne risulta è molto elevata (r = 0,99538). Clicca qui per ingrandire la figura .

Discussion

C'è una crescente evidenza che l'incidenza e la risposta terapeutica dei comuni fenotipi complessi e le malattie come l'obesità 8, 4 ipercolesterolemia, ipertensione 7 e altri possono essere moderato da profili personali di variazione rare. Identificare i geni e le vie in cui queste varianti aggregati in popolazioni colpite avranno profonde implicazioni diagnostiche e terapeutiche, ma analizzando separatamente gli individui affetti possono essere tempi e costi proibitivi. Basato sulla popolazione analisi offre un metodo più efficiente per la rilevazione variazione genetica a loci multipli.

Vi presentiamo un nuovo pool-protocollo di sequenziamento del DNA in coppia con il pacchetto software SPLINTER progettato per identificare questo tipo di variazione genetica nelle popolazioni. Dimostriamo l'accuratezza di questo metodo per identificare e quantificare gli alleli minori all'interno di una vasta popolazione aggregata di 947 persone, incluse le varianti rare che eranochiamato de novo dal sequenziamento pool e convalidati da pirosequenziamento individuale. La strategia differisce principalmente da altri protocolli per l'incorporazione di un controllo positivo e uno negativo in ogni esperimento. Questo permette SPLINTER di ottenere una precisione molto più elevata e potenza rispetto ad altre soluzioni 1. La copertura ottimale di 25-volte per allele è fissata indipendentemente dalla dimensione della piscina, rendendo l'analisi di grandi vasche fattibile questo requisito solo bilance linearmente con la dimensione del pool. Il nostro approccio è molto flessibile e può essere applicato a qualsiasi fenotipo di interesse, ma anche a campioni che sono naturalmente eterogenei, come le popolazioni di cellule miste e biopsie tumorali. Dato il crescente interesse per la sequenza in pool dalle regioni di destinazione di grandi dimensioni come il exome o genoma, la nostra preparazione biblioteca e l'analisi SPLINTER è compatibile con i costumi-capture e con tutto il exome sequenziamento, ma l'utilità di allineamento nel pacchetto SPLINTER non è stato progettato per granderiferimenti sequenze. Pertanto, abbiamo utilizzato con successo la mascherina di programmazione dinamica, Novoalign, per genome-wide allineamenti seguiti da variante chiamando dal campione composito (Ramos et al., Ha presentato). Quindi, la nostra strategia di sequenziamento pool in grado di scalare con successo per piscine di grandi dimensioni con quantità crescenti di sequenza bersaglio.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è stato supportato da Discovery dei bambini dell'Istituto concessione MC-II-2006-1 (RDM e TED), il NIH Epigenetica Roadmap sovvenzione [1R01DA025744-01 e 3R01DA025744-02S1] (RDM e FLMV), U01AG023746 (SC), il Saigh Foundation (FLMV e TED), 1K08CA140720-01A1 e Lemonade stand di Alex "A" di supporto Award (TED). Ringraziamo il Genome Technology Center di accesso presso il Dipartimento di Genetica presso la Washington University School of Medicine di aiuto con l'analisi genomica. Il Centro è parzialmente supportato dal Servizio Supporto NCI di Grant Cancer Center # P30 CA91842 al Cancer Center Siteman e ICTS / CTSA Grant N. UL1RR024992 dal NationalCenter per le Risorse Ricerca (NCRR), un componente del National Institutes of Health (NIH), e NIH Roadmap for Medical Research. Questa pubblicazione è di esclusiva responsabilità degli autori e non rappresentano necessariamente l'opinione ufficiale di NCRR o NIH.

Materials

Reagent Name Company Catalogue Number Section
PfuUltra High-Fidelity Agilent 600384 1.4
Betaine SIGMA B2629 1.4
M13mp18 ssDNA vector NEB N4040S 1.5
pGEM-T Easy Promega A1360 1.5
T4 Polynucleotide Kinase NEB M0201S 2.2
T4 Ligase NEB M0202S 2.2
Polyethylene Glycol 8000 MW SIGMA P5413 2.2
Bioruptor sonicator Diagenode UCD-200-TS 2.3

References

  1. Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
  2. Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
  3. The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
  4. Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
  5. Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
  6. Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
  7. Ji, W., Foo, J. N., O’Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
  8. Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
  9. Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
  10. Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).

Play Video

Cite This Article
Vallania, F., Ramos, E., Cresci, S., Mitra, R. D., Druley, T. E. Detection of Rare Genomic Variants from Pooled Sequencing Using SPLINTER. J. Vis. Exp. (64), e3943, doi:10.3791/3943 (2012).

View Video