Summary

Rilevamento di eventi rari utilizzando la sequenza di RNA e DNA di correzione d'errore

Published: August 03, 2018
doi:

Summary

Sequenziamento di nuova generazione (NGS) è un potente strumento per la caratterizzazione genomica che è limitato per l’alto tasso di errore della piattaforma (~0.5–2.0%). Descriviamo i nostri metodi di sequenziamento di correzione d’errore che ci permettono di ovviare il tasso di errore NGS e rilevare le mutazioni alle frazioni di variante allele rare come 0,0001.

Abstract

Tecniche di sequenziamento di nuova generazione convenzionale (NGS) hanno permesso per la caratterizzazione genomica immenso per oltre un decennio. In particolare, NGS è stato utilizzato per analizzare lo spettro delle mutazioni clonali nella malignità. Anche se molto più efficiente rispetto ai metodi tradizionali Sanger, NGS lotte con l’identificazione di mutazioni rare clonale e subclonal a causa del suo alto tasso di errore pari al ~0.5–2.0%. Così, NGS standard ha un limite di rilevazione per le mutazioni che sono > 0.02 frazione allele variante (VAF). Mentre il significato clinico per le mutazioni di questo raro in pazienti senza malattia conosciuta rimane poco chiara, i pazienti trattati per leucemia hanno migliorato significativamente i risultati quando malattia residua è < 0,0001 tramite flusso cytometry. Per mitigare questo sfondo artefactual di NGS, sono stati sviluppati numerosi metodi. Qui descriviamo un metodo per la correzione d'errore del DNA e RNA Sequencing (ECS), che coinvolge tagging singole molecole con un indice casuale di 16 bp per correzione di errore sia un indice di paziente-specific bp 8 per multiplexing. Il nostro metodo è in grado di rilevare e monitorare clonale mutazioni all'allele variante frazioni (VAFs) due ordini di grandezza inferiore rispetto al limite di rilevazione di NGS e rari come 0,0001 VAF.

Introduction

Come abbiamo età, esposizione a sostanze mutagene e stocastici errori durante la divisione cellulare risultato nell’accumulazione delle aberrazioni somatiche nel genoma e questo è alla base della patogenesi fondamentale di trasformazione maligna, malattie neuro-inerente allo sviluppo, pediatriche disordini e invecchiamento normale1,2. Mutazioni somatiche con potenziale di malattia-guida sono importanti biomarkers diagnostici e prognostici per la diagnosi precoce e rischio gestione3,4,5. Per capire meglio clonogenesis fisiologico, che informerà clinica e di ricerca decisioni, accurata quantificazione e caratterizzazione di queste mutazioni è di primaria importanza. Sequenziamento di nuova generazione (NGS) attualmente è usato per studiare mutazioni clonali in campioni di DNA eterogenee; Tuttavia, è limitata all’identificazione di mutazioni a NGS > 0.02 frazione allele variante (VAF) — a causa del tasso di errore inerente di 0,5 – 2,0% del sequenziamento piattaforme6,7,8. Di conseguenza, monitoraggio diagnostico e prognosticamente significative varianti somatiche a VAF inferiore non possono essere realizzati utilizzando standard NGS.

Recentemente, i vari metodi sono stati sviluppati al fine di eludere il tasso di errore di NGS8,9,10,11. Questi metodi utilizzano molecolare tagging, che permette la correzione di errore dopo la sequenziazione. Ogni molecola o frammento genomic nella libreria di sequenziamento è etichettata con una casuale univoco molecolare identificatore (UMI) che è specifico per quella molecola. L’UNMIS sono costruiti da permutazioni di una stringa di nucleotidi randomizzate (N 8 – 16). Un secondo campione specifico codice a barre è anche integrato nel workflow che consente di multiplexing campioni multipli nel sequenziamento NGS stesso eseguito. L’amplificazione di PCR viene eseguita sulla libreria molecolarmente taggata, e successivamente la libreria viene inviata per il sequenziamento. Durante la preparazione della biblioteca, si prevede che gli errori saranno casualmente introdotto al frammento genomico durante l’amplificazione di PCR e sequenziamento8. Per rimuovere gli errori di sequenziamento casuale, sequenziamento crudo letture sono raggruppate secondo l’UMI. Artefatti da sequenziamento non dovranno essere presenti in tutte le letture con l’UMI stesso nella stessa posizione genomica a causa della natura stocastica di introduzione, considerando che una vera variante verrà essere fedelmente amplificata ed ordinata in tutte le letture che condividono la stessa UMI. I manufatti sono bioinformatically rimosso. Qui, descriviamo tre metodi di correzione d’errore Sequencing (ECS) ottimizzati sia in laboratorio per il DNA identificare varianti di singolo nucleotide (SNVs) e piccole inserimento-delezioni (Indels) e per il RNA facilitare la quantificazione dell’espressione genica sotto il Soglia di errore NGS.

Il primo metodo viene descritto un modo per cercare di raro evento somatico utilizzando primers specifici del gene progettato dai ricercatori. Prima della preparazione di libreria, i ricercatori dovrebbero disegnare primers per indirizzare i frammenti di interesse. Abbiamo usato la web-app Primer3 (http://bioinfo.ut.ee/primer3-0.4.0/). Ampliconi di 200 – 250 bp sono ideali per reazione a catena della polimerasi (PCR) come questi, una volta che è stata integrata UNMIS, generare letture di fine accoppiato con 150 bp fine accoppiato letture di sovrapposizione. Le condizioni di progettazione ottimale primer da utilizzare sono: dimensione minima primer = 19; Dimensione ottimale primer = 25; Dimensione massima primer = 30; Minimo Tm = 64 ° C; Ottimale Tm = 70 ° C; Massimo Tm = 74 ° C; Differenza massima Tm = 5 ° C; Minimo contenuto di GC = 45; Massimo contenuto di GC = 80; Numero da restituire = 20; Massimo 3′ fine stabilità = 100.

Nel metodo 2, descriviamo un metodo che unisce il protocollo ECS-DNA con Illumina chimica di indagine per SNVs clonale e piccolo Indels raro come 0,0001 VAF utilizzando pannelli di gene commercialmente disponibili che includono centinaia di ampliconi. Abbiamo usato il TruSight mieloide Sequencing pannello (Illumina) per il nostro esperimento e progettato un pannello espanso per includere ulteriori geni di interesse per le malattie pediatriche mieloide. Questi pannelli non hanno offerto molecolari identificatori univoci (UNMIS) che faciliterebbero la correzione degli errori, così abbiamo aggiunto la nostra strategia di adattatore per questi pannelli. ECS dovrebbe funzionare altrettanto bene con altri pannelli pensati per arricchire per geni associati a malattie diverse. Dopo isolamento del DNA e la successiva quantificazione dal tessuto o il campione di interesse, si raccomanda di avere almeno 500 ng di stock di DNA per esemplare. Facciamo abitualmente una libreria singola sequenza utilizzando 250 ng di DNA al fine di catturare a valle come molto unico frammento genomic da possibili per legge de-duplicazione e calcolo VAF. Una libreria di sequenziamento replica opzionale può essere fatta con i rimanenti 250 ng di DNA. Facciamo sempre due librerie di replicare per campione, e consideriamo solo gli eventi rilevati in modo indipendente in entrambi replicati come veri positivi. Abbiamo anche implementato un modello di genomica errore binomiale di posizione-specifiche per aumentare la precisione della variante chiamata4,13.

Infine, descriviamo un metodo accoppiamento ECS al sequenziamento di RNA per la quantificazione di trascrizione utilizzando pannelli di QIAseq mirati RNA COTS (Qiagen). L’UNMIS necessaria per-duplicazione e correzione di errore sono state integrate nei kit, e i ricercatori possono rendere librerie seguendo le raccomandazioni del produttore. Bioinformatically, i ricercatori possono seguire la pipeline descritta per ECS-DNA, che verrà spiegato in dettaglio nella sezione protocollo.

Protocol

1. mirati correzione d’errore di sequenziamento del DNA Amplificazione di PCR dei frammenti genomic di interesse. Utilizzare una DNA polimerasi ad alta fedeltà per amplificare gli ampliconi (Tabella materiali, pos. 1). Amplificare la reazione di PCR con i seguenti termini in un termociclatore: 30 s a 98 ° C; 18 – 40 cicli di 10 s a 98 ° C, 30 s a 66 ° C e 30 s a 72 ° C; 2 min a 72 ° C; tenere a 4 ° C. Purificare i prodotti di PCR con perline paramagnetici (Tabella materiali, pos. 2). Aggiungere la reazione di PCR per le perle in un rapporto di 1: 1.8 (volume di reazione di PCR: volume del branello) secondo il protocollo del produttore. Eluire con 20 µ l di ddH2O. Quantificare la concentrazione di DNA (Tabella materiali, pos. 3) per determinare la concentrazione finale del DNA. Eseguire un’aliquota del DNA su gel di agarosio 2% (Tabella materiali, pos. 4) per confermare la dimensione degli ampliconi.Nota: In alternativa, i ricercatori possono scegliere di eseguire un’analisi Bioanalyzer sui prodotti di PCR per determinare la dimensione dei frammenti genomic amplificati nonché la concentrazione dei prodotti. Sequenziamento adattatore ricottura Ottenere delle schede di i7 (Tabella materiali, pos. 5). Li usano come sono previste per i passaggi successivi. Acquistare gli adattatori i5 16N commercialmente con la seguente sequenza di oligo (tabella materiali pos. 6): ACACTCTTTCCCTACACGACGCTCTTCCGATCT AATGATACGGCGACCACCGAGATCTACAC(N1:25252525)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1) (N1)Nota: Le schede di i5 16N sostituire le schede standard i5 e sono adattatori con una stringa di 16 casuale-nucleotide per facilitare ECS. Rendere la soluzione di lavoro di 16N i5 adattatore: 40 µ l di Stock in adattatore di 100 µM 16N i5, 10 µ l di buffer di TE e 10 µ l di soluzione di NaCl 500 µM. Aliquotare 7,5 µ l di soluzione di lavoro di i5 preparata al punto 1.2.3 in pozzetti separati di PCR. Aggiungere 5 µ l di campione specifico i7 adattatore nei pozzetti corrispondenti. Incubare a 95 ° C per 5 min poi raffreddare di 1 ° C ogni 30 s a 4 ° C in un termociclatore. Tenere a 4 ° C. Fine-riparazione & dA-tailing delle bibliotecheNota: In parallelo con adattatore ricottura, uno può eseguire fine riparazione e dA-tailing sugli ampliconi PCR di passaggio 1.1. Dopo il completamento di questi passaggi, viene eseguita la legatura degli adattatori ricotti da passo 1.2 sul fine riparato e dalla coda dA ampliconi PCR. Dopo la legatura adattatore, la costruzione della libreria ECS è completa. Iniziano con al massimo 1 µ g di DNA di partenza (minimo ~ 200 ng) Eseguire fine-riparazione e dA-coda ampliconi (Tabella materiali, pos. 7). Aggiungere 3,0 µ l di fine preparazione enzima Mix e 6,5 µ l di tampone di riparazione di fine. Incubare la miscela per 30 min a 20 ° C, poi per 30 min a 65 ° C con permanenza a 4 ° C. Eseguire la legatura sugli adattatori ricotti (Tabella materiali, punto 8). Aggiungere 2,5 µ l delle schede ricotte dal passaggio 2, 15 µ l di Blunt/TA ligasi Mastermix e 1 µ l di potenziatore della legatura. Incubare il mix per 15 min a 20 ° C, poi per 15 min a 37 ° C. Ripulire le librerie con biglie magnetiche (tabella materiali pos. 2): aggiungere la reazione di PCR per perline in un rapporto di 1: 0.75 modificate (volume di reazione di PCR: volume di biglie magnetiche): Pipettare 62,6 µ l di soluzione di biglie magnetiche nell’83,5 µ l di prodotti di PCR dal punto 1.2.7. Trasferire il composto in una provetta di associazione basso da 1,5 mL. Mescolare accuratamente pipettando su e giù almeno 10 volte. Lasciare l’impasto a riposare a temperatura ambiente per 5 minuti. Posizionare il tubo su un supporto magnetico. Incubare per 2 minuti a temperatura ambiente o fino a quando il surnatante è chiaro. Rimuovere il surnatante. Lavare le perle con 200 µ l di etanolo al 70%. Incubare per 30 s. Rimuovi etanolo. Ripetere il passaggio di lavaggio di etanolo una volta. Asciugare le perline. Eluire con 20 µ l di ddH2O.Nota: Questa modifica nella reazione di PCR al rapporto di biglie magnetiche preferenzialmente rimuoverà i frammenti di DNA che sono minori di 200 bp. Quantificazione di gocciolina PCR digitaleNota: Quantificazione precisa mutazione richiede la stretta osservanza del numero di molecole di ogni libreria che sono caricate sul sequencer. Per raggiungere questo obiettivo, quantificare il numero di molecole per singole librerie per unità di volume viene eseguita utilizzando la piattaforma PCR (ddPCR) QX200 digitale gocciolina — PCR quantitativa è un’opzione alternativa. A seguito di analisi di ddPCR, la lettura specifica il numero di molecole per µ l in ogni libreria. Diluire 1:1,000 librerie ECS diluendo in modo incrementale di un fattore 10 in striscia-provette per PCR. Preparare la seguente mastermix per ddPCR in provetta da 1,5 mL: 10 µ l di miscela di PCR (Tabella materiali, punto 9), 0,2 µ l di Primer P5, 0,2 µ l di Primer P7, 5 µ l di prodotto ripulito ECS dal punto 1.4.1. e 4,5 µ l di ddH2O. Aliquotare e 20 µ l di mastermix in ciascun campione Bene assicurandosi che non ci sono multipli di 8. Aliquotare e 70 µ l di olio di generazione di goccia (Tabella materiali, pos. 10) in ogni pozzetto di olio. Coprire la cassetta con una guarnizione in gomma. Rendere le goccioline utilizzando il generatore di goccia (Tabella materiali, elemento 11). Usando una pipetta multicanale, caricare le goccioline generate nel passaggio 1.4.4 in una piastra PCR a far sì che il pipettaggio del campione avviene lentamente nell’arco di 5 secondi per evitare il DNA di taglio. Amplificare il segnale nelle gocce per 40 cicli in un termociclatore usando le seguenti condizioni: 5 min a 95 ° C; 40 cicli di 30 s a 95 ° C, 1 min a 63 ° C; 5 min a 4 ° C, 5 min a 90 ° C; quindi tenere a 4 ° C. Preparare ddPCR modello goccia lettore macchina (Tabella materiali, elemento 11). Garantire la specifica per i parametri per la Quantificazione assoluta e utilizzando il QX200 ddPCR Eva Green Supermix. Una volta completata ddPCR analisi, assicurarsi di impostare la stessa soglia che divide attraverso tutti i campioni. Tramite la lettura di concentrazione dal lettore di goccia QX200, aliquotare il volume appropriato per introdurre il numero desiderato di molecole nel passaggio successivo. Amplificazione di PCR delle librerie per il sequenziamento Preparare il mastermix seguente per il numero desiderato di molecole dal punto 1.4.9: 25 µ l di Q5 Mastermix (Tabella materialipos. 1), 2,5 µ l di Primer P5 (10 µM), 2,5 µ l di Primer P7 (10 µM), X µL del DNA, X 20 µ l di ddH2O. Amplificare le librerie dal punto 1.5.1 in un termociclatore usando le seguenti condizioni: 30 s a 98 ° C; 20 cicli di 10 s a 98 ° C, 30 s a 63 ° C, 30 s a 72 ° C; 2 min a 72 ° C; quindi tenere a 4 ° C. Ripulire le librerie con biglie magnetiche (tabella materiali, pos. 2): aggiungere la reazione di PCR per magnetico perline in un modificato rapporto di 1: 0.75 (volume di reazione di PCR: volume di biglie magnetiche). Pipettare 37,5 µ l di soluzione di biglie magnetiche nei prodotti di PCR 50 µ l dal punto 1.5.2. Trasferire il composto in una provetta di associazione basso da 1,5 mL. Mescolare accuratamente pipettando su e giù almeno 10 volte. Lasciare l’impasto a riposare a temperatura ambiente per 5 min. Posizionare il tubo su un supporto magnetico. Incubare per 2 minuti a temperatura ambiente o fino a quando il surnatante è chiaro. Rimuovere il surnatante. Lavare le perle con 200 µ l di etanolo al 70%. Incubare per 30 s. Rimuovi etanolo. Ripetere il passaggio di lavaggio di etanolo una volta. Asciugare le perline. Eluire con 20 µ l di ddH2O. Eseguire un’aliquota del DNA su un gel di agarosio al 2% per confermare la dimensione degli ampliconi. Quantificare la concentrazione di DNA (Tabella materiali, pos. 3) per determinare la concentrazione delle librerie ECS separate. Piscina le librerie in quantità equimolari.Nota: ad esempio, i ricercatori possono pool otto biblioteche in un gruppo equimolare4 con 4 milioni a partire di molecole per il sequenziamento utilizzando una piattaforma di sequenziamento che uscite fino a 400 milioni di letture. Conservativamente, è consigliabile utilizzare una media di dieci letture crude per correzione di errore per molecole. Questo sarebbe prendere letture 360 milioni (4 milioni di molecole * 8 librerie * 10 legge per la correzione di errore). Con molecole uniche 4 milioni per libreria, ricercatori possono aspettarsi di ottenere un teorico medio di consensus leggere la copertura del 7042 volte al amplicone (4 milioni/568 ampliconi dal pannello di gene). Quantificare la concentrazione di DNA (Tabella materiali, pos. 3) per determinare la concentrazione della libreria ECS in pool. Presentare la libreria ECS riunita a circa 4 nM. Fornire le seguenti impostazioni di sequenziamento per piattaforme di sequenziamento Illumina (MiSeq, HiSeq o NextSeq): 2 x 144 accoppiato-fine legge, 8 cicli indice 1 e 16 indice 2 cicli. 2. Gene pannelli con correzione d’errore di sequenziamento del DNA Ibridazione dei oligos da pannelli di geneNota: In questo passaggio, si saranno costruire librerie di sequenziamento utilizzando un protocollo modificato Illumina TruSight o TruSeq per incorporare l’UNMIS (Tabella materiali, punto 17). Ibridare i oligos sul frammento genomic seguendo il protocollo del produttore. Uso 250 ng di DNA (o di qualsiasi quantità di materiale di partenza desiderata). Rimuovere i oligos unbound seguendo il protocollo del produttore. Eseguire estensione-legatura seguendo il protocollo del produttore.Nota: Le modifiche al protocollo del produttore iniziano di sotto. Incorporazione di i5 e i7 adattatori tramite PCR Preparare il mastermix PCR pipettando i seguenti reagenti in un tubo di dimensioni di volume appropriato: 37,5 µ l di Q5 Mastermix (Tabella materialipos. 1), 6 µ l di schede di 10 µM 16N i5 (dettagliate nel metodo 1, passaggio 1.2.2), 6 µ l di i7 adattatori (uso diverso i7 adattatori per campioni separati per multiplexing) e 22 µ l di soluzione di estensione-legatura con perline dal punto 2.1.3.Nota: Il Mastermix Q5 sostituisce la polimerasi mastermix fornito da Illumina. La polimerasi Q5 amplifica il frammento genomico con una maggiore fedeltà e meno errori introdotti. Eseguire il programma di PCR su un termociclatore utilizzando i seguenti parametri: 30 s a 98 ° C, 4 – 6 cicli di 10 s a 98 ° C, 30 s a 66 ° C, 30 s a 72 ° C; 2 min a 72 ° C e quindi tenere a 4 ° C.Nota: Il numero di cicli dipende la dimensione del pannello. Dalla nostra esperienza, una PCR 4-ciclo è sufficiente se il pannello di gene ha circa 1.500 diverse paia di gene specifico oligos, mentre un pannello con 500 – 600 paia di oligos richiede 6 cicli di PCR. Ripulire le reazioni di PCR con biglie magnetiche (tabella materiali, pos. 2): aggiungere la reazione di PCR per biglie magnetiche in una reazione di PCR 1 modificata: 0,75 rapporto di biglie magnetiche: Pipettare 56,25 µ l di soluzione di biglie magnetiche nel 75 µ l di prodotti di PCR dal punto 2.2.2. Trasferire il composto in una provetta di associazione basso da 1,5 mL. Mescolare accuratamente pipettando su e giù almeno 10 volte. Lasciare l’impasto a riposare a temperatura ambiente per 5 min. Posizionare il tubo su un supporto magnetico. Incubare per 2 min a temperatura ambiente o fino a quando il surnatante è chiaro. Rimuovere il surnatante. Lavare le perle con 200 µ l di etanolo al 70%. Incubare per 30 s. Rimuovi etanolo. Ripetere il passaggio di lavaggio di etanolo una volta. Asciugare le perline. Eluire con 20 µ l di ddH2O. Quantificare le librerie utilizzando QX200 ddPCR piattaforma. Seguire il passaggio 1.4 nel metodo 1.Nota: molecole 4 milioni sono stati normalizzati per esempio biblioteca4 nel risultato rappresentativo (Figura 2) al fine di ottenere una media teorica di 7.042 molecole in modo univoco indicizzate (4 milioni diviso per 568 oligos gene-specifico). Amplificare e normalizzare le librerie per il sequenziamento. Amplificare il numero desiderato di molecole mediante il seguente mastermix per la PCR finale per un totale di 50 µ l: 25 µ l di Q5 Mastermix, 2 µ l di Primer P5 (1 µM), 2 µ l di Primer P7 (1 µM) e 21 µ l delle molecole del DNA. Eseguire il programma di PCR su un termociclatore usando il seguente parametro: 30 s a 98 ° C; 16 cicli di 10 s a 98 ° C, 30 s a 66 ° C, 30 s a 72 ° C; 2 min a 72 ° C; quindi tenere a 4 ° C. Ripulire il sequenziamento librerie utilizzando biglie magnetiche (Tabella materiali, pos. 2): aggiungere la reazione di PCR per biglie magnetiche in una reazione di PCR 1 modificata: 0,75 rapporto di biglie magnetiche: Pipettare 37,5 µ l di soluzione di biglie magnetiche nei prodotti di PCR 50 µ l dal punto 2.4.2. Trasferire il composto in una provetta di associazione basso da 1,5 mL. Mescolare accuratamente pipettando su e giù almeno 10 volte. Lasciare l’impasto a riposare a temperatura ambiente per 5 min. Posizionare il tubo su un supporto magnetico. Incubare per 2 min a temperatura ambiente o fino a quando il surnatante è chiaro. Rimuovere il surnatante. Lavare le perle con 200 µ l di etanolo al 70%. Incubare per 30 s. Rimuovi etanolo. Ripetere il passaggio di lavaggio di etanolo una volta. Asciugare le perline. Eluire con 20 µ l di ddH2O. Eseguire un’aliquota del DNA eluita (~ 3 µ l) su un gel di agarosio al 2% per confermare la dimensione degli ampliconi. Quantificare la concentrazione di DNA (Tabella materiali, pos. 3) per determinare la concentrazione delle librerie ECS separate. Piscina le librerie in quantità equimolari. Fare riferimento al metodo 1 punto 1.5.6. e anche la discussione per ulteriori dettagli il pool. Presentare la libreria ECS riunita a circa 4 nM. Fornire le seguenti impostazioni di sequenziamento per piattaforme di sequenziamento Illumina (MiSeq, HiSeq o NextSeq): 2 x 144 accoppiato-fine legge, 8 cicli indice 1 e 16 indice 2 cicli. Analisi ed elaborazione di Bioinformatic ECS Ottenere il campione-demultiplexing letture dal sequencer o eseguire il demultiplexing delle prime sequenze letture in diversi campioni utilizzando i7 adattatore sequenze bioinformatically con uno script personalizzato. Tagliare i primi 30 nucleotidi di ogni lettura demoltiplicato per rimuovere oligo sequenze dal pannello di gene. Allineare le letture che condividono la stessa UNMIS uno a altro per formare famiglie lettura.Nota: I ricercatori possono utilizzare software compatibile con UMI come Mastrapasqua13 per estrarre lettura famiglie. Nessuna distanza di hamming è stato permesso all’interno della sequenza UMI in questo esperimento per aumentare la specificità del metodo. Eseguire la de-duplicazione e correzione degli errori utilizzando i seguenti parametri consigliati. ≥ 5 uso leggere coppie nella stessa famiglia. È consigliato un minimo di tre paia di lettura. Confrontare del nucleotide in ogni posizione in tutte le letture della stessa famiglia di lettura e generare un nucleotide di consenso se c’è almeno il 90% concordanza tra le letture per il particolare del nucleotide. Chiamare un N se è inferiore a 90% accordo per posizione del nucleotide. Scartare le letture di consenso che hanno > 10% del numero totale di nucleotidi di consenso viene chiamato come N. Allineare tutte le letture di consenso mantenuti localmente per hg19 o hg38 genoma umano riferimento utilizzando il aligner(s) preferito del ricercatore come Bowtie2 e BWA. Processo allineato letture con Mpileup utilizzando i parametri – BQ0 – d 10,000,000,000,000 per rimuovere soglie di copertura per garantire un output corretto pileup indipendentemente dal VAF. Filtrare le posizioni con meno di 1000 x consenso, leggere la copertura.Nota: Il ricercatore determina la copertura minima per ogni posizione del nucleotide arbitrariamente, si consiglia di avere almeno 500 consenso x leggere la copertura per l’analisi a valle. Utilizzare distribuzione binomiale per chiamare varianti di singolo nucleotide (SNPs) in dati conservati dal passaggio 2.5.7 con i seguenti parametri. La statistica binomia si baserà su un modello di genomica errore di posizione-specifiche. Ogni posizione genomica è modellato in modo indipendente dopo sommando i tassi di errore di tutti i campioni per quella particolare posizione. Seguendo l’esempio:Probabilità del profilo del nucleotide in una determinata posizione genomica, p∑ Variante RF2 ∑ totale RFs= 26/255505= 0.000101759Probabilità binomiale della variante 24 RFs fuori 35911 RFs totale, P(X ≥ x) nell’esempio K= 1 – binomial(24, 35911, 0.000101759)= 2.26485E-13Nota: Per ogni posizione genomica interrogato, ci sarebbero tre possibili cambiamenti mutazionali (cioè,A > T, A > C, A > G), e ognuno dei quali sarebbe rappresentato come elemento di sfondo. Vengono mantenuti gli eventi somatici che sono significativamente diversi dallo sfondo dopo la correzione di Bonferroni. Nell’esempio riportato nella tabella 1, il numero di test eseguiti era 11, quindi un Bonferroni corretti p-valore ≤0.00454545 (0,05/11) è stato richiesto di chiamare un evento come statisticamente significativo. Eventi somatici sono tenuti ad essere presenti in entrambi replicati dallo stesso campione; in caso contrario, li considerano come falsi positivi. Tabella 1: Esempio che illustra il modo di costruire un modello binomiale errore posizione specifica. 3. correzione d’errore sequenziamento del RNA Oltre a valutare per le mutazioni a livello del DNA, è possibile integrare ECS con vari pannelli di RNA di sequenziamento mirati per rilevare la trascrizione di abbondanza rara o basso livello di RNA. Combinando ECS con i pannelli di sequenziamento di RNA di Qiagen shelf, abbiamo dimostrato digitale quantificazione dell’espressione genica per trascrizioni con minor come dieci copie senza necessità di normalizzazione contro un gene housekeeping. UNMIS necessaria per la correzione di errore sono stati integrati nel pannello. Eseguire l’estrazione di RNA totale (Tabella materiali, punto 20). Eseguire Preparazione libreria ECS-RNA secondo il protocollo del produttore (Tabella materiali, Item 19). Eseguire pipeline di bioinformatica secondo passo 2.5.1–2.5.6. 2 Metodo delineato nella sezione precedente. Dopo passo 2.5.6, il numero di letture di consenso allineati al gene rappresenta il livello di espressione del gene senza la necessità di normalizzazione di lunghezza del gene.

Representative Results

Con Targeted Error-Corrected sequenziamento del DNA, abbiamo effettuato una prova dell’esperimento di principio diluendo paziente mutante del DNA nel DNA genomico commerciale. Il paziente ha avuto una mutazione in GATA1 (chrX:48650264, C > G) con originale VAF di 0,19. Dimostriamo che nella Figura 1 che ECS è quantitativa ad un livello di 1: 10.000 per la variante di singolo nucleotide. Figura 1: serie di diluizioni di GATA1 SNV dimostrando che ECS è quantitativa al livello di 1: 10.000. Clicca qui per visualizzare una versione più grande di questa figura. Mostriamo anche che l’ECS-DNA rileva in modo affidabile clonale rare mutazioni in geni ricorrentemente in adulta leucemia mieloide acuta (AML) in individui anziani sani4. Abbiamo ottenuto i campioni del cappotto buffy da 20 individui sani nello studio della salute degli infermieri incassato circa ~ 10 anni di distanza. Abbiamo applicato il protocollo di pannello ECS-DNA su questi campioni. Per questo esperimento, abbiamo adattato la Illumina TruSight mieloide Sequencing pannello che consiste degli 568 ampliconi (maggiori informazioni su elenco gene su https://www.illumina.com/products/by-type/clinical-research-products/trusight-myeloid.html) ed ordinato 80 librerie da 20 individui (2 raccolte in diversi momenti, 2 ripetizioni per individuali a tempo punto) utilizzando la piattaforma Illumina NextSeq, che ha generato una media di 47,7 milioni accoppiato-fine letture e una media di 3,4 milioni correzione d’errore sequenze di consenso per biblioteca4. La copertura media del nucleotide per biblioteca era di circa 6.000 x (3,4 milioni divisi per 568). Per ogni campione, abbiamo costruito un profilo di posizione-specifiche errore utilizzando in sequenza le librerie che non sono dallo stesso campione. Abbiamo trovato 109 clonale mutazioni somatiche che erano presenti in entrambi replicati del punto di tempo di almeno un insieme. Queste mutazioni hanno VAF che vanno da 0,0003 – 0.1451. Abbiamo selezionato 21 mutazioni con rappresentazioni note cosmiche e convalidato 21 tutte le mutazioni in uno o due punti di tempo insieme utilizzando ddPCR (n = 34, Figura 2, adattato da giovane et al 20164). Figura 2: mutazioni identificate da ECS sono state verificate tramite ddPCR con VAFs altamente concordanti. (n = 34, per l’ultima volta da giovane et al 20164). Clicca qui per visualizzare una versione più grande di questa figura. Rispetto al livello di espressione di correzione d’errore tramite protocollo ECS-RNA, abbiamo personalizzato un pannello di gene usando QIAseq chimica che consiste dei 416 geni conosciuti per essere associato con vari tipi di cancro (adattati da QIAseq umano cancro Transcriptome pannello) e abbiamo amplificato l’esone più comunemente espressa di un dato gene (elenco di Gene in 1 materiale supplementare). Abbiamo ordinato le librerie utilizzando Illumina MiSeq piattaforma in formato accoppiato-fine che ha dato una media di 8,3 milioni di letture per libreria, e siamo riusciti a catturare una media di 0,417 milioni sequenze consenso di correzione d’errore. Abbiamo dimostrato che il livello di espressione della trascrizione di abbondanza bassa (< trascrizione 1.000 totali in 50 ng di RNA totale) è altamente riproducibile tra repliche (punto dati n = 300, Figura 3). Convalida di ddPCR (sei geni selezionati di grado variabile dell’espressione) ha dimostrato che il livello di espressione dei geni era stato catturato correttamente dal protocollo ECS senza la necessità di normalizzazione. Figura 3: Top, correlazione di trascrizione conta di ECS-RNA tra repliche dello stesso campione (n = 300). Fondo, trascrizione identificati da ECS i conteggi sono stati verificati da ddPCR (n = 6). Clicca qui per visualizzare una versione più grande di questa figura.

Discussion

Qui, dimostriamo una suite di protocolli di sequenziamento di correzione d’errore che possono essere facilmente implementati per studiare le mutazioni con VAFs basso in diverse malattie. Il fattore più importante è l’incorporazione di UNMIS con ogni molecola prima di sequenziamento che permettono la correzione degli errori del crudi si legge. I metodi descritti qui permettono ai ricercatori di incorporare UNMIS personalizzato pannelli disponibili in commercio gene sia auto-progettato i oligos gene-specifico.

Protocollo standard di NGS esclude la rilevazione di mutazioni con VAF inferiore al 2% a causa del tasso di errore di sequenziamento, e questo limita l’applicazione di NGS in studi in cui il rilevamento di varianti rare è cruciale. Aggirando il tasso di errore standard di NGS, ECS consente un rilevamento sensibile di queste varianti crude. Per esempio, rilevazione di mutazioni patogene quando queste mutazioni derivano in primo luogo (quindi avendo basso VAF) è assolutamente necessario informare l’intervento precoce della malattia14,15. Nella ricerca di leucemia, la rilevazione di residua minima malattia (le cellule leucemiche residue post-trattamento) informa la stratificazione del rischio e potrebbero essere utilizzata per informare le opzioni di trattamento in modo che le valutazioni di cytometric di flusso binario non possono. Inoltre, ECS è applicabile per rilevare circolanti dell’acido nucleico del tumore e di valutare il potenziale metastatico in pazienti di tumore solido da valutare per la presenza/assenza, come pure l’onere di variante di determinate mutazioni che sono caratteristiche del primario tumore16.

Come dimostrato nella tabella 1, il potere di usare il modello di errore di posizione-specifiche basate su distribuzione binomiale per chiamare varianti dipende in gran parte il numero di librerie in sequenza così come la profondità del sequenziamento utilizzato per compilare il modello di errore. La robustezza del modello errore aumenta con il più alto numero di campioni e una maggiore profondità di sequenziamento. È consigliabile utilizzare almeno 10 campioni in sequenza con una media di correzione d’errore lettura copertura di 3000 x per campione per costruire un profilo di errore per ogni campione. L’approccio di posizione-specifiche è simile a Mastrapasqua, ma invece di utilizzare un tasso di errore di aggregazione per tutte le tipologie diverse di sostituzione (A > C/T > G, A > G/T > C, A > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)13, abbiamo il modello ogni sostituzione indipendentemente in ogni posizione. Per esempio, un tasso di errore di C > T in una determinata posizione genomica è diversa da un’altra posizione. Il nostro approccio inoltre prende in considerazione un effetto di batch di sequenziamento, come il tasso di sostituzione bassa osservato in una sequenza esecuzione potrebbe essere diverso da un altro giro. Quindi è importante per ogni posizione per tutti i tipi di sostituzione di modello, soprattutto quando campioni da sequenziamento diverse esecuzioni sono riuniti per creare il modello.

Una considerazione importante quando si progetta un esperimento ECS è la soglia di rilevamento desiderato. La bellezza di studi NGS è che può essere facilmente scalate in termini di obiettivi/geni di interesse, soglia di rilevamento (dettata dalla profondità del sequenziamento) e numero di individui interrogati. Ad esempio, se i ricercatori sono interessati a trovare rare mutazioni in due ampliconi con una soglia di rilevamento di 0,0001, essi possono piscina al massimo 75 campioni in un singolo sequenziamento eseguito utilizzando chimica MiSeq V2 che uscite fino a 15 milioni di letture (2 ampliconi * 10.000 molecole * 10 legge per correzione di errore * 75 campioni = 15 milioni sequenziamento letture). I ricercatori possono variare il numero di molecole andando in sequenza o il numero di campioni riuniti in un singolo ordinamento eseguire per regolare la soglia di rilevamento. Nei nostri studi, abbiamo mirato a trovare le mutazioni con una soglia di rilevamento di 0,0001 VAF (01:10, 000) utilizzando il pannello di gene Illumina. Utilizziamo abitualmente 250 ng di a partire del DNA per garantire che le molecole sufficienti sono acquisiti al fine di raggiungere la soglia di rilevamento di cui sopra. I ricercatori possono scegliere di iniziare con bassa quantità di DNA (50 ng è consigliato) se il limite di rilevamento desiderato è > 0.001 VAF.

Come l’UNMIS vengono aggiunti gli indici di i5, sequenziamento impostazioni devono essere modificato di conseguenza. Ad esempio, abbiamo usato 16 N UNMIS, e le impostazioni di sequenziamento sono stati accoppiati fine 2 x 144 letture, 8 cicli di indice 1 e 16 cicli di indice 2 anziché gli usuali 8 cicli di indice 2. L’aumento nel ciclo di indice 2 è compensato da una diminuzione del numero totale di cicli allocata per la legge. Se i ricercatori optano per utilizzare 12N UNMIS10,17, le impostazioni devono essere modificate per 12 cicli di indice 2.

Questo metodo di sequenziamento UMI è ottimizzato per correggere errori di sequenziamento. Rimane non ottimale nel trattare con jackpotting PCR, che è un problema per tutti i metodo basato sull’amplificazione. Abbiamo effettuato turni di post- sequenziamento e post-bioinformatica convalida utilizzando ddPCR, e abbiamo appena rilevare eventuali falsi positivi a causa di jackpotting PCR. Ciò nonostante, si raccomanda che i ricercatori conducono gli esperimenti usando polimerasi ad alta fedeltà per evitare errori di amplificazione basso.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Ringraziamo i partecipanti allo studio dei bambini AAML1531 del gruppo di oncologia e studio della salute degli infermieri per i loro contributi sotto forma di campioni dei pazienti. Questo lavoro è stato finanziato dal National Institutes of Health (UM1 CA186107, CA49449 RO1 e RO1 CA149445), Discovery Institute di Washington University dei bambini e St. Louis Children Hospital (MC-II-2015-461) ed Eli Seth Matthews leucemia Foundation.

Materials

Q5 High Fidelity Hot Start Master Mix New England BioLabs M0492S
Agencourt AMPure XP Beckman Coulter A63880
Qubit dsDNA HS Assay Kit Thermo Fisher Scientific Q32854
SYBR Safe DNA Gel Stain Thermo Fisher Scientific S33102
Truseq Custom Amplicon Index Kit Illumina FC-130-1003
UMI i5 adapter sequences Integrated DNA Technologies
NEBNext Ultra End Repair/dA-Tailing Module New England BioLabs E7442S
NEBNext Ultra II Ligation Module New England BioLabs E7595S
QX200 ddPCR EvaGreen Supermix Bio-Rad 1864034
QX200 Droplet Generation Oil for EvaGreen Bio-Rad 1864005
QX200 Droplet Digital PCR System Bio-Rad 1864001
ddPCR 96-Well Plates Bio-Rad 12001925
DG8 Cartridges for QX200/QX100 Droplet Generator Bio-Rad 1864008
DG8 Gaskets for QX200/QX100 Droplet Generator Bio-Rad 1863009
Bioanalyzer Agilent Genomics G2939BA
TapeStation Agilent Genomics G2991AA
TruSight Myeloid Sequencing Panel Illumina FC-130-1010
Bowtie 2 Johns Hopkins University
Customized QIAseq Targeted RNA Panel Qiagen
Rneasy Plus Mini Kit (50) Qiagen 74134

References

  1. Hoang, M. L., et al. Genome-wide quantification of rare somatic mutations in normal tissues using massively parallel sequencing. Proceedings of the National Academy of Sciences USA. 113, 9846-9851 (2016).
  2. O’Roak, B. J., et al. Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations. Nature. 485, 246-250 (2012).
  3. Young, A. L., et al. Quantifying ultra-rare pre-leukemic clones via targeted error-corrected sequencing. Leukemia. 29 (7), 1608-1611 (2015).
  4. Young, A. L., Challen, G. A., Birmann, B. M., Druley, T. E. Clonal hematopoiesis harbouring AML-associated mutations is ubiquitous in healthy adults. NatureCommunications. 7, 12484 (2016).
  5. Patel, J. P., et al. Prognostic relevance of integrated genetic profiling in acute myeloid leukemia. New England Journal of Medicine. 366, 1079-1089 (2012).
  6. Shendure, J., Ji, H. Next-generation DNA sequencing. Nature Biotechnology. 26 (10), 1135-1145 (2008).
  7. Kohlmann, A., et al. Monitoring of residual disease by next-generation deep-sequencing of RUNX1 mutations can identify acute myeloid leukemia patients with resistant disease. Leukemia. 28, 129-137 (2014).
  8. Luthra, R., et al. Next-generation sequencing-based multigene mutational screening for acute myeloid leukemia using MiSeq: applicability for diagnostics and disease monitoring. Haematologica. 99, 465-473 (2014).
  9. Kinde, I., Wu, J., Papadopoulos, N., Kinzler, K. W., Vogelstein, B. Detection and quantification of rare mutations with massively parallel sequencing. Proceedings of the National Academy of Sciences USA. 108 (23), 9530-9535 (2011).
  10. Schmitt, M., et al. Detection of ultra-rare mutations by next-generation sequencing. Proceedings of the National Academy of Sciences USA. 109 (36), 14508-14513 (2012).
  11. Vander Heiden, J. A., et al. pRESTO: a toolkit for processing high-throughput sequencing raw reads of lymphocyte receptor repertoires. Bioinformatics. 30 (13), 1930-1932 (2014).
  12. Newman, A. M., et al. Integrated digital error suppression for improved detection of circulating tumor DNA. NatureBiotechnology. 34, 547-555 (2016).
  13. Shugay, M., et al. MAGERI: Computational pipeline for molecular-barcoded targeted resequencing. PLOSComputationalBiology. 13 (5), e1005480 (2017).
  14. Wong, T. N., et al. Role of TP53 mutations in the origin and evolution of therapy-related acute myeloid leukaemia. Nature. 518, 552-555 (2014).
  15. Krimmel, J. D., et al. Ultra-deep sequencing detects ovarian cancer cells in peritoneal fluid and reveals somatic TP53 mutations in noncancerous tissues. Proceedings of the National Academy of Sciences USA. 113 (21), 6005-6010 (2016).
  16. Phallen, J., et al. Direct detection of early-stage cancers using circulating tumor DNA. ScienceTranslationalMedicine. 9, eaan2415 (2017).
  17. Egorov, E. S., et al. Quantitative profiling of immune repertoires for minor lymphocyte counts using unique molecular identifiers. The Journal of Immunology. 194 (12), 6155-6163 (2015).

Play Video

Cite This Article
Wong, W. H., Tong, R. S., Young, A. L., Druley, T. E. Rare Event Detection Using Error-corrected DNA and RNA Sequencing. J. Vis. Exp. (138), e57509, doi:10.3791/57509 (2018).

View Video