Sequenziamento di nuova generazione (NGS) è un potente strumento per la caratterizzazione genomica che è limitato per l’alto tasso di errore della piattaforma (~0.5–2.0%). Descriviamo i nostri metodi di sequenziamento di correzione d’errore che ci permettono di ovviare il tasso di errore NGS e rilevare le mutazioni alle frazioni di variante allele rare come 0,0001.
Tecniche di sequenziamento di nuova generazione convenzionale (NGS) hanno permesso per la caratterizzazione genomica immenso per oltre un decennio. In particolare, NGS è stato utilizzato per analizzare lo spettro delle mutazioni clonali nella malignità. Anche se molto più efficiente rispetto ai metodi tradizionali Sanger, NGS lotte con l’identificazione di mutazioni rare clonale e subclonal a causa del suo alto tasso di errore pari al ~0.5–2.0%. Così, NGS standard ha un limite di rilevazione per le mutazioni che sono > 0.02 frazione allele variante (VAF). Mentre il significato clinico per le mutazioni di questo raro in pazienti senza malattia conosciuta rimane poco chiara, i pazienti trattati per leucemia hanno migliorato significativamente i risultati quando malattia residua è < 0,0001 tramite flusso cytometry. Per mitigare questo sfondo artefactual di NGS, sono stati sviluppati numerosi metodi. Qui descriviamo un metodo per la correzione d'errore del DNA e RNA Sequencing (ECS), che coinvolge tagging singole molecole con un indice casuale di 16 bp per correzione di errore sia un indice di paziente-specific bp 8 per multiplexing. Il nostro metodo è in grado di rilevare e monitorare clonale mutazioni all'allele variante frazioni (VAFs) due ordini di grandezza inferiore rispetto al limite di rilevazione di NGS e rari come 0,0001 VAF.
Come abbiamo età, esposizione a sostanze mutagene e stocastici errori durante la divisione cellulare risultato nell’accumulazione delle aberrazioni somatiche nel genoma e questo è alla base della patogenesi fondamentale di trasformazione maligna, malattie neuro-inerente allo sviluppo, pediatriche disordini e invecchiamento normale1,2. Mutazioni somatiche con potenziale di malattia-guida sono importanti biomarkers diagnostici e prognostici per la diagnosi precoce e rischio gestione3,4,5. Per capire meglio clonogenesis fisiologico, che informerà clinica e di ricerca decisioni, accurata quantificazione e caratterizzazione di queste mutazioni è di primaria importanza. Sequenziamento di nuova generazione (NGS) attualmente è usato per studiare mutazioni clonali in campioni di DNA eterogenee; Tuttavia, è limitata all’identificazione di mutazioni a NGS > 0.02 frazione allele variante (VAF) — a causa del tasso di errore inerente di 0,5 – 2,0% del sequenziamento piattaforme6,7,8. Di conseguenza, monitoraggio diagnostico e prognosticamente significative varianti somatiche a VAF inferiore non possono essere realizzati utilizzando standard NGS.
Recentemente, i vari metodi sono stati sviluppati al fine di eludere il tasso di errore di NGS8,9,10,11. Questi metodi utilizzano molecolare tagging, che permette la correzione di errore dopo la sequenziazione. Ogni molecola o frammento genomic nella libreria di sequenziamento è etichettata con una casuale univoco molecolare identificatore (UMI) che è specifico per quella molecola. L’UNMIS sono costruiti da permutazioni di una stringa di nucleotidi randomizzate (N 8 – 16). Un secondo campione specifico codice a barre è anche integrato nel workflow che consente di multiplexing campioni multipli nel sequenziamento NGS stesso eseguito. L’amplificazione di PCR viene eseguita sulla libreria molecolarmente taggata, e successivamente la libreria viene inviata per il sequenziamento. Durante la preparazione della biblioteca, si prevede che gli errori saranno casualmente introdotto al frammento genomico durante l’amplificazione di PCR e sequenziamento8. Per rimuovere gli errori di sequenziamento casuale, sequenziamento crudo letture sono raggruppate secondo l’UMI. Artefatti da sequenziamento non dovranno essere presenti in tutte le letture con l’UMI stesso nella stessa posizione genomica a causa della natura stocastica di introduzione, considerando che una vera variante verrà essere fedelmente amplificata ed ordinata in tutte le letture che condividono la stessa UMI. I manufatti sono bioinformatically rimosso. Qui, descriviamo tre metodi di correzione d’errore Sequencing (ECS) ottimizzati sia in laboratorio per il DNA identificare varianti di singolo nucleotide (SNVs) e piccole inserimento-delezioni (Indels) e per il RNA facilitare la quantificazione dell’espressione genica sotto il Soglia di errore NGS.
Il primo metodo viene descritto un modo per cercare di raro evento somatico utilizzando primers specifici del gene progettato dai ricercatori. Prima della preparazione di libreria, i ricercatori dovrebbero disegnare primers per indirizzare i frammenti di interesse. Abbiamo usato la web-app Primer3 (http://bioinfo.ut.ee/primer3-0.4.0/). Ampliconi di 200 – 250 bp sono ideali per reazione a catena della polimerasi (PCR) come questi, una volta che è stata integrata UNMIS, generare letture di fine accoppiato con 150 bp fine accoppiato letture di sovrapposizione. Le condizioni di progettazione ottimale primer da utilizzare sono: dimensione minima primer = 19; Dimensione ottimale primer = 25; Dimensione massima primer = 30; Minimo Tm = 64 ° C; Ottimale Tm = 70 ° C; Massimo Tm = 74 ° C; Differenza massima Tm = 5 ° C; Minimo contenuto di GC = 45; Massimo contenuto di GC = 80; Numero da restituire = 20; Massimo 3′ fine stabilità = 100.
Nel metodo 2, descriviamo un metodo che unisce il protocollo ECS-DNA con Illumina chimica di indagine per SNVs clonale e piccolo Indels raro come 0,0001 VAF utilizzando pannelli di gene commercialmente disponibili che includono centinaia di ampliconi. Abbiamo usato il TruSight mieloide Sequencing pannello (Illumina) per il nostro esperimento e progettato un pannello espanso per includere ulteriori geni di interesse per le malattie pediatriche mieloide. Questi pannelli non hanno offerto molecolari identificatori univoci (UNMIS) che faciliterebbero la correzione degli errori, così abbiamo aggiunto la nostra strategia di adattatore per questi pannelli. ECS dovrebbe funzionare altrettanto bene con altri pannelli pensati per arricchire per geni associati a malattie diverse. Dopo isolamento del DNA e la successiva quantificazione dal tessuto o il campione di interesse, si raccomanda di avere almeno 500 ng di stock di DNA per esemplare. Facciamo abitualmente una libreria singola sequenza utilizzando 250 ng di DNA al fine di catturare a valle come molto unico frammento genomic da possibili per legge de-duplicazione e calcolo VAF. Una libreria di sequenziamento replica opzionale può essere fatta con i rimanenti 250 ng di DNA. Facciamo sempre due librerie di replicare per campione, e consideriamo solo gli eventi rilevati in modo indipendente in entrambi replicati come veri positivi. Abbiamo anche implementato un modello di genomica errore binomiale di posizione-specifiche per aumentare la precisione della variante chiamata4,13.
Infine, descriviamo un metodo accoppiamento ECS al sequenziamento di RNA per la quantificazione di trascrizione utilizzando pannelli di QIAseq mirati RNA COTS (Qiagen). L’UNMIS necessaria per-duplicazione e correzione di errore sono state integrate nei kit, e i ricercatori possono rendere librerie seguendo le raccomandazioni del produttore. Bioinformatically, i ricercatori possono seguire la pipeline descritta per ECS-DNA, che verrà spiegato in dettaglio nella sezione protocollo.
Qui, dimostriamo una suite di protocolli di sequenziamento di correzione d’errore che possono essere facilmente implementati per studiare le mutazioni con VAFs basso in diverse malattie. Il fattore più importante è l’incorporazione di UNMIS con ogni molecola prima di sequenziamento che permettono la correzione degli errori del crudi si legge. I metodi descritti qui permettono ai ricercatori di incorporare UNMIS personalizzato pannelli disponibili in commercio gene sia auto-progettato i oligos gene-specifico.
Protocollo standard di NGS esclude la rilevazione di mutazioni con VAF inferiore al 2% a causa del tasso di errore di sequenziamento, e questo limita l’applicazione di NGS in studi in cui il rilevamento di varianti rare è cruciale. Aggirando il tasso di errore standard di NGS, ECS consente un rilevamento sensibile di queste varianti crude. Per esempio, rilevazione di mutazioni patogene quando queste mutazioni derivano in primo luogo (quindi avendo basso VAF) è assolutamente necessario informare l’intervento precoce della malattia14,15. Nella ricerca di leucemia, la rilevazione di residua minima malattia (le cellule leucemiche residue post-trattamento) informa la stratificazione del rischio e potrebbero essere utilizzata per informare le opzioni di trattamento in modo che le valutazioni di cytometric di flusso binario non possono. Inoltre, ECS è applicabile per rilevare circolanti dell’acido nucleico del tumore e di valutare il potenziale metastatico in pazienti di tumore solido da valutare per la presenza/assenza, come pure l’onere di variante di determinate mutazioni che sono caratteristiche del primario tumore16.
Come dimostrato nella tabella 1, il potere di usare il modello di errore di posizione-specifiche basate su distribuzione binomiale per chiamare varianti dipende in gran parte il numero di librerie in sequenza così come la profondità del sequenziamento utilizzato per compilare il modello di errore. La robustezza del modello errore aumenta con il più alto numero di campioni e una maggiore profondità di sequenziamento. È consigliabile utilizzare almeno 10 campioni in sequenza con una media di correzione d’errore lettura copertura di 3000 x per campione per costruire un profilo di errore per ogni campione. L’approccio di posizione-specifiche è simile a Mastrapasqua, ma invece di utilizzare un tasso di errore di aggregazione per tutte le tipologie diverse di sostituzione (A > C/T > G, A > G/T > C, A > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)13, abbiamo il modello ogni sostituzione indipendentemente in ogni posizione. Per esempio, un tasso di errore di C > T in una determinata posizione genomica è diversa da un’altra posizione. Il nostro approccio inoltre prende in considerazione un effetto di batch di sequenziamento, come il tasso di sostituzione bassa osservato in una sequenza esecuzione potrebbe essere diverso da un altro giro. Quindi è importante per ogni posizione per tutti i tipi di sostituzione di modello, soprattutto quando campioni da sequenziamento diverse esecuzioni sono riuniti per creare il modello.
Una considerazione importante quando si progetta un esperimento ECS è la soglia di rilevamento desiderato. La bellezza di studi NGS è che può essere facilmente scalate in termini di obiettivi/geni di interesse, soglia di rilevamento (dettata dalla profondità del sequenziamento) e numero di individui interrogati. Ad esempio, se i ricercatori sono interessati a trovare rare mutazioni in due ampliconi con una soglia di rilevamento di 0,0001, essi possono piscina al massimo 75 campioni in un singolo sequenziamento eseguito utilizzando chimica MiSeq V2 che uscite fino a 15 milioni di letture (2 ampliconi * 10.000 molecole * 10 legge per correzione di errore * 75 campioni = 15 milioni sequenziamento letture). I ricercatori possono variare il numero di molecole andando in sequenza o il numero di campioni riuniti in un singolo ordinamento eseguire per regolare la soglia di rilevamento. Nei nostri studi, abbiamo mirato a trovare le mutazioni con una soglia di rilevamento di 0,0001 VAF (01:10, 000) utilizzando il pannello di gene Illumina. Utilizziamo abitualmente 250 ng di a partire del DNA per garantire che le molecole sufficienti sono acquisiti al fine di raggiungere la soglia di rilevamento di cui sopra. I ricercatori possono scegliere di iniziare con bassa quantità di DNA (50 ng è consigliato) se il limite di rilevamento desiderato è > 0.001 VAF.
Come l’UNMIS vengono aggiunti gli indici di i5, sequenziamento impostazioni devono essere modificato di conseguenza. Ad esempio, abbiamo usato 16 N UNMIS, e le impostazioni di sequenziamento sono stati accoppiati fine 2 x 144 letture, 8 cicli di indice 1 e 16 cicli di indice 2 anziché gli usuali 8 cicli di indice 2. L’aumento nel ciclo di indice 2 è compensato da una diminuzione del numero totale di cicli allocata per la legge. Se i ricercatori optano per utilizzare 12N UNMIS10,17, le impostazioni devono essere modificate per 12 cicli di indice 2.
Questo metodo di sequenziamento UMI è ottimizzato per correggere errori di sequenziamento. Rimane non ottimale nel trattare con jackpotting PCR, che è un problema per tutti i metodo basato sull’amplificazione. Abbiamo effettuato turni di post- sequenziamento e post-bioinformatica convalida utilizzando ddPCR, e abbiamo appena rilevare eventuali falsi positivi a causa di jackpotting PCR. Ciò nonostante, si raccomanda che i ricercatori conducono gli esperimenti usando polimerasi ad alta fedeltà per evitare errori di amplificazione basso.
The authors have nothing to disclose.
Ringraziamo i partecipanti allo studio dei bambini AAML1531 del gruppo di oncologia e studio della salute degli infermieri per i loro contributi sotto forma di campioni dei pazienti. Questo lavoro è stato finanziato dal National Institutes of Health (UM1 CA186107, CA49449 RO1 e RO1 CA149445), Discovery Institute di Washington University dei bambini e St. Louis Children Hospital (MC-II-2015-461) ed Eli Seth Matthews leucemia Foundation.
Q5 High Fidelity Hot Start Master Mix | New England BioLabs | M0492S | |
Agencourt AMPure XP | Beckman Coulter | A63880 | |
Qubit dsDNA HS Assay Kit | Thermo Fisher Scientific | Q32854 | |
SYBR Safe DNA Gel Stain | Thermo Fisher Scientific | S33102 | |
Truseq Custom Amplicon Index Kit | Illumina | FC-130-1003 | |
UMI i5 adapter sequences | Integrated DNA Technologies | – | |
NEBNext Ultra End Repair/dA-Tailing Module | New England BioLabs | E7442S | |
NEBNext Ultra II Ligation Module | New England BioLabs | E7595S | |
QX200 ddPCR EvaGreen Supermix | Bio-Rad | 1864034 | |
QX200 Droplet Generation Oil for EvaGreen | Bio-Rad | 1864005 | |
QX200 Droplet Digital PCR System | Bio-Rad | 1864001 | |
ddPCR 96-Well Plates | Bio-Rad | 12001925 | |
DG8 Cartridges for QX200/QX100 Droplet Generator | Bio-Rad | 1864008 | |
DG8 Gaskets for QX200/QX100 Droplet Generator | Bio-Rad | 1863009 | |
Bioanalyzer | Agilent Genomics | G2939BA | |
TapeStation | Agilent Genomics | G2991AA | |
TruSight Myeloid Sequencing Panel | Illumina | FC-130-1010 | |
Bowtie 2 | Johns Hopkins University | – | |
Customized QIAseq Targeted RNA Panel | Qiagen | – | |
Rneasy Plus Mini Kit (50) | Qiagen | 74134 |