Lo scopo del presente protocollo è quello di utilizzare una combinazione di computazionale e panca ricerca per trovare nuove sequenze che non possono essere facilmente separate da una sequenza co-purificante, che può essere conosciuta solo parzialmente.
Sottrattiva genomica può essere utilizzato in qualsiasi ricerca dove l’obiettivo è quello di identificare la sequenza di un gene, la proteina o la regione generale che è incorporato in un contesto più ampio di genomico. Genomica sottrattivo consente un ricercatore isolare una sequenza di destinazione di interesse (T) mediante sequenziamento completo e sottrazione di elementi genetici conosciuti (riferimento, R). Il metodo può essere utilizzato per identificare nuove sequenze quali mitocondri, cloroplasti, virus, o germinale limitato di cromosomi ed è particolarmente utile quando T non può essere facilmente isolato da R. cominciando con i dati di genomici completi (R + T), il metodo utilizza base locale allineamento Cerca strumento (BLAST) contro una sequenza di riferimento, o sequenze, per rimuovere le sequenze note corrispondenti (R), lasciando dietro il bersaglio (T). Per la sottrazione funzionare al meglio, R dovrebbe essere una brutta copia relativamente completa che manca T. Dal sequenze restanti dopo sottrazione sono testati attraverso quantitative Polymerase Chain Reaction (qPCR), R non deve necessariamente essere completo per il metodo di lavoro. Qui ci colleghiamo passi computazionali con procedura sperimentale in un ciclo che può essere ripetuto se necessario, in sequenza rimozione più sequenze di riferimento e la rifinitura la ricerca di T. Il vantaggio della genomica sottrattiva è che una sequenza completamente nuovi target può essere identificata anche nei casi in cui la purificazione fisica è difficile, impossibile o costoso. Uno svantaggio del metodo è trovare un riferimento adatto per sottrazione e ottenere T-positivo e negativo di campioni per le prove di qPCR. Descriviamo la nostra implementazione del metodo nell’identificazione del primo gene sul cromosoma germline-limitata di zebra finch. In tal caso filtraggio computazionali coinvolti tre riferimenti (R), rimossi in sequenza su tre cicli: montaggio genomica incompleta, raw dati genomici e dati di trascrittomica.
Lo scopo di questo metodo consiste nell’identificare un’obiettivo novello (T) sequenza genomic, DNA o RNA, da un contesto genomico, o un riferimento (R) (Figura 1). Il metodo è più utile se la destinazione non può essere fisicamente separata, o che sarebbe stato costoso farlo. Solo alcuni organismi hanno perfettamente finito genomi per sottrazione, quindi un’innovazione chiave del nostro metodo è la combinazione di calcolo e metodi di panca in un ciclo che permette ai ricercatori di isolare sequenze bersaglio quando il riferimento è imperfetto, o un progetto genoma da un organismo non-modello. Alla fine di un ciclo, qPCR test viene utilizzato per determinare se è necessario più di sottrazione. Una sequenza di convalidato candidato T mostrerà statisticamente maggiore rilevamento in noti campioni di T-positivi di qPCR.
Incarnazioni del metodo sono state implementate nella scoperta di nuovi bersagli farmacologici batterica che non dispongono di host omologhi1,2,3,4 e identificazione di nuovi virus da host infetti 5,6. Oltre alla identificazione di T, il metodo può migliorare r: recentemente abbiamo utilizzato il metodo per identificare 936 geni mancanti dal genoma di riferimento zebra finch e un nuovo gene da una sola linea germinale del cromosoma (T)7. La genomica sottrattiva è particolarmente preziosa quando T rischia di essere estremamente divergenti da sequenze conosciute o quando l’identità di T è ampiamente definito, come la zebra finch germline-limitata del cromosoma7.
Non richiedendo identificazione positiva di T in anticipo, un vantaggio chiave della genomica sottrattiva è che è imparziale. In uno studio recente, Readhead et al ha esaminato la relazione tra il morbo di Alzheimer e virale abbondanza nelle quattro regioni del cervello. Per identificazione virale, Readhead et al ha creato un database di 515 virus8, limitando gravemente l’agenti virali che poteva identificare i loro studio. Sottrattiva genomica potrebbe sono stati utilizzati per confrontare i sani e genomi di morbo di Alzheimer al fine di isolare possibili nuovi virus associati alla malattia, indipendentemente dalla loro somiglianza con gli agenti infettivi noti. Mentre ci sono 263 noto virus umani-targeting, è stato stimato che circa 1,67 milioni da scoprire specie virale esistono, con 631.000-827.000 di loro che hanno un potenziale di infettare gli esseri umani9.
Isolamento di nuovi virus è un’area in cui sottrattiva genomica è particolarmente efficace, ma alcuni studi potrebbero non essere necessario tale metodo rigoroso. Ad esempio, studi identificazione nuovi virus hanno usato imparziale high throughput sequenziamento, seguita da trascrizione d’inversione e BLASTx per sequenze virali5 o arricchimento degli acidi nucleici virali per estrarre e invertire trascrivono sequenze virali 6. mentre questi studi impiegato sequenziamento de novo e assemblaggio, sottrazione non è stato utilizzato perché le sequenze bersaglio sono stati positivamente identificate attraverso BLAST. Se i virus erano completamente nuovi e non correlati (o lontanamente correlate) ad altri virus, genomica sottrattiva sarebbe stato una tecnica utile. Il vantaggio della genomica sottrattiva è che si possono ottenere sequenze che sono completamente nuove. Se è noto il genoma dell’organismo, possono essere sottratti fuori di lasciare eventuali sequenze virali. Ad esempio, nel nostro studio pubblicato abbiamo isolato una romanzo sequenza virale da zebra finch attraverso sottrattiva genomica, anche se non era nostro intento originale7.
Sottrattiva genomica si è dimostrata utile per l’identificazione di bersagli di vaccino batterico, motivati dall’aumento drammatico nella resistenza agli antibiotici1,2,3,4. Per ridurre al minimo il rischio di reazione autoimmune, ricercatori ha ristretto i potenziali bersagli di vaccino sottraendo qualsiasi proteine che sono omologhi nell’ospite umano. Uno studio particolare, guardando la pseudotuberculosi del corinebatterio, eseguita la sottrazione dei genoma ospite vertebrato da diversi genomi batterici per garantire che gli obiettivi della droga possibile non inciderebbe proteine nei padroni di casa che conduce agli effetti collaterali 1. il flusso di lavoro di base di questi studi è quello di scaricare il proteoma batterico, determinare le proteine vitali, rimuovere le proteine ridondanti, utilizzare BLASTp per isolare le proteine essenziali e BLASTp contro host proteoma per rimuovere eventuali proteine con gli omologhi host 1 , 2 , 3 , 4. In tal caso, genomica sottrattiva assicura che i vaccini sviluppati non avrà alcun effetto fuori bersaglio in host1,2,3,4.
Abbiamo usato sottrattiva genomica per identificare il primo gene di proteina-codificazione su un limitato di germline cromosoma (GRC) (in questo caso, T), che si trova in germlines ma non somatica tessuto di entrambi i sessi10. Prima di questo studio, le informazioni solo genomiche che è state conosciute circa il GRC è stato una regione ripetitiva11. De novo montaggio è stato eseguito su RNA sequenziato dai tessuti dell’ovaia e teste (R + T) da adulti zebra fringuelli. L’eliminazione computazionale delle sequenze è stata eseguita utilizzando pubblicati somatica (muscolo) genome sequence (R1)12, suo crudo (Sanger) leggere dati (R2) e un somatico (cervello) trascrittoma (R3)13. L’uso sequenza di tre riferimenti è stato guidato dalla qPCR test passaggio 5 di ciascun ciclo (Figura 2A), mostrando che altre opzioni di filtro è stato richiesto. Il gene α-SNAP scoperto è stato confermato mediante qPCR da DNA e RNA e clonazione e sequenziamento. Vi mostriamo nel nostro esempio che questo metodo è flessibile: non è dipenda su corrispondenti acidi nucleici (DNA vs RNA) e quello sottrazione può essere eseguita con riferimenti (R) che sono costituiti da assembly o crude letture.
Mentre sottrattiva genomica è potente, non si tratta di un approccio cookie cutter, che richiedono personalizzazione in diversi passaggi chiave e un’attenta selezione di sequenze di riferimento e campioni di prova. Se l’assembly di query è di scarsa qualità, passaggi di filtraggio potrebbe isolare solo artefatti di assemblaggio. Pertanto, è importante convalidare accuratamente l’Assemblea de novo utilizzando un protocollo di convalida appropriata al progetto specifico. Per RNA-seq, linee sono fornite sul sit…
The authors have nothing to disclose.
Gli autori riconoscono Michelle Biederman, Alyssa Pedersen e Colin J. Saldanha per la loro assistenza con il progetto di genomica di zebra finch in varie fasi. Riconosciamo anche Evgeny Bijsk per computing cluster sistema amministrazione e NIH grant 1K22CA184297 (per J.R.B.) e 042767 NS NIH (a C.J.S).
Accustart II Taq DNA Polymerase | Quanta Bio | 95141 | |
Blasic Local Alignment Search Tool (BLAST) | https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment | ||
Bowtie 2 | https://www.python.org/download/releases/2.7/ | ||
BWA-MEM v. 0.7.12 | https://github.com/BenLangmead/bowtie2 | ||
Geneious | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
PEAR v. 0.9.6 | http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html | ||
Personal Computer | Biomatters | http://www.geneious.com/ | |
PowerSYBR qPCR mix | ThermoFisher | 4367659 | |
Python v. 2.7 | https://sco.h-its.org/exelixis/web/software/pear/ | ||
Reptile v.1.1 | https://alurulab.cc.gatech.edu/reptile | ||
Stratagene Mx3005P | Agilent Technologies | 401456 | |
TransDecoder v. 3.0.1 | https://sourceforge.net/projects/bio-bwa/files/ | ||
Trinity v. 2.4.0 | https://github.com/TransDecoder/TransDecoder/wiki |