This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
Questo flusso di lavoro consente ai ricercatori novizi di sfruttare risorse avanzate di calcolo come il cloud computing per eseguire trascrizioni comparative parallele. Serve anche come primer per i biologi per sviluppare competenze informatiche di dati scientifici, ad esempio eseguendo comandi bash, visualizzazione e gestione di grandi set di dati. Tutti i codici di riga di comando e ulteriori spiegazioni di ciascun comando o passaggio possono essere trovati nella wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Le piattaforme Discovery Environment e Atmosphere sono collegate insieme tramite CyVerse Data Store. In quanto tale, una volta caricati i dati iniziali di sequenziamento non è più necessario trasferire file di dati di grandi dimensioni su una connessione a Internet, riducendo al minimo il tempo necessario per condurre analisi. Questo protocollo è progettato per analizzare solo due trattamenti sperimentali o condizioni. L'analisi differenziale di espressione genica è condotta in thrO confronti a coppia e non sarà adatto per testare più fattori. Questo flusso di lavoro è anche progettato per essere manuale piuttosto che automatizzato. Ogni passo deve essere eseguito e indagato dall'utente, fornendo una migliore comprensione dei dati e delle uscite analitiche e quindi migliori risultati per l'utente. Una volta completata, questo protocollo produrrà de novo transcriptomi assemblati per organismi non dimostrati (senza modello) senza la necessità di mappare i genomi di riferimento precedentemente assemblati (che di solito non sono disponibili in organismi non utilizzati). Questi de novo transcriptomi sono ulteriormente usati in analisi espressione differenziale a coppia in coppia per indagare i geni che differiscono tra due condizioni sperimentali. I geni espressi in modo differenziato vengono quindi annotati funzionalmente per comprendere che gli organismi di risposta genetica devono trovarsi in condizioni sperimentali. In totale, i dati derivanti da questo protocollo vengono utilizzati per testare ipotesi sulle risposte biologiche degli organismi sottoperti.
Homo sapiens e diverse specie animali come Drosophila melanogaster , mus musculus e Danio rerio rappresentano la maggior parte del lavoro genomico funzionale e attuale. Tuttavia, il costo in rapida diminuzione della tecnologia di sequenziamento ad alto rendimento offre opportunità per la genomica funzionale in specie animali non modellate (a volte "trascurate" o "non servite") 1 . Si tratta di una transizione importante nella genomica, in quanto gli organismi non-modelli rappresentano spesso rappresentativi di specie economicamente rilevanti ( es. Ostriche, gamberetti e granchi) e offrono opportunità per indagare nuovi fenotipi e sistemi biologici al di fuori di quelli che si trovano nelle specie di modello.
Sebbene gli organismi sottoelencati presentino un'attrattiva opportunità per indagare sistemi biologici unici, molteplici sfide affrontano i ricercatori soprattutto durante l'analisi bioinformatica. Alcuni deiSe le sfide sono innatili per l'elaborazione di grandi set di dati, mentre altri derivano dalla mancanza di risorse genetiche a disposizione dei ricercatori che lavorano in organismi sottoelencati come un genoma di riferimento, organismi specifiche ontologie, ecc. Le sfide dell'isolamento e del sequenziamento dell'acido nucleico sono spesso in routine Confronto con quelli dell'analisi dei dati e come tali analisi bioinformatiche si dimostrano generalmente il costo più sottovalutato dei progetti di sequenziamento 2 . Ad esempio, un'analisi base di bioinformatica di sequenziamento di nuova generazione potrebbe consistere nelle seguenti fasi: filtraggio e taglio di qualità di letture di sequenze crude, assemblaggio di brevi letture in più grandi parti contigue, annotazioni e / o confronti con altri sistemi per ottenere una comprensione biologica. Anche se apparentemente semplice, questo flusso di lavoro di esempio richiede conoscenze specialistiche e risorse di calcolo al di là di un computer di laboratorio, mettendolo fuori dalla portata di molti scienziati che studiano non-Organismi del modello.
Le sfide innate possono essere infrastrutture o basate sulla conoscenza. Una sfida classica dell'infrastruttura è l'accesso a risorse informatiche adeguate. Ad esempio, l'assemblaggio e l'annotazione si basano su algoritmi computazionali che richiedono computer o cluster di computer potenti, con grande quantità di RAM (256 GB-1 TB) e diversi processori / core da eseguire. Purtroppo, molti ricercatori non hanno accesso a tali risorse di calcolo né dispongono delle conoscenze necessarie per interagire con questi sistemi. Altri ricercatori potrebbero avere accesso a cluster di calcolo ad alte prestazioni attraverso le loro università o istituzioni, ma l'accesso a queste risorse potrebbe essere limitato e talvolta si verifica un costo per ora di calcolo, vale a dire il numero di processori di CPU moltiplicati per il numero di orologio in tempo reale Ore "che questi processori sono in esecuzione. Sfruttamento di un sistema di cyberinfrastructure finanziato dalla US National Science FoundationIn quanto CyVerse 3 che fornisce l'accesso libero alle risorse di calcolo per i ricercatori, negli Stati Uniti e in tutto il mondo, può contribuire ad alleviare le sfide infrastrutturali, come verrà dimostrato qui.
Un esempio di una tipica sfida basata sulla conoscenza è comprendere il software necessario per analisi complete. Per condurre in modo efficace un progetto basato su sequenziamento, i ricercatori devono conoscere la miriade di strumenti software sviluppati per analisi bioinformatiche. Imparare ogni pacchetto è di per sé difficile, ma è esacerbato dal fatto che i pacchetti vengono costantemente aggiornati, riesaminati, messi in nuovi flussi di lavoro e, talvolta, diventati restrittivi per essere utilizzati in nuove licenze. Inoltre, collegare gli ingressi e le uscite di questi strumenti a volte richiede la trasformazione di tipi di dati per renderli compatibili, aggiungendo un altro strumento al flusso di lavoro. Infine, è anche difficile sapere quale pacchetto software è 'thE meglio per un'analisi e spesso identificare il miglior software per determinate condizioni sperimentali è una questione di sottili differenze. In alcuni casi, sono disponibili revisioni utili del software, ma a causa del continuo rilascio di nuovi aggiornamenti e opzioni software, questi rapidamente vanno fuori data.
Per i ricercatori che indagano sugli organismi sottomessi, queste sfide innate entrano in aggiunta alle sfide associate all'analisi dei dati in un nuovo organismo. Queste sfide specifiche per l'organizzazione non sono meglio illustrate durante l'annotazione genica. Ad esempio, gli organismi sottomessi spesso non hanno un organismo modello strettamente correlato che possa essere ragionevolmente usato per identificare l'ortologia e la funzione genetica ( ad es. Invertebrati marini e Drosophila ). Molti strumenti bioinformati richiedono anche "formazione" per identificare motivi strutturali, che possono essere utilizzati per identificare la funzione genica. Tuttavia, i dati formativi sono solitamente disponibili solo per il modEl organismi e la formazione dei modelli nascosti di Markov (HMMs) è al di fuori della competenza di biologi e persino di molti bioinformaticiani. Infine, anche se le annotazioni possono essere eseguite usando dati provenienti dagli organismi modello, alcune ontologie gene associate agli organismi del modello non hanno senso quando si considera la biologia e la storia naturale dell'organismo sottoelencato ( ad esempio , trasferire le informazioni da Drosophila a gamberi).
Alla luce di queste sfide, è necessario sviluppare risorse bioinformatiche con i ricercatori che effettuano analisi de novo su specifici organismi specializzati. I prossimi anni di progetti di sequenziamento delle funzionalità genomiche contribuiranno a chiudere il divario tra modelli e organismi insufficienti ( https://genome10k.soe.ucsc.edu/ ), ma ci sono molti strumenti che dovranno essere sviluppati per affrontare le sfide Considerato sopra. CyVerse è dedicato alla creazione di ecosistemi di iNteroperability collegando la cyberinfrastructure esistente e le applicazioni di terze parti per fornire la gestione dei dati, strumenti di analisi bioinformatica e visualizzazioni dei dati agli scienziati di vita. L'interoperabilità aiuta a lisciare le transizioni tra applicazioni bioinformatiche e piattaforme fornendo risorse di calcolo scalabili e limitando le conversioni del formato di file e la quantità di dati trasferiti tra le piattaforme. CyVerse offre diverse piattaforme, tra cui l'ambiente Discovery (DE 4 , Atmosphere 5 e Data Store 3. Il DE è basato sul web e dispone di molti comuni strumenti analitici per la bioinformatica che vengono convertiti in formati di punta e clic ("apps" ") E rappresenta l'interfaccia grafica (GUI) grafica per il Data Store in cui vengono memorizzati e gestiti i dati di grandi dimensioni ( cioè letture di sequenze e genomi assemblati). Atmosphere è un servizio di cloud computing che offre ai ricercatori maggiore flessibilitàUtilizzando risorse computerizzate di Virtual Machine, che dispongono di una vasta gamma di strumenti bioinformatici preinstallati. Entrambe queste piattaforme sono collegate all'archivio dati e possono essere utilizzate insieme per creare flussi di lavoro come quelli qui descritti. Questo rapporto si concentra su un gruppo di transcriptomi de novo e flussi di lavoro di analisi differenziali di espressione genica e si occupa inoltre di alcune pratiche migliori associate allo sviluppo e alla conduzione di analisi bioinformatiche. Una spiegazione della più ampia missione di CyVerse ( http://www.cyverse.org/about ) e delle descrizioni dettagliate delle piattaforme ( http://www.cyverse.org/learning-center ) sono pubblicamente disponibili. Tutte le analisi qui descritte utilizzano Discovery Environment 4 (DE) e Atmosphere 5 e vengono presentati in modo da renderli accessibili ai ricercatori di tutti i livelli computazionali. DE flussi di lavoro e AtmosfLe immagini possono essere citate direttamente utilizzando gli URL per garantire la provenienza, la riutilizzabilità e la riproducibilità a lungo termine.
Ci sono cinque passi critici nel protocollo che ciascuno creerà una propria cartella separata all'interno della cartella principale del progetto ( figure 1 e 2 ). Tutti i dati primari di sequenziamento sono sacrosanto: devono essere caricati e conservati nella prima cartella denominata "1_Raw_Sequence" e non modificati in alcun modo. I dati possono essere caricati in uno dei tre modi. L'interfaccia DE può essere utilizzata per caricare i file direttamente. Questo è il modo più semplice per caricare i dati, ma richiederà anche il più lungo trasferimento. Cyberduck dispone di un'interfaccia grafica e consente agli utenti di trascinare e rilasciare i file per trasferire alla DE. ICommands è uno strumento di riga di comando che può essere utilizzato per trasferire i dati da e verso l'archivio dati, creare directory e gestire i set di dati, ed è probabilmente il modo più veloce per trasferire i file di dati. Tutti i dati nell'archivio dati possono essere condivisi con altri utenti CyVerse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment), pubblicato attraverso un URL generato (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links) o può essere ospitato in modo pubblico e anonimo ( Nessun nome utente richiesto) dati comunitari disponibili (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). All'interno di questa cartella, le sequenze di sequenze grezze vengono analizzate con FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) per valutare come tagliare e filtrare le letture per generare letture di alta qualità. Dopo il taglio e la filtrazione di qualità è utile confrontare le uscite di FastQC per determinare se la qualità di lettura è cambiata per determinare che è migliorata senza perdere le informazioni ( Figura 3 ). Si noti che l'asse x di FastQC non è lineare, ma è binned per molti grafici di output, che può portare a errori interpretativi dei risultati. Le letture tagliate e filtrate vengono quindi utilizzate per assemblare transcriptomi de novo utilizzando un'istanza di cloud computing Atmosphere. QuestoIl computer cloud utilizza lo schermo del computer locale, la tastiera e il mouse, ma ha un proprio software (Trinity e Trinotate) e l'hardware installato. I programmi in esecuzione sull'istanza del computer cloud non influenzano in alcun modo il computer locale. L' assemblaggio De novo e l'annotazione a valle probabilmente saranno i due passi più lunghi di esecuzione in questo flusso di lavoro. Pertanto, sono completati in Atmosphere per evitare problemi comuni di computer condivisi da laboratorio che interromperebbero l'analisi come interruzioni di corrente, riavvia dopo aggiornamenti automatici tardivi o crash causati da altri utenti. L'annotazione Trinotate utilizza BLAST + 8 , HMMER 9 , tmHMM 10 e PFAM 11 . L'output finale di annotazione è un database SQLite e un file .xls. Le uscite possono essere usate al di fuori di CyVerse nelle piattaforme di analisi a valle come KEGG 12 , 13 .
Questo flusso di lavoroÈ pronto per essere utilizzato in DE e Atmosphere. Ciò elimina la necessità di passare il tempo di installazione, configurazione e risoluzione dei problemi di ogni pacchetto di analisi e di tutte le dipendenze che ogni strumento richiede. Ciò semplifica le analisi dei ricercatori, minimizza lo sforzo sprecato e riduce la barriera di ingresso per molti scienziati. Questo flusso di lavoro crea in modo specifico le letture singole o parziali della piattaforma di sequenza Illumina, ma in DE e Atmosphere esistono molti strumenti per gestire altri tipi di tecnologie di sequenza. Gli strumenti di questo flusso di lavoro possono essere facilmente sostituiti con un corrispondente strumento alternativo per gestire qualsiasi tipo di tecnologia di sequenza in arrivo. Ciò vale anche per nuove versioni di strumenti di analisi o strumenti completamente nuovi.
Questo flusso di lavoro è specificamente progettato per assemblare, confrontare e annotare solo pochi transcriptomi alla volta. Pertanto, gli utenti possono trovare tempo a raccogliere più transcriptomi per la genetica della popolazione comparata. AnalisiLe condutture saranno disponibili per gli utenti di genetica della popolazione nel prossimo futuro e il collegamento alla pipeline può essere trovato nella pagina wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). L'analisi differenziale di espressione genica può gestire repliche, ma è un confronto a coppia e non valuta accuratamente più fattori ( ad esempio , condizioni che variano nel tempo, più di due trattamenti). Flussi di lavoro automatizzati esistono per organismi con genomi di riferimento ( es . TRAPLINE 14 ). Mentre i flussi di lavoro automatizzati sono i più facili da utilizzare per i novizi, i nuovi assembly richiedono una valutazione e una considerazione per ogni passo qui descritto. Inoltre, gli utenti sono tenuti a utilizzare le condutture automatiche in quanto sono costruite e pertanto non sono intrinsecamente flessibili per soddisfare le mutevoli esigenze degli utenti.
Poiché la maggior parte di questo protocollo viene eseguito su Internet, gli utenti possono verificarsi problemi con le impostazioni del browser. In primo luogo,I bloccanti pop-up potrebbero impedire all'apertura delle finestre o potrebbero impedire l'apertura delle finestre finché l'autorizzazione non viene concessa a CyVerse nel browser. Atmosfera utilizza VNC per accedere a computer remoti, ma può essere utilizzato altri software. Questo intero protocollo è stato eseguito in versione Firefox 45.0.2 e dovrebbe funzionare con tutti i browser Internet più noti, ma potrebbero apparire alcune incongruenze. Il flusso di lavoro verrà aggiornato quando Trinity rilascia nuove versioni (https://github.com/trinityrnaseq/trinityrnaseq/wiki). Le versioni più recenti e le informazioni aggiornate sul flusso di lavoro si trovano nella pagina del tutorial della wiki ( tabella 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Gli utenti possono contattare direttamente il supporto o inviare domande a Ask CyVerse (ask.cyverse.org/) per risolvere eventuali problemi con il flusso di lavoro.
Nelle DE esistono diverse applicazioni per eseguire ogni passaggio di questo protocollo. Ad esempio, gli utenti potrebbero desiderare di eseguire Scythe (https://github.com/najoshi/sickle) invece di Trimmomatic15 per la lettura del taglio o l'esecuzione di EdgeR 16 invece di DESeq 17 , 18 . Anche se al di fuori del campo di applicazione di questo manoscritto, le applicazioni DE possono essere copiate, modificate e rilasciate dagli utenti (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) o nuove applicazioni possono essere aggiunte dagli utenti (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). Le immagini di Atmosphere possono anche essere modificate e reimagate per creare flussi di lavoro nuovi o modificati che soddisfino meglio le esigenze degli utenti (https://wiki.cyverse.org/wiki/x/TwHX). Questo lavoro serve come un'introduzione all'utilizzo della riga di comando per spostare dati e eseguire analisi. Gli utenti possono considerare l'utilizzo di risorse avanzate di riga di comando come le interfacce di programmazione delle applicazioni (API) di CyVerse (http://www.cyverse.org/science-apis) o la progettazione di proprie applicazioni DE che richiedono conoscenzeSu come viene eseguito lo strumento di analisi nella riga di comando (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |