概要

Analisi trascrittomica di<em> C</em>.<em> elegans</em> RNA Sequencing dati attraverso la suite Tuxedo sul Progetto Galaxy

Published: April 08, 2017
doi:

概要

Galaxy e David sono emersi come strumenti popolari che permettono ai ricercatori senza formazione bioinformatica per analizzare e interpretare i dati di RNA-Seq. Descriviamo un protocollo per la C. elegans ai ricercatori di effettuare RNA-Seq esperimenti, l'accesso ed elaborare il set di dati utilizzando Galaxy e ottenere informazioni biologiche significative dalle liste di geni con David.

Abstract

Next generation sequencing (NGS) tecnologie hanno rivoluzionato la natura della ricerca biologica. Di questi, RNA Sequencing (RNA-Seq) è emersa come un potente strumento per l'analisi di espressione genica e la mappatura del trascrittoma. Tuttavia, la manipolazione serie di dati di RNA-Seq richiede sofisticate competenze computazionali e pone sfide insite per i ricercatori di biologia. Questo collo di bottiglia è stato mitigato dal progetto open access Galaxy che permette agli utenti senza competenze di bioinformatica per l'analisi dei dati di RNA-Seq, e la base di dati per l'annotazione, la visualizzazione e integrato Discovery (David), un Gene Ontology (GO) Suite analisi termine che aiuta derivare significato biologico da grandi insiemi di dati. Tuttavia, per gli utenti prima volta e dilettanti bioinformatica, auto-apprendimento e la familiarizzazione con queste piattaforme può richiedere molto tempo e scoraggiante. Descriviamo un flusso di lavoro semplice che vi aiuterà a C. elegans ai ricercatori di isolare l'RNA a vite senza fine, condurre un esperimento di RNA-Seqe analizzare i dati utilizzando piattaforme Galaxy e David. Questo protocollo fornisce istruzioni graduali per l'utilizzo dei vari moduli Galaxy per l'accesso ai dati grezzi NGS, alcun controllo di qualità, l'allineamento e analisi differenziale espressione genica, guidando l'utente con i parametri ad ogni passo di generare un elenco gene che può essere proiettato per l'arricchimento di classi di geni o processi biologici con David. Nel complesso, prevediamo che questo articolo vi fornirà le informazioni di C. elegans ricercatori che effettuano esperimenti di RNA-Seq per la prima volta così come gli utenti che eseguono frequenti un piccolo numero di campioni.

Introduction

Il primo sequenziamento del genoma umano, effettuata con il metodo dideoxynucleotide-sequenziamento di Fred Sanger, sono voluti 10 anni, con un costo stimato US $ 3 miliardi di 1, 2. Tuttavia, in poco più di un decennio, sin dal suo inizio, Next-Generation Sequencing Technology (NGS) ha reso possibile sequenziare l'intero genoma umano entro due settimane e per US $ 1.000. Nuovi strumenti che permettono di NGS sempre crescente velocità di raccolta sequenziamento-dati con incredibile efficienza, con una riduzione dei costi vivi, stanno rivoluzionando la biologia moderna in modi inimmaginabili, come i progetti di sequenziamento del genoma stanno rapidamente diventando un luogo comune. Inoltre, questi sviluppi hanno galvanizzato progressi in molti altri settori quali l'analisi dell'espressione genica mediante RNA-Sequencing (RNA-Seq), studio delle modificazioni epigenetiche tutto il genoma, interazioni DNA-proteina e screening per la diversità microbica in ospiti umani. NGS a base di RNA-Seq in particolare, ha permesso di identificare e mappare trascrittomi completo con accuratezza e sensibilità, e ha sostituito microarray come metodo di scelta per profili di espressione. Mentre la tecnologia microarray è stato ampiamente utilizzato, è limitata dalla sua dipendenza array preesistenti con nota informazione genomica e altri inconvenienti come ibridazione incrociata e ristretta gamma di cambiamenti di espressione che può essere misurato in modo attendibile. RNA-Seq, d'altra parte, può essere utilizzato per rilevare sia le trascrizioni noti e ignoti, mentre la produzione a basso rumore di fondo a causa della sua natura ambigua mappatura del DNA. RNA-Seq, insieme ai numerosi strumenti genetici offerti da organismi modello come il lievito, mosche, vermi, pesci e topi, ha servito come base per molti recenti scoperte biomediche importanti. Tuttavia, permangono delle sfide significative che compongono NGS inaccessibili alla comunità scientifica più ampia, comprese le limitazioni di conservazione, elaborazione, e la maggior parte di tutti, m analisi bioinformatica eaningful di grandi volumi di dati di sequenziamento.

I rapidi progressi nelle tecnologie di sequenziamento e l'accumulo esponenziale dei dati hanno creato un grande bisogno di piattaforme computazionali che permetteranno ai ricercatori di accedere, analizzare e comprendere queste informazioni. I primi sistemi erano fortemente dipendente dalla conoscenza di programmazione di computer, mentre, i browser genoma quali NCBI che hanno permesso ai non programmatori di accedere e visualizzare i dati non permetteva analisi sofisticate. La piattaforma web-based, ad accesso aperto, Galaxy ( https://galaxyproject.org/ ), ha riempito questo vuoto e dimostrato di essere un oleodotto prezioso che consente ai ricercatori di elaborare i dati NGS ed eseguire uno spettro di semplice da complessi analisi bioinformatica. Galaxy è stato inizialmente stabilito, ed è mantenuto, dai laboratori di Anton Nekrutenko (Penn State University) e James Taylor (Johns Hopkins University)f "> 3. Galaxy offre una vasta gamma di compiti computazionali che lo rende un 'one-stop shop' per le esigenze di bioinformatica innumerevoli, compresi tutti i passaggi necessari per uno studio di RNA-Seq. Itallows agli utenti di eseguire l'elaborazione dei dati sia sui propri server o localmente sulle proprie macchine. i dati e flussi di lavoro possono essere riprodotti e condivisi. tutorial online, sezione di aiuto, e un wiki-page ( https://wiki.galaxyproject.org/Support ) dedicato al Progetto Galaxy forniscono un supporto costante. Tuttavia, per prima volta gli utenti, in particolare quelli con nessuna formazione bioinformatica, la pipeline può apparire scoraggiante e il processo di auto-apprendimento e di familiarizzazione può richiedere molto tempo. Inoltre, il sistema biologico studiato, e le specifiche di questo esperimento e metodi utilizzati, l'impatto le decisioni di analisi in diversi passaggi, e questi possono essere difficili da navigare senza istruzioni.

Il complesso RN A-Seq Galaxy Workflow consiste di caricamento dei dati e di controllo della qualità seguita da analisi usando l'smoking Suite 4, 5, 6, 7, 8, 9, che è un collettivo di vari strumenti necessari per le diverse fasi di analisi dei dati RNA-Seq 10, 11, 12, 13, 14. Un tipico esperimento RNA-Seq consiste nella parte sperimentale (preparazione del campione, l'isolamento di mRNA e preparazione di cDNA library), il NGS e l'analisi bioinformatica dei dati. Una panoramica di queste sezioni, e le fasi coinvolte nella pipeline Galaxy, sono mostrati in Figura 1.

3fig1.jpg"/>
Figura 1: Sintesi di un Workflow RNA-Seq. Illustrazione delle fasi sperimentali e computazionali coinvolti in un esperimento RNA-Seq di confrontare i profili di espressione genica di due ceppi di vite senza fine (rispettivamente A e B, le linee arancioni e verdi e frecce,). I diversi moduli Galaxy utilizzati sono mostrati in scatole con passo corrispondente nel nostro protocollo indicato in rosso. Le uscite di varie operazioni sono scritte in grigio con i formati di file indicati in blu. Si prega di cliccare qui per vedere una versione più grande di questa figura.

Il primo strumento nel Tuxedo Suite è un programma di allineamento chiamato 'Tophat'. Si rompe l'ingresso NGS si legge in frammenti più piccoli e poi li associa ad un genoma di riferimento. Questo processo in due fasi assicura che legge regioni ponte introniche cui allineamento può altrimenti essere disrupted o mancati sono contabilizzati e mappati. Questo aumenta la copertura e facilita l'identificazione di nuovi giunzioni di splicing. Uscita Tophat viene segnalato come due file, un file LETTO (con informazioni sulle giunzioni di splicing che comprendono posizione genomica) e un file di BAM (con i dettagli di mappatura di ogni lettura). Successivamente, il file BAM è allineato contro un genoma di riferimento per stimare l'abbondanza delle singole trascrizioni all'interno di ogni campione usando il successivo strumento nel Tuxedo Suite chiamata 'Gemelli'. Gemelli funzioni di scansione l'allineamento di riferire frammenti trascrizione full-length o 'transfrags' che si estendono su tutte le possibili varianti di splicing nei dati di input per ogni gene. Sulla base di questo, si genera un 'trascrittoma' (assemblea di tutti i trascritti generati per gene per ogni gene) per ogni campione viene sequenziato. Questi gemelli assembly vengono poi compresso o fuse insieme lungo con la rirenza genoma per produrre un singolo file di annotazione per l'analisi differenziale a valle usando l'utensile successivo, 'Cuffmerge'. Infine, il 'Cuffdiff' utensile misure differenziale espressione genica tra i campioni confrontando le uscite Tophat di ciascuno dei campioni al file di output Cuffmerge finale (Figura 1). Gemelli utilizza FPKM / RPKM (Frammenti / Legge Per kilobase di trascrizione per milione mappato letture) valori segnalare abbondanze trascrizione. Questi valori riflettono la normalizzazione dei dati NGS prime per profondità (numero medio di letture da un campione che si allineano al genoma di riferimento) e la lunghezza del gene (geni hanno lunghezze diverse, in modo conteggi devono essere normalizzati per la lunghezza di un gene per confrontare i livelli tra geni). FPKM e RPKM sono essenzialmente le stesse con RPKM utilizzato per single-end RNA-Seq dove ogni lettura corrisponde ad un singolo frammento, che, FPKM serveabbinato-end RNA-Seq, in quanto rappresenta il fatto che due letture possono corrispondere allo stesso frammento. In definitiva, il risultato di queste analisi è una lista dei geni differenzialmente espressi tra le condizioni e / o ceppi testati.

Una volta che una corsa Galaxy successo è completato e viene generato una 'lista gene', il passo logico successivo richiede più bioinformatica analisi dedurre conoscenze significative da set di dati. Molti pacchetti software sono emerse per soddisfare questa esigenza, inclusi i pacchetti computazionale basati sul web pubblicamente disponibili come David (il database per l'annotazione, la visualizzazione e la scoperta Integrata) 15. DAVID facilita l'assegnazione di significato biologico di grandi liste di geni provenienti da studi ad alto throughput confrontando la lista gene caricato al suo knowledge base biologica integrata e rivelando le annotazioni biologiche associate con l'elenco dei geni. Questo è seguito da analisi arricchimento, cioè, prove a identify se qualsiasi processo o gene classe biologica è sovrarappresentato nella lista gene (s) in un modo statisticamente significativo. E 'diventato una scelta popolare a causa di una combinazione di un ampio, base di conoscenze integrata e algoritmi di analisi potenti che consentono ai ricercatori di individuare temi biologici arricchiti entro genomica-derivato 'liste di geni' 10, 16. Ulteriori vantaggi sono la sua capacità di elaborare liste di geni creati su qualsiasi piattaforma di sequenziamento e un'interfaccia altamente user-friendly.

Nematode Caenorhabditis elegans è un sistema modello genetico, ben noto per i suoi numerosi vantaggi come piccole dimensioni, corpo trasparente, semplice corpo piano, facilità di coltura e grande amenability per dissezione genetica e molecolare. Vermi hanno una piccola, semplice e ben annotato genoma che comprende fino al 40% geni conservati con noti omologhi umani 17. Infatti, C. elegansè stato il primo metazoo cui genoma è stato completamente sequenziato 18, e una delle prime specie dove RNA-Seq è stato usato per mappare transcriptome di un organismo 19, 20. I primi studi verme coinvolto la sperimentazione di metodi diversi per high-throughput di cattura RNA, preparazione biblioteca e sequenziamento così come condutture di bioinformatica che hanno contribuito al progresso della tecnologia 21, 22. Negli ultimi anni, la sperimentazione RNA-Seq-based nei vermi è diventato un luogo comune. Ma, per i biologi vite senza fine tradizionali le sfide poste dalla analisi computazionale dei dati di RNA-Seq rimangono uno dei principali ostacoli per una maggiore e migliore utilizzo della tecnica.

In questo articolo, si descrive un protocollo per l'utilizzo della piattaforma Galaxy analizzare alto throughput dati RNA-Seq generati da C. elegans. Per molti la prima volta e piccole-SCALe utenti, il modo più conveniente e semplice da intraprendere un esperimento RNA-Seq è quello di isolare l'RNA in laboratorio e utilizzare una commerciale (o in-house) impianto NGS per la preparazione di librerie di cDNA sequenziamento e l'NGS stesso. Quindi, abbiamo prima descritto le fasi in isolamento, quantificazione e valutazione della qualità di C. elegans campioni di RNA per l'RNA-Seq. Successivamente, forniamo istruzioni passo-passo per l'utilizzo dell'interfaccia Galaxy per analisi dei dati NGS, iniziando con test per la post-sequenziamento alcun controllo di qualità seguiti da allineamento, assemblaggio, e differenziale quantificazione dell'espressione genica. Inoltre, abbiamo incluso le indicazioni per scrutare le liste di geni derivanti da Galaxy per gli studi di arricchimento biologici con David. Come passo finale nel flusso di lavoro, mettiamo a disposizione le istruzioni per il caricamento dei dati di RNA-Seq ai server pubblici come la sequenza Leggi Archive (SRA) su NCBI ( http: // www.ncbi.nlm.nih.gov/sra) per renderlo liberamente accessibile alla comunità scientifica. Nel complesso, prevediamo che questo articolo vi fornirà informazioni complete e sufficienti per biologi vite senza fine che intraprendono esperimenti di RNA-Seq per la prima volta così come gli utenti che eseguono frequenti un piccolo numero di campioni.

Protocol

Isolamento 1. RNA Misure precauzionali Pulire l'intera superficie di lavoro, strumenti e pipette usando uno spray RNase disponibile in commercio per eliminare eventuali RNasi presenti. Indossare guanti in ogni momento, cambiarle regolarmente con quelli freschi durante le diverse fasi del protocollo. Utilizzare solo puntali con filtro e conservare tutti i campioni in ghiaccio il più possibile per evitare la degradazione dell'RNA. NOTA: Al fine di ot…

Representative Results

In C. elegans, eliminazione delle cellule staminali germinali (GSC) si estende durata, aumenta lo stress resilienza, ed eleva il grasso corporeo 24, 28. Perdita di GSCs, sia causata da laser ablazione o da mutazioni come GLP-1, provoca estensione durata attraverso l'attivazione di una rete di fattori di trascrizione 29. Uno di questi fattori, tCER-1, codifica l'omologo verme della…

Discussion

Significato della Sequencing Platform Galaxy in Biologia moderna

Il progetto Galaxy è diventato determinante per aiutare i biologi senza l'addestramento bioinformatica per elaborare e analizzare high-throughput di dati di sequenziamento in maniera veloce ed efficiente. Una volta considerato un compito erculeo, questa piattaforma pubblicamente disponibile ha fatto in esecuzione di algoritmi di bioinformatica complessi per analizzare i dati NGS un processo semplice, affidabile e facile. Oltr…

開示

The authors have nothing to disclose.

Acknowledgements

Gli autori desiderano esprimere la loro gratitudine ai laboratori, gruppi e gli individui che hanno sviluppato Galaxy e David, e quindi fatte NGS ampiamente accessibile per la comunità scientifica. L'aiuto e consulenza fornita dai colleghi presso l'Università di Pittsburgh durante il nostro allenamento bioinformatica è riconosciuto. Questo lavoro è stato supportato da un Ellison Medical Foundation di New Scholar in Aging premio (AG-NS-0879-12) e di una sovvenzione da parte del National Institutes of Health (R01AG051659) per AG.

Materials

RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

参考文献

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. バイオインフォマティクス. 25 (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. バイオインフォマティクス. 27 (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. バイオインフォマティクス. 21 (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
  18. Consortium, C. e. S. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
  32. Wang, M. C., O’Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans’ lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. バイオインフォマティクス. 27 (6), 867-869 (2011).

Play Video

記事を引用
Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

View Video