Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project

Francis R. G. Amrit; Arjumand Ghazi

doi:10.3791/55473

JoVE Journal > Genetics

Genetics

Análise transcriptomic de C. elegans RNA Sequenciação de dados através da Suíte Tuxedo no Projeto Galaxy

Published: April 08, 2017

doi:

10.3791/55473

Francis R. G. Amrit¹, Arjumand Ghazi¹

¹Department of Pediatrics,University of Pittsburgh School of Medicine, Children’s Hospital of Pittsburgh

Summary

Galaxy e David surgiram como ferramentas populares que permitem que os investigadores sem formação bioinformática para analisar e interpretar dados de RNA-Seq. Descreve-se um protocolo para C. elegans investigadores para executar ARN-Seq experiências, o acesso e processar o conjunto de dados usando Galaxy e obter informação biológica significativa a partir das listas de genes utilizando DAVID.

Abstract

Próxima geração seqüenciamento (NGS) tecnologias têm revolucionado a natureza da investigação biológica. Destes, Sequenciação de ARN (ARN-SEQ) emergiu como uma ferramenta poderosa para a análise de expressão genética e mapeamento transcriptoma. No entanto, a manipulação de dados de RNA-Seq requer experiência computacional sofisticada e coloca desafios inerentes para pesquisadores de biologia. Este gargalo tem sido mitigada pelo projeto acesso aberto Galaxy que permite que usuários sem habilidades de bioinformática para analisar os dados de RNA-Seq, eo banco de dados para anotação, visualização e Integrated Discovery (David), um Gene Ontology (GO) Suíte análise termo que ajuda derivar significado biológico a partir de grandes conjuntos de dados. No entanto, para usuários iniciantes e amadores bioinformática, auto-aprendizagem e familiarização com essas plataformas podem ser demorado e difícil. Nós descrevemos um fluxo de trabalho simples que irá ajudá C. elegans pesquisadores para isolar RNA verme, realizar um experimento RNA-Seqe analisar os dados usando plataformas Galaxy e David. Este protocolo fornece instruções passo a passo para a utilização dos vários módulos Galaxy para aceder aos dados em bruto NGS, verificações de controlo de qualidade, o alinhamento, e análise de expressão diferencial de genes, orientando o utilizador com os parâmetros em cada passo para gerar uma lista de genes que podem ser rastreados para o enriquecimento de as classes de genes ou processos biológicos utilizando Davi. No geral, prevemos que este artigo irá fornecer informações para C. elegans pesquisadores realizam experimentos de RNA-Seq, pela primeira vez, bem como usuários freqüentes executando um pequeno número de amostras.

Introduction

A primeira sequenciação do genoma humano, realizada usando o método didesoxinucleï¿½ido-seqüenciamento de Fred Sanger, levou 10 anos e um custo estimado de US $ 3 bilhões ^{^1,} ^2. No entanto, em pouco mais de uma década desde a sua criação, Next-Generation Sequencing tecnologia (NGS) tornou possível sequenciar todo o genoma humano dentro de duas semanas e para US $ 1.000. Novos instrumentos NGS que permitem velocidades de recolha de sequenciamento de dados cada vez maiores com incrível eficiência, juntamente com reduções acentuadas nos custos, estão revolucionando a biologia moderna de maneiras inimagináveis como projetos de sequenciação do genoma estão rapidamente se tornando comuns. Além disso, estes desenvolvimentos tenham galvanizado progresso em muitas outras áreas, tais como a análise de expressão genética através de RNA-Sequencing (ARN-SEQ), estudo de modificações epigenética do genoma, as interacções ADN-proteína, e rastreio para a diversidade microbiana em hospedeiros humanos. NGS à base de ARN-Seq, em particular, tornou possível identificar e transcriptomes mapa abrangente com precisão e sensibilidade, e substituiu tecnologia de microarrays como o método de escolha para a criação de perfis de expressão. Embora a tecnologia de microarray tem sido amplamente utilizado, que é limitada pela sua dependência em matrizes pré-existentes com informação genómica conhecida, e outros inconvenientes, tais como hibridação cruzada e gama restrita de mudanças de expressão que pode ser medida com fiabilidade. RNA-seq, por outro lado, podem ser utilizados para detectar transcritos conhecidos e desconhecidos, enquanto a produção de baixo nível de ruído de fundo devido à sua natureza não ambígua de mapeamento de ADN. RNA-Seq, em conjunto com as várias ferramentas genéticas oferecidos por organismos modelo tais como leveduras, moscas, vermes, peixes e ratos, tem servido como base para muitas recentes descobertas importantes biomédicas. No entanto, subsistem desafios significativos que fazem NGS inacessíveis à comunidade científica em geral, incluindo as limitações de armazenamento, processamento e acima de tudo, m análise bioinformática eaningful de grandes volumes de dados de sequenciação.

Os rápidos avanços em tecnologias de sequenciamento e acumulação exponencial de dados criaram uma grande necessidade de plataformas computacionais que permitirão que os pesquisadores para acessar, analisar e compreender esta informação. Os primeiros sistemas foram fortemente dependente do conhecimento de programação de computadores, enquanto que, os navegadores do genoma como NCBI que permitiram não-programadores para acessar e visualizar dados não permitiu análises sofisticadas. A plataforma, a abertura de acesso baseado na web, Galaxy ( https://galaxyproject.org/ ), preencheu este vazio e provou ser um oleoduto valioso que permite aos pesquisadores para processar dados NGS e realizar um espectro de simples de complexo análises de bioinformática. Galaxy foi inicialmente estabelecida, e é mantido, pelos laboratórios de Anton Nekrutenko (Penn State University) e James Taylor (Johns Hopkins University)f "> 3. Galaxy oferece uma ampla gama de tarefas computacionais tornando-se um 'balcão único' para as necessidades de bioinformática inúmeras, incluindo todas as etapas envolvidas em um estudo RNA-Seq. Itallows usuários para executar o processamento de dados, quer em seus servidores ou localmente em suas próprias máquinas. os dados e fluxos de trabalho pode ser reproduzido e compartilhado. os tutoriais online, seção de ajuda, e um wiki-página ( https://wiki.galaxyproject.org/Support ) dedicada ao Projeto Galaxy fornecer apoio consistente. no entanto, para usuários de primeira viagem, especialmente aqueles com nenhum treinamento bioinformática, o gasoduto pode parecer intimidante e do processo de auto-aprendizagem e familiarização pode ser demorado. Além disso, o sistema biológico estudado, e especificidades da experiência e métodos utilizados, o impacto as decisões de análise em vários passos, e estes podem ser difícil de navegar sem instrução.

O RN geral A-Seq Galaxy fluxo de trabalho consiste de carregamento de dados e de verificação de qualidade, seguido por análise usando o smoking Suite ^{^4,} ^{^5,} ^{^6,} ^{^7,} ^{^8,} ^9, que é um colectivo de várias ferramentas necessárias para diferentes fases de análise de dados de RNA-Seq ^{^10,} ^{^11,} ^{^12,} ^{^13,} ^14. Uma experiência típica de ARN-Seq consiste na parte experimental (preparação da amostra, de isolamento de ARNm e ADNc preparação biblioteca), o NGS e a análise de dados bioinformática. Uma visão geral destas secções, e os passos envolvidos na calha Galaxy, são mostrados na Figura 1.

3fig1.jpg"/>
Figura 1: Vista geral de uma ARN-Seq fluxo de trabalho. Ilustração dos passos experimentais e computacionais envolvidos numa experiência de RNA-Seq para comparar os perfis de duas estirpes de vermes (A e B, as linhas de laranja e verdes e setas, respectivamente) de expressão genética. Os diferentes módulos de Galaxy utilizados são apresentadas em caixas com o passo correspondente no nosso protocolo indicado no vermelho. As saídas de várias operações são escritos em cinza com os formatos de arquivo mostrados em azul. Por favor clique aqui para ver uma versão maior desta figura.

A primeira ferramenta no Tuxedo Suite é um programa de alinhamento chamado 'Tophat'. Ele quebra a entrada NGS lê em fragmentos menores e, em seguida, mapeia-los para um genoma de referência. Este processo de dois passos garante que lê abrangendo regiões intrónicas cujo alinhamento pode ser de outra forma disrupted ou não atendidas são contabilizados e mapeada. Isto aumenta a cobertura e facilita a identificação de novas junções de processamento alternativo. Saída Tophat é relatado como dois arquivos, um arquivo de BED (com informações sobre junções de emenda que incluem localização genômica) e um arquivo BAM (com detalhes de mapeamento de cada leitura). Em seguida, o arquivo BAM está alinhada contra um genoma de referência para estimar a abundância de transcritos individuais dentro de cada amostra, utilizando a ferramenta posterior na Suite Tuxedo chamado 'Abotoaduras'. Botão de punho funções por digitalizar o alinhamento para relatar fragmentos transcrito de comprimento completo ou 'transfrags' que abrangem todas as possíveis variantes de processamento nos dados de entrada para cada gene. Com base nisso, que gera um 'transcriptoma' (montagem de todos os transcritos gerados por cada gene para gene) para cada amostra a ser sequenciada. Estes conjuntos Abotoaduras são então recolhido ou fundidos em conjunto, juntamente com a reference genoma para produzir um arquivo de anotação única para análise diferencial a jusante usando a ferramenta seguinte, 'Cuffmerge'. Finalmente, a expressão do gene ferramenta medidas diferencial da 'Cuffdiff' entre amostras por comparação das saídas TOPHAT de cada uma das amostras para o ficheiro de saída Cuffmerge final (Figura 1). Abotoaduras usa FPKM / RPKM (Fragmentos / leituras por kilobase de transcrição por milhão mapeados lê) valores para relatar abundâncias transcrição. Estes valores reflectem a normalização dos dados NGS matérias para a profundidade (número médio de leituras a partir de uma amostra que se alinham para o genoma de referência) e o comprimento do gene (genes têm diferentes comprimentos, de modo a contagem tem de ser normalizado para o comprimento de um gene para comparar os níveis entre os genes). FPKM e RPKM são essencialmente o mesmo com RPKM a ser utilizado para um único final de ARN-Seq onde cada leitura corresponde a um único fragmento, enquanto que, é utilizada para FPKM-Fim emparelhado ARN-Seq, uma vez que representa o facto de que duas leituras pode corresponder ao mesmo fragmento. Em última análise, o resultado destas análises é uma lista de genes diferencialmente expressos entre as condições e / ou estirpes testadas.

Uma vez uma temporada de sucesso Galaxy está concluído e uma 'lista gene' é gerado, o próximo passo lógico requer mais bioinformática analisa deduzir conhecimento significativo dos conjuntos de dados. Muitos pacotes de software surgiram para atender a essa necessidade, incluindo pacotes computacionais baseados na web publicamente disponíveis, como David (o banco de dados para anotação, visualização e descoberta Integrado) ^15. DAVID facilita a atribuição de significado biológico para listas de genes grandes a partir de estudos de alta produtividade através da comparação da lista de genes carregado para a sua base de conhecimento biológico integrado e revelando as anotações biológicos associados com a lista de genes. Isto é seguido por Análise de Enriquecimento, ou seja, testes para identify se qualquer processo ou classe de genes biológica é sobre-representados na lista (s) de genes de uma forma estatisticamente significativa. Tornou-se uma escolha popular por causa de uma combinação de uma ampla, base de conhecimento integrada e algoritmos de análise poderosas que permitem aos pesquisadores detectar temas biológicos enriquecido dentro genômica derivado 'listas de genes' ^{^10,} ^16. Outras vantagens incluem sua capacidade de processar listas de genes criadas em qualquer plataforma sequenciamento e uma interface altamente user-friendly.

O nemátodo Caenorhabditis elegans é um sistema modelo genético, bem conhecidos pelas suas muitas vantagens, tais como tamanho pequeno, o corpo transparente, o plano de corpo simples, facilidade de cultura e excelente receptividade ao dissecção genética e molecular. Vermes têm uma pequena, simples e bem-anotada genoma que inclui até 40% de genes conservados com homólogos humanos conhecidos ^17. De fato, C. elegansfoi o primeiro metazoários cujo genoma foi completamente sequenciado ^18, e uma das primeiras espécies onde ARN-Seq foi usada para mapear transcriptoma de um organismo ^{^19,} ^20. Estudos de vermes cedo envolvido experimentação com diferentes métodos de captura-ARN de alto rendimento, a preparação da biblioteca e a sequenciação assim como condutas de bioinformática que contribuíram para o avanço da tecnologia de ^{^21,} ^22. Nos últimos anos, a experimentação baseada em RNA-Seq em vermes tem se tornado comum. Mas, para os biólogos vermes tradicionais os desafios colocados pela análise computacional de dados de RNA-Seq continuam a ser um grande obstáculo para uma maior e melhor utilização da técnica.

Neste artigo, descreve-se um protocolo para a utilização da plataforma Galaxy para analisar os dados de RNA-Seq high-throughput gerados a partir de C. elegans. Para muitos pela primeira vez e pequeno-scale utilizadores, a forma mais eficaz e económica e simples de realizar uma experiência de RNA-Seq é isolar RNA no laboratório e utilizar uma (ou em casa) facilidade NGS comercial para a preparação de bibliotecas de cDNA e sequenciação do próprio NGS. Assim, temos primeiro detalhada das etapas envolvidas no isolamento, quantificação e qualidade de avaliação de C. elegans amostras de ARN por ARN-Seq. Em seguida, nós fornecemos passo-a-passo para o uso da interface Galaxy para análises dos dados NGS, começando com testes de pós-sequenciação de verificações de controlo de qualidade, seguido por alinhamento, montagem, e a quantificação diferencial da expressão do gene. Além disso, nós incluímos as direções para controlar a lista de genes resultantes da Galaxy para estudos de enriquecimento biológicos utilizando DAVID. Como etapa final no fluxo de trabalho, nós fornecemos instruções para fazer upload de dados de RNA-Seq para servidores públicos, como a Sequência Leia Archive (SRA) no NCBI ( http: // www.ncbi.nlm.nih.gov/sra) para torná-lo livremente acessível à comunidade científica. No geral, prevemos que este artigo irá fornecer informações completas e suficientes para biólogos vermes que realizam experimentos de RNA-Seq, pela primeira vez, bem como usuários freqüentes executando um pequeno número de amostras.

Protocol

Isolamento de ARN 1. Medidas de precaução Limpe as inteiras de trabalho de superfícies, instrumentos e pipetas usando um pulverizador de RNase comercialmente disponível para eliminar quaisquer RNases presente. Usar luvas em todos os momentos, regularmente mudá-las por outras novas durante as diferentes etapas do protocolo. Utilizar apenas pontas de filtro e manter todas as amostras sobre gelo tanto quanto possível para evitar a degradação de ARN. NO…

Representative Results

Em C. elegans, a eliminação das células estaminais da linha germinal (GSCS) prolonga a vida, aumenta a capacidade de resistência de stress, e eleva a gordura corporal 24, 28. Perda de GSCS, quer provocada por laser de ablação ou por mutações, tais como GLP-1, faz com que a vida útil de extensão através da activação de uma rede de 29 factores de transcrição. Um destes factor…

Discussion

Importância do sequenciamento Platform Galaxy em Biologia Moderna

O Projeto Galaxy tornou-se fundamental para ajudar os biólogos sem formação bioinformática para processar e analisar dados de sequenciamento de alto rendimento de uma forma rápida e eficiente. Uma vez considerado uma tarefa hercúlea, esta plataforma disponível publicamente fez correr algoritmos de bioinformática complexos para analisar os dados NGS um processo simples, confiável e fácil. Além de hospedar uma ampla gam…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Os autores gostariam de expressar a sua gratidão aos laboratórios, grupos e indivíduos que desenvolveram Galaxy e David, e, portanto, feitas NGS amplamente acessível para a comunidade científica. A ajuda e conselhos fornecidos por colegas da Universidade de Pittsburgh durante a nossa formação bioinformática é reconhecido. Este trabalho foi apoiado por uma Ellison Medical Foundation New Acadêmico em Aging prêmio (AG-NS-0879-12) e uma concessão do National Institutes of Health (R01AG051659) para AG.

Materials

RNase spray	Fisher Scientific	21-402-178
Trizol	Ambion	15596026
Sonicator	Sonics Vibra Cell	VCX130
Centrifuge	Eppendorf	5415C
chloroform	Sigma Aldrich	288306
2-propanol	Fisher Scientific	A416P-4
Ethanol	Decon Labs	2705HC
RNase-free water	Fisher Scientific	BP561-1
Bioanalyzer	Agilent	G2940CA
Mac/PC

References

Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25 (9), 1105-1111 (2009).
Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27 (17), 2325-2329 (2011).
Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21 (18), 3587-3595 (2005).
Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
Consortium, C. e. S. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, W348-W351 (2010).
Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
Wang, M. C., O’Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans’ lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27 (6), 867-869 (2011).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

Automatically Generated

Análise transcriptomic de<em> C</em>.<em> elegans</em> RNA Sequenciação de dados através da Suíte Tuxedo no Projeto Galaxy

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Automatically Generated

Análise transcriptomic de<em> C</em>.<em> elegans</em> RNA Sequenciação de dados através da Suíte Tuxedo no Projeto Galaxy

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below