Galaxy e David surgiram como ferramentas populares que permitem que os investigadores sem formação bioinformática para analisar e interpretar dados de RNA-Seq. Descreve-se um protocolo para C. elegans investigadores para executar ARN-Seq experiências, o acesso e processar o conjunto de dados usando Galaxy e obter informação biológica significativa a partir das listas de genes utilizando DAVID.
Próxima geração seqüenciamento (NGS) tecnologias têm revolucionado a natureza da investigação biológica. Destes, Sequenciação de ARN (ARN-SEQ) emergiu como uma ferramenta poderosa para a análise de expressão genética e mapeamento transcriptoma. No entanto, a manipulação de dados de RNA-Seq requer experiência computacional sofisticada e coloca desafios inerentes para pesquisadores de biologia. Este gargalo tem sido mitigada pelo projeto acesso aberto Galaxy que permite que usuários sem habilidades de bioinformática para analisar os dados de RNA-Seq, eo banco de dados para anotação, visualização e Integrated Discovery (David), um Gene Ontology (GO) Suíte análise termo que ajuda derivar significado biológico a partir de grandes conjuntos de dados. No entanto, para usuários iniciantes e amadores bioinformática, auto-aprendizagem e familiarização com essas plataformas podem ser demorado e difícil. Nós descrevemos um fluxo de trabalho simples que irá ajudá C. elegans pesquisadores para isolar RNA verme, realizar um experimento RNA-Seqe analisar os dados usando plataformas Galaxy e David. Este protocolo fornece instruções passo a passo para a utilização dos vários módulos Galaxy para aceder aos dados em bruto NGS, verificações de controlo de qualidade, o alinhamento, e análise de expressão diferencial de genes, orientando o utilizador com os parâmetros em cada passo para gerar uma lista de genes que podem ser rastreados para o enriquecimento de as classes de genes ou processos biológicos utilizando Davi. No geral, prevemos que este artigo irá fornecer informações para C. elegans pesquisadores realizam experimentos de RNA-Seq, pela primeira vez, bem como usuários freqüentes executando um pequeno número de amostras.
A primeira sequenciação do genoma humano, realizada usando o método didesoxinucle�ido-seqüenciamento de Fred Sanger, levou 10 anos e um custo estimado de US $ 3 bilhões 1, 2. No entanto, em pouco mais de uma década desde a sua criação, Next-Generation Sequencing tecnologia (NGS) tornou possível sequenciar todo o genoma humano dentro de duas semanas e para US $ 1.000. Novos instrumentos NGS que permitem velocidades de recolha de sequenciamento de dados cada vez maiores com incrível eficiência, juntamente com reduções acentuadas nos custos, estão revolucionando a biologia moderna de maneiras inimagináveis como projetos de sequenciação do genoma estão rapidamente se tornando comuns. Além disso, estes desenvolvimentos tenham galvanizado progresso em muitas outras áreas, tais como a análise de expressão genética através de RNA-Sequencing (ARN-SEQ), estudo de modificações epigenética do genoma, as interacções ADN-proteína, e rastreio para a diversidade microbiana em hospedeiros humanos. NGS à base de ARN-Seq, em particular, tornou possível identificar e transcriptomes mapa abrangente com precisão e sensibilidade, e substituiu tecnologia de microarrays como o método de escolha para a criação de perfis de expressão. Embora a tecnologia de microarray tem sido amplamente utilizado, que é limitada pela sua dependência em matrizes pré-existentes com informação genómica conhecida, e outros inconvenientes, tais como hibridação cruzada e gama restrita de mudanças de expressão que pode ser medida com fiabilidade. RNA-seq, por outro lado, podem ser utilizados para detectar transcritos conhecidos e desconhecidos, enquanto a produção de baixo nível de ruído de fundo devido à sua natureza não ambígua de mapeamento de ADN. RNA-Seq, em conjunto com as várias ferramentas genéticas oferecidos por organismos modelo tais como leveduras, moscas, vermes, peixes e ratos, tem servido como base para muitas recentes descobertas importantes biomédicas. No entanto, subsistem desafios significativos que fazem NGS inacessíveis à comunidade científica em geral, incluindo as limitações de armazenamento, processamento e acima de tudo, m análise bioinformática eaningful de grandes volumes de dados de sequenciação.
Os rápidos avanços em tecnologias de sequenciamento e acumulação exponencial de dados criaram uma grande necessidade de plataformas computacionais que permitirão que os pesquisadores para acessar, analisar e compreender esta informação. Os primeiros sistemas foram fortemente dependente do conhecimento de programação de computadores, enquanto que, os navegadores do genoma como NCBI que permitiram não-programadores para acessar e visualizar dados não permitiu análises sofisticadas. A plataforma, a abertura de acesso baseado na web, Galaxy ( https://galaxyproject.org/ ), preencheu este vazio e provou ser um oleoduto valioso que permite aos pesquisadores para processar dados NGS e realizar um espectro de simples de complexo análises de bioinformática. Galaxy foi inicialmente estabelecida, e é mantido, pelos laboratórios de Anton Nekrutenko (Penn State University) e James Taylor (Johns Hopkins University)f "> 3. Galaxy oferece uma ampla gama de tarefas computacionais tornando-se um 'balcão único' para as necessidades de bioinformática inúmeras, incluindo todas as etapas envolvidas em um estudo RNA-Seq. Itallows usuários para executar o processamento de dados, quer em seus servidores ou localmente em suas próprias máquinas. os dados e fluxos de trabalho pode ser reproduzido e compartilhado. os tutoriais online, seção de ajuda, e um wiki-página ( https://wiki.galaxyproject.org/Support ) dedicada ao Projeto Galaxy fornecer apoio consistente. no entanto, para usuários de primeira viagem, especialmente aqueles com nenhum treinamento bioinformática, o gasoduto pode parecer intimidante e do processo de auto-aprendizagem e familiarização pode ser demorado. Além disso, o sistema biológico estudado, e especificidades da experiência e métodos utilizados, o impacto as decisões de análise em vários passos, e estes podem ser difícil de navegar sem instrução.
O RN geral A-Seq Galaxy fluxo de trabalho consiste de carregamento de dados e de verificação de qualidade, seguido por análise usando o smoking Suite 4, 5, 6, 7, 8, 9, que é um colectivo de várias ferramentas necessárias para diferentes fases de análise de dados de RNA-Seq 10, 11, 12, 13, 14. Uma experiência típica de ARN-Seq consiste na parte experimental (preparação da amostra, de isolamento de ARNm e ADNc preparação biblioteca), o NGS e a análise de dados bioinformática. Uma visão geral destas secções, e os passos envolvidos na calha Galaxy, são mostrados na Figura 1.
3fig1.jpg"/>
Figura 1: Vista geral de uma ARN-Seq fluxo de trabalho. Ilustração dos passos experimentais e computacionais envolvidos numa experiência de RNA-Seq para comparar os perfis de duas estirpes de vermes (A e B, as linhas de laranja e verdes e setas, respectivamente) de expressão genética. Os diferentes módulos de Galaxy utilizados são apresentadas em caixas com o passo correspondente no nosso protocolo indicado no vermelho. As saídas de várias operações são escritos em cinza com os formatos de arquivo mostrados em azul. Por favor clique aqui para ver uma versão maior desta figura.
A primeira ferramenta no Tuxedo Suite é um programa de alinhamento chamado 'Tophat'. Ele quebra a entrada NGS lê em fragmentos menores e, em seguida, mapeia-los para um genoma de referência. Este processo de dois passos garante que lê abrangendo regiões intrónicas cujo alinhamento pode ser de outra forma disrupted ou não atendidas são contabilizados e mapeada. Isto aumenta a cobertura e facilita a identificação de novas junções de processamento alternativo. Saída Tophat é relatado como dois arquivos, um arquivo de BED (com informações sobre junções de emenda que incluem localização genômica) e um arquivo BAM (com detalhes de mapeamento de cada leitura). Em seguida, o arquivo BAM está alinhada contra um genoma de referência para estimar a abundância de transcritos individuais dentro de cada amostra, utilizando a ferramenta posterior na Suite Tuxedo chamado 'Abotoaduras'. Botão de punho funções por digitalizar o alinhamento para relatar fragmentos transcrito de comprimento completo ou 'transfrags' que abrangem todas as possíveis variantes de processamento nos dados de entrada para cada gene. Com base nisso, que gera um 'transcriptoma' (montagem de todos os transcritos gerados por cada gene para gene) para cada amostra a ser sequenciada. Estes conjuntos Abotoaduras são então recolhido ou fundidos em conjunto, juntamente com a reference genoma para produzir um arquivo de anotação única para análise diferencial a jusante usando a ferramenta seguinte, 'Cuffmerge'. Finalmente, a expressão do gene ferramenta medidas diferencial da 'Cuffdiff' entre amostras por comparação das saídas TOPHAT de cada uma das amostras para o ficheiro de saída Cuffmerge final (Figura 1). Abotoaduras usa FPKM / RPKM (Fragmentos / leituras por kilobase de transcrição por milhão mapeados lê) valores para relatar abundâncias transcrição. Estes valores reflectem a normalização dos dados NGS matérias para a profundidade (número médio de leituras a partir de uma amostra que se alinham para o genoma de referência) e o comprimento do gene (genes têm diferentes comprimentos, de modo a contagem tem de ser normalizado para o comprimento de um gene para comparar os níveis entre os genes). FPKM e RPKM são essencialmente o mesmo com RPKM a ser utilizado para um único final de ARN-Seq onde cada leitura corresponde a um único fragmento, enquanto que, é utilizada para FPKM-Fim emparelhado ARN-Seq, uma vez que representa o facto de que duas leituras pode corresponder ao mesmo fragmento. Em última análise, o resultado destas análises é uma lista de genes diferencialmente expressos entre as condições e / ou estirpes testadas.
Uma vez uma temporada de sucesso Galaxy está concluído e uma 'lista gene' é gerado, o próximo passo lógico requer mais bioinformática analisa deduzir conhecimento significativo dos conjuntos de dados. Muitos pacotes de software surgiram para atender a essa necessidade, incluindo pacotes computacionais baseados na web publicamente disponíveis, como David (o banco de dados para anotação, visualização e descoberta Integrado) 15. DAVID facilita a atribuição de significado biológico para listas de genes grandes a partir de estudos de alta produtividade através da comparação da lista de genes carregado para a sua base de conhecimento biológico integrado e revelando as anotações biológicos associados com a lista de genes. Isto é seguido por Análise de Enriquecimento, ou seja, testes para identify se qualquer processo ou classe de genes biológica é sobre-representados na lista (s) de genes de uma forma estatisticamente significativa. Tornou-se uma escolha popular por causa de uma combinação de uma ampla, base de conhecimento integrada e algoritmos de análise poderosas que permitem aos pesquisadores detectar temas biológicos enriquecido dentro genômica derivado 'listas de genes' 10, 16. Outras vantagens incluem sua capacidade de processar listas de genes criadas em qualquer plataforma sequenciamento e uma interface altamente user-friendly.
O nemátodo Caenorhabditis elegans é um sistema modelo genético, bem conhecidos pelas suas muitas vantagens, tais como tamanho pequeno, o corpo transparente, o plano de corpo simples, facilidade de cultura e excelente receptividade ao dissecção genética e molecular. Vermes têm uma pequena, simples e bem-anotada genoma que inclui até 40% de genes conservados com homólogos humanos conhecidos 17. De fato, C. elegansfoi o primeiro metazoários cujo genoma foi completamente sequenciado 18, e uma das primeiras espécies onde ARN-Seq foi usada para mapear transcriptoma de um organismo 19, 20. Estudos de vermes cedo envolvido experimentação com diferentes métodos de captura-ARN de alto rendimento, a preparação da biblioteca e a sequenciação assim como condutas de bioinformática que contribuíram para o avanço da tecnologia de 21, 22. Nos últimos anos, a experimentação baseada em RNA-Seq em vermes tem se tornado comum. Mas, para os biólogos vermes tradicionais os desafios colocados pela análise computacional de dados de RNA-Seq continuam a ser um grande obstáculo para uma maior e melhor utilização da técnica.
Neste artigo, descreve-se um protocolo para a utilização da plataforma Galaxy para analisar os dados de RNA-Seq high-throughput gerados a partir de C. elegans. Para muitos pela primeira vez e pequeno-scale utilizadores, a forma mais eficaz e económica e simples de realizar uma experiência de RNA-Seq é isolar RNA no laboratório e utilizar uma (ou em casa) facilidade NGS comercial para a preparação de bibliotecas de cDNA e sequenciação do próprio NGS. Assim, temos primeiro detalhada das etapas envolvidas no isolamento, quantificação e qualidade de avaliação de C. elegans amostras de ARN por ARN-Seq. Em seguida, nós fornecemos passo-a-passo para o uso da interface Galaxy para análises dos dados NGS, começando com testes de pós-sequenciação de verificações de controlo de qualidade, seguido por alinhamento, montagem, e a quantificação diferencial da expressão do gene. Além disso, nós incluímos as direções para controlar a lista de genes resultantes da Galaxy para estudos de enriquecimento biológicos utilizando DAVID. Como etapa final no fluxo de trabalho, nós fornecemos instruções para fazer upload de dados de RNA-Seq para servidores públicos, como a Sequência Leia Archive (SRA) no NCBI ( http: // www.ncbi.nlm.nih.gov/sra) para torná-lo livremente acessível à comunidade científica. No geral, prevemos que este artigo irá fornecer informações completas e suficientes para biólogos vermes que realizam experimentos de RNA-Seq, pela primeira vez, bem como usuários freqüentes executando um pequeno número de amostras.
Importância do sequenciamento Platform Galaxy em Biologia Moderna
O Projeto Galaxy tornou-se fundamental para ajudar os biólogos sem formação bioinformática para processar e analisar dados de sequenciamento de alto rendimento de uma forma rápida e eficiente. Uma vez considerado uma tarefa hercúlea, esta plataforma disponível publicamente fez correr algoritmos de bioinformática complexos para analisar os dados NGS um processo simples, confiável e fácil. Além de hospedar uma ampla gam…
The authors have nothing to disclose.
Os autores gostariam de expressar a sua gratidão aos laboratórios, grupos e indivíduos que desenvolveram Galaxy e David, e, portanto, feitas NGS amplamente acessível para a comunidade científica. A ajuda e conselhos fornecidos por colegas da Universidade de Pittsburgh durante a nossa formação bioinformática é reconhecido. Este trabalho foi apoiado por uma Ellison Medical Foundation New Acadêmico em Aging prêmio (AG-NS-0879-12) e uma concessão do National Institutes of Health (R01AG051659) para AG.
RNase spray | Fisher Scientific | 21-402-178 |
Trizol | Ambion | 15596026 |
Sonicator | Sonics Vibra Cell | VCX130 |
Centrifuge | Eppendorf | 5415C |
chloroform | Sigma Aldrich | 288306 |
2-propanol | Fisher Scientific | A416P-4 |
Ethanol | Decon Labs | 2705HC |
RNase-free water | Fisher Scientific | BP561-1 |
Bioanalyzer | Agilent | G2940CA |
Mac/PC |