This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
Este fluxo de trabalho permite que pesquisadores novatos aproveitem recursos computacionais avançados, como computação em nuvem, para realizar transcriptômicos comparativos em pares. Ele também serve como um primário para biólogos para desenvolver dados cientista competências computacionais, por exemplo , executar comandos bash, visualização e gestão de grandes conjuntos de dados. Todos os códigos de linha de comando e explicações adicionais de cada comando ou etapa podem ser encontrados no wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). As plataformas Discovery Environment e Atmosphere são conectadas entre si através do CyVerse Data Store. Como tal, uma vez que os dados iniciais de sequenciação em bruto foram carregados, não há mais necessidade de transferir arquivos de dados grandes por meio de uma conexão com a Internet, minimizando o tempo necessário para realizar análises. Este protocolo foi concebido para analisar apenas dois tratamentos ou condições experimentais. A análise diferencial da expressão genética éOugh pairwise comparações, e não será adequado para testar vários fatores. Este fluxo de trabalho também é projetado para ser manual, em vez de automatizado. Cada passo deve ser executado e investigado pelo usuário, resultando em um melhor entendimento dos dados e resultados analíticos e, portanto, melhores resultados para o usuário. Uma vez completado, este protocolo produzirá transcriptome (s) montado (s) de novo para organismos não servidos (sem modelo) sem a necessidade de mapear para genomas de referência previamente montados (que normalmente não estão disponíveis em organismos subatendidos). Estes transcriptomas de novo são ainda utilizados na análise de expressão de genes diferenciais em pares para investigar genes que diferem entre duas condições experimentais. Os genes expressos diferencialmente são então funcionalmente anotados para compreender os organismos de resposta genética têm condições experimentais. No total, os dados derivados deste protocolo são utilizados para testar hipóteses sobre respostas biológicas de organismos mal atendidos.
O Homo sapiens e várias espécies-chave de animais como Drosophila melanogaster , Mus musculus e Danio rerio representam a maioria do trabalho genômico funcional atual e passado. No entanto, o custo rapidamente decrescente da tecnologia de sequenciamento de alto rendimento está proporcionando oportunidades para a genômica funcional em espécies animais não-modelo ( também conhecidas como "negligenciadas" ou "subatendidas") 1 . Esta é uma transição importante na genômica, uma vez que os organismos não-modelo freqüentemente representam espécies economicamente relevantes ( por exemplo , ostras, camarão, caranguejo) e oferecem oportunidades para investigar novos fenótipos e sistemas biológicos fora do escopo daqueles encontrados em espécies-modelo.
Embora os organismos subatendidos apresentam uma oportunidade atraente para investigar sistemas biológicos únicos, vários desafios enfrentam os pesquisadores particularmente durante a análise bioinformática. Alguns dosOs desafios são inatos ao processamento de grandes conjuntos de dados, enquanto outros resultam da falta de recursos genéticos disponíveis para os pesquisadores que trabalham em organismos subatendidos, como um genoma de referência, ontologias específicas de organismos, etc. Os desafios do isolamento e seqüenciamento de ácidos nucleicos são freqüentemente rotineiros. Comparação com os da análise de dados, e como tais análises bioinformáticas geralmente revela-se o custo mais subestimado de projetos de seqüenciamento 2 . Por exemplo, uma análise bioinformática de sequenciação básica de próxima geração pode consistir nas seguintes etapas: filtragem de qualidade e corte de leituras em seqüência em bruto, montagem de leituras curtas em peças contíguas maiores e anotação e / ou comparações com outros sistemas para obter entendimento biológico. Embora aparentemente simples, este fluxo de trabalho de exemplo requer conhecimento especializado e recursos computacionais além do escopo de um computador de laboratório, colocando-o fora do alcance de muitos cientistas estudando não-Organismos-modelo.
Os desafios inerentes podem ser baseados na infra-estrutura ou no conhecimento. Um desafio clássico da infra-estrutura é o acesso a recursos computacionais apropriados. Por exemplo, a montagem ea anotação dependem de algoritmos computacionalmente intensivos que exigem computadores poderosos ou clusters de computadores, com grande quantidade de RAM (256 GB-1 TB) e vários processadores / núcleos para serem executados. Infelizmente, muitos pesquisadores não têm acesso a tais recursos de computação ou não têm o conhecimento necessário para interagir com esses sistemas. Outros pesquisadores podem ter acesso a clusters de computação de alto desempenho por meio de suas universidades ou instituições, mas o acesso a esses recursos pode ser limitado e às vezes resulta em encargos por hora computacional, ou seja , o número de processadores de CPU multiplicado pelo número de clock Horas "que esses processadores estão em execução. Aproveitando um sistema de infra-estrutura cibernética financiado pela US National Science Foundation sComo o CyVerse 3, que oferece acesso gratuito aos recursos de computação para pesquisadores, nos Estados Unidos e em todo o mundo, pode ajudar a aliviar os desafios de infra-estrutura, como será demonstrado aqui.
Um exemplo de um desafio típico baseado no conhecimento é entender o software necessário para análises completas. Para efetivamente realizar um projeto baseado em seqüenciamento, os pesquisadores precisam estar familiarizados com a miríade de ferramentas de software que foram desenvolvidas para análises bioinformáticas. Aprender cada pacote é difícil por si só, mas é exacerbado pelo fato de que os pacotes estão constantemente sendo atualizados, rereleased, reunidos em novos fluxos de trabalho, e às vezes ficam restritos para uso sob novas licenças. Além disso, ao vincular as entradas e saídas dessas ferramentas, às vezes, é necessário transformar os tipos de dados para torná-los compatíveis, adicionando outra ferramenta ao fluxo de trabalho. Finalmente, também é difícil saber qual é o pacote deE melhor "para uma análise, e freqüentemente identificar o melhor software para determinadas condições experimentais é uma questão de sutis diferenças. Em alguns casos, as revisões úteis do software estão disponíveis, mas devido à liberação contínua de atualizações novas e de opções do software, estas rapidamente saem da data.
Para os pesquisadores que investigam organismos subatendidos, esses desafios inatos vêm além dos desafios associados à análise de dados em um novo organismo. Esses desafios específicos do organismo mal atendidos são melhor ilustrados durante a anotação do gene. Por exemplo, os organismos subatendidos frequentemente não têm um organismo modelo estreitamente relacionado que possa ser razoavelmente utilizado para identificar a ortografia e a função dos genes ( por exemplo, invertebrados marinhos e Drosophila ). Muitas ferramentas bioinformáticas também exigem "treinamento" para identificar motivos estruturais, que podem ser usados para identificar a função do gene. No entanto, os dados de treinamento normalmente só estão disponíveis para modOs organismos e formação de modelos de Markov ocultos (HMMs) está fora do âmbito de biólogos, e até mesmo muitos bioinformáticos. Por fim, mesmo se as anotações podem ser realizadas usando dados de organismos modelo, algumas ontologias de genes associadas a organismos modelo não fazem sentido quando a biologia ea história natural do organismo subatendido é considerada ( por exemplo , transferindo informações de Drosophila para camarão).
À luz desses desafios, os recursos bioinformáticos precisam ser desenvolvidos com pesquisadores que realizam análises de novo sobre os organismos carentes especificamente em mente. Os próximos anos de projetos de sequenciação de genômica funcional ajudarão a reduzir o hiato entre os organismos modelo e subatendidos ( https://genome10k.soe.ucsc.edu/ ), mas há muitas ferramentas que precisarão ser desenvolvidas para enfrentar os desafios Consideradas acima. CyVerse é dedicado à criação de ecossistemas de iA interoperabilidade ligando a infra-estrutura existente e as aplicações de terceiros para fornecer gerenciamento de dados, ferramentas de análise bioinformática e visualizações de dados para cientistas de vida. A interoperabilidade ajuda a suavizar as transições entre aplicações e plataformas bioinformáticas fornecendo recursos computacionais escaláveis e limitando as conversões de formatos de arquivos ea quantidade de dados transferidos entre plataformas. CyVerse oferece várias plataformas, incluindo o Discovery Environment (DE 4 , Atmosphere 5 e Data Store 3. O DE é baseado na web e tem muitas ferramentas analíticas bioinformáticas comuns convertidas em formatos user-friendly point-and-click "), E é a interface gráfica do usuário (GUI) para o armazenamento de dados onde os grandes conjuntos de dados ( ou seja , leituras de seqüenciamento em bruto, genomas montados) são armazenados e gerenciados.A atmosfera é um serviço de computação em nuvem que oferece aos pesquisadores maior flexibilidade paraUsando recursos computacionais da Máquina Virtual, que possuem uma ampla gama de ferramentas bioinformáticas pré-instaladas. Ambas as plataformas estão vinculadas ao Data Store e podem ser usadas em conjunto para criar fluxos de trabalho como o descrito aqui. Este relatório centra-se em um novo transcriptome assembly e análise diferencial expressão genética workflows, e ainda aborda algumas das melhores práticas associadas ao desenvolvimento e realização de bioinformática análises. Uma explicação da missão mais ampla do CyVerse ( http://www.cyverse.org/about ) e descrições detalhadas da plataforma ( http://www.cyverse.org/learning-center ) estão publicamente disponíveis. Todas as análises aqui descritas utilizam o Ambiente de Descoberta 4 (DE) e Atmosfera 5 , e são apresentadas de forma a torná-las acessíveis a investigadores de todos os níveis computacionais. DE workflows e AtmosphEre imagens podem ser referenciadas diretamente usando URLs para garantir proveniência a longo prazo, reutilização e reprodutibilidade.
Existem cinco passos críticos no protocolo que cada um criará sua própria pasta separada dentro da pasta principal do projeto ( Figuras 1 e 2 ). Todos os dados de seqüenciamento primário são sacrossanct: deve ser carregado e mantido na primeira pasta rotulada "1_Raw_Sequence" e não alterado de forma alguma. Os dados podem ser carregados de uma das três maneiras. A interface DE pode ser usada para carregar arquivos diretamente. Esta é a maneira mais fácil de fazer o upload de dados, mas também levará mais tempo para transferir. Cyberduck tem uma interface gráfica e permite aos usuários arrastar e soltar arquivos para transferir para o DE. O iCommands é uma ferramenta de linha de comando que pode ser usada para transferir dados de e para o Data Store, fazer diretórios e gerenciar conjuntos de dados, e é provavelmente a maneira mais rápida de transferir arquivos de dados. Todos os dados no Data Store podem ser compartilhados com outros usuários CyVerse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment), tornados públicos através de um URL gerado (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), ou podem ser hospedados publicamente e anonimamente ( Nenhum nome de usuário requerido) dados disponíveis da comunidade (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Dentro dessa pasta, as leituras de sequência em bruto são analisadas com FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) para avaliar como aparar e filtrar as leituras para gerar leituras de alta qualidade. Depois de aparar e filtrar a qualidade, é útil comparar as saídas FastQC para determinar se a qualidade de leitura foi alterada para determinar se melhorou sem perder informações ( Figura 3 ). Observe que o eixo x de FastQC não é linear, mas é binned para muitos gráficos de saída, o que pode levar a interpretação errada dos resultados. As leituras aparadas e filtradas são então usadas para montar transcriptomes de novo usando uma instância de computação em nuvem Atmosphere. esteO computador da nuvem usa a tela, o teclado eo mouse do computador local, mas tem seu próprio software (Trinity e Trinotate) e hardware instalado. A execução de programas na instância do computador em nuvem não afetará o computador local de qualquer forma. A montagem de novo ea anotação a jusante provavelmente serão as duas etapas mais longas neste fluxo de trabalho. Portanto, eles são concluídos na atmosfera para evitar comum laboratório compartilhado problemas do computador que iria interromper a análise como interrupções de energia, reinicia após atualizações automáticas tarde da noite, ou falhas causadas por outros usuários. A anotação de trinotate usa BLAST + 8 , HMMER 9 , tmHMM 10 e PFAM 11 . A saída final da anotação é um banco de dados SQLite e um arquivo .xls. As saídas podem ser usadas fora CyVerse em plataformas de análise downstream, como KEGG 12 , 13 .
Este fluxo de trabalhoEstá pronto para usar no DE e Atmosfera. Isso elimina a necessidade de gastar tempo instalando, configurando e solucionando problemas de cada pacote de análise e todas as dependências que cada ferramenta requer. Isso agiliza as análises dos pesquisadores, minimiza o esforço desperdiçado e reduz a barreira de entrada para muitos cientistas. Este fluxo de trabalho especificamente monta leituras single-ou pares-end da plataforma de sequenciamento Illumina, mas muitas ferramentas existem no DE e Atmosfera para lidar com outros tipos de tecnologias de seqüenciamento. Ferramentas neste fluxo de trabalho podem ser facilmente substituídas por uma ferramenta alternativa correspondente para lidar com qualquer tipo de tecnologia de sequenciamento de entrada. Isso também é verdade para novas versões de ferramentas de análise ou ferramentas completamente novas.
Este fluxo de trabalho é projetado especificamente para montar, comparar e anotar apenas alguns transcriptomes de cada vez. Portanto, os usuários podem achar que é demorado para montar múltiplos transcriptomes para genética populacional comparativa. AnálisePipelines estará disponível para os usuários de genética populacional em um futuro próximo eo link para o pipeline pode ser encontrado na página wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). O passo de análise de expressão genética diferencial pode lidar com repetições, mas é uma comparação em pares e não avaliará com precisão múltiplos fatores ( por exemplo , condições que variam ao longo do tempo, mais de dois tratamentos). Existem fluxos de trabalho automatizados para organismos com genomas de referência ( por exemplo , TRAPLINE 14 ). Enquanto fluxos de trabalho automatizados são os mais fáceis de usar para iniciantes, conjuntos de novo exigem avaliação e consideração para cada etapa delineada aqui. Além disso, os usuários são obrigados a usar pipelines automatizados como eles são construídos e, portanto, são inerentemente não flexíveis para atender às demandas de mudança dos usuários.
Como a maior parte deste protocolo é realizado através da Internet, os usuários podem ter problemas com as configurações do navegador. Primeiramente,Os bloqueadores de pop-up podem impedir que as janelas se abram, ou podem impedir que as janelas sejam abertas até que seja dada permissão ao CyVerse no navegador. O Atmosphere usa o VNC para acessar desktops remotos, mas outros softwares podem ser usados. Todo esse protocolo foi conduzido no Firefox versão 45.0.2 e deve funcionar com todos os navegadores de Internet populares, mas algumas inconsistências podem aparecer. O fluxo de trabalho será atualizado quando a Trinity lançar novas versões (https://github.com/trinityrnaseq/trinityrnaseq/wiki). As versões mais recentes e as informações atualizadas sobre o fluxo de trabalho podem ser encontradas na página do tutorial wiki ( Tabela 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Os usuários podem contatar o suporte diretamente ou postar perguntas no Ask CyVerse (ask.cyverse.org/) para solucionar problemas com o fluxo de trabalho.
No DE existem várias aplicações para realizar cada passo deste protocolo. Por exemplo, os usuários podem querer executar Scythe (https://github.com/najoshi/sickle) em vez de Trimmomatic15 para ler recortar ou executar EdgeR 16 em vez de DESeq 17 , 18 . Embora fora do escopo deste manuscrito, os aplicativos DE podem ser copiados, editados e liberados pelos usuários (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) ou novos aplicativos podem ser adicionados pelos usuários (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). As imagens do Atmosphere também podem ser modificadas e reimaginadas para criar fluxos de trabalho novos ou modificados que atendam às necessidades dos usuários mais especificamente (https://wiki.cyverse.org/wiki/x/TwHX). Este trabalho serve como uma introdução à utilização da linha de comando para mover dados e executar análises. Os usuários podem considerar a utilização de recursos de linha de comando mais avançados, como interfaces de programação de aplicativos CyVerse (APIs) (http://www.cyverse.org/science-apis), ou projetar seus próprios aplicativos DE, que exigem conhecimentoSobre como a ferramenta de análise é executada na linha de comando (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |