Summary

Aproveitando os Recursos CyVerse para<em> De Novo</em> Transcriptômica Comparativa de Organismos Não Servidos (não Modelos)

Published: May 09, 2017
doi:

Summary

This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.

Abstract

Este fluxo de trabalho permite que pesquisadores novatos aproveitem recursos computacionais avançados, como computação em nuvem, para realizar transcriptômicos comparativos em pares. Ele também serve como um primário para biólogos para desenvolver dados cientista competências computacionais, por exemplo , executar comandos bash, visualização e gestão de grandes conjuntos de dados. Todos os códigos de linha de comando e explicações adicionais de cada comando ou etapa podem ser encontrados no wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). As plataformas Discovery Environment e Atmosphere são conectadas entre si através do CyVerse Data Store. Como tal, uma vez que os dados iniciais de sequenciação em bruto foram carregados, não há mais necessidade de transferir arquivos de dados grandes por meio de uma conexão com a Internet, minimizando o tempo necessário para realizar análises. Este protocolo foi concebido para analisar apenas dois tratamentos ou condições experimentais. A análise diferencial da expressão genética éOugh pairwise comparações, e não será adequado para testar vários fatores. Este fluxo de trabalho também é projetado para ser manual, em vez de automatizado. Cada passo deve ser executado e investigado pelo usuário, resultando em um melhor entendimento dos dados e resultados analíticos e, portanto, melhores resultados para o usuário. Uma vez completado, este protocolo produzirá transcriptome (s) montado (s) de novo para organismos não servidos (sem modelo) sem a necessidade de mapear para genomas de referência previamente montados (que normalmente não estão disponíveis em organismos subatendidos). Estes transcriptomas de novo são ainda utilizados na análise de expressão de genes diferenciais em pares para investigar genes que diferem entre duas condições experimentais. Os genes expressos diferencialmente são então funcionalmente anotados para compreender os organismos de resposta genética têm condições experimentais. No total, os dados derivados deste protocolo são utilizados para testar hipóteses sobre respostas biológicas de organismos mal atendidos.

Introduction

O Homo sapiens e várias espécies-chave de animais como Drosophila melanogaster , Mus musculus e Danio rerio representam a maioria do trabalho genômico funcional atual e passado. No entanto, o custo rapidamente decrescente da tecnologia de sequenciamento de alto rendimento está proporcionando oportunidades para a genômica funcional em espécies animais não-modelo ( também conhecidas como "negligenciadas" ou "subatendidas") 1 . Esta é uma transição importante na genômica, uma vez que os organismos não-modelo freqüentemente representam espécies economicamente relevantes ( por exemplo , ostras, camarão, caranguejo) e oferecem oportunidades para investigar novos fenótipos e sistemas biológicos fora do escopo daqueles encontrados em espécies-modelo.

Embora os organismos subatendidos apresentam uma oportunidade atraente para investigar sistemas biológicos únicos, vários desafios enfrentam os pesquisadores particularmente durante a análise bioinformática. Alguns dosOs desafios são inatos ao processamento de grandes conjuntos de dados, enquanto outros resultam da falta de recursos genéticos disponíveis para os pesquisadores que trabalham em organismos subatendidos, como um genoma de referência, ontologias específicas de organismos, etc. Os desafios do isolamento e seqüenciamento de ácidos nucleicos são freqüentemente rotineiros. Comparação com os da análise de dados, e como tais análises bioinformáticas geralmente revela-se o custo mais subestimado de projetos de seqüenciamento 2 . Por exemplo, uma análise bioinformática de sequenciação básica de próxima geração pode consistir nas seguintes etapas: filtragem de qualidade e corte de leituras em seqüência em bruto, montagem de leituras curtas em peças contíguas maiores e anotação e / ou comparações com outros sistemas para obter entendimento biológico. Embora aparentemente simples, este fluxo de trabalho de exemplo requer conhecimento especializado e recursos computacionais além do escopo de um computador de laboratório, colocando-o fora do alcance de muitos cientistas estudando não-Organismos-modelo.

Os desafios inerentes podem ser baseados na infra-estrutura ou no conhecimento. Um desafio clássico da infra-estrutura é o acesso a recursos computacionais apropriados. Por exemplo, a montagem ea anotação dependem de algoritmos computacionalmente intensivos que exigem computadores poderosos ou clusters de computadores, com grande quantidade de RAM (256 GB-1 TB) e vários processadores / núcleos para serem executados. Infelizmente, muitos pesquisadores não têm acesso a tais recursos de computação ou não têm o conhecimento necessário para interagir com esses sistemas. Outros pesquisadores podem ter acesso a clusters de computação de alto desempenho por meio de suas universidades ou instituições, mas o acesso a esses recursos pode ser limitado e às vezes resulta em encargos por hora computacional, ou seja , o número de processadores de CPU multiplicado pelo número de clock Horas "que esses processadores estão em execução. Aproveitando um sistema de infra-estrutura cibernética financiado pela US National Science Foundation sComo o CyVerse 3, que oferece acesso gratuito aos recursos de computação para pesquisadores, nos Estados Unidos e em todo o mundo, pode ajudar a aliviar os desafios de infra-estrutura, como será demonstrado aqui.

Um exemplo de um desafio típico baseado no conhecimento é entender o software necessário para análises completas. Para efetivamente realizar um projeto baseado em seqüenciamento, os pesquisadores precisam estar familiarizados com a miríade de ferramentas de software que foram desenvolvidas para análises bioinformáticas. Aprender cada pacote é difícil por si só, mas é exacerbado pelo fato de que os pacotes estão constantemente sendo atualizados, rereleased, reunidos em novos fluxos de trabalho, e às vezes ficam restritos para uso sob novas licenças. Além disso, ao vincular as entradas e saídas dessas ferramentas, às vezes, é necessário transformar os tipos de dados para torná-los compatíveis, adicionando outra ferramenta ao fluxo de trabalho. Finalmente, também é difícil saber qual é o pacote deE melhor "para uma análise, e freqüentemente identificar o melhor software para determinadas condições experimentais é uma questão de sutis diferenças. Em alguns casos, as revisões úteis do software estão disponíveis, mas devido à liberação contínua de atualizações novas e de opções do software, estas rapidamente saem da data.

Para os pesquisadores que investigam organismos subatendidos, esses desafios inatos vêm além dos desafios associados à análise de dados em um novo organismo. Esses desafios específicos do organismo mal atendidos são melhor ilustrados durante a anotação do gene. Por exemplo, os organismos subatendidos frequentemente não têm um organismo modelo estreitamente relacionado que possa ser razoavelmente utilizado para identificar a ortografia e a função dos genes ( por exemplo, invertebrados marinhos e Drosophila ). Muitas ferramentas bioinformáticas também exigem "treinamento" para identificar motivos estruturais, que podem ser usados ​​para identificar a função do gene. No entanto, os dados de treinamento normalmente só estão disponíveis para modOs organismos e formação de modelos de Markov ocultos (HMMs) está fora do âmbito de biólogos, e até mesmo muitos bioinformáticos. Por fim, mesmo se as anotações podem ser realizadas usando dados de organismos modelo, algumas ontologias de genes associadas a organismos modelo não fazem sentido quando a biologia ea história natural do organismo subatendido é considerada ( por exemplo , transferindo informações de Drosophila para camarão).

À luz desses desafios, os recursos bioinformáticos precisam ser desenvolvidos com pesquisadores que realizam análises de novo sobre os organismos carentes especificamente em mente. Os próximos anos de projetos de sequenciação de genômica funcional ajudarão a reduzir o hiato entre os organismos modelo e subatendidos ( https://genome10k.soe.ucsc.edu/ ), mas há muitas ferramentas que precisarão ser desenvolvidas para enfrentar os desafios Consideradas acima. CyVerse é dedicado à criação de ecossistemas de iA interoperabilidade ligando a infra-estrutura existente e as aplicações de terceiros para fornecer gerenciamento de dados, ferramentas de análise bioinformática e visualizações de dados para cientistas de vida. A interoperabilidade ajuda a suavizar as transições entre aplicações e plataformas bioinformáticas fornecendo recursos computacionais escaláveis ​​e limitando as conversões de formatos de arquivos ea quantidade de dados transferidos entre plataformas. CyVerse oferece várias plataformas, incluindo o Discovery Environment (DE 4 , Atmosphere 5 e Data Store 3. O DE é baseado na web e tem muitas ferramentas analíticas bioinformáticas comuns convertidas em formatos user-friendly point-and-click "), E é a interface gráfica do usuário (GUI) para o armazenamento de dados onde os grandes conjuntos de dados ( ou seja , leituras de seqüenciamento em bruto, genomas montados) são armazenados e gerenciados.A atmosfera é um serviço de computação em nuvem que oferece aos pesquisadores maior flexibilidade paraUsando recursos computacionais da Máquina Virtual, que possuem uma ampla gama de ferramentas bioinformáticas pré-instaladas. Ambas as plataformas estão vinculadas ao Data Store e podem ser usadas em conjunto para criar fluxos de trabalho como o descrito aqui. Este relatório centra-se em um novo transcriptome assembly e análise diferencial expressão genética workflows, e ainda aborda algumas das melhores práticas associadas ao desenvolvimento e realização de bioinformática análises. Uma explicação da missão mais ampla do CyVerse ( http://www.cyverse.org/about ) e descrições detalhadas da plataforma ( http://www.cyverse.org/learning-center ) estão publicamente disponíveis. Todas as análises aqui descritas utilizam o Ambiente de Descoberta 4 (DE) e Atmosfera 5 , e são apresentadas de forma a torná-las acessíveis a investigadores de todos os níveis computacionais. DE workflows e AtmosphEre imagens podem ser referenciadas diretamente usando URLs para garantir proveniência a longo prazo, reutilização e reprodutibilidade.

Protocol

NOTA: O protocolo global foi numerado de acordo com pastas que serão criadas e nomeadas no passo 1.2 ( Figura 1 e 2 ). Este protocolo representa um padrão comparativo de novo transcriptome análise, e cada passo detalhado aqui pode não ser necessário para todos os pesquisadores. Este fluxo de trabalho é documentado completamente em um tutorial complementar wiki, que também contém todos os arquivos adicionais e links para documentos de interesse 3 º partido desenvolvedores para cada pacote de análise ( Tabela 1 ). Links para este material serão incluídos em todo este protocolo para facilitar o acesso a esta informação. Melhores práticas são notas fornecidas aos usuários como sugestões para a melhor maneira de realizar tarefas ou para os usuários a considerar e serão comunicadas através de notas no protocolo. Uma pasta de entrada de dados de exemplo e saída analítica está publicamente disponível para os usuários, e é organizada como sugerido no protocolo ( de novo </Em> transcriptoma montagem e análise. 1. Configure o projeto, faça o upload de seqüências de leitura em sequência e avalie leituras usando FastQC Obtenha acesso à atmosfera e ao ambiente de descoberta. Solicite uma conta CyVerse gratuita navegando para a página de registro ( por exemplo, person@institution.edu). Preencha as informações necessárias e envie. Navegue até a página principal (http://www.cyverse.org/) e selecione "Iniciar sessão" na barra de ferramentas superior. Selecione "Cyverse Login" e faça login usando suas credenciais do CyVerse. Navegue até a guia Aplicativos e Serviços e solicite acesso ao Atmosphere. O acesso ao Ambiente de Descoberta é automaticamente concedido. Configurar o projeto e mover dados para o armazenamento de dados. Efetue login no ambiente de descoberta (https://de.iplantcollaborative.org/de). Selecione a guia "Dados" para abrir um menu contendo todas as pastas no Data Store. </Li Crie uma pasta de projeto principal que abrigará todos os dados associados ao projeto. Localize a barra de ferramentas na parte superior da janela de dados e selecione Arquivo | Nova pasta. Não use espaços ou caracteres especiais nos nomes das pastas ou quaisquer nomes de arquivos de entrada / saída, por exemplo "! @ # () [] {}:; $% ^ & *." Em vez disso, use sublinhados ou traços, ou seja , "_" ou "-", quando apropriado. Crie cinco pastas dentro da pasta principal do projeto para organizar as análises ( Figura 1 ) Nomeie as pastas da seguinte maneira sem vírgulas ou aspas: "1_Raw_Sequence", "2_High_Quality_Sequence", "3_Assembly", "4_Differential_Expression", "5_Annotated_Assembly". As subpastas serão colocadas em cada uma das pastas principais do projeto ( Figura 2 ). Figura1: Uma Visão Geral da Organização da Pasta do Projeto e o Workflow de Montagem e Análise do Novo Transcriptoma. Os usuários enviarão as leituras de seqüência em bruto para a pasta principal do projeto no Data Store e, em seguida, colocarão os resultados de cada etapa em pastas separadas. Clique aqui para ver uma versão maior desta figura. Figura 2: Uma visão geral detalhada do fluxo de trabalho de montagem e análise do transcriptoma De Novo que ocorre na Cyberinfrastructure CyVerse. Todo o fluxo de trabalho de montagem e análise será concluído em cinco etapas, cada uma com sua própria pasta (ícones em negrito e numerados). Cada uma das cinco pastas de etapa de fluxo de trabalho numeradas tem subpastas contendo dados de saída de análises bioinformáticas (pastaÍcones). Entradas para análise vêm de uma subpasta e, em seguida, mover para outra pasta através da saída de um programa de análise (caixas de retângulo). Os dados finais dos três primeiros passos são comparados e preparados para publicação. Em última análise, este esquema produz uma pasta de projeto principal que tem análise passo a passo para colaboradores e / ou revisores manuscritos podem rapidamente entender o fluxo de trabalho e repeti-lo usando cada arquivo, se necessário. Clique aqui para ver uma versão maior desta figura. Suba arquivos de seqüência FASTQ raw para a pasta "1_Raw_Sequence" em uma subpasta intitulada "A_Raw_Reads" usando um dos três métodos a seguir. Utilize o recurso de carregamento simples do Armazenamento de dados para navegar até a barra de ferramentas da janela Dados, clicando no botão de dados na área de trabalho principal do DE e selecione Upload | Upload Simples do Desktop. Selecione o botão ProcurarPara navegar para os arquivos de seqüenciamento FASTQ em bruto no computador local. Este método é adequado apenas para arquivos com menos de 2 GB. Selecione o botão Carregar na parte inferior da tela para enviar o upload. Uma notificação será registrada no canto superior direito do DE no ícone de sino que o upload foi enviado. Outra notificação será registrada quando o upload estiver concluído. Como alternativa, use o Cyberduck para transferir arquivos maiores (https://wiki.cyverse.org/wiki/x/pYcVAQ). Instale o Cyberduck e execute-o como um programa no ambiente de trabalho do computador local. Por fim, faça o download do iCommands e instale no computador local de acordo com as instruções (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands). Avaliar as leituras de seqüência de dados carregadas, usando o aplicativo FastQC no DE. Selecione o botão "Aplicativos" na área de trabalho principal do DE para abrir uma janela contendo todos os aplicativos de análise disponíveis no DE. Pesquisar e abrir a vitóriaDow para a ferramenta FastQC na barra de ferramentas de pesquisa na parte superior da janela. Abra a versão de vários arquivos se houver mais de um arquivo FASTQ. Selecione Arquivo | Nova Pasta para criar uma pasta chamada "B_FastQC_Raw_Reads" e selecione esta pasta como a pasta de saída. Carregue os arquivos de leitura FASTQ na janela de ferramentas chamada "Selecionar dados de entrada" e selecione "Análise de Inicialização". Abra o arquivo .html ou .pdf para exibir os resultados quando a análise estiver concluída. O FastQC executa várias análises que testam diferentes aspectos dos arquivos de leitura ( Figura 3 ). 2. Trim e filtro de qualidade Raw lê para produzir seqüência de alta qualidade Nota: Use o aplicativo Trimmomatic ou o aplicativo Sickle. Procure o aplicativo Trimmomatic programável no DE e abra-o como antes. Faça o upload da pasta de arquivos de leitura FASTQ em bruto na seção "Configurações". Selecione se o seOs arquivos de quence são single-ou emparelhados-end. Use o arquivo de controle padrão fornecido selecionando o botão Procurar e colando / iplant / home / shared / Trinity_transdecoder_trinotate_databases na caixa "Viewing:". Selecione o arquivo denominado Trimmomaticv0.33_control_file e inicie a análise. O arquivo pode ser baixado, as configurações editadas e, em seguida, carregado na segunda pasta de projeto para criar um script de corte personalizado. Opcional: Se a análise FastQC identificou sequências de adaptador, use a configuração ILLUMINACLIP para recortar adaptadores Illumina. Selecione o arquivo de adaptador apropriado na pasta / iplant / home / shared / Trinity_transdecoder_trinotate_databases como acima. Seqüência de corte de qualidade lê usando Sickle. Pesquise e abra o aplicativo Sickle no DE. Selecione as leituras FASTQ aparadas como leituras de entrada e renomeie os arquivos de saída. Inclua configurações de qualidade nas opções. Configurações típicas são Formato de qualidade: illumina, sanger, solexa; Qualidade tLimiar: 20; Comprimento mínimo: 50. Mova toda a saída para a pasta aparada e filtrada (2_High_Quality_Sequence). Avalie as leituras finais usando FastQC e compare com relatórios FastQC anteriores. Selecione o arquivo .html para exibir uma página da Web de todos os resultados. Selecione a pasta de arquivos de imagem (.png) que são fornecidos na saída, se isso não puder ser exibido. 3. De Novo Transcriptome Assembly Usando a Trindade na Atmosfera Abra a versão mais atual da instância do Atmosphere navegando para a página wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). Selecione o link para a versão mais recente da imagem Trinity e Trinotate. Como alternativa, procure "Trinotate" na ferramenta de pesquisa de imagens Atmosphere (https://atmo.iplantcollaborative.org/application/images) para exibir todas as versões das imagens Trinity e Trinotate. Selecione o botão "Log in to launch" e nomeie o Atmosphere iNstance. Selecione um tamanho de instância de "medium3" (CPU: 4, Mem: 32GB) ou "grande3" (CPU: 8, Mem: 64 GB). Inicie a instância e aguarde que ela seja compilada. Em alguns casos raros CyVerse sofre manutenção para atualizar plataformas. As instâncias existentes estão disponíveis durante essas atualizações, mas pode não ser possível criar novas instâncias. Visite a página CyVerse Status para ver o estado atual de qualquer plataforma (http://status.cyverse.org/). Abra a instância assim que estiver pronta clicando no nome e selecionando "Remote Desktop" na parte inferior do menu à direita. Permitir Java e VNC Viewer se solicitado. Selecione o botão "Conectar" na janela do Visualizador do VNC e selecione "Continuar". Faça login para abrir uma janela separada que será a nova instância de computação em nuvem. Mova os arquivos de leitura FASTQ cortados e / ou filtrados para a instância usando um dos três métodos descritos nas etapas 1.3.1 a 1.3.4. NosE o navegador da Internet para acessar o DE e baixar arquivos exatamente como antes no computador local. Ou use iCommands instalados nessas imagens para transferir rapidamente grandes conjuntos de dados. Running Trinity para montar leituras de alta qualidade. Configure a pasta de análise na instância Atmosphere. Use o script disponível no DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) ou copie e cole os comandos da página wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). A explicação de todos os comandos pode ser encontrada na página wiki. Uma vez estabelecida a pasta de análise e os bancos de dados do Trinotate, execute o assemblage Trinity usando os comandos acima. Existem vários arquivos de saída, mas o mais importante é o arquivo de montagem final intitulado "Trinity.fasta". Renomeie este arquivo FASTA para ser exclusivo para o organismo e tratamento das leituras montadas antes de movê-lo para o Data Store (pasta 3_Assembly) para minimizar a confusão potencial. NOTA: A saída conta as tabelas para análise de expressão gênica diferencial em uma pasta (4_Differential_Expression). Avaliar a montagem usando rnaQUAST ( Figura 4 ). Mova os arquivos de saída da Trinity para a pasta "3_Assembly" no DE e marque a pasta "A_Trinity_de_novo_assembly". Dê a cada transcriptome que foi montado uma subpasta dentro da pasta "A_Trinity_de_novo_assembly" com nomes exclusivos, incluindo o nome científico dos organismos e tratamentos associados a cada transcriptome. Crie outra subpasta chamada "B_rnaQUAST_Output" na "pasta 3_Assembly". Abra o aplicativo intitulado "rnaQUAST 1.2.0 (baseado em denovo)" e nomeie a análise e selecione "B_rnaQUAST_Output" como a pasta de saída. Adicione o novo arquivo de montagem FASTA arquivos para a seção "Entrada de dados". Na seção "Saída de dados", digite um nome exclusivo para o </eM> assembly. Isso criará uma pasta de arquivos de saída rnaQUAST dentro da pasta "B_rnaQUAST_Output". Selecione opções adicionais nas seções "GenemarkS-T Gene Prediction", "BUSCO" e "Parameters". Selecione prokaryote na seção "GenemarkS-T Gene Prediction" se o organismo não é eucariótico. Execute o BUSCO para selecionar o botão de navegação e copie o caminho iplant / home / shared / iplantcollaborative / example_data / BUSCO.sample.data na caixa "Viewing:" e pressione enter. Selecione a pasta BUSCO mais específica que está disponível para o organismo. NOTA: BUSCO irá avaliar a montagem para a linhagem de genes específicos do núcleo, e saída que a percentagem de genes núcleo é encontrado. Existem pastas gerais, por exemplo , eucariotas e linhagens mais específicas, por exemplo , artrópodes. Procure por "Transcript decoder" e execute Transdecoder no de novO Trinity assembly arquivo FASTA de saída no ambiente de descoberta. Mova o arquivo .pep de saída para a pasta de novo assembly (3_Assembly) para uso na etapa 5 Annotation. 4. Expressão Diferencial Pairwise Usando DESeq2 no DE Abra o aplicativo DESeq2 no DE, como descrito anteriormente. Nomeie a análise e selecione a pasta de saída como 4_Differential_Expression. Na seção "Entradas", selecione o arquivo de tabela de contagens da execução de montagem Trinity ea coluna que os nomes contig podem ser encontrados na tabela de contagem. Insira os cabeçalhos de coluna do arquivo de tabela de dados de contagens para determinar quais colunas são comparadas. Inclua as vírgulas entre cada uma das condições. Não inclua o cabeçalho da primeira coluna que contém os nomes contig. Para repetições, repita o mesmo nome ( por exemplo , Tratamento1rep1, Tratamento1rep2, Tratamento1rep3 se tornaria Tratamento1, Tratamento1, Tratamento1). EmE segunda linha, fornecer os nomes das duas condições a serem comparados ( por exemplo , Tratamento1, Tratamento2). Faça corresponder os nomes de cabeçalho de coluna fornecidos na primeira linha. Observação: esses cabeçalhos de coluna devem ser alfanuméricos e não podem conter caracteres especiais. 5. Anotações Usando Trinotate Execute cada parte do Trinotate na instância de computação em nuvem do Atmosphere. Nota: Os comandos Bash são fornecidos em um arquivo txt para serem copiados, colados e modificados antes de serem executados no DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) ou na página wiki (https://wiki.cyverse.org/ Wiki / x / dgGtAQ). Se anotar vários assemblies, anotar cada assembly um de cada vez e, em seguida, transferir arquivos de anotações concluídas de volta para a pasta "5_Annotation" cada um com uma pasta única correspondente com o nome do assembly. Execute o comando bash para pesquisar transcrições da Trindade. Alterar o número de threads para coincidir com quantos CPUs sãoNa instância, ou seja , médio tem 4 CPUs e grande tem 8 CPUs. Consulte a etapa 3.1.2 para obter mais detalhes. Altere o comando Trinity.fasta para coincidir com o nome do arquivo de montagem FASTA. OBSERVAÇÃO: as pesquisas BLAST + exigirão mais tempo. Pode ser dias antes de ser concluída. A atividade do computador em nuvem pode ser verificada em Atmosfera sem ter que abrir o Visualizador do VNC. Execute o comando bash para pesquisar as proteínas preditas pelo Transdecoder. Como antes, altere o número de threads eo nome do arquivo para que correspondam às condições em 5.2.1. Execute o comando bash para HMMER e altere o número de threads como acima. Execute o comando bash para signalP e tmHMM, se necessário. SignalP irá prever peptídeos de sinal e tmHMM prevê motivos de proteína transmembrana. Carregando resultados no banco de dados SQLite Uma vez que todas as análises acima são concluídas, execute o comando bash para carregar os arquivos de saída em um banco de dados de anotação SQLite final. Remover quaisquer comandosPara análises que não foram executadas. Exporte o banco de dados SQLite para um arquivo .xls para visualização em visualizadores de tabelas populares.

Representative Results

Uma vez que os arquivos de organização do projeto foram criados ( Figura 1 e 2 ), a primeira tarefa neste fluxo de trabalho é avaliar os arquivos de seqüência em bruto e, em seguida, limpá-los por recorte e filtragem de qualidade. O FastQC irá gerar estatísticas de resumo legível sobre as pontuações de qualidade eo comprimento das sequências do formato de arquivo FASTQ. As figuras do FastQC são então comparadas antes e depois do corte para avaliar se as leituras finais são de alta qualidade e, portanto, adequadas para montagem. "Por qualidade de sequência de base" mostra a qualidade média de leituras através de cada par de bases de sequenciação. É melhor ter um índice de qualidade de phred acima de 20-28 indicado pelas cores nos números de FastQC. "Por pontuação de qualidade de seqüência" determina se a filtragem de qualidade de leituras pode ser necessária. Se muitas leituras tiverem uma pontuação média abaixo de 20-25, então pode ser necessário filtrar com base na qualidade de leitura média. "Por conteúdo de seqüência de base" deve mostrar uma distribuição uniforme em todas as quatro bases nucleotídicas. Se houver viés no conteúdo de nucleótidos é mostrado, então as extremidades de corte podem ser necessárias. "Por conteúdo de GC de base também deve ser uniforme em todas as posições.Se houver um oscilação as leituras podem precisar ser aparadas como em 1.4.4.3." Por conteúdo de GC seqüência "deve ser uma distribuição normal.Adaptador ou reação em cadeia da polimerase (PCR ) Pode contaminação na biblioteca de seqüenciamento e enviesar a distribuição normal.Em este caso, ajuste de adaptador pode ser necessário.Resolução de comprimento de seqüência "dá a média de comprimentos de todas as leituras .Reads menor do que 35-45 pares de bases são geralmente filtradas. Os "níveis de duplicação de sequências" mostram quantas vezes a seqüência de uma determinada leitura é vista dentro da biblioteca.Altamente duplicada ler seqüência e contagem são fornecidos na seção "Overrepresented seqüências" FastQC também tenta identificar se as leituras duplicadasS� sequ�cias adaptadoras ou outras sequ�cias conhecidas associadas a plataformas de sequencia�o. Um rótulo de "No Hit" significa que a sequência deve ser investigada utilizando NCBI BLAST 6 para determinar se é uma sequência biologicamente relevante, ou se deve ser removida. O DE também tem várias versões do BLAST disponíveis. O aplicativo DE BLASTn está disponível em: https://de.iplantcollaborative.org/de/?type=apps&amp;app-id=6f94cc92-6d28-45c6-aef1-036be697671d . Depois de seqüenciamento em bruto foram selecionados para produzir leituras de alta qualidade, as leituras precisam ser montadas para criar sequências contíguas (contigs). Em suma, as montagens são criadas alinhando todas as leituras de seqüência curta para encontrar seqüências semelhantes. Áreas de seqüência similar maiores do que um certo comprimento são consideradas as saMe porque a probabilidade de uma seqüência similar de ocorrência aleatória de um certo comprimento é quase zero. Trinity irá produzir arquivos de log, arquivos fasta para cada etapa no processo de montagem. No entanto, a saída mais importante é o arquivo de montagem final que contém os contigs, que é rotulado como "Trinity.fasta" e encontrado na pasta principal. Este arquivo contém todos os contigs montados, e em si mesmo não é praticamente "legível por humanos". Portanto, a ferramenta rnaQUAST pode ser usada para entender a montagem com mais profundidade. A ferramenta rnaQUAST produzirá figuras que permitirão aos usuários comparar montagens para determinar quais são as mais completas ( Figura 4 ). Informações adicionais sobre cada figura do rnaQUAST podem ser encontradas no wiki ( https://wiki.cyverse.org/wiki/x/fwuEAQ ). Se BUSCO 7 foi executado, de particular interesse é o arquivo specificity.txt que mostra o número de completo e pARC BUSCO e o número de GeneMarkS-T predições do gene em uma montagem. Os genes BUSCO são conjuntos curados de genes comuns a um grupo de organismos. Eles podem ser usados ​​para avaliar quão bem uma montagem está capturando conjuntos de genes que se espera que estejam presentes em qualquer tipo de organismo, que é baseado em clados filogenéticos. Um aplicativo BUSCO autônomo também está disponível no DE ( https://de.iplantcollaborative.org/de/?type=apps&amp;app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ). A análise diferencial da expressão genética identifica os transcritos que têm diferentes padrões de expressão entre tratamentos a partir de contagens simples por tabelas de transcrições reunidas. DESeq2 utiliza um modelo linear generalizado (GLM) para determinar a variação de uma média normalizada. As experiências com repetições são preferidas de modo que variações técnicas frOm sequenciamento pode ser normalizado pelo algoritmo DESeq2. A análise DESeq2 DEG produz números e um arquivo de relatório .html que contém todos os números de saída e uma descrição. Como alternativa, EdgeR pode ser usado em vez de DESeq2, e o mesmo relatório .html será gerado com visualizações EdgeR em vez disso. Os pesquisadores podem desejar executar ambos DESeq2 e EdgeR para encontrar genes expressos diferencialmente identificados por ambos os algoritmos para qualquer experiência. O Trinotate criará um arquivo .xls de saída que pode ser aberto em qualquer programa de software de planilha. Os arquivos .txt DEG e o arquivo .xls de anotação podem ser analisados ​​e visualizados em vários aplicativos downstream que existem fora da plataforma CyVerse. Figura 3: Relatórios FastQC de Leituras de Seqüência Bruta, Leituras Recortadas e Leis Finais Recortadas e Filtradas. Comparação sistemática de seqüenciamento lidaS após cada passo de pré-processamento. Leituras de alta qualidade são necessárias para montar transcriptomas de novo . FastQC pode ajudar os pesquisadores a entender a qualidade inicial de seus dados de seqüenciamento e controlar a eficiência com que as leituras foram pré-processadas. Os resultados do FastQC dependerão dos organismos e amostras que estão sendo sequenciados, mas a uniformidade em todas as amostras que serão comparadas a jusante é o objetivo primário do pré-processamento. Um vídeo tutorial e documentação estão disponíveis a partir dos autores e desenvolvedores do FastQC. Clique aqui para ver uma versão maior desta figura. Figura 4: rnaQUAST Relatórios de Três Assembléias Separadas. RnaQUAST pode ser usado para comparar vários assemblies de leitura usando o mesmo assembler, ou múltiplo a Usando as mesmas leituras iniciais. RnaQUAST aproveita BUSCO para gerar estatísticas sumárias sobre montagens baseadas em genes de núcleo conhecidos presentes em clados taxonômicos. O número de desajustes por transcrição e quantos transcritos correspondem aos genes canônicos, fração correspondente, fornecem insight sobre a precisão dos montadores. As quatro últimas subparcelas apresentadas aqui fornecem estatísticas resumidas do comprimento do contig e da isoforma ea cobertura das isoformas esperadas. NAx representa a porcentagem (x) de contigs com um comprimento maior que o comprimento (bp) no eixo y. A fração montada é o maior transcrito montado individual dividido pelo seu comprimento. A fracção coberta é a percentagem de transcritos / isoformas completos montados conforme esperado pelos genes procarióticos ou eucarióticos centrais da BUSCO. Uma descrição de todos os gráficos gerados pelo rnaQUAST está disponível ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "target =" _ blank "> Clique aqui para ver uma versão ampliada desta figura. Nome do aplicativo Plataforma CyVerse Documentação de terceiros Documentação CyVerse Tempo de execução estimado para conjunto de dados de amostra Link para o aplicativo FastQC DE Http: //www.bioinformatics. Babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y Https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768 15 min Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 112b9aa8-c4a7-11e5-8209- 5f3310948295 Trimmomatic v0.33 DE Https://github.com/timflutre/trimmomatic Https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-prOgrammable-0,33 30 minutos Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 9c2a30dc-028d- 11e6-a915-ab4311791e69 Foice DE Https://github.com/najoshi/sickle Https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming 30 minutos Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 68b278f8-d4d6-414d-9a64-b685a7714f7c Trindade Atmosfera Https://github.com/trinityrnaseq/trinityrnaseq/wiki Https: //pods.iplantcollaborative Org / wiki / display / atmman / Trinity + – + Trinotate + Atmosfera + Imagem 1 semana Https: //atmo.iplantcollaborative. Org / application / images / 1261 DE Https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 2-5 dias Https: // wikI.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 RnaQUAST v1.2.0 DE, Atmosfera Http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html Https: //pods.iplantcollaborative Org / wiki / display / TUT / rnaQUAST + 1.2.0 +% 28denovo + baseado% 29 + usando + DE 30 minutos Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 980dd11a-1666- 11e6-9122-930 Ba8f23352 Transdecoder DE Https://transdecoder.github.io Https://wiki.cyumper.org/wiki/display/DEapps/Transcript+decoder+2.0 2-3 horas Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179 DESeq2 DE Https://bioconductor.org/packages/release/bioc/html/DESeq2.html Https: //pods.iplantcollaborative Org / wiki / páginas /Viewpage.action? PageId = 28115142 2-3 horas Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 9574e87c-4f90- 11e6-a594-008 Cfa5ae621 EdgeR DE Https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf Https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144 2-3 horas Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 4a08ceda-54fe- 11e6-862f-008 Cfa5ae621 Trinotate Atmosfera Https://trinotate.github.io/ Https: //pods.iplantcollaborative Org / wiki / display / atmman / Trinity + – + Trinotate + Atmosfera + Imagem 1 semana Https: //atmo.iplantcollaborative. Org / application / images / 1261 Tabela 1: Programas de Análise, Plataformas em que estão disponíveis, umNd Recursos adicionais disponíveis para os fluxos de trabalho em ordem pela primeira aparência. Todas as versões do pacote são atuais a partir de abril de 2016.

Discussion

Existem cinco passos críticos no protocolo que cada um criará sua própria pasta separada dentro da pasta principal do projeto ( Figuras 1 e 2 ). Todos os dados de seqüenciamento primário são sacrossanct: deve ser carregado e mantido na primeira pasta rotulada "1_Raw_Sequence" e não alterado de forma alguma. Os dados podem ser carregados de uma das três maneiras. A interface DE pode ser usada para carregar arquivos diretamente. Esta é a maneira mais fácil de fazer o upload de dados, mas também levará mais tempo para transferir. Cyberduck tem uma interface gráfica e permite aos usuários arrastar e soltar arquivos para transferir para o DE. O iCommands é uma ferramenta de linha de comando que pode ser usada para transferir dados de e para o Data Store, fazer diretórios e gerenciar conjuntos de dados, e é provavelmente a maneira mais rápida de transferir arquivos de dados. Todos os dados no Data Store podem ser compartilhados com outros usuários CyVerse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment), tornados públicos através de um URL gerado (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), ou podem ser hospedados publicamente e anonimamente ( Nenhum nome de usuário requerido) dados disponíveis da comunidade (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Dentro dessa pasta, as leituras de sequência em bruto são analisadas com FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) para avaliar como aparar e filtrar as leituras para gerar leituras de alta qualidade. Depois de aparar e filtrar a qualidade, é útil comparar as saídas FastQC para determinar se a qualidade de leitura foi alterada para determinar se melhorou sem perder informações ( Figura 3 ). Observe que o eixo x de FastQC não é linear, mas é binned para muitos gráficos de saída, o que pode levar a interpretação errada dos resultados. As leituras aparadas e filtradas são então usadas para montar transcriptomes de novo usando uma instância de computação em nuvem Atmosphere. esteO computador da nuvem usa a tela, o teclado eo mouse do computador local, mas tem seu próprio software (Trinity e Trinotate) e hardware instalado. A execução de programas na instância do computador em nuvem não afetará o computador local de qualquer forma. A montagem de novo ea anotação a jusante provavelmente serão as duas etapas mais longas neste fluxo de trabalho. Portanto, eles são concluídos na atmosfera para evitar comum laboratório compartilhado problemas do computador que iria interromper a análise como interrupções de energia, reinicia após atualizações automáticas tarde da noite, ou falhas causadas por outros usuários. A anotação de trinotate usa BLAST + 8 , HMMER 9 , tmHMM 10 e PFAM 11 . A saída final da anotação é um banco de dados SQLite e um arquivo .xls. As saídas podem ser usadas fora CyVerse em plataformas de análise downstream, como KEGG 12 , 13 .

Este fluxo de trabalhoEstá pronto para usar no DE e Atmosfera. Isso elimina a necessidade de gastar tempo instalando, configurando e solucionando problemas de cada pacote de análise e todas as dependências que cada ferramenta requer. Isso agiliza as análises dos pesquisadores, minimiza o esforço desperdiçado e reduz a barreira de entrada para muitos cientistas. Este fluxo de trabalho especificamente monta leituras single-ou pares-end da plataforma de sequenciamento Illumina, mas muitas ferramentas existem no DE e Atmosfera para lidar com outros tipos de tecnologias de seqüenciamento. Ferramentas neste fluxo de trabalho podem ser facilmente substituídas por uma ferramenta alternativa correspondente para lidar com qualquer tipo de tecnologia de sequenciamento de entrada. Isso também é verdade para novas versões de ferramentas de análise ou ferramentas completamente novas.

Este fluxo de trabalho é projetado especificamente para montar, comparar e anotar apenas alguns transcriptomes de cada vez. Portanto, os usuários podem achar que é demorado para montar múltiplos transcriptomes para genética populacional comparativa. AnálisePipelines estará disponível para os usuários de genética populacional em um futuro próximo eo link para o pipeline pode ser encontrado na página wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). O passo de análise de expressão genética diferencial pode lidar com repetições, mas é uma comparação em pares e não avaliará com precisão múltiplos fatores ( por exemplo , condições que variam ao longo do tempo, mais de dois tratamentos). Existem fluxos de trabalho automatizados para organismos com genomas de referência ( por exemplo , TRAPLINE 14 ). Enquanto fluxos de trabalho automatizados são os mais fáceis de usar para iniciantes, conjuntos de novo exigem avaliação e consideração para cada etapa delineada aqui. Além disso, os usuários são obrigados a usar pipelines automatizados como eles são construídos e, portanto, são inerentemente não flexíveis para atender às demandas de mudança dos usuários.

Como a maior parte deste protocolo é realizado através da Internet, os usuários podem ter problemas com as configurações do navegador. Primeiramente,Os bloqueadores de pop-up podem impedir que as janelas se abram, ou podem impedir que as janelas sejam abertas até que seja dada permissão ao CyVerse no navegador. O Atmosphere usa o VNC para acessar desktops remotos, mas outros softwares podem ser usados. Todo esse protocolo foi conduzido no Firefox versão 45.0.2 e deve funcionar com todos os navegadores de Internet populares, mas algumas inconsistências podem aparecer. O fluxo de trabalho será atualizado quando a Trinity lançar novas versões (https://github.com/trinityrnaseq/trinityrnaseq/wiki). As versões mais recentes e as informações atualizadas sobre o fluxo de trabalho podem ser encontradas na página do tutorial wiki ( Tabela 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Os usuários podem contatar o suporte diretamente ou postar perguntas no Ask CyVerse (ask.cyverse.org/) para solucionar problemas com o fluxo de trabalho.

No DE existem várias aplicações para realizar cada passo deste protocolo. Por exemplo, os usuários podem querer executar Scythe (https://github.com/najoshi/sickle) em vez de Trimmomatic15 para ler recortar ou executar EdgeR 16 em vez de DESeq 17 , 18 . Embora fora do escopo deste manuscrito, os aplicativos DE podem ser copiados, editados e liberados pelos usuários (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) ou novos aplicativos podem ser adicionados pelos usuários (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). As imagens do Atmosphere também podem ser modificadas e reimaginadas para criar fluxos de trabalho novos ou modificados que atendam às necessidades dos usuários mais especificamente (https://wiki.cyverse.org/wiki/x/TwHX). Este trabalho serve como uma introdução à utilização da linha de comando para mover dados e executar análises. Os usuários podem considerar a utilização de recursos de linha de comando mais avançados, como interfaces de programação de aplicativos CyVerse (APIs) (http://www.cyverse.org/science-apis), ou projetar seus próprios aplicativos DE, que exigem conhecimentoSobre como a ferramenta de análise é executada na linha de comando (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).

Disclosures

The authors have nothing to disclose.

Acknowledgements

The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).

Materials

Trimmomatic v0.33 USADELLAB.org https://github.com/timflutre/trimmomatic https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle Joshi and Fass https://github.com/najoshi/sickle https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity Broad Institute and Hebrew University of Jersalem https://github.com/trinityrnaseq/trinityrnaseq/wiki https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0 Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html https://de.iplantcollaborative.org
/de/?type=apps&app-
id=980dd11a-1666-11e6-9122-
930ba8f23352
Transdecoder Broad Institute and Commonwealth Scientific and Industrial Research Organisation https://transdecoder.github.io https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR Robinson et al. 2010. https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate Broad Institute and Hebrew University of Jersalem https://trinotate.github.io/ https://atmo.iplantcollaborative.org/application/images/1261

References

  1. Hasselmann, M., Ferretti, L., Zayed, A. Beyond fruit-flies: population genomic advances in non-Drosophila arthropods. Brief. Funct. Genomics. 14 (6), 424-431 (2015).
  2. Scholz, M. B., Lo, C. -. C., Chain, P. S. Next generation sequencing and bioinformatic bottlenecks: the current state of metagenomic data analysis. Anal. Biotech. 23 (1), 9-15 (2012).
  3. Merchant, N., et al. The iPlant Collaborative: Cyberinfrastructure for Enabling Data to Discovery for the Life Sciences. PLoS Biol. 14 (1), e1002342 (2016).
  4. Oliver, S. L., Lenards, A. J., Barthelson, R. A., Merchant, N., McKay, S. J. Using the iPlant collaborative discovery environment. Cur. Protoc. Bioinformatics. , 1-22 (2013).
  5. Skidmore, E., Kim, S., Kuchimanchi, S., Singaram, S., Merchant, N., Stanzione, D. iPlant atmosphere: a gateway to cloud infrastructure for the plant sciences. Proc. 2011 ACM. , 59-64 (2011).
  6. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic local alignment search tool. J. Mol. Bio. 215 (3), 403-410 (1990).
  7. Simão, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V., Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. , (2015).
  8. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  9. Eddy, S. R. Profile hidden Markov models. Bioinformatics. 14 (9), 755-763 (1998).
  10. Krogh, A., Larsson, B., von Heijne, G., Sonnhammer, E. L. Predicting transmembrane protein topology with a hidden markov model: application to complete genomes. J. Mol. Biol. 305 (3), 567-580 (2001).
  11. Finn, R. D., Coggill, P., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 44 (D1), D279-D285 (2016).
  12. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  13. Kanehisa, M., Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  14. Wolfien, M., et al. TRAPLINE: a standardized and automated pipeline for RNA sequencing data analysis, evaluation and annotation. BMC Bioinformatics. 17, 21 (2016).
  15. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  16. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  17. Anders, S. Analysing RNA-Seq data with the DESeq package. Mol. Biol. 43 (4), 1-17 (2010).
  18. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Bio. 15 (12), 1-21 (2014).

Play Video

Cite This Article
Joyce, B. L., Haug-Baltzell, A. K., Hulvey, J. P., McCarthy, F., Devisetty, U. K., Lyons, E. Leveraging CyVerse Resources for De Novo Comparative Transcriptomics of Underserved (Non-model) Organisms. J. Vis. Exp. (123), e55009, doi:10.3791/55009 (2017).

View Video