O DiCoExpress é uma ferramenta baseada em script implementada em R para executar uma análise RNA-Seq do controle de qualidade à co-expressão. O DiCoExpress lida com o design completo e desequilibrado de até 2 fatores biológicos. Este tutorial de vídeo guia o usuário através dos diferentes recursos do DiCoExpress.
O uso adequado da modelagem estatística na análise de dados do NGS requer um nível avançado de expertise. Recentemente, houve um consenso crescente sobre o uso de modelos lineares generalizados para análise diferencial dos dados do RNA-Seq e a vantagem dos modelos de mistura para realizar análises de co-expressão. Para oferecer uma configuração gerenciada para usar essas abordagens de modelagem, desenvolvemos o DiCoExpress que fornece um pipeline R padronizado para realizar uma análise RNA-Seq. Sem qualquer conhecimento particular em estatística ou programação R, os iniciantes podem realizar uma análise completa do RNA-Seq desde controles de qualidade até a co-expressão através da análise diferencial baseada em contrastes dentro de um modelo linear generalizado. Uma análise de enriquecimento é proposta tanto nas listas de genes expressos diferencialmente, quanto nos aglomerados genéticos co-expressos. Este tutorial de vídeo é concebido como um protocolo passo-a-passo para ajudar os usuários a tirar proveito total do DiCoExpress e seu potencial em capacitar a interpretação biológica de um experimento RNA-Seq.
A tecnologia de sequenciamento de RNA (RNA-Seq) de última geração é agora o padrão ouro da análise de transcriptome1. Desde os primeiros dias da tecnologia, os esforços combinados de bioinformáticas e bioestatísticos resultaram no desenvolvimento de inúmeros métodos que abordam todas as etapas essenciais das análises transcriômicas, desde o mapeamento até a quantificação da transcrição2. A maioria das ferramentas disponíveis hoje para o biólogo são desenvolvidas dentro do ambiente de software R para computação estatística e gráficos3, e muitos pacotes para análise de dados biológicos estão disponíveis no repositório biocondutor4. Esses pacotes oferecem controle total e personalização da análise, mas vêm ao custo do uso extensivo de uma interface de linha de comando. Como muitos biólogos estão mais confortáveis com uma abordagem “ponto e clique”5, a democratização das análises do RNA-Seq requer o desenvolvimento de interfaces ou protocolos mais fáceis de usar6. Por exemplo, é possível construir interfaces web de pacotes R usando o Shiny7, e a análise de dados da linha de comando é mais intuitiva com a interface R-studio8 . O desenvolvimento de tutoriais dedicados e passo a passo também pode ajudar o novo usuário. Em particular, um tutorial de vídeo complementa um texto clássico, levando a uma compreensão mais profunda de todas as etapas do procedimento.
Recentemente desenvolvemos o DiCoExpress9, uma ferramenta para analisar experimentos multifatoriais de RNA-Seq em R usando métodos considerados os melhores baseados em estudos de comparaçãoneutros 10,11,12. A partir de uma tabela de contagem, o DiCoExpress propõe uma etapa de controle de qualidade de dados seguida de uma análise diferencial de expressão genética (pacoteedgeR 13) usando um modelo linear generalizado (GLM) e a geração de clusters de co-expressão usando modelos de mistura gaussiana (pacote coseq12). O DiCoExpress lida com o design completo e desequilibrado até 2 fatores biológicos (ou seja, genótipo e tratamento) e um fator técnico (ou seja, replicar). A originalidade do DiCoExpress está em sua arquitetura de diretório armazenando e organizando dados, scripts e resultados e na automação da escrita dos contrastes permitindo que o usuário investigue inúmeras questões dentro do mesmo modelo estatístico. Também foi feito um esforço para fornecer saídas gráficas ilustrando os resultados estatísticos.
O espaço de trabalho DiCoExpress está disponível em https://forgemia.inra.fr/GNet/dicoexpress. Contém quatro diretórios, dois pdf e dois arquivos de texto. O data/diretório contém os conjuntos de dados de entrada; para este protocolo, usaremos o conjunto de dados “tutorial”. O sources/diretório contém sete funções R necessárias para realizar a análise e não deve ser modificado pelo usuário. A análise é executada usando scripts armazenados no Template_scripts/diretório. O usado neste protocolo é chamado DiCoExpress_Tutorial_JoVE.R e pode ser facilmente adaptado a qualquer projeto transcriômico. Todos os resultados são escritos no diretório resultados e armazenados em um subdiretório nomeado de acordo com o projeto. O arquivo README.md contém informações úteis de instalação, e quaisquer detalhes específicos sobre o método e seu uso podem ser encontrados no arquivo DiCoExpress_Reference_Manual.pdf.
Este tutorial de vídeo guia o usuário através das diferentes características do DiCoExpress com o objetivo de superar a relutância sentida pelos biólogos usando ferramentas baseadas em linha de comando. Apresentamos aqui a análise de um conjunto de dados RNA-Seq artificial descrevendo a expressão genética em três réplicas biológicas de quatro genótipos, com ou sem tratamento. Agora passaremos pelas diferentes etapas do fluxo de trabalho DiCoExpress ilustrado na Figura 1. O script descrito na seção Protocolo e arquivos de entrada estão disponíveis no site: https://forgemia.inra.fr/GNet/dicoexpress
Prepare arquivos de dados
Os quatro arquivos csv armazenados no data/diretório devem ser nomeados de acordo com o nome do projeto. Em nosso exemplo, todos os nomes, portanto, começam com “Tutorial”, e vamos definir Project_Name = “Tutorial” na Etapa 4 do protocolo. O separador utilizado nos arquivos csv deve ser indicado na variável Sep na Etapa 4. Em nosso conjunto de dados “tutorial”, o separador é uma tabulação. Para usuários avançados, o conjunto de dados completo pode ser reduzido a um subconjunto, fornecendo uma lista de instruções e uma nova Project_Name através da variável Filter. Esta opção evita cópias redundantes dos arquivos de entrada e verifica os princípios FAIR14.
Entre os quatro arquivos csv, apenas os arquivos COUNTS e TARGET são obrigatórios. Eles contêm a contagem bruta para cada gene (aqui Tutorial_COUNTS.csv) e a descrição do design experimental (aqui Tutorial_TARGET.csv). O arquivo TARGET.csv descreve cada amostra (uma amostra por linha) com uma modalidade para cada fator biológico ou técnico (nas colunas). Recomendamos fortemente que os nomes escolhidos para as modalidades comecem com uma letra, não um número. O nome da última coluna (“Replicar”) não pode ser alterado. Finalmente, os nomes de exemplo (primeira coluna) devem coincidir com os nomes nos títulos do arquivo COUNTS.csv (Genotype1_control_rep1 em nosso exemplo). O arquivo Enrichment.csv no qual cada linha contém um Gene_ID e um termo de anotação só é necessário se o usuário planeja executar a análise de enriquecimento. Se um gene tem várias anotações, eles terão que ser escritos em linhas diferentes. O arquivo Anotação.csv é opcional e é usado para adicionar uma breve descrição de cada gene nos arquivos de saída. A melhor maneira de obter um arquivo de anotação é recuperar as informações de bancos de dados dedicados (por exemplo, Thalemine: https://bar.utoronto.ca/thalemine/begin.do para Arabidopsis).
Instalação do DiCoExpress
O DiCoExpress requer pacotes R específicos. Use a fonte da linha de comando(“.. /Sources/Install_Packages.R”) no console R para verificar o status de instalação do pacote necessário. Para usuários no Linux, outra solução é instalar o contêiner dedicado ao DiCoExpress e disponível em https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Por definição, este contêiner contém o DiCoExpress com todas as peças necessárias, como bibliotecas e outras dependências.
Como o RNA-Seq tornou-se um método onipresente em estudos biológicos, há uma necessidade constante de desenvolver ferramentas analíticas versáteis e fáceis de usar. Um passo crítico na maioria dos fluxos de trabalho analíticos é, muitas vezes, identificar com confiança os genes expressos diferencialmente entre condições biológicas e/ou tratamentos15. A produção de resultados confiáveis requer modelagem estatística adequada, que tem sido a motivação para o desenvolvimento do DiCo…
The authors have nothing to disclose.
Este trabalho foi apoiado principalmente pela ANR PSYCHE (ANR-16-CE20-0009). Os autores agradecem a F. Desprez pela construção do contêiner do DiCoExpress. O trabalho da KB é apoiado pelo programa de Amaizing Investment for the Future ANR-10-BTBR-01-01. Os laboratórios GQE e IPS2 beneficiam-se do apoio da Saclay Plant Sciences-SPS (ANR-17-EUR-0007).