Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress

Analisi di esperimenti multifattoriali RNA-Seq con DiCoExpress

Published: July 29, 2022

doi:

Kevin Baudry^2,3, Christine Paysant-Le Roux², Stefano Colella, Benoît Castandet², Marie-Laure Martin^2,5

¹Université Paris-Saclay, CNRS, INRAE, Univ Evry, Institute of Plant Sciences Paris-Saclay (IPS2), Orsay, France, ²Université de Paris, CNRS, INRAE, Institute of Plant Sciences Paris Saclay (IPS2), Orsay, France, ³Université Paris-Saclay, INRAE, CNRS, AgroParisTech, GQE – Le Moulon, Gif-sur-Yvette, France, ⁴LSTM, Univ Montpellier, INRAE, IRD, CIRAD, Institut Agro, Montpellier, France, ⁵Universitté Paris-Saclay, AgroParisTech, INRAE, UMR MIA-Paris, Paris, France

Summary

DiCoExpress è uno strumento basato su script implementato in R per eseguire un’analisi RNA-Seq dal controllo di qualità alla co-espressione. DiCoExpress gestisce un design completo e sbilanciato fino a 2 fattori biologici. Questo video tutorial guida l’utente attraverso le diverse funzionalità di DiCoExpress.

Abstract

L’uso corretto della modellazione statistica nell’analisi dei dati NGS richiede un livello avanzato di competenza. Recentemente c’è stato un crescente consenso sull’uso di modelli lineari generalizzati per l’analisi differenziale dei dati di RNA-Seq e il vantaggio dei modelli di miscela per eseguire l’analisi di co-espressione. Per offrire un’impostazione gestita per utilizzare questi approcci di modellazione, abbiamo sviluppato DiCoExpress che fornisce una pipeline R standardizzata per eseguire un’analisi RNA-Seq. Senza particolari conoscenze in statistica o programmazione R, i principianti possono eseguire un’analisi completa di RNA-Seq dai controlli di qualità alla co-espressione attraverso l’analisi differenziale basata sui contrasti all’interno di un modello lineare generalizzato. Un’analisi di arricchimento viene proposta sia sulle liste di geni differenzialmente espressi, sia sui cluster di geni co-espressi. Questo video tutorial è concepito come un protocollo passo-passo per aiutare gli utenti a sfruttare appieno DiCoExpress e il suo potenziale nel potenziare l’interpretazione biologica di un esperimento RNA-Seq.

Introduction

La tecnologia di sequenziamento dell’RNA di nuova generazione (RNA-Seq) è ora il gold standard dell’analisi del trascrittoma¹. Fin dai primi giorni della tecnologia, gli sforzi combinati di bioinformatici e biostatistici hanno portato allo sviluppo di numerosi metodi che affrontano tutte le fasi essenziali delle analisi trascrittomiche, dalla mappatura alla quantificazione della trascrizione². La maggior parte degli strumenti oggi disponibili per il biologo sono sviluppati all’interno dell’ambiente software R per il calcolo statistico e i grafici³, e molti pacchetti per l’analisi dei dati biologici sono disponibili nel repository Bioconductor⁴. Questi pacchetti offrono il controllo totale e la personalizzazione dell’analisi, ma hanno il costo di un uso estensivo di un’interfaccia a riga di comando. Poiché molti biologi sono più a loro agio con un approccio “punta e clicca”⁵, la democratizzazione delle analisi RNA-Seq richiede lo sviluppo di interfacce o protocolli più user-friendly⁶. Ad esempio, è possibile creare interfacce web di pacchetti R utilizzando Shiny⁷ e l’analisi dei dati della riga di comando è resa più intuitiva con l’interfaccia R-studio⁸ . Lo sviluppo di tutorial dedicati e passo-passo può anche aiutare il nuovo utente. In particolare, un video tutorial integra un classico testo di testo, portando ad una comprensione più profonda di tutte le fasi della procedura.

Abbiamo recentemente sviluppato DiCoExpress⁹, uno strumento per analizzare esperimenti multifattoriali RNA-Seq in R utilizzando metodi considerati i migliori basati su studi di confronto neutri^10,11,12. Partendo da una tabella di conteggio, DiCoExpress propone una fase di controllo della qualità dei dati seguita da un’analisi di espressione genica differenziale (pacchetto edgeR¹³) utilizzando un modello lineare generalizzato (GLM) e la generazione di cluster di co-espressione utilizzando modelli di miscela gaussiana (pacchetto coseq¹²). DiCoExpress gestisce una progettazione completa e sbilanciata fino a 2 fattori biologici (genotipo e trattamento) e un fattore tecnico (replica). L’originalità di DiCoExpress risiede nella sua architettura di directory che memorizza e organizza dati, script e risultati e nell’automazione della scrittura dei contrasti che consente all’utente di indagare numerose domande all’interno dello stesso modello statistico. È stato inoltre compiuto uno sforzo per fornire risultati grafici che illustrano i risultati statistici.

L’area di lavoro DiCoExpress è disponibile all’indirizzo https://forgemia.inra.fr/GNet/dicoexpress. Contiene quattro directory, due pdf e due file di testo. La directory Data/ contiene i set di dati di input; Per questo protocollo, utilizzeremo il set di dati “Tutorial”. La directory Sources/ contiene sette funzioni R necessarie per eseguire l’analisi e non deve essere modificata dall’utente. L’analisi viene eseguita utilizzando script memorizzati nella directory Template_scripts/. Quello utilizzato in questo protocollo si chiama DiCoExpress_Tutorial_JoVE.R e può essere facilmente adattato a qualsiasi progetto trascrittomico. Tutti i risultati sono scritti nella directory Results/ e memorizzati in una sottodirectory denominata in base al progetto. Il file README.md contiene utili informazioni di installazione e tutti i dettagli specifici relativi al metodo e al suo utilizzo sono disponibili nel file DiCoExpress_Reference_Manual.pdf.

Questo video tutorial guida l’utente attraverso le diverse funzionalità di DiCoExpress con l’obiettivo di superare la riluttanza sentita dai biologi utilizzando strumenti basati su riga di comando. Presentiamo qui l’analisi di un set di dati artificiale RNA-Seq che descrive l’espressione genica in tre repliche biologiche di quattro genotipi, con o senza trattamento. Esamineremo ora i diversi passaggi del flusso di lavoro DiCoExpress illustrati nella Figura 1. Lo script descritto nella sezione Protocollo e i file di input sono disponibili sul sito: https://forgemia.inra.fr/GNet/dicoexpress

Preparare i file di dati
I quattro file csv memorizzati nella directory Data/ devono essere denominati in base al nome del progetto. Nel nostro esempio, tutti i nomi, quindi, iniziano con “Tutorial” e imposteremo Project_Name = “Tutorial” nel passaggio 4 del protocollo. Il separatore utilizzato nei file CSV deve essere indicato nella variabile Sep nel passaggio 4. Nel nostro set di dati “tutorial”, il separatore è una tabella. Per gli utenti avanzati l’intero set di dati può essere ridotto a un sottoinsieme fornendo un elenco di istruzioni e una nuova Project_Name tramite la variabile Filter. Questa opzione evita copie ridondanti dei file di input e verifica i principi FAIR¹⁴.

Tra i quattro file csv, solo i file COUNTS e TARGET sono obbligatori. Contengono i conteggi grezzi per ogni gene (qui Tutorial_COUNTS.csv) e la descrizione del disegno sperimentale (qui Tutorial_TARGET.csv). Il file TARGET.csv descrive ogni campione (un campione per riga) con una modalità per ciascun fattore biologico o tecnico (nelle colonne). Raccomandiamo vivamente che i nomi scelti per le modalità inizino con una lettera, non con un numero. Il nome dell’ultima colonna (“Replica”) non può essere modificato. Infine, i nomi di esempio (prima colonna) devono corrispondere ai nomi nelle intestazioni del file COUNTS.csv (Genotype1_control_rep1 nel nostro esempio). Il file Enrichment.csv in cui ogni riga contiene un Gene_ID e un termine di annotazione è necessario solo se l’utente prevede di eseguire l’analisi di arricchimento. Se un gene ha diverse annotazioni, dovranno essere scritte su righe diverse. Il file Annotation.csv è facoltativo e viene utilizzato per aggiungere una breve descrizione di ogni gene nei file di output. Il modo migliore per ottenere un file di annotazione è recuperare le informazioni da database dedicati (ad esempio, Thalemine: https://bar.utoronto.ca/thalemine/begin.do per Arabidopsis).

Installazione di DiCoExpress
DiCoExpress richiede pacchetti R specifici. Utilizzare l’origine della riga di comando(“.. /Sources/Install_Packages.R”) nella console R per verificare lo stato di installazione del pacchetto richiesto. Per gli utenti su Linux, un’altra soluzione è quella di installare il contenitore dedicato a DiCoExpress e disponibile su https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Per definizione, questo contenitore contiene DiCoExpress con tutte le parti necessarie, come librerie e altre dipendenze.

Protocol

1. DiCoExpress Aprire una sessione di R Studio e impostare la directory su Template_scripts. Aprire lo script DiCoExpress_Tutorial.R in R Studio. Caricare le funzioni DiCoExpress nella sessione R con i seguenti comandi:> fonte(“.. /Fonti/Load_Functions.R”)> Load_Functions()> Data_Directory = “.. /Dati”> Results_Directory = “.. /Risultati/” Caricare i file di dati nella sessione R con i seguenti comandi:> Project_Name = “Tutorial”> Filter = NULL> Sep=”\t”…

Representative Results

Tutti gli output di DiCoExpress vengono salvati nella directory Tutorial/, a sua volta collocata all’interno della directory Results/. Forniamo qui alcune indicazioni per valutare la qualità complessiva dell’analisi. Controllo QualitàL’output del controllo di qualità, situato nella directory Quality_Control/, è essenziale per verificare che i risultati dell’analisi RNA-Seq siano affidabili. Il file Data_Quality_Control.pdf contiene diversi grafici ottenuti con dati gre…

Discussion

Poiché l’RNA-Seq è diventato un metodo onnipresente negli studi biologici, vi è una costante necessità di sviluppare strumenti analitici versatili e facili da usare. Un passo fondamentale all’interno della maggior parte dei flussi di lavoro analitici è spesso quello di identificare con sicurezza i geni espressi in modo differenziale tra condizioni biologiche e/o trattamenti¹⁵. La produzione di risultati affidabili richiede un’adeguata modellazione statistica, che è stata la motivazione per l…

Declarações

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è stato sostenuto principalmente dall’ANR PSYCHE (ANR-16-CE20-0009). Gli autori ringraziano F. Desprez per la costruzione del container di DiCoExpress. Il lavoro KB è supportato dal programma Investment for the Future ANR-10-BTBR-01-01 Amaizing. I laboratori GQE e IPS2 beneficiano del supporto di Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Referências

Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
. Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citar este artigo

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Analisi di esperimenti multifattoriali RNA-Seq con DiCoExpress

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Declarações

Acknowledgements

Materials

Referências

Tags

Play Video

Citar este artigo

View Video

Analisi di esperimenti multifattoriali RNA-Seq con DiCoExpress

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Declarações

Acknowledgements

Materials

Referências

Tags

Play Video

Citar este artigo

View Video

✖

To prove you're not a robot, please enter the text in the image below