Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress

Kevin Baudry; Christine Paysant-Le Roux; Stefano Colella; Beno&#238;t Castandet; Marie-Laure Martin

doi:10.3791/62566

JoVE Journal > Engineering

Please note that all translations are automatically generated. Click here for the English version.

Engineering

Multifactoriële RNA-Seq-experimenten analyseren met DiCoExpress

Published: July 29, 2022

doi:

10.3791/62566

Kevin Baudry^1,2,3, Christine Paysant-Le Roux^1,2, Stefano Colella⁴, Benoît Castandet^1,2, Marie-Laure Martin^1,2,5

¹Université Paris-Saclay, CNRS, INRAE, Univ Evry, Institute of Plant Sciences Paris-Saclay (IPS2), Orsay, France, ²Université de Paris, CNRS, INRAE, Institute of Plant Sciences Paris Saclay (IPS2), Orsay, France, ³Université Paris-Saclay, INRAE, CNRS, AgroParisTech, GQE – Le Moulon, Gif-sur-Yvette, France, ⁴LSTM, Univ Montpellier, INRAE, IRD, CIRAD, Institut Agro, Montpellier, France, ⁵Universitté Paris-Saclay, AgroParisTech, INRAE, UMR MIA-Paris, Paris, France

Summary

DiCoExpress is een script-gebaseerde tool geïmplementeerd in R om een RNA-Seq analyse uit te voeren van kwaliteitscontrole tot co-expressie. DiCoExpress verwerkt een compleet en onevenwichtig ontwerp tot 2 biologische factoren. Deze videozelfstudie leidt de gebruiker door de verschillende functies van DiCoExpress.

Abstract

Het juiste gebruik van statistische modellering in NGS-gegevensanalyse vereist een geavanceerd niveau van expertise. Er is onlangs een groeiende consensus over het gebruik van gegeneraliseerde lineaire modellen voor differentiële analyse van RNA-Seq-gegevens en het voordeel van mengselmodellen om co-expressieanalyse uit te voeren. Om een beheerde instelling te bieden om deze modelleringsbenaderingen te gebruiken, hebben we DiCoExpress ontwikkeld dat een gestandaardiseerde R-pijplijn biedt om een RNA-Seq-analyse uit te voeren. Zonder enige specifieke kennis van statistiek of R-programmering, kunnen beginners een complete RNA-Seq-analyse uitvoeren van kwaliteitscontroles tot co-expressie door differentiële analyse op basis van contrasten in een gegeneraliseerd lineair model. Een verrijkingsanalyse wordt voorgesteld, zowel op de lijsten van differentieel tot expressie gebrachte genen, als op de co-expressiegenclusters. Deze videozelfstudie is opgevat als een stapsgewijs protocol om gebruikers te helpen ten volle te profiteren van DiCoExpress en het potentieel ervan bij het versterken van de biologische interpretatie van een RNA-Seq-experiment.

Introduction

Next-generation RNA sequencing (RNA-Seq) technologie is nu de gouden standaard van transcriptoomanalyse¹. Sinds de begindagen van de technologie hebben de gecombineerde inspanningen van bio-informatici en biostatistici geresulteerd in de ontwikkeling van tal van methoden die alle essentiële stappen van transcriptomische analyses aanpakken, van mapping tot transcriptkwantificering². De meeste tools die vandaag beschikbaar zijn voor de bioloog zijn ontwikkeld binnen de R-softwareomgeving voor statistische berekeningen en grafieken³, en veel pakketten voor biologische data-analyse zijn beschikbaar in de Bioconductor repository⁴. Deze pakketten bieden totale controle en aanpassing van de analyse, maar ze gaan ten koste van uitgebreid gebruik van een opdrachtregelinterface. Omdat veel biologen zich meer op hun gemak voelen bij een “point and click”-benadering⁵, vereist de democratisering van RNA-Seq-analyses de ontwikkeling van gebruiksvriendelijkere interfaces of protocollen⁶. Het is bijvoorbeeld mogelijk om webinterfaces van R-pakketten te bouwen met Shiny⁷ en de analyse van opdrachtregelgegevens wordt intuïtiever gemaakt met de R-studio^8-interface . De ontwikkeling van speciale, stapsgewijze tutorials kan de nieuwe gebruiker ook helpen. In het bijzonder is een videozelfstudie een aanvulling op een klassieke tekst, wat leidt tot een dieper begrip van alle procedurestappen.

We hebben onlangs DiCoExpress⁹ ontwikkeld, een hulpmiddel voor het analyseren van multifactoriële RNA-Seq-experimenten in R met behulp van methoden die als de beste worden beschouwd op basis van neutrale vergelijkingsstudies 10,11,12. Uitgaande van een teltabel stelt DiCoExpress een stap voor de controle van de gegevenskwaliteit voor, gevolgd door een differentiële genexpressieanalyse (edgeR-pakket¹³) met behulp van een gegeneraliseerd lineair model (GLM) en het genereren van co-expressieclusters met behulp van Gaussiaanse mengselmodellen (coseq-pakket¹²). DiCoExpress verwerkt een compleet en onevenwichtig ontwerp tot 2 biologische factoren (d.w.z. genotype en behandeling) en één technische factor (d.w.z. repliceren). De originaliteit van DiCoExpress ligt in de directory-architectuur die gegevens, scripts en resultaten opslaat en organiseert en in de automatisering van het schrijven van de contrasten, waardoor de gebruiker tal van vragen binnen hetzelfde statistische model kan onderzoeken. Er werd ook getracht grafische outputs te leveren die de statistische resultaten illustreren.

De DiCoExpress-werkruimte is beschikbaar op https://forgemia.inra.fr/GNet/dicoexpress. Het bevat vier mappen, twee pdf en twee tekstbestanden. De directory Data/ bevat de input datasets; voor dit protocol gebruiken we de “tutorial” dataset. De map Sources/ bevat zeven R-functies die nodig zijn om de analyse uit te voeren en mag niet door de gebruiker worden gewijzigd. De analyse wordt uitgevoerd met behulp van scripts die zijn opgeslagen in de map Template_scripts/. Degene die in dit protocol wordt gebruikt, wordt DiCoExpress_Tutorial_JoVE.R genoemd en kan eenvoudig worden aangepast aan elk transcriptomisch project. Alle resultaten worden geschreven in de map Results/ en opgeslagen in een subdirectory die is benoemd naar het project. Het README.md-bestand bevat nuttige installatie-informatie en alle specifieke details over de methode en het gebruik ervan zijn te vinden in het DiCoExpress_Reference_Manual.pdf bestand.

Deze videozelfstudie leidt de gebruiker door de verschillende functies van DiCoExpress met als doel de terughoudendheid te overwinnen die biologen voelen met behulp van op de opdrachtregel gebaseerde tools. We presenteren hier de analyse van een kunstmatige RNA-Seq dataset die genexpressie beschrijft in drie biologische replicaties van vier genotypen, met of zonder behandeling. We zullen nu de verschillende stappen van de DiCoExpress-workflow doorlopen die in figuur 1 worden geïllustreerd. Het script dat wordt beschreven in de sectie Protocol en de invoerbestanden zijn beschikbaar op de site: https://forgemia.inra.fr/GNet/dicoexpress

Gegevensbestanden voorbereiden
De vier csv-bestanden die in de map Data/ zijn opgeslagen, moeten een naam krijgen op basis van de projectnaam. In ons voorbeeld beginnen alle namen daarom met “Tutorial” en stellen we Project_Name = “Tutorial” in stap 4 van het protocol. Het scheidingsteken dat in de csv-bestanden wordt gebruikt, moet worden aangegeven in de variabele Sep in stap 4. In onze “tutorial” dataset is het scheidingsteken een tabel. Voor gevorderde gebruikers kan de volledige gegevensset worden teruggebracht tot een subset door een lijst met instructies en een nieuwe Project_Name via de variabele Filter. Deze optie vermijdt overbodige kopieën van de invoerbestanden en verifieert FAIR-principes¹⁴.

Van de vier csv-bestanden zijn alleen de COUNTS- en TARGET-bestanden verplicht. Ze bevatten de ruwe tellingen voor elk gen (hier Tutorial_COUNTS.csv) en de experimentele ontwerpbeschrijving (hier Tutorial_TARGET.csv). Het TARGET.csv bestand beschrijft elk monster (één monster per rij) met een modaliteit voor elke biologische of technische factor (in de kolommen). We raden ten zeerste aan dat de namen die voor de modaliteiten worden gekozen, beginnen met een letter, niet met een nummer. De naam van de laatste kolom (“Repliceren”) kan niet worden gewijzigd. Ten slotte moeten de voorbeeldnamen (eerste kolom) overeenkomen met de namen in de koppen van het bestand COUNTS.csv (Genotype1_control_rep1 in ons voorbeeld). Het bestand Enrichment.csv waarin elke regel één Gene_ID en één annotatieterm bevat, is alleen vereist als de gebruiker van plan is de verrijkingsanalyse uit te voeren. Als één gen meerdere annotaties heeft, moeten deze op verschillende regels worden geschreven. Het annotatie.csv bestand is optioneel en wordt gebruikt om een korte beschrijving van elk gen in de uitvoerbestanden toe te voegen. De beste manier om een annotatiebestand te krijgen, is door de informatie op te halen uit speciale databases (bijv. Thalemine: https://bar.utoronto.ca/thalemine/begin.do voor Arabidopsis).

Installatie van DiCoExpress
DiCoExpress vereist specifieke R-pakketten. Gebruik de opdrachtregelbron(“.. /Sources/Install_Packages.R”) in de R-console om de vereiste installatiestatus van het pakket te controleren. Voor gebruikers op Linux is een andere oplossing om de container te installeren die is gewijd aan DiCoExpress en beschikbaar is op https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Per definitie bevat deze container DiCoExpress met alle benodigde onderdelen, zoals bibliotheken en andere afhankelijkheden.

Protocol

1. DiCoExpress Open een R-studiosessie en stel de map in op Template_scripts. Open het DiCoExpress_Tutorial.R-script in R studio. Laad DiCoExpress-functies in de R-sessie met de volgende opdrachten:> bron(“.. /Bronnen/Load_Functions.R”)> Load_Functions()> Data_Directory = “.. /Gegevens”> Results_Directory = “.. /Resultaten/” Laad gegevensbestanden in de R-sessie met de volgende opdrachten:> Project_Name = “Tutorial”> filter = NULL> Sep=”\t”> Data_Fil…

Representative Results

Alle DiCoExpress-uitgangen worden opgeslagen in de map Tutorial/ zelf in de map Results/. We geven hier enkele richtlijnen voor het beoordelen van de algehele kwaliteit van de analyse. KwaliteitscontroleDe kwaliteitscontrole-uitvoer, die zich in de Quality_Control/ directory bevindt, is essentieel om te controleren of de RNA-Seq-analyseresultaten betrouwbaar zijn. Het Data_Quality_Control.pdf-bestand bevat verschillende plots die zijn verkregen met onbewerkte en genormalis…

Discussion

Omdat RNA-Seq een alomtegenwoordige methode is geworden in biologische studies, is er een constante behoefte om veelzijdige en gebruiksvriendelijke analytische hulpmiddelen te ontwikkelen. Een cruciale stap binnen de meeste analytische workflows is vaak om met vertrouwen de genen te identificeren die differentieel tot expressie komen tussen biologische aandoeningen en / of behandelingen¹⁵. De productie van betrouwbare resultaten vereist een goede statistische modellering, wat de motivatie is gewee…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit werk werd voornamelijk ondersteund door de ANR PSYCHE (ANR-16-CE20-0009). De auteurs bedanken F. Desprez voor de bouw van de container van DiCoExpress. KB-werk wordt ondersteund door het Anr-10-BTBR-01-01 Amaizing-programma investment for the Future. De laboratoria GQE en IPS2 profiteren van de steun van Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

References

Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
. Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Automatically Generated

Multifactoriële RNA-Seq-experimenten analyseren met DiCoExpress

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Automatically Generated

Multifactoriële RNA-Seq-experimenten analyseren met DiCoExpress

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below