DiCoExpress is een script-gebaseerde tool geïmplementeerd in R om een RNA-Seq analyse uit te voeren van kwaliteitscontrole tot co-expressie. DiCoExpress verwerkt een compleet en onevenwichtig ontwerp tot 2 biologische factoren. Deze videozelfstudie leidt de gebruiker door de verschillende functies van DiCoExpress.
Het juiste gebruik van statistische modellering in NGS-gegevensanalyse vereist een geavanceerd niveau van expertise. Er is onlangs een groeiende consensus over het gebruik van gegeneraliseerde lineaire modellen voor differentiële analyse van RNA-Seq-gegevens en het voordeel van mengselmodellen om co-expressieanalyse uit te voeren. Om een beheerde instelling te bieden om deze modelleringsbenaderingen te gebruiken, hebben we DiCoExpress ontwikkeld dat een gestandaardiseerde R-pijplijn biedt om een RNA-Seq-analyse uit te voeren. Zonder enige specifieke kennis van statistiek of R-programmering, kunnen beginners een complete RNA-Seq-analyse uitvoeren van kwaliteitscontroles tot co-expressie door differentiële analyse op basis van contrasten in een gegeneraliseerd lineair model. Een verrijkingsanalyse wordt voorgesteld, zowel op de lijsten van differentieel tot expressie gebrachte genen, als op de co-expressiegenclusters. Deze videozelfstudie is opgevat als een stapsgewijs protocol om gebruikers te helpen ten volle te profiteren van DiCoExpress en het potentieel ervan bij het versterken van de biologische interpretatie van een RNA-Seq-experiment.
Next-generation RNA sequencing (RNA-Seq) technologie is nu de gouden standaard van transcriptoomanalyse1. Sinds de begindagen van de technologie hebben de gecombineerde inspanningen van bio-informatici en biostatistici geresulteerd in de ontwikkeling van tal van methoden die alle essentiële stappen van transcriptomische analyses aanpakken, van mapping tot transcriptkwantificering2. De meeste tools die vandaag beschikbaar zijn voor de bioloog zijn ontwikkeld binnen de R-softwareomgeving voor statistische berekeningen en grafieken3, en veel pakketten voor biologische data-analyse zijn beschikbaar in de Bioconductor repository4. Deze pakketten bieden totale controle en aanpassing van de analyse, maar ze gaan ten koste van uitgebreid gebruik van een opdrachtregelinterface. Omdat veel biologen zich meer op hun gemak voelen bij een “point and click”-benadering5, vereist de democratisering van RNA-Seq-analyses de ontwikkeling van gebruiksvriendelijkere interfaces of protocollen6. Het is bijvoorbeeld mogelijk om webinterfaces van R-pakketten te bouwen met Shiny7 en de analyse van opdrachtregelgegevens wordt intuïtiever gemaakt met de R-studio8-interface . De ontwikkeling van speciale, stapsgewijze tutorials kan de nieuwe gebruiker ook helpen. In het bijzonder is een videozelfstudie een aanvulling op een klassieke tekst, wat leidt tot een dieper begrip van alle procedurestappen.
We hebben onlangs DiCoExpress9 ontwikkeld, een hulpmiddel voor het analyseren van multifactoriële RNA-Seq-experimenten in R met behulp van methoden die als de beste worden beschouwd op basis van neutrale vergelijkingsstudies 10,11,12. Uitgaande van een teltabel stelt DiCoExpress een stap voor de controle van de gegevenskwaliteit voor, gevolgd door een differentiële genexpressieanalyse (edgeR-pakket13) met behulp van een gegeneraliseerd lineair model (GLM) en het genereren van co-expressieclusters met behulp van Gaussiaanse mengselmodellen (coseq-pakket12). DiCoExpress verwerkt een compleet en onevenwichtig ontwerp tot 2 biologische factoren (d.w.z. genotype en behandeling) en één technische factor (d.w.z. repliceren). De originaliteit van DiCoExpress ligt in de directory-architectuur die gegevens, scripts en resultaten opslaat en organiseert en in de automatisering van het schrijven van de contrasten, waardoor de gebruiker tal van vragen binnen hetzelfde statistische model kan onderzoeken. Er werd ook getracht grafische outputs te leveren die de statistische resultaten illustreren.
De DiCoExpress-werkruimte is beschikbaar op https://forgemia.inra.fr/GNet/dicoexpress. Het bevat vier mappen, twee pdf en twee tekstbestanden. De directory Data/ bevat de input datasets; voor dit protocol gebruiken we de “tutorial” dataset. De map Sources/ bevat zeven R-functies die nodig zijn om de analyse uit te voeren en mag niet door de gebruiker worden gewijzigd. De analyse wordt uitgevoerd met behulp van scripts die zijn opgeslagen in de map Template_scripts/. Degene die in dit protocol wordt gebruikt, wordt DiCoExpress_Tutorial_JoVE.R genoemd en kan eenvoudig worden aangepast aan elk transcriptomisch project. Alle resultaten worden geschreven in de map Results/ en opgeslagen in een subdirectory die is benoemd naar het project. Het README.md-bestand bevat nuttige installatie-informatie en alle specifieke details over de methode en het gebruik ervan zijn te vinden in het DiCoExpress_Reference_Manual.pdf bestand.
Deze videozelfstudie leidt de gebruiker door de verschillende functies van DiCoExpress met als doel de terughoudendheid te overwinnen die biologen voelen met behulp van op de opdrachtregel gebaseerde tools. We presenteren hier de analyse van een kunstmatige RNA-Seq dataset die genexpressie beschrijft in drie biologische replicaties van vier genotypen, met of zonder behandeling. We zullen nu de verschillende stappen van de DiCoExpress-workflow doorlopen die in figuur 1 worden geïllustreerd. Het script dat wordt beschreven in de sectie Protocol en de invoerbestanden zijn beschikbaar op de site: https://forgemia.inra.fr/GNet/dicoexpress
Gegevensbestanden voorbereiden
De vier csv-bestanden die in de map Data/ zijn opgeslagen, moeten een naam krijgen op basis van de projectnaam. In ons voorbeeld beginnen alle namen daarom met “Tutorial” en stellen we Project_Name = “Tutorial” in stap 4 van het protocol. Het scheidingsteken dat in de csv-bestanden wordt gebruikt, moet worden aangegeven in de variabele Sep in stap 4. In onze “tutorial” dataset is het scheidingsteken een tabel. Voor gevorderde gebruikers kan de volledige gegevensset worden teruggebracht tot een subset door een lijst met instructies en een nieuwe Project_Name via de variabele Filter. Deze optie vermijdt overbodige kopieën van de invoerbestanden en verifieert FAIR-principes14.
Van de vier csv-bestanden zijn alleen de COUNTS- en TARGET-bestanden verplicht. Ze bevatten de ruwe tellingen voor elk gen (hier Tutorial_COUNTS.csv) en de experimentele ontwerpbeschrijving (hier Tutorial_TARGET.csv). Het TARGET.csv bestand beschrijft elk monster (één monster per rij) met een modaliteit voor elke biologische of technische factor (in de kolommen). We raden ten zeerste aan dat de namen die voor de modaliteiten worden gekozen, beginnen met een letter, niet met een nummer. De naam van de laatste kolom (“Repliceren”) kan niet worden gewijzigd. Ten slotte moeten de voorbeeldnamen (eerste kolom) overeenkomen met de namen in de koppen van het bestand COUNTS.csv (Genotype1_control_rep1 in ons voorbeeld). Het bestand Enrichment.csv waarin elke regel één Gene_ID en één annotatieterm bevat, is alleen vereist als de gebruiker van plan is de verrijkingsanalyse uit te voeren. Als één gen meerdere annotaties heeft, moeten deze op verschillende regels worden geschreven. Het annotatie.csv bestand is optioneel en wordt gebruikt om een korte beschrijving van elk gen in de uitvoerbestanden toe te voegen. De beste manier om een annotatiebestand te krijgen, is door de informatie op te halen uit speciale databases (bijv. Thalemine: https://bar.utoronto.ca/thalemine/begin.do voor Arabidopsis).
Installatie van DiCoExpress
DiCoExpress vereist specifieke R-pakketten. Gebruik de opdrachtregelbron(“.. /Sources/Install_Packages.R”) in de R-console om de vereiste installatiestatus van het pakket te controleren. Voor gebruikers op Linux is een andere oplossing om de container te installeren die is gewijd aan DiCoExpress en beschikbaar is op https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Per definitie bevat deze container DiCoExpress met alle benodigde onderdelen, zoals bibliotheken en andere afhankelijkheden.
Omdat RNA-Seq een alomtegenwoordige methode is geworden in biologische studies, is er een constante behoefte om veelzijdige en gebruiksvriendelijke analytische hulpmiddelen te ontwikkelen. Een cruciale stap binnen de meeste analytische workflows is vaak om met vertrouwen de genen te identificeren die differentieel tot expressie komen tussen biologische aandoeningen en / of behandelingen15. De productie van betrouwbare resultaten vereist een goede statistische modellering, wat de motivatie is gewee…
The authors have nothing to disclose.
Dit werk werd voornamelijk ondersteund door de ANR PSYCHE (ANR-16-CE20-0009). De auteurs bedanken F. Desprez voor de bouw van de container van DiCoExpress. KB-werk wordt ondersteund door het Anr-10-BTBR-01-01 Amaizing-programma investment for the Future. De laboratoria GQE en IPS2 profiteren van de steun van Saclay Plant Sciences-SPS (ANR-17-EUR-0007).