DiCoExpress ist ein skriptbasiertes Tool, das in R implementiert ist, um eine RNA-Seq-Analyse von der Qualitätskontrolle bis zur Co-Expression durchzuführen. DiCoExpress verarbeitet das komplette und unausgewogene Design mit bis zu 2 biologischen Faktoren. Dieses Video-Tutorial führt den Benutzer durch die verschiedenen Funktionen von DiCoExpress.
Der richtige Einsatz statistischer Modellierung in der NGS-Datenanalyse erfordert ein fortgeschrittenes Maß an Fachwissen. In letzter Zeit gibt es einen wachsenden Konsens über die Verwendung verallgemeinerter linearer Modelle für die differentielle Analyse von RNA-Seq-Daten und den Vorteil von Mischungsmodellen zur Durchführung von Co-Expressionsanalysen. Um eine verwaltete Umgebung für die Verwendung dieser Modellierungsansätze zu bieten, haben wir DiCoExpress entwickelt, das eine standardisierte R-Pipeline zur Durchführung einer RNA-Seq-Analyse bereitstellt. Ohne besondere Kenntnisse in Statistik oder R-Programmierung können Anfänger eine vollständige RNA-Seq-Analyse von der Qualitätskontrolle über die Co-Expression bis hin zur Differentialanalyse durchführen, die auf Kontrasten innerhalb eines verallgemeinerten linearen Modells basiert. Eine Anreicherungsanalyse wird sowohl für die Listen der differentiell exprimierten Gene als auch für die co-exprimierten Gencluster vorgeschlagen. Dieses Video-Tutorial ist als Schritt-für-Schritt-Protokoll konzipiert, um Benutzern zu helfen, DiCoExpress und sein Potenzial zur biologischen Interpretation eines RNA-Seq-Experiments voll auszuschöpfen.
Die RNA-Sequenzierungstechnologie der nächsten Generation (RNA-Seq) ist heute der Goldstandard der Transkriptomanalyse1. Seit den Anfängen der Technologie haben die gemeinsamen Anstrengungen von Bioinformatikern und Biostatistikern zur Entwicklung zahlreicher Methoden geführt, die alle wesentlichen Schritte der transkriptomischen Analyse abdecken, von der Kartierung bis zur Transkriptquantifizierung2. Die meisten Werkzeuge, die dem Biologen heute zur Verfügung stehen, werden innerhalb der R-Softwareumgebung für statistische Berechnungen und Grafiken3 entwickelt, und viele Pakete für die biologische Datenanalyse sind im Bioconductor-Repositorium4 verfügbar. Diese Pakete bieten vollständige Kontrolle und Anpassung der Analyse, gehen jedoch zu Lasten der umfangreichen Verwendung einer Befehlszeilenschnittstelle. Da viele Biologen mit einem “Point-and-Click”-Ansatz 5 vertrauter sind, erfordert die Demokratisierung von RNA-Seq-Analysen die Entwicklung benutzerfreundlicherer Schnittstellen oder Protokolle6. Zum Beispiel ist es möglich, Webschnittstellen von R-Paketen mit Shiny7 zu erstellen, und die Kommandozeilen-Datenanalyse wird mit der R-studio8-Schnittstelle intuitiver gestaltet. Die Entwicklung von dedizierten Schritt-für-Schritt-Tutorials kann auch dem neuen Benutzer helfen. Insbesondere ein Video-Tutorial ergänzt ein klassisches Text-Tutorial und führt zu einem tieferen Verständnis aller Verfahrensschritte.
Wir haben kürzlich DiCoExpress9 entwickelt, ein Werkzeug zur Analyse multifaktorieller RNA-Seq-Experimente in R mit Methoden, die als die besten gelten, basierend auf neutralen Vergleichsstudien10,11,12. Ausgehend von einer Zähltabelle schlägt DiCoExpress einen Schritt zur Datenqualitätskontrolle vor, gefolgt von einer differentiellen Genexpressionsanalyse (edgeR-Paket13) unter Verwendung eines generalisierten linearen Modells (GLM) und der Erzeugung von Co-Expressionsclustern unter Verwendung von Gauß-Mischungsmodellen (coseq-Paket12). DiCoExpress verarbeitet das vollständige und unausgewogene Design mit bis zu 2 biologischen Faktoren (d. h. Genotyp und Behandlung) und einem technischen Faktor (d. h. Replikation). Die Originalität von DiCoExpress liegt in seiner Verzeichnisarchitektur, die Daten, Skripte und Ergebnisse speichert und organisiert, und in der Automatisierung des Schreibens der Kontraste, die es dem Benutzer ermöglicht, zahlreiche Fragen innerhalb desselben statistischen Modells zu untersuchen. Es wurde auch versucht, grafische Ausgaben zur Veranschaulichung der statistischen Ergebnisse bereitzustellen.
Der DiCoExpress-Arbeitsbereich steht https://forgemia.inra.fr/GNet/dicoexpress zur Verfügung. Es enthält vier Verzeichnisse, zwei PDF- und zwei Textdateien. Das Verzeichnis Data/ enthält die Eingabedatensätze; Für dieses Protokoll verwenden wir den Datensatz “tutorial”. Das Verzeichnis Sources/ enthält sieben R-Funktionen, die für die Durchführung der Analyse erforderlich sind, und darf vom Benutzer nicht geändert werden. Die Analyse wird mit Skripten durchgeführt, die im Verzeichnis Template_scripts/ gespeichert sind. Das in diesem Protokoll verwendete heißt DiCoExpress_Tutorial_JoVE.R und kann leicht an jedes transkriptomische Projekt angepasst werden. Alle Ergebnisse werden in das Verzeichnis Results/ geschrieben und in einem Unterverzeichnis gespeichert, das nach dem Projekt benannt ist. Die README.md Datei enthält nützliche Installationsinformationen, und alle spezifischen Details über die Methode und ihre Verwendung finden Sie in der DiCoExpress_Reference_Manual.pdf Datei.
Dieses Video-Tutorial führt den Benutzer durch die verschiedenen Funktionen von DiCoExpress mit dem Ziel, die Zurückhaltung von Biologen bei der Verwendung von Befehlszeilen-basierten Tools zu überwinden. Wir präsentieren hier die Analyse eines künstlichen RNA-Seq-Datensatzes, der die Genexpression in drei biologischen Replikaten von vier Genotypen mit oder ohne Behandlung beschreibt. Wir werden nun die verschiedenen Schritte des DiCoExpress-Workflows durchgehen, die in Abbildung 1 dargestellt sind. Das im Abschnitt Protokoll beschriebene Skript und die Eingabedateien sind auf der Website verfügbar: https://forgemia.inra.fr/GNet/dicoexpress
Vorbereiten von Datendateien
Die vier CSV-Dateien, die im Verzeichnis Data/ gespeichert sind, sollten nach dem Projektnamen benannt werden. In unserem Beispiel beginnen daher alle Namen mit “Tutorial”, und wir setzen Project_Name = “Tutorial” in Schritt 4 des Protokolls. Das in den CSV-Dateien verwendete Trennzeichen muss in Schritt 4 in der Variablen Sep angegeben werden. In unserem “Tutorial”-Dataset ist das Trennzeichen eine Tabelle. Für fortgeschrittene Benutzer kann der vollständige Datensatz auf eine Teilmenge reduziert werden, indem eine Liste von Anweisungen und eine neue Project_Name über die Filter-Variable bereitgestellt werden. Diese Option vermeidet redundante Kopien der Eingabedateien und verifiziert die FAIR-Prinzipien14.
Unter den vier CSV-Dateien sind nur die COUNTS- und TARGET-Dateien obligatorisch. Sie enthalten die Rohzahlen für jedes Gen (hier Tutorial_COUNTS.csv) und die experimentelle Designbeschreibung (hier Tutorial_TARGET.csv). Die Datei TARGET.csv beschreibt jede Probe (eine Probe pro Zeile) mit einer Modalität für jeden biologischen oder technischen Faktor (in den Spalten). Wir empfehlen dringend, dass die für die Modalitäten gewählten Namen mit einem Buchstaben und nicht mit einer Zahl beginnen. Der Name der letzten Spalte (“Replizieren”) kann nicht geändert werden. Schließlich müssen die Beispielnamen (erste Spalte) mit den Namen in den Überschriften der Datei COUNTS.csv übereinstimmen (Genotype1_control_rep1 in unserem Beispiel). Die Anreicherungsdatei.csv in der jede Zeile einen Gene_ID und einen Anmerkungsterm enthält, ist nur erforderlich, wenn der Benutzer die Anreicherungsanalyse ausführen möchte. Wenn ein Gen mehrere Annotationen hat, müssen diese auf verschiedene Zeilen geschrieben werden. Die Annotation.csv Datei ist optional und wird verwendet, um eine kurze Beschreibung jedes Gens in den Ausgabedateien hinzuzufügen. Der beste Weg, eine Anmerkungsdatei zu erhalten, besteht darin, die Informationen aus dedizierten Datenbanken abzurufen (z. B. Thalemine: https://bar.utoronto.ca/thalemine/begin.do für Arabidopsis).
Installation von DiCoExpress
DiCoExpress erfordert spezielle R-Pakete. Verwenden Sie die Befehlszeilenquelle(“.. /Sources/Install_Packages.R”) in der R-Konsole, um den erforderlichen Paketinstallationsstatus zu überprüfen. Für Benutzer unter Linux besteht eine weitere Lösung darin, den für DiCoExpress dedizierten Container zu installieren, der bei https://forgemia.inra.fr/GNet/dicoexpress/container_registry verfügbar ist. Per Definition enthält dieser Container DiCoExpress mit allen benötigten Teilen wie Bibliotheken und anderen Abhängigkeiten.
Da RNA-Seq zu einer allgegenwärtigen Methode in biologischen Studien geworden ist, besteht ein ständiger Bedarf, vielseitige und benutzerfreundliche Analysewerkzeuge zu entwickeln. Ein kritischer Schritt innerhalb der meisten analytischen Arbeitsabläufe besteht häufig darin, die Gene, die zwischen biologischen Bedingungen und/oder Behandlungen unterschiedlich exprimiert werden, mit Sicherheit zu identifizieren15. Die Erstellung zuverlässiger Ergebnisse erfordert eine ordnungsgemäße statisti…
The authors have nothing to disclose.
Diese Arbeit wurde hauptsächlich von der ANR PSYCHE (ANR-16-CE20-0009) unterstützt. Die Autoren danken F. Desprez für den Bau des Containers von DiCoExpress. Die KB-Arbeit wird durch das Programm Investment for the Future ANR-10-BTBR-01-01 Amaizing unterstützt. Die Laboratorien GQE und IPS2 profitieren von der Unterstützung von Saclay Plant Sciences-SPS (ANR-17-EUR-0007).