DiCoExpress est un outil basé sur un script implémenté dans R pour effectuer une analyse RNA-Seq du contrôle qualité à la co-expression. DiCoExpress gère une conception complète et déséquilibrée jusqu’à 2 facteurs biologiques. Ce tutoriel vidéo guide l’utilisateur à travers les différentes fonctionnalités de DiCoExpress.
L’utilisation appropriée de la modélisation statistique dans l’analyse des données NGS nécessite un niveau avancé d’expertise. Il y a eu récemment un consensus croissant sur l’utilisation de modèles linéaires généralisés pour l’analyse différentielle des données RNA-Seq et l’avantage des modèles de mélange pour effectuer une analyse de co-expression. Pour offrir un paramètre géré pour utiliser ces approches de modélisation, nous avons développé DiCoExpress qui fournit un pipeline R standardisé pour effectuer une analyse RNA-Seq. Sans connaissances particulières en statistiques ou en programmation R, les débutants peuvent effectuer une analyse complète RNA-Seq des contrôles qualité à la co-expression en passant par l’analyse différentielle basée sur les contrastes à l’intérieur d’un modèle linéaire généralisé. Une analyse d’enrichissement est proposée à la fois sur les listes des gènes exprimés différentiellement et sur les groupes de gènes co-exprimés. Ce didacticiel vidéo est conçu comme un protocole étape par étape pour aider les utilisateurs à tirer pleinement parti de DiCoExpress et de son potentiel pour permettre l’interprétation biologique d’une expérience RNA-Seq.
La technologie de séquençage de l’ARN de nouvelle génération (RNA-Seq) est désormais l’étalon-or de l’analyse du transcriptome1. Depuis les débuts de la technologie, les efforts combinés des bioinformaticiens et des biostatisticiens ont abouti au développement de nombreuses méthodes abordant toutes les étapes essentielles des analyses transcriptomiques, de la cartographie à la quantification des transcriptions2. La plupart des outils dont dispose aujourd’hui le biologiste sont développés dans l’environnement logiciel R pour le calcul statistique et les graphiques3, et de nombreux progiciels pour l’analyse des données biologiques sont disponibles dans le référentiel Bioconductor4. Ces progiciels offrent un contrôle total et une personnalisation de l’analyse, mais ils se font au prix d’une utilisation intensive d’une interface de ligne de commande. Parce que de nombreux biologistes sont plus à l’aise avec une approche « point and click »5, la démocratisation des analyses RNA-Seq nécessite le développement d’interfaces ou de protocoles plus conviviaux6. Par exemple, il est possible de construire des interfaces web de paquets R en utilisant Shiny7, et l’analyse des données en ligne de commande est rendue plus intuitive avec l’interface R-studio8 . Le développement de tutoriels dédiés, étape par étape, peut également aider le nouvel utilisateur. En particulier, un tutoriel vidéo complète un tutoriel texte classique, conduisant à une compréhension plus profonde de toutes les étapes de la procédure.
Nous avons récemment développé DiCoExpress9, un outil d’analyse des expériences multifactorielles RNA-Seq dans R en utilisant des méthodes considérées comme les meilleures basées sur des études de comparaison neutres10,11,12. À partir d’une table de comptage, DiCoExpress propose une étape de contrôle de la qualité des données suivie d’une analyse différentielle de l’expression génique (edgeR package13) à l’aide d’un modèle linéaire généralisé (GLM) et la génération de clusters de co-expression à l’aide de modèles de mélange gaussiens (coseq package12). DiCoExpress gère une conception complète et déséquilibrée jusqu’à 2 facteurs biologiques (génotype et traitement) et un facteur technique (réplication). L’originalité de DiCoExpress réside dans son architecture d’annuaire stockant et organisant les données, les scripts et les résultats et dans l’automatisation de l’écriture des contrastes permettant à l’utilisateur d’étudier de nombreuses questions au sein d’un même modèle statistique. On s’est également efforcé de fournir des graphiques illustrant les résultats statistiques.
L’espace de travail DiCoExpress est disponible au https://forgemia.inra.fr/GNet/dicoexpress. Il contient quatre répertoires, deux fichiers pdf et deux fichiers texte. Le répertoire Data/ contient les jeux de données d’entrée ; Pour ce protocole, nous utiliserons le jeu de données « tutorial ». Le répertoire Sources/ contient sept fonctions R nécessaires à la réalisation de l’analyse, et ne doit pas être modifié par l’utilisateur. L’analyse est exécutée à l’aide de scripts stockés dans le répertoire Template_scripts/. Celui utilisé dans ce protocole s’appelle DiCoExpress_Tutorial_JoVE.R et peut être facilement adapté à n’importe quel projet transcriptomique. Tous les résultats sont écrits dans le répertoire Results/ et stockés dans un sous-répertoire nommé en fonction du projet. Le fichier README.md contient des informations d’installation utiles, et tous les détails spécifiques concernant la méthode et son utilisation peuvent être trouvés dans le fichier DiCoExpress_Reference_Manual.pdf.
Ce tutoriel vidéo guide l’utilisateur à travers les différentes fonctionnalités de DiCoExpress dans le but de surmonter les réticences ressenties par les biologistes à l’aide d’outils basés sur la ligne de commande. Nous présentons ici l’analyse d’un ensemble de données RNA-Seq artificiel décrivant l’expression génique dans trois réplicas biologiques de quatre génotypes, avec ou sans traitement. Nous allons maintenant passer en revue les différentes étapes du flux de travail DiCoExpress illustrées à la figure 1. Le script décrit dans la section Protocole et les fichiers d’entrée sont disponibles sur le site : https://forgemia.inra.fr/GNet/dicoexpress
Préparer les fichiers de données
Les quatre fichiers csv stockés dans le répertoire Data/ doivent être nommés en fonction du nom du projet. Dans notre exemple, tous les noms commencent donc par « Tutorial », et nous allons définir Project_Name = « Tutorial » à l’étape 4 du protocole. Le séparateur utilisé dans les fichiers csv doit être indiqué dans la variable Sep à l’étape 4. Dans notre jeu de données « tutoriel », le séparateur est une tabulation. Pour les utilisateurs avancés, le jeu de données complet peut être réduit à un sous-ensemble en fournissant une liste d’instructions et une nouvelle Project_Name via la variable Filter. Cette option évite les copies redondantes des fichiers d’entrée et vérifie les principes FAIR14.
Parmi les quatre fichiers csv, seuls les fichiers COUNTS et TARGET sont obligatoires. Ils contiennent les comptes bruts pour chaque gène (ici Tutorial_COUNTS.csv) et la description du plan expérimental (ici Tutorial_TARGET.csv). Le fichier TARGET.csv décrit chaque échantillon (un échantillon par ligne) avec une modalité pour chaque facteur biologique ou technique (dans les colonnes). Nous recommandons fortement que les noms choisis pour les modalités commencent par une lettre et non par un chiffre. Le nom de la dernière colonne (« Répliquer ») ne peut pas être modifié. Enfin, les noms d’exemple (première colonne) doivent correspondre aux noms dans les en-têtes du fichier COUNTS.csv (Genotype1_control_rep1 dans notre exemple). Le fichier d’enrichissement.csv dans lequel chaque ligne contient un Gene_ID et un terme d’annotation n’est requis que si l’utilisateur prévoit d’exécuter l’analyse d’enrichissement. Si un gène a plusieurs annotations, elles devront être écrites sur des lignes différentes. Le fichier Annotation.csv est facultatif et est utilisé pour ajouter une brève description de chaque gène dans les fichiers de sortie. La meilleure façon d’obtenir un fichier d’annotation est de récupérer les informations à partir de bases de données dédiées (par exemple, Thalemine: https://bar.utoronto.ca/thalemine/begin.do pour Arabidopsis).
Installation de DiCoExpress
DiCoExpress nécessite des packages R spécifiques. Utilisez la ligne de commande source(« .. /Sources/Install_Packages.R ») dans la console R pour vérifier l’état d’installation du package requis. Pour les utilisateurs sous Linux, une autre solution consiste à installer le conteneur dédié à DiCoExpress et disponible chez https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Par définition, ce conteneur contient DiCoExpress avec toutes les parties nécessaires, telles que les bibliothèques et autres dépendances.
Parce que RNA-Seq est devenu une méthode omniprésente dans les études biologiques, il y a un besoin constant de développer des outils analytiques polyvalents et conviviaux. Une étape critique dans la plupart des flux de travail analytiques consiste souvent à identifier avec confiance les gènes exprimés différemment entre les conditions biologiques et/ou les traitements15. La production de résultats fiables nécessite une modélisation statistique appropriée, ce qui a motivé le dévelop…
The authors have nothing to disclose.
Ce travail a été principalement soutenu par l’ANR PSYCHÉ (ANR-16-CE20-0009). Les auteurs remercient F. Desprez pour la construction du conteneur de DiCoExpress. Le travail de KB est soutenu par le programme Amaizing d’investissement pour l’avenir ANR-10-BTBR-01-01. Les laboratoires GQE et IPS2 bénéficient du soutien de Saclay Plant Sciences-SPS (ANR-17-EUR-0007).