Summary

Analyse d’expériences multifactorielles de séquençage d’ARN avec DiCoExpress

Published: July 29, 2022
doi:

Summary

DiCoExpress est un outil basé sur un script implémenté dans R pour effectuer une analyse RNA-Seq du contrôle qualité à la co-expression. DiCoExpress gère une conception complète et déséquilibrée jusqu’à 2 facteurs biologiques. Ce tutoriel vidéo guide l’utilisateur à travers les différentes fonctionnalités de DiCoExpress.

Abstract

L’utilisation appropriée de la modélisation statistique dans l’analyse des données NGS nécessite un niveau avancé d’expertise. Il y a eu récemment un consensus croissant sur l’utilisation de modèles linéaires généralisés pour l’analyse différentielle des données RNA-Seq et l’avantage des modèles de mélange pour effectuer une analyse de co-expression. Pour offrir un paramètre géré pour utiliser ces approches de modélisation, nous avons développé DiCoExpress qui fournit un pipeline R standardisé pour effectuer une analyse RNA-Seq. Sans connaissances particulières en statistiques ou en programmation R, les débutants peuvent effectuer une analyse complète RNA-Seq des contrôles qualité à la co-expression en passant par l’analyse différentielle basée sur les contrastes à l’intérieur d’un modèle linéaire généralisé. Une analyse d’enrichissement est proposée à la fois sur les listes des gènes exprimés différentiellement et sur les groupes de gènes co-exprimés. Ce didacticiel vidéo est conçu comme un protocole étape par étape pour aider les utilisateurs à tirer pleinement parti de DiCoExpress et de son potentiel pour permettre l’interprétation biologique d’une expérience RNA-Seq.

Introduction

La technologie de séquençage de l’ARN de nouvelle génération (RNA-Seq) est désormais l’étalon-or de l’analyse du transcriptome1. Depuis les débuts de la technologie, les efforts combinés des bioinformaticiens et des biostatisticiens ont abouti au développement de nombreuses méthodes abordant toutes les étapes essentielles des analyses transcriptomiques, de la cartographie à la quantification des transcriptions2. La plupart des outils dont dispose aujourd’hui le biologiste sont développés dans l’environnement logiciel R pour le calcul statistique et les graphiques3, et de nombreux progiciels pour l’analyse des données biologiques sont disponibles dans le référentiel Bioconductor4. Ces progiciels offrent un contrôle total et une personnalisation de l’analyse, mais ils se font au prix d’une utilisation intensive d’une interface de ligne de commande. Parce que de nombreux biologistes sont plus à l’aise avec une approche « point and click »5, la démocratisation des analyses RNA-Seq nécessite le développement d’interfaces ou de protocoles plus conviviaux6. Par exemple, il est possible de construire des interfaces web de paquets R en utilisant Shiny7, et l’analyse des données en ligne de commande est rendue plus intuitive avec l’interface R-studio8 . Le développement de tutoriels dédiés, étape par étape, peut également aider le nouvel utilisateur. En particulier, un tutoriel vidéo complète un tutoriel texte classique, conduisant à une compréhension plus profonde de toutes les étapes de la procédure.

Nous avons récemment développé DiCoExpress9, un outil d’analyse des expériences multifactorielles RNA-Seq dans R en utilisant des méthodes considérées comme les meilleures basées sur des études de comparaison neutres10,11,12. À partir d’une table de comptage, DiCoExpress propose une étape de contrôle de la qualité des données suivie d’une analyse différentielle de l’expression génique (edgeR package13) à l’aide d’un modèle linéaire généralisé (GLM) et la génération de clusters de co-expression à l’aide de modèles de mélange gaussiens (coseq package12). DiCoExpress gère une conception complète et déséquilibrée jusqu’à 2 facteurs biologiques (génotype et traitement) et un facteur technique (réplication). L’originalité de DiCoExpress réside dans son architecture d’annuaire stockant et organisant les données, les scripts et les résultats et dans l’automatisation de l’écriture des contrastes permettant à l’utilisateur d’étudier de nombreuses questions au sein d’un même modèle statistique. On s’est également efforcé de fournir des graphiques illustrant les résultats statistiques.

L’espace de travail DiCoExpress est disponible au https://forgemia.inra.fr/GNet/dicoexpress. Il contient quatre répertoires, deux fichiers pdf et deux fichiers texte. Le répertoire Data/ contient les jeux de données d’entrée ; Pour ce protocole, nous utiliserons le jeu de données « tutorial ». Le répertoire Sources/ contient sept fonctions R nécessaires à la réalisation de l’analyse, et ne doit pas être modifié par l’utilisateur. L’analyse est exécutée à l’aide de scripts stockés dans le répertoire Template_scripts/. Celui utilisé dans ce protocole s’appelle DiCoExpress_Tutorial_JoVE.R et peut être facilement adapté à n’importe quel projet transcriptomique. Tous les résultats sont écrits dans le répertoire Results/ et stockés dans un sous-répertoire nommé en fonction du projet. Le fichier README.md contient des informations d’installation utiles, et tous les détails spécifiques concernant la méthode et son utilisation peuvent être trouvés dans le fichier DiCoExpress_Reference_Manual.pdf.

Ce tutoriel vidéo guide l’utilisateur à travers les différentes fonctionnalités de DiCoExpress dans le but de surmonter les réticences ressenties par les biologistes à l’aide d’outils basés sur la ligne de commande. Nous présentons ici l’analyse d’un ensemble de données RNA-Seq artificiel décrivant l’expression génique dans trois réplicas biologiques de quatre génotypes, avec ou sans traitement. Nous allons maintenant passer en revue les différentes étapes du flux de travail DiCoExpress illustrées à la figure 1. Le script décrit dans la section Protocole et les fichiers d’entrée sont disponibles sur le site : https://forgemia.inra.fr/GNet/dicoexpress

Préparer les fichiers de données
Les quatre fichiers csv stockés dans le répertoire Data/ doivent être nommés en fonction du nom du projet. Dans notre exemple, tous les noms commencent donc par « Tutorial », et nous allons définir Project_Name = « Tutorial » à l’étape 4 du protocole. Le séparateur utilisé dans les fichiers csv doit être indiqué dans la variable Sep à l’étape 4. Dans notre jeu de données « tutoriel », le séparateur est une tabulation. Pour les utilisateurs avancés, le jeu de données complet peut être réduit à un sous-ensemble en fournissant une liste d’instructions et une nouvelle Project_Name via la variable Filter. Cette option évite les copies redondantes des fichiers d’entrée et vérifie les principes FAIR14.

Parmi les quatre fichiers csv, seuls les fichiers COUNTS et TARGET sont obligatoires. Ils contiennent les comptes bruts pour chaque gène (ici Tutorial_COUNTS.csv) et la description du plan expérimental (ici Tutorial_TARGET.csv). Le fichier TARGET.csv décrit chaque échantillon (un échantillon par ligne) avec une modalité pour chaque facteur biologique ou technique (dans les colonnes). Nous recommandons fortement que les noms choisis pour les modalités commencent par une lettre et non par un chiffre. Le nom de la dernière colonne (« Répliquer ») ne peut pas être modifié. Enfin, les noms d’exemple (première colonne) doivent correspondre aux noms dans les en-têtes du fichier COUNTS.csv (Genotype1_control_rep1 dans notre exemple). Le fichier d’enrichissement.csv dans lequel chaque ligne contient un Gene_ID et un terme d’annotation n’est requis que si l’utilisateur prévoit d’exécuter l’analyse d’enrichissement. Si un gène a plusieurs annotations, elles devront être écrites sur des lignes différentes. Le fichier Annotation.csv est facultatif et est utilisé pour ajouter une brève description de chaque gène dans les fichiers de sortie. La meilleure façon d’obtenir un fichier d’annotation est de récupérer les informations à partir de bases de données dédiées (par exemple, Thalemine: https://bar.utoronto.ca/thalemine/begin.do pour Arabidopsis).

Installation de DiCoExpress
DiCoExpress nécessite des packages R spécifiques. Utilisez la ligne de commande source(« .. /Sources/Install_Packages.R ») dans la console R pour vérifier l’état d’installation du package requis. Pour les utilisateurs sous Linux, une autre solution consiste à installer le conteneur dédié à DiCoExpress et disponible chez https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Par définition, ce conteneur contient DiCoExpress avec toutes les parties nécessaires, telles que les bibliothèques et autres dépendances.

Protocol

1. DiCoExpress Ouvrez une session R studio et définissez le répertoire sur Template_scripts. Ouvrez le script DiCoExpress_Tutorial.R dans R studio. Chargez les fonctions DiCoExpress dans la session R avec les commandes suivantes:> source(« .. /Sources/Load_Functions.R »)> Load_Functions()> Data_Directory = « .. /données »> Results_Directory = « .. /Résultats/ » Chargez les fichiers de données dans la session R avec les commandes suivantes :> Pro…

Representative Results

Toutes les sorties DiCoExpress sont enregistrées dans le répertoire Tutorial/, lui-même placé dans le répertoire Results/. Nous fournissons ici quelques conseils pour évaluer la qualité globale de l’analyse. Contrôle qualitéLa sortie du contrôle qualité, située dans le répertoire Quality_Control/, est essentielle pour vérifier que les résultats de l’analyse RNA-Seq sont fiables. Le fichier Data_Quality_Control.pdf contient plusieurs graphiques obtenus av…

Discussion

Parce que RNA-Seq est devenu une méthode omniprésente dans les études biologiques, il y a un besoin constant de développer des outils analytiques polyvalents et conviviaux. Une étape critique dans la plupart des flux de travail analytiques consiste souvent à identifier avec confiance les gènes exprimés différemment entre les conditions biologiques et/ou les traitements15. La production de résultats fiables nécessite une modélisation statistique appropriée, ce qui a motivé le dévelop…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Ce travail a été principalement soutenu par l’ANR PSYCHÉ (ANR-16-CE20-0009). Les auteurs remercient F. Desprez pour la construction du conteneur de DiCoExpress. Le travail de KB est soutenu par le programme Amaizing d’investissement pour l’avenir ANR-10-BTBR-01-01. Les laboratoires GQE et IPS2 bénéficient du soutien de Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. . Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
  8. Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  9. Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  10. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  11. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  12. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  13. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  14. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Play Video

Cite This Article
Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

View Video