1. Configuration Installez R, s’il n’est pas déjà installé.REMARQUE: PAST est écrit en R et, par conséquent, nécessite que ses utilisateurs aient installé R. Au moment d’écrire ces lignes, l’installation de PAST directement à partir de Bioconductor nécessite R4.0. Les anciennes versions de PAST peuvent être installées à partir de Bioconductor pour R3.6, et PAST peut être installé à partir de Github pour les utilisateurs de R3.5. Les instructions d’installation de R peuvent être téléchargées à partir du lien suivant : https://www.r-project.org/. Installez la dernière version de RStudio Desktop ou mettez à jour RStudio (facultatif).REMARQUE: RStudio est un environnement utile pour travailler avec le langage R. Son installation est recommandée, en particulier pour ceux qui choisissent d’exécuter PAST dans la ligne de commande plutôt que via l’application Shiny GUI. RStudio et ses instructions d’installation peuvent être trouvés sur le lien suivant: https://rstudio.com/products/rstudio/. Installez PAST à partir de Bioconductor11 en suivant les instructions sur Bioconductor.REMARQUE: L’installation via Bioconductor doit gérer l’installation des dépendances de PAST. En outre, PAST peut être installé à partir de Github12, mais l’installation à partir de Github n’installera pas automatiquement les dépendances. Installez PAST Shiny (facultatif). Téléchargez le fichier « app. R » à partir de la page Versions du référentiel Github : https://github.com/IGBB/PAST/releases/ et rappelez-vous où se trouve le fichier téléchargé.REMARQUE : PAST peut être utilisé en appelant ses méthodes directement avec R, mais les utilisateurs qui sont moins familiers avec R peuvent exécuter l’application PAST Shiny, qui fournit une interface utilisateur guidée. PAST Shiny est un script R disponible dans la branche shiny_app du référentiel GITHUB PAST. PAST Shiny tentera d’installer ses dépendances lors de la première exécution. Commencez l’analyse en démarrant l’application de l’une des trois manières décrites ci-dessous. PAST Shiny avec RStudio À l’aide de RStudio, créez un nouveau projet dans le dossier où se trouve l’application. R est situé. Cliquez sur | fichier Nouveau projet et sélectionnez ce dossier. Une fois qu’un nouveau projet a été créé, ouvrez l’application. R téléchargé précédemment. RStudio reconnaît cette application. R est une application Shiny et crée un bouton Exécuter l’application sur la barre au-dessus du code source affiché. Cliquez sur Exécuter l’application. RStudio lancera alors une fenêtre qui affiche l’application PAST Shiny. PAST Shiny avec console R Lancez R et exécutez le code suivant pour démarrer l’application PAST Shiny : shiny::runApp(‘path/to/folder/with/shiny/app. R’. Remplacez le texte entre guillemets par le dossier dans lequel l’application. R a été téléchargé et conservez les citations. PASSÉ sans R Shiny Exécutez library(PAST) dans une console R pour charger PAST. 2. Personnaliser l’analyse Shiny (facultatif) Remplacez le titre de l’analyse de « Nouvelle analyse » par quelque chose qui reflète mieux le type d’analyse en cours d’exécution, ce qui permet de suivre plusieurs analyses (voir la figure 1). Figure 1. Veuillez cliquer ici pour l’agrandir. Modifiez le nombre de cœurs et le mode. Définissez le nombre de cœurs sur n’importe quel nombre compris entre 1 et le nombre total sur la machine, mais sachez que consacrer plus de ressources à PAST peut ralentir d’autres opérations sur la machine. Définissez le mode en fonction de la description de la section 6. 3. Charger les données GWAS Remarque : Vérifiez que les données GWAS sont délimitées par des tabulations. Assurez-vous que le fichier d’association contient les colonnes suivantes : trait, nom du marqueur, locus ou chromosome, position sur le chromosome, valeur p et valeur R2 pour le marqueur. Assurez-vous que le fichier d’effets contient les colonnes suivantes : trait, nom du marqueur, locus ou chromosome, position sur le chromosome et effet. L’ordre de ces colonnes n’est pas important, car l’utilisateur peut spécifier les noms des colonnes lors du chargement des données. Toutes les colonnes supplémentaires sont ignorées. TASSEL13 peut être utilisé pour produire ces fichiers. Chargez les données GWAS avec PAST Shiny. Sélectionnez un fichier d’association et un fichier d’effets à l’aide des zones de sélection Fichier d’association et Fichier d’effets. Modifiez les noms des colonnes dans les zones de saisie Nom de la colonne d’association et Nom des colonnes d’effets sous les zones de sélection de fichier pour refléter les noms de colonne dans les données. Figure 2. Veuillez cliquer ici pour l’agrandir. Chargez les données GWAS avec PAST dans la console R. Modifiez et exécutez le code suivant :gwas_data = load_GWAS_data(« path/to/association_file.tsv », « path/to/effects_file.tsv », association_columns = c(« Trait », « Marker », « Locus », « Site », « p », « marker_R2 »), effects_columns = c(« Trait », « Marker », « Locus », « Site », « Effect ») REMARQUE : Modifiez les chemins d’accès à l’emplacement réel des fichiers GWAS. Les valeurs fournies pour association_columns et effects_columns sont les valeurs par défaut. Si les noms ne correspondent pas aux valeurs par défaut, spécifiez les noms des colonnes. Sinon, ceux-ci peuvent être omis. 4. Données sur le déséquilibre de liaison de charge (LD) Remarque : Vérifiez que les données de déséquilibre de liaison (LD) sont délimitées par des tabulations et contiennent les types de données suivants : Locus, Position1, Site1, Position2, Site2, Distance dans les paires de bases entre Position1 et Position2 et valeur R2. Chargez les données LD avec PAST Shiny. Sélectionnez le fichier contenant les données LD. Modifiez les noms des colonnes dans les zones de saisie Noms des colonnes LD sous la zone de sélection de fichier pour qu’elles correspondent aux noms des colonnes dans les données LD si nécessaire. Figure 3. Veuillez cliquer ici pour l’agrandir. Chargez LD Data avec PAST dans la console R. Modifiez et exécutez le code suivant pour charger les données LD :LD = load_LD(« path/to/LD.tsv », LD_columns = c(« Locus1 », « Position1 », « Site1 », « Position2 », « Site2 », « Dist_bp », « R.2 »)Remarque : Modifiez le chemin d’accès à l’emplacement réel du fichier LD. Les valeurs fournies pour LD_columns sont les valeurs par défaut. Si les noms ne correspondent pas à ces valeurs par défaut, spécifiez les noms corrects des colonnes ; sinon, ceux-ci peuvent être omis. 5. Assigner des SLP aux gènes REMARQUE: Téléchargez ou recherchez des annotations au format GFF. Ces annotations peuvent souvent être trouvées dans des bases de données en ligne pour des organismes spécifiques. Soyez prudent avec les annotations de faible qualité, car la qualité des données d’annotations affectera la qualité de l’analyse des voies. Vérifiez que la première colonne de ces annotations (le chromosome) correspond au format du locus/chromosome dans les données d’association, d’effets et de LD. Par exemple, les annotations ne doivent pas appeler le premier chromosome « chr1 » si les fichiers de données GWAS et LD appellent le premier chromosome « 1 ». Attribuez des SLP aux gènes avec PAST Shiny.REMARQUE: Plus d’informations sur la détermination d’un seuil R2 approprié peuvent être trouvées dans Tang et al.6, dans la section intitulée « SNP to gene algorithm for the pathway analysis ». Sélectionnez le fichier contenant les annotations GFF. Considérez quelle taille de fenêtre et quelle coupure R2 conviennent le mieux à l’espèce considérée et modifiez-la si les valeurs par défaut ne conviennent pas aux données téléchargées.REMARQUE: Les valeurs par défaut dans PAST reflètent principalement les valeurs appropriées pour le maïs. Le nombre de cœurs défini au début de l’analyse PAST Shiny (étape 2.2) est utilisé dans cette étape. Figure 4. Veuillez cliquer ici pour l’agrandir. Attribuez des SLP aux gènes avec PAST dans la console R. Modifiez et exécutez le code suivant pour affecter des SMP aux gènes :gènes = assign_SNPs_to_genes(gwas_data, LD, « path/to/annotations.gff », c(« gene »), 1000, 0.8, 2)REMARQUE: Dans cet exemple de code, plusieurs suggestions par défaut sont fournies: 1000 est la taille de la fenêtre autour du SNP pour rechercher des gènes; 0,8 est la valeur seuil pour R2; 2 est le nombre de cœurs utilisés pour le traitement parallèle. Le chemin d’accès aux annotations doit également être remplacé par l’emplacement réel du fichier d’annotations. 6. Découvrez des voies importantes REMARQUE: Vérifiez que le fichier de voies contient les données suivantes dans un format délimité par des tabulations, avec une ligne pour chaque gène dans chaque voie: ID de voie – un identificateur tel que « PWY-6475-1 »; description de la voie – une description plus longue de ce que font les voies, comme la « biosynthèse trans-lycopène »; gène – un gène dans la voie, qui doit correspondre aux noms fournis dans les annotations. Les informations sur les voies d’accès peuvent probablement être trouvées dans des bases de données en ligne pour des organismes spécifiques, tels que MaizeGDB. La deuxième option spécifiée par l’utilisateur est le mode. « Croissant » fait référence aux phénotypes qui reflètent quand une valeur croissante du trait mesuré est souhaitable, comme le rendement, tandis que « décroissant » fait référence à un trait où une diminution des valeurs mesurées est bénéfique, comme les cotes de dommages causés par les insectes. L’importance des voies est testée à l’aide des méthodesdécritesprécédemment 4,6,14. Découvrez des voies importantes avec PAST Shiny. Sélectionnez le fichier contenant les données des chemins d’accès et assurez-vous que le mode est sélectionné dans les options d’analyse. Si nécessaire, modifiez le nombre de gènes qui doivent se présenter dans une voie pour le conserver pour l’analyse et le nombre de permutations utilisées pour créer la distribution nulle afin de tester la signification de l’effet. Graphique 5. Veuillez cliquer ici pour voir une version agrandie de cette figure. REMARQUE : Le nombre de cœurs et le mode défini au début de l’analyse PAST Shiny (étape 2.2) sont utilisés dans cette étape. Le nombre par défaut de gènes est actuellement fixé à 5 gènes, de sorte que les voies avec moins de gènes connus seront supprimées. L’utilisateur peut abaisser cette valeur à 4 ou 3, pour inclure des voies plus courtes, mais cela risque de fausses résultats positifs. L’augmentation de cette valeur peut augmenter la puissance de l’analyse, mais supprimera davantage de voies de l’analyse. Changer le nombre de permutations utilisées augmente et diminue la puissance du test. Découvrez des voies importantes avec PAST dans la console R. Modifiez et exécutez le code suivant pour découvrir des chemins d’accès significatifs :rugplots_data <- find_pathway_significance(gènes, « path/to/pathways.tsv », 5, « increasing », 1000, 2)Remarque : Dans cet exemple de code, plusieurs valeurs par défaut suggérées sont fournies. 5 est le nombre minimum de gènes qui doivent être dans une voie afin de maintenir la voie dans l’analyse, l’augmentation fait référence à une quantité croissante du trait mesuré (il est recommandé que l’utilisateur exécute à la fois en augmentation et en diminution, quel que soit le trait; l’interprétation des données différera pour les deux, cependant), 1000 est le nombre de fois pour échantillonner les effets pour déterminer la distribution nulle, et 2 est le nombre de cœurs utilisés pour le traitement parallèle. Modifiez le chemin d’accès à l’emplacement réel du fichier de chemins d’accès. 7. Voir Rugplots Voir Rugplots avec PAST Shiny. Une fois toutes les entrées téléchargées et définies, cliquez sur Commencer l’analyse. Une barre de progression apparaîtra et indiquera quelle étape de l’analyse a été terminée pour la dernière fois. Une fois l’analyse terminée, PAST Shiny passe à l’onglet Résultats. Un tableau des résultats sera affiché dans la colonne de gauche (intitulée « chemins ») et les Rugplots seront affichés dans la colonne de droite (intitulée « tracés »). Utilisez le curseur pour contrôler les paramètres de filtrage. Lorsque le niveau de filtrage est satisfaisant, cliquez sur le bouton Télécharger les résultats en bas à gauche pour télécharger toutes les images et tous les tableaux individuellement dans un fichier ZIP nommé avec le titre de l’analyse. Ce fichier ZIP contient la table filtrée, la table non filtrée et une image par chemin d’accès dans la table filtrée. Figure 6. Veuillez cliquer ici pour l’agrandir. Figure 7. Veuillez cliquer ici pour l’agrandir. Afficher rugplots avec PAST dans la console R Modifiez et exécutez le code suivant pour enregistrer les résultats :plot_pathways(rugplots_data, « pvalue », 0,02, « augmentation », « output_folder »)Remarque : Dans cet exemple de code, plusieurs valeurs par défaut suggérées sont fournies. pvalue fournit les données qui peuvent être utilisées pour filtrer les voies insignifiantes après qu’un seuil de signification a été choisi par l’utilisateur; 0,02 est la valeur par défaut utilisée dans le filtrage, et l’augmentation fait référence à une quantité croissante du trait mesuré (il est recommandé que l’utilisateur exécute à la fois en augmentation et en diminution, quel que soit le trait; l’interprétation des données différera pour les deux, cependant); output_folder est le dossier dans lequel les images et les tables seront écrites (ce dossier doit exister avant d’exécuter la fonction). Un tableau des résultats filtrés, des résultats non filtrés et des images individuelles pour chaque chemin d’accès dans les résultats filtrés sont écrits dans ce dossier.