Summary

Une approche par graphe de connaissances pour élucider le rôle des voies organellaires dans la maladie via des rapports biomédicaux

Published: October 13, 2023
doi:

Summary

Un protocole informatique, CaseOLAP LIFT, et un cas d’utilisation sont présentés pour étudier les protéines mitochondriales et leurs associations avec les maladies cardiovasculaires telles que décrites dans les rapports biomédicaux. Ce protocole peut être facilement adapté pour étudier les composants cellulaires et les maladies sélectionnés par l’utilisateur.

Abstract

L’augmentation rapide et les grandes quantités de rapports biomédicaux, chacun contenant de nombreuses entités et des informations riches, représentent une ressource précieuse pour les applications d’exploration de textes biomédicaux. Ces outils permettent aux chercheurs d’intégrer, de conceptualiser et de traduire ces découvertes afin de découvrir de nouvelles perspectives sur la pathologie et la thérapeutique des maladies. Dans ce protocole, nous présentons CaseOLAP LIFT, un nouveau pipeline de calcul permettant d’étudier les composants cellulaires et leurs associations de maladies en extrayant des informations sélectionnées par l’utilisateur à partir d’ensembles de données textuelles (par exemple, la littérature biomédicale). Le logiciel identifie les protéines subcellulaires et leurs partenaires fonctionnels dans des documents pertinents pour la maladie. D’autres documents relatifs à la maladie sont identifiés à l’aide de la méthode d’imputation par étiquette du logiciel. Afin de contextualiser les associations protéine-maladie qui en résultent et d’intégrer des informations provenant de multiples ressources biomédicales pertinentes, un graphe de connaissances est automatiquement construit pour des analyses ultérieures. Nous présentons un cas d’utilisation avec un corpus de ~34 millions de documents texte téléchargés en ligne pour fournir un exemple d’élucidation du rôle des protéines mitochondriales dans les phénotypes distincts des maladies cardiovasculaires à l’aide de cette méthode. De plus, un modèle d’apprentissage profond a été appliqué au graphe de connaissances résultant pour prédire les relations non signalées auparavant entre les protéines et la maladie, ce qui a donné lieu à 1 583 associations avec des probabilités prédites >0,90 et avec une aire sous la courbe caractéristique de fonctionnement du récepteur (AUROC) de 0,91 sur l’ensemble de test. Ce logiciel dispose d’un flux de travail hautement personnalisable et automatisé, avec un large éventail de données brutes disponibles pour l’analyse ; Par conséquent, à l’aide de cette méthode, les associations protéine-maladie peuvent être identifiées avec une fiabilité accrue au sein d’un corpus textuel.

Introduction

L’étude des protéines liées à la maladie améliore les connaissances scientifiques sur la pathogenèse et aide à identifier des thérapies potentielles. Plusieurs grands corpus de publications biomédicales, tels que les 34 millions d’articles de PubMed contenant des titres de publications, des résumés et des documents en texte intégral, rapportent de nouvelles découvertes qui relient les protéines aux maladies. Cependant, ces résultats sont fragmentés entre diverses sources et doivent être intégrés pour générer de nouvelles connaissances biomédicales. Plusieurs ressources biomédicales existent pour intégrer les associations protéine-maladie 1,2,3,4,5,6,7. Cependant, ces ressources organisées sont souvent incomplètes et peuvent ne pas englober les derniers résultats de recherche. Les approches de fouille de texte sont essentielles pour extraire et synthétiser les associations protéine-maladie dans de grands corpus textuels, ce qui permettrait une compréhension plus complète de ces concepts biomédicaux dans la littérature scientifique.

De multiples approches biomédicales d’exploration de textes existent pour découvrir les relations protéine-maladie 8,9,10,11,12,13,14, et d’autres contribuent en partie à déterminer ces relations en identifiant les protéines, les maladies ou d’autres entités biomédicales mentionnées dans le texte13,15,16,17, Esaïe 18 et 19. Cependant, bon nombre de ces outils n’ont pas accès à la littérature la plus récente, à l’exception de quelques-uns qui sont périodiquement mis à jour 8,11,13,15. De même, de nombreux outils ont également un champ d’étude limité, car ils sont limités à de grandes maladies ou protéines prédéfinies 9,13. Plusieurs approches sont également sujettes à l’identification de faux positifs dans le texte ; D’autres ont abordé ces questions avec une liste noire interprétable et globale de noms de protéines 9,11 ou des techniques de reconnaissance d’entités nominatives moins interprétables15,20. Alors que la plupart des ressources ne présentent que des résultats précalculés, certains outils offrent de l’interactivité via des applications Web ou un code logiciel accessible 8,9,11.

Pour remédier aux limitations ci-dessus, nous présentons le protocole suivant, CaseOLAP avec imputation par étiquette et texte intégral (CaseOLAP LIFT), comme une plate-forme flexible et personnalisable pour étudier les associations entre les protéines (par exemple, les protéines associées à une composante cellulaire) et les maladies à partir d’ensembles de données textuelles. Cette plate-forme comprend la curation automatisée des protéines spécifiques aux termes de l’ontologie génique (GO) (par exemple, les protéines spécifiques des organites), l’imputation des étiquettes thématiques manquantes dans les documents, l’analyse des documents en texte intégral, ainsi que des outils d’analyse et des outils prédictifs (Figure 1, Figure 2 et Tableau 1). CaseOLAP LIFT sélectionne les protéines spécifiques des organites en utilisant les termes GO fournis par l’utilisateur (par exemple, le compartiment des organites) et les protéines fonctionnellement liées à l’aide de STRING21, Reactome 22 et GRNdb23. Les documents d’étude de la maladie sont identifiés par leurs étiquettes d’en-tête de sujet médical annoté par PubMed (MeSH). Pour les ~15,1 % de documents non étiquetés, les étiquettes sont imputées si au moins un synonyme de terme MeSH se trouve dans le titre ou au moins deux dans le résumé. Cela permet de prendre en compte des publications jusque-là non catégorisées dans l’analyse de fouille de textes. CaseOLAP LIFT permet également à l’utilisateur de sélectionner des sections de publications (par exemple, titres et résumés uniquement, texte intégral ou texte intégral excluant les méthodes) dans un délai spécifié (par exemple, 2012-2022). Le logiciel dresse également de manière semi-automatique une liste noire de noms de protéines spécifiques à chaque cas d’utilisation, ce qui réduit considérablement les associations faussement positives entre protéines et maladies présentes dans d’autres approches. Dans l’ensemble, ces améliorations permettent une plus grande personnalisation et une plus grande automatisation, augmentent la quantité de données disponibles pour l’analyse et permettent d’établir des associations protéine-maladie plus fiables à partir de grands corpus de textes biomédicaux.

CaseOLAP LIFT intègre des connaissances biomédicales et représente la relation de divers concepts biomédicaux à l’aide d’un graphe de connaissances, qui est exploité pour prédire les relations cachées dans le graphe. Récemment, des méthodes de calcul basées sur des graphes ont été appliquées à des contextes biologiques, y compris l’intégration et l’organisation de concepts biomédicaux 24,25, la réaffectation et le développement de médicaments 26,27,28, et la prise de décision clinique à partir de données protéomiques 29.

Pour démontrer les utilités de CaseOLAP LIFT dans le cadre de la construction d’un graphe de connaissances, nous mettons en évidence un cas d’utilisation sur l’étude des associations entre les protéines mitochondriales et huit catégories de maladies cardiovasculaires. Les preuves provenant de ~362 000 documents pertinents pour la maladie ont été analysées pour identifier les principales protéines mitochondriales et les voies associées aux maladies. Ensuite, ces protéines, leurs protéines fonctionnellement liées et leurs résultats d’exploration de texte ont été incorporés dans un graphe de connaissances. Ce graphique a été exploité dans le cadre d’une analyse de prédiction de liens basée sur l’apprentissage profond pour prédire les associations protéine-maladie jusqu’à présent non rapportées dans les publications biomédicales.

La section d’introduction décrit les informations de base et les objectifs de notre protocole. La section suivante décrit les étapes du protocole de calcul. Par la suite, les résultats représentatifs de ce protocole sont décrits. Enfin, nous discutons brièvement des cas d’utilisation du protocole de calcul, des avantages, des inconvénients et des applications futures.

Protocol

1. Exécution du conteneur docker Téléchargez le conteneur docker CaseOLAP LIFT à l’aide de la fenêtre du terminal et en tapant docker pull caseolap/caseolap_lift :latest. Créez un répertoire qui stockera toutes les données et la sortie du programme (par exemple, mkdir caseolap_lift_shared_folder). Démarrez le conteneur docker avec la commande docker run –name caseolap_lift -it -v PATH_TO_FOLDER :/caseolap_lift_shared_folder caseolap/caseolap_lift :latest bash avec PATH_TO_FOLDER comme chemin d’accès complet au dossier (par exemple, /Users/caseolap/caseolap_lift_shared_folder). Les futures commandes de la section 2 seront émises sur cette fenêtre de terminal. Lancez la recherche élastique dans le conteneur. Dans une nouvelle fenêtre de terminal, tapez docker exec -it –user elastic caseolap_lift bash /workspace/start_elastic_search.sh.REMARQUE : Dans ce protocole, CaseOLAP LIFT est exécuté de manière interactive, chaque étape étant effectuée de manière séquentielle. Cette analyse peut également être exécutée de bout en bout en la transmettant sous forme de fichier parameters.txt. Les paramètres.txt utilisés dans cette étude se trouvent dans / workspace/caseolap_lift/parameters.txt. Pour accéder à plus de détails sur chaque étape, exécutez la commande avec l’indicateur – -help ou consultez la documentation sur le référentiel GitHub (https://github.com/CaseOLAP/caseolap_lift). 2. Préparation des maladies et des protéines Accédez au dossier caseolap_lift avec cd /workspace/caseolap_lift Assurez-vous que les liens de téléchargement dans config/knowledge_base_links.json sont à jour et exacts pour la dernière version de chaque ressource de la base de connaissances. Par défaut, les fichiers ne sont téléchargés qu’une seule fois ; Pour mettre à jour ces fichiers et les télécharger à nouveau, exécutez l’étape de prétraitement avec l’option -r à l’étape 2.4. Déterminer le terme GO et les catégories de maladies à utiliser pour cette étude. Recherchez les identificateurs de tous les termes GO et les identificateurs MeSH à http://geneontology.org/ et https://meshb.nlm.nih.gov/, respectivement. Exécutez le module de prétraitement à l’aide des options de ligne de commande. Cette étape de prétraitement permet d’assembler des maladies spécifiées, de répertorier les protéines à étudier et de rassembler les synonymes de protéines pour l’exploration de texte. Indiquez les termes GO étudiés définis par l’utilisateur à l’aide de l’indicateur -c et les numéros de l’arbre MeSH de la maladie à l’aide de l’indicateur -d, et spécifiez les abréviations avec -a. Exemple de commande :python caseolap_lift.py prétraitement -a « CM ARR CHD VD IHD CCD VOO OTH » -d « C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195,C14.280.282,C14.280.383,C14.280.470,C14.280.945,C14.280.459,C14.280.720 » -c « GO :0005739 » –include-synonyms –include-ppi -k 1 -s 0.99 –include-pw -n 4 -r 0.5 –include-tfd Examinez les fichiers catégories.txt, core_proteins.txt et proteins_of_interest.txt de l’étape précédente dans le dossier de sortie . Assurez-vous que toutes les catégories de maladies dans les catégories.txt sont correctes et qu’une quantité raisonnable de protéines est identifiée dans core_proteins.txt et proteins_of_interest.txt. Si nécessaire, répétez l’étape 2.4 et modifiez les paramètres pour inclure un nombre plus ou moins élevé de protéines.REMARQUE : Le nombre de protéines incluses dans l’étude est déterminé par les drapeaux –include-ppi, –include-pw et –include-tfd pour inclure les interactions protéine-protéine, les protéines avec des voies de réactome partagées et les protéines avec une dépendance au facteur de transcription, respectivement. Leur fonctionnalité spécifique est spécifiée avec des options supplémentaires telles que -k, -s, -n et -r (voir la documentation). 3. Fouille de texte Assurez-vous que les fichiers catégories.txt, core_proteins.txt et proteins_of_interest.txt de l’étape précédente se trouvent dans le dossier de sortie. Utilisez ces fichiers comme entrée pour le text-mining. Vous pouvez également ajuster les configurations relatives à l’analyse et à l’indexation des documents dans le dossier config . Reportez-vous à une version précédente du protocole CaseOLAP pour plus de détails sur la configuration et le dépannage8. Exécutez le module de text-mining avec python caseolap_lift.py text_mining. Ajoutez l’indicateur -l pour imputer les sujets des documents non catégorisés et l’indicateur -t pour télécharger le texte intégral des documents relatifs à la maladie. D’autres indicateurs facultatifs spécifient une plage de dates de publications à télécharger (-d) et fournissent des options pour filtrer les noms des protéines (décrites à l’étape 3.3). Un exemple de document analysé est illustré à la figure 3.Exemple de commande : python caseolap_lift.py text_mining -d « 2012-10-01,2022-10-01 » -l -tREMARQUE : Une grande partie du temps de protocole de calcul est consacrée à l’étape 3.2, qui peut potentiellement s’étendre sur plus de 24 heures. La durée d’exécution dépendra de la taille du corpus de texte à télécharger, qui dépendra également de la plage de dates et de l’activation ou non de l’imputation d’étiquettes et de la fonctionnalité de texte intégral. (Recommandé) Filtrez les noms des protéines. Les noms de protéines identifiés dans les publications relatives à la maladie contribuent aux associations de maladies protéiques, mais sont sujets à des faux positifs (c’est-à-dire des homonymes avec d’autres mots). Pour résoudre ce problème, énumérez les homonymes possibles dans une liste noire (config/remove_these_synonyms.txt) afin qu’ils soient exclus des étapes en aval.Rechercher les noms à inspecter : dans le dossier des résultats, recherchez les noms de protéines dont la fréquence est la plus élevée sous all_proteins ou core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt) et les noms de protéines avec les scores les plus élevés dans les dossiers de ranked_proteins en fonction du ou des scores qui vous intéressent. S’il y a beaucoup de noms, donnez la priorité à l’inspection des noms les mieux notés. Inspectez les noms : tapez python caseolap_lift.py text_mining -c suivi d’un nom de protéine pour afficher jusqu’à 10 publications contenant des noms. Ensuite, pour chaque nom, vérifiez si le nom est spécifique à la protéine. Recalculer les scores : tapez python caseolap_lift.py text_mining -s. Répétez les étapes 3.1, 3.2 et 3.3 jusqu’à ce que les noms de l’étape 3.1 apparaissent corrects. 4. Analyser les résultats Assurez-vous que les résultats de l’exploration de texte se trouvent dans le dossier de résultats (par exemple, les répertoires result/all_proteins et result/core_proteins et les fichiers associés), qui sera utilisé comme entrée pour l’étape d’analyse. Plus précisément, un score indiquant la force de chaque association protéine-maladie est rapporté dans les résultats de la caseolap.csv de l’exploration de texte. Indiquez l’ensemble de résultats d’exploration de texte à utiliser pour l’analyse en spécifiant soit –analyze_core_proteins pour inclure uniquement les protéines liées au terme GO, soit –analyze_all_proteins pour inclure toutes les protéines fonctionnellement liées. Identifiez les principales protéines et voies pour chaque maladie. Les associations significatives entre les protéines et les maladies sont définies comme celles dont les scores dépassent un seuil spécifié. Le score Z transforme les scores CaseOLAP au sein de chaque catégorie de maladie et considère les protéines dont le score est supérieur à un seuil spécifié (indiqué par l’indicateur -z ) comme significatives.REMARQUE : Les voies biologiques importantes pour chaque maladie sont identifiées automatiquement à l’aide de protéines significatives comme données d’entrée pour l’analyse de la voie du réactome. Toutes ces protéines sont signalées dans les result_table.csv résultantes dans le dossier analysis_results , et les chiffres pertinents et les résultats d’analyse des voies sont automatiquement générés dans le dossier analysis_results .Exemple de commande : python caseolap_lift.py analyze_results -z 3.0 –analyze_core_proteins Examinez les résultats de l’analyse et ajustez-les si nécessaire. Le nombre de protéines et, par conséquent, les voies d’enrichissement du réactome significatives pour chaque catégorie de maladie dépendent du seuil de z-score utilisé dans l’analyse. Un tableau de score z, généré à la sortie/analysis_results/zscore_cutoff_table.csv, indique le nombre de protéines significatives pour chaque catégorie de maladie afin de faciliter la sélection d’un seuil de score z aussi élevé que possible tout en produisant plusieurs protéines significatives pour chaque catégorie de maladie. 5. Analyse prédictive Construisez un graphe de connaissances.Assurez-vous que les fichiers requis se trouvent dans le dossier des résultats, y compris le dossier kg généré à partir du prétraitement (étape 2.4) et le caseolap.csv à partir des résultats de l’exploration de texte sous les dossiers all_proteins ou core_proteins (étape 3.2). Concevez le graphe de connaissances. En fonction de la tâche en aval, incluez ou excluez des composants du graphe de connaissances complet. Le graphe de connaissances se compose des scores protéine-maladie issus de l’exploration de texte et des connexions aux ressources de la base de connaissances utilisées à l’étape 2.4 (Figure 4). Incluez l’arbre de la maladie MeSH avec l’indicateur –include_mesh , les interactions protéine-protéine de STRING avec –include_ppi, les voies de réactome partagées avec –include_pw et la dépendance du facteur de transcription de GRNdb/GTEx avec –include_tfd. Exécutez le module de construction du graphe de connaissances. Indiquez l’ensemble de résultats d’exploration de texte à utiliser pour l’analyse en spécifiant –analyze_core_proteins pour n’inclure que les protéines liées au terme GO ou –analyze_all_proteins pour inclure toutes les protéines fonctionnellement liées. Par défaut, les scores CaseOLAP bruts sont chargés en tant que poids d’arête entre les nœuds de la protéine et de la maladie ; Pour mettre à l’échelle les pondérations des arêtes, indiquez –use_z_score ou des scores z non négatifs avec –scale_z_score.Exemple de commande : python caseolap_lift.py prepare_knowledge_graph –scale_z_score Prédire de nouvelles associations protéine-maladie.Assurez-vous que les fichiers du graphe de connaissances, merged_edges.tsv et merged_nodes.tsv, sont sortis de l’étape précédente (étape 5.1.3). Exécutez le script de prédiction du graphe de connaissances pour prédire les associations protéine-maladie jusqu’à présent non signalées dans la littérature scientifique en tapant python kg_analysis/run_kg_analysis.py. Ceci est implémenté avec GraPE30 et utilise DistMult31 pour produire des plongements de graphes de connaissances, qu’un perceptron multicouche utilise pour prédire les associations protéine-maladie. Dans le dossier output/kg_analysis, les prédictions avec une probabilité prédite >0,90 (prédictions.csv) et les métriques d’évaluation du modèle (eval_results.csv) sont enregistrées.NOTE : Dans ce travail, les paramètres choisis du modèle (p. ex., méthode d’intégration, modèle de prédiction des liaisons, hyperparamètres) ont été adaptés à l’étude représentative. Ce code sert d’exemple et de point de départ pour d’autres analyses. Pour explorer les paramètres du modèle, reportez-vous à la documentation de GraPE (https://github.com/AnacletoLAB/grape).

Representative Results

Des résultats représentatifs ont été produits à la suite de ce protocole afin d’étudier les associations entre les protéines mitochondriales (tableau 2) et huit catégories de maladies cardiovasculaires (tableau 3). Dans ces catégories, nous avons trouvé 363 567 publications publiées de 2012 à octobre 2022 (362 878 classées par métadonnées MeSH, 6 923 classées par imputation d’étiquette). Toutes les publications avaient un titre, 276 524 avaient un résumé et 51 065 avaient le texte intégral. Dans l’ensemble, 584 des 1 687 protéines mitochondriales interrogées ont été identifiées dans les publications, tandis que 3 284 de leurs 8 026 protéines fonctionnellement apparentées ont été identifiées. Au total, 14 protéines uniques ont été identifiées avec des scores significatifs dans toutes les catégories de maladies, avec un seuil de score z de 3,0 (Figure 5). L’analyse de la voie du réactome de ces protéines a révélé 12 voies significatives pour toutes les maladies (Figure 6). Toutes les protéines, les voies, les maladies et les scores ont été intégrés dans un graphe de connaissances (tableau 4). Ce graphe de connaissances a été utilisé pour prédire 12 688 nouvelles associations protéine-maladie et filtré avec un score de probabilité de 0,90 pour produire 1 583 prédictions à haut niveau de confiance. Un exemple mis en évidence de deux associations protéine-maladie est illustré à la figure 7, illustré dans le contexte d’autres entités biologiques pertinentes fonctionnellement liées aux protéines. Les paramètres d’évaluation du modèle sont présentés dans le tableau 5. Figure 1 : Vue dynamique du flux de travail. Cette figure représente les quatre principales étapes de ce workflow. Tout d’abord, les protéines pertinentes sont sélectionnées en fonction des termes GO fournis par l’utilisateur (par exemple, les composants cellulaires), et les catégories de maladies sont préparées en fonction des identificateurs MeSH de maladie fournis par l’utilisateur. Deuxièmement, les associations entre les protéines et les maladies sont calculées à l’étape de l’exploration de texte. Les publications comprises dans une certaine plage de dates sont téléchargées et indexées. Les publications d’étude des maladies sont identifiées (via des étiquettes MeSH et éventuellement via des étiquettes imputées), et leurs textes intégraux sont téléchargés et indexés. Les noms des protéines sont interrogés dans les publications et utilisés pour calculer les scores d’association protéine-maladie. Ensuite, après l’exploration de texte, ces scores permettent d’identifier les principales associations de protéines et de voies. Enfin, un graphe de connaissances est construit englobant ces protéines, ces maladies et leurs relations au sein de la base de connaissances biomédicales. De nouvelles associations protéine-maladie sont prédites sur la base du graphe de connaissances construit. Ces étapes utilisent les données les plus récentes disponibles provenant des bases de connaissances biomédicales et de PubMed. Veuillez cliquer ici pour voir une version agrandie de cette figure. Figure 2 : Architecture technique du flux de travail. Les détails techniques de ce flux de travail sont illustrés dans cette figure. L’utilisateur fournit les numéros de l’arbre MeSH des catégories de maladies et le(s) terme(s) GO. Les documents texte sont téléchargés à partir de PubMed, les documents pertinents pour la maladie sont identifiés sur la base des étiquettes MeSH fournies, et les documents sans étiquettes MeSH indiquant le sujet reçoivent des étiquettes de catégorie imputée. Les protéines associées au(x) terme(s) GO fourni(s) sont acquises. Cet ensemble de protéines est élargi pour inclure des protéines qui sont fonctionnellement liées par des interactions protéine-protéine, des voies biologiques partagées et une dépendance aux facteurs de transcription. Ces protéines sont interrogées dans des documents relatifs à la maladie et notées par CaseOLAP. Veuillez cliquer ici pour voir une version agrandie de cette figure. Figure 3 : Exemple d’un document traité. Un exemple de document texte analysé et indexé est présenté ici. Dans l’ordre, les champs pertinents indiquent le nom de l’index (_index, _type), l’identifiant PubMed (_id, pmid), les sous-sections du document (titre, résumé, full_text, introduction, méthodes, résultats, discussion) et d’autres métadonnées (année, MeSH, lieu, revue). À des fins d’affichage uniquement, les sous-sections du document sont tronquées avec des points de suspension. Le champ MeSH contient les sujets du document, qui peuvent parfois être fournis par notre étape d’imputation d’étiquette. Veuillez cliquer ici pour voir une version agrandie de cette figure. Figure 4 : Schéma du graphe de connaissances et ressources biomédicales. Cette figure illustre le schéma du graphe de connaissances. Chaque nœud et arête représente respectivement un type de noeud ou d’arête. Les limites entre les maladies cardiovasculaires (MCV) et les protéines sont pondérées par les scores CaseOLAP. Les arêtes de l’interaction protéine-protéine (IPP) sont pondérées par les scores de confiance STRING. Les bords de la dépendance au facteur de transcription (TFD) dérivé de GRNdb/GTEx, les bords de l’arbre des maladies dérivés de MeSH et les bords des voies dérivées du réactome ne sont pas pondérés. Veuillez cliquer ici pour voir une version agrandie de cette figure. Figure 5 : Principales associations protéine-maladie. Cette figure présente les protéines mitochondriales significatives pour chaque catégorie de maladie. La transformation du score Z a été appliquée aux scores CaseOLAP dans chaque catégorie afin d’identifier les protéines significatives à l’aide d’un seuil de 3,0. (Haut) Nombre de protéines mitochondriales significatives pour chaque maladie : Ces diagrammes de violon illustrent la distribution des scores z pour les protéines dans chaque catégorie de maladie. Le nombre total de protéines significatives pour chaque catégorie de maladie est indiqué au-dessus de chaque diagramme de violon. Au total, 14 protéines uniques ont été identifiées comme significatives pour toutes les maladies, et certaines protéines étaient significatives pour plusieurs maladies. (En bas) Protéines ayant obtenu les meilleurs scores : la carte thermique affiche les 10 principales protéines qui ont obtenu les scores z moyens les plus élevés pour toutes les maladies. Les valeurs vides ne représentent aucun score obtenu entre la protéine et la maladie. Veuillez cliquer ici pour voir une version agrandie de cette figure. Figure 6 : Principales associations entre la voie et la maladie. Cette figure illustre les principales voies biologiques associées aux catégories de maladies étudiées, telles que déterminées par l’analyse des voies de réactome. Toutes les analyses de voies ont été filtrées avec p < 0,05. Les valeurs de la carte thermique représentent le score z moyen de toutes les protéines de la voie. (Haut) Voies conservées parmi toutes les maladies : Dans l’ensemble, 14 protéines ont été identifiées comme étant pertinentes pour toutes les catégories de maladies, et 12 voies conservées parmi toutes les catégories de maladies ont été révélées. Un dendrogramme a été construit sur la base de la structure hiérarchique des voies pour relier les voies ayant des fonctions biologiques similaires. La hauteur du dendrogramme représente la profondeur relative dans la hiérarchie des voies ; Les fonctions biologiques larges ont des membres plus longs, et les voies plus spécifiques ont des membres plus courts. (En bas) Voies distinctes d’une catégorie de maladie : L’analyse des voies a été effectuée à l’aide de protéines permettant d’obtenir un score z significatif dans chaque maladie. Les trois principales voies avec les valeurs p les plus faibles associées à chaque maladie sont indiquées et indiquées par des astérisques. Les voies pourraient se trouver parmi les trois premières dans plusieurs maladies. Veuillez cliquer ici pour voir une version agrandie de cette figure. Figure 7 : Application de l’apprentissage profond pour la complétion des graphes de connaissances. Un exemple d’application de l’apprentissage profond à un graphe de connaissances spécifique à une maladie est présenté dans cette figure. Les relations cachées entre les protéines et la maladie sont prédites, et celles-ci sont indiquées en bleu. Les probabilités calculées pour les deux prédictions sont affichées, avec des valeurs allant de 0,0 à 1,0 et 1,0 indiquant une prédiction forte. Plusieurs protéines avec des interactions connues sont incluses, représentant les interactions protéine-protéine, la dépendance aux facteurs de transcription et les voies biologiques partagées. Pour la visualisation, un sous-graphe de quelques noeuds présentant un rapport avec l’exemple en surbrillance est affiché. Légende : IHD = cardiopathie ischémique ; R-HSA-1430728 = métabolisme ; O14949 = sous-unité 8 du complexe cytochrome b-c1 ; P17568 = NADH déshydrogénase (ubiquinone) 1 sous-complexe bêta sous-unité 7 ; Q9NYF8 Facteur de transcription 1 associé à Bcl-2, score : 7,24 x 10−7 ; P49821 = NADH déshydrogénase (ubiquinone) flavoprotéine 1, mitochondriale, score : 1,06 x 10−5 ; P31930 = sous-unité 1 du complexe cytochrome b-c1, mitochondriale, score : 4,98 x 10−5 ; P99999 = cytochrome c, score : 0,399. Veuillez cliquer ici pour voir une version agrandie de cette figure. Tableau 1 : Étapes de workflow et de limitation du débit. Ce tableau présente des estimations approximatives du temps de calcul pour chaque étape du workflow. Les options permettant d’inclure des composants du pipeline modifient la durée d’exécution totale nécessaire à la réalisation de l’analyse. L’estimation du temps total varie en fonction des ressources de calcul disponibles, y compris les spécifications matérielles et les paramètres logiciels. À titre d’estimation approximative, le protocole a pris 36 h d’exécution active pour s’exécuter sur notre serveur de calcul, avec six cœurs, 32 Go de RAM et 2 To de stockage, mais cela peut être plus rapide ou plus lent sur d’autres appareils. Veuillez cliquer ici pour télécharger ce tableau. Tableau 2 : Assemblage automatique des protéines composant la cellule. Ce tableau indique le nombre de protéines associées à un composant cellulaire donné (c’est-à-dire le terme GO), les protéines fonctionnellement liées à celles-ci par le biais d’interactions protéine-protéine (IPP), de voies partagées (PW) et de dépendance au facteur de transcription (TFD). Le nombre de protéines totales est le nombre de protéines de toutes les catégories précédentes combinées. Toutes les protéines fonctionnellement liées ont été obtenues en utilisant les paramètres par défaut de CaseOLAP LIFT. Veuillez cliquer ici pour télécharger ce tableau. Tableau 3 : Statistiques d’imputation d’étiquettes MeSH. Ce tableau affiche les catégories de maladies, les numéros de l’arbre MeSH utilisés comme terme parent de toutes les maladies incluses dans la catégorie, le nombre d’articles PubMed trouvés dans chaque catégorie de 2012 à 2022 et le nombre d’articles supplémentaires inclus en fonction de l’étape d’imputation de l’étiquette. Veuillez cliquer ici pour télécharger ce tableau. Tableau 4 : Statistiques de construction du graphe de connaissances. Ce tableau décrit les statistiques relatives à la taille du graphe de connaissances construit, y compris les différents nœuds et types d’arêtes. Les scores CaseOLAP représentent la relation entre une protéine et une catégorie de maladie cardiovasculaire (MCV). Veuillez cliquer ici pour télécharger ce tableau. Tableau 5 : Statistiques et validations de prédiction du graphe de connaissances. Ce tableau présente les mesures d’évaluation pour la prédiction des liens du graphe de connaissances des associations entre protéines nouvelles/cachées et les maladies. Les arêtes du graphe de connaissances ont été partitionnées en jeux de données d’apprentissage et de test 70/30, et la connectivité des arêtes du graphe a été préservée dans les deux jeux de données. La précision indique la proportion de prédictions correctement classées, tandis que la précision équilibrée corrige le déséquilibre des classes. La spécificité indique la proportion de prédictions négatives correctement classées. La précision indique la proportion de prédictions positives correctes par rapport à toutes les prédictions positives, tandis que le rappel indique la proportion de prédictions positives correctes par rapport à tous les bords positifs (c’est-à-dire les associations protéine-maladie identifiées par l’exploration de texte). Le score F1 est la moyenne harmonique de la précision et du rappel. L’aire sous la courbe caractéristique de fonctionnement du récepteur (AUROC) décrit dans quelle mesure le modèle fait la distinction entre les prédictions positives et négatives, 1,0 indiquant un classificateur parfait. L’aire sous la courbe de précision-rappel (AUPRC) mesure le compromis entre la précision et le rappel à des seuils de probabilité variables, des valeurs plus élevées indiquant de meilleures performances. Veuillez cliquer ici pour télécharger ce tableau.

Discussion

CaseOLAP LIFT permet aux chercheurs d’étudier les associations entre les protéines fonctionnelles (par exemple, les protéines associées à un composant cellulaire, un processus biologique ou une fonction moléculaire) et les catégories biologiques (par exemple, les maladies). Le protocole décrit doit être exécuté dans l’ordre spécifié, les sections 2 et 3 étant les étapes les plus critiques, car les sections 4 et 5 dépendent de leurs résultats. Comme alternative à la section 1 du protocole, le code CaseOLAP LIFT peut être cloné et accessible à partir du référentiel GitHub (https://github.com/CaseOLAP/caseolap_lift). Il est à noter que malgré les tests effectués lors du développement du logiciel, des bugs peuvent survenir. Si c’est le cas, l’étape ayant échoué doit être répétée. Si le problème persiste, il est recommandé de répéter la section 1 du protocole pour s’assurer que la dernière version du conteneur docker est utilisée. Une assistance supplémentaire est disponible en créant un problème sur le référentiel GitHub pour une assistance supplémentaire.

Cette méthode soutient la génération d’hypothèses en permettant aux chercheurs d’identifier les entités d’intérêt et de révéler les associations potentielles entre elles, qui peuvent ne pas être facilement accessibles dans les ressources biomédicales existantes. Les associations protéine-maladie qui en résultent permettent aux chercheurs d’obtenir de nouvelles informations via les mesures interprétables des scores : les scores de popularité indiquent les protéines les plus étudiées par rapport à une maladie, les scores de distinction indiquent les maladies les plus uniques à une protéine, et le score CaseOLAP combiné est une combinaison des deux. Pour éviter les identifications faussement positives (par exemple, en raison d’homonymes), certains outils d’exploration de texte utilisent une liste noire de termes pour éviter 9,11. De même, CaseOLAP LIFT utilise également une liste noire, mais permet à l’utilisateur d’adapter la liste noire à son cas d’utilisation. Par exemple, lors de l’étude de la maladie coronarienne (coronaropathie), le terme « coronaropathie » ne doit pas être considéré comme un nom pour la protéine « désoxyribonucléase activée par la caspase ». Cependant, lors de l’étude d’autres sujets, « CAD » peut généralement faire référence à la protéine.

CaseOLAP LIFT s’adapte à la quantité de données disponibles pour le text mining. La fonctionnalité de plage de dates allège la charge de calcul et crée une flexibilité pour la génération d’hypothèses (par exemple, étudier comment les connaissances scientifiques sur une association protéine-maladie ont changé au fil du temps). Parallèlement, les composantes d’imputation par étiquette et de texte intégral élargissent la portée des données disponibles pour l’exploration de texte. Les deux composants sont désactivés par défaut pour réduire les coûts de calcul, mais l’utilisateur peut décider d’inclure l’un ou l’autre composant. L’imputation par étiquette est conservatrice et elle catégorise correctement la plupart des publications (précision de 87 %), mais ne tient pas compte des autres étiquettes de catégorie (rappel de 2 %). Cette méthode repose actuellement sur une heuristique basée sur des règles qui correspond aux mots-clés de maladie, et il est prévu d’améliorer les performances grâce à l’utilisation de techniques de modélisation de sujets de document. Étant donné que de nombreux rapports non catégorisés ont tendance à être des publications récentes, les études portant sur une période récente (p. ex., toutes les publications au cours des 3 dernières années) sont mieux servies par la désactivation de l’imputation par étiquette. Le composant de recherche en texte intégral augmente les exigences en matière d’exécution et de stockage. Notamment, seule une minorité de documents ont le texte intégral disponible (~14% des documents de notre étude). En supposant que les noms de protéines mentionnés dans la section des méthodes des publications sont moins susceptibles d’être liés aux sujets de la maladie, il est recommandé d’interroger les articles en texte intégral à l’exclusion de la section des méthodes.

Les scores d’association protéine-maladie qui en résultent sont utiles pour les analyses traditionnelles telles que les analyses de clustering, de réduction de dimensionnalité ou d’enrichissement (par exemple, GO, voies), avec une certaine implémentation incluse dans ce progiciel. Pour contextualiser ces scores dans les connaissances biomédicales existantes, un graphe de connaissances est automatiquement construit et peut être exploré à l’aide d’outils de visualisation de graphes (par exemple, Neo4j32, Cytoscape33). Le graphe de connaissances peut également être utilisé pour des analyses prédictives (par exemple, la prédiction de liens entre les relations protéine-maladie non signalées, la détection de réseaux de protéines par les communautés, les méthodes de cheminement de la collecte de prix).

Nous avons examiné les paramètres d’évaluation du modèle pour les associations protéine-maladie prédites (tableau 5). Le modèle attribue un score de probabilité compris entre 0,0 et 1,0 à chaque association protéine-maladie, les scores plus proches de 1,0 indiquant un niveau de confiance plus élevé dans la prédiction. L’évaluation interne de la performance du modèle, qui était basée sur divers paramètres, y compris l’AUROC, l’exactitude, l’exactitude équilibrée, la spécificité et le rappel, a indiqué une excellente performance globale dans son travail. Cependant, l’évaluation a également mis en évidence un score plutôt faible pour la précision (0,15) du modèle, ce qui a entraîné à la fois un score AUPRC et un score F1 inférieurs. De futures études visant à améliorer cette métrique contribueront à améliorer les performances globales du modèle. Nous envisageons d’y parvenir en mettant en œuvre des modèles plus sophistiqués d’intégration de graphes de connaissances et de prédiction de graphes. Sur la base de la précision du modèle de 0,15, les chercheurs devraient s’attendre à environ 15 % d’identifications positives ; En particulier, sur l’ensemble des 12 688 associations protéine-maladie prédites par le modèle, environ 15 % sont des associations vraies-positives. Ce problème peut être atténué en ne considérant que les associations protéine-maladie avec un score de probabilité élevé (p. ex., >0,90) ; Dans notre cas d’utilisation, le filtrage avec un seuil de probabilité de 0,90 a conduit à des prédictions à haut niveau de confiance de 1 583 associations. Les chercheurs peuvent trouver utile d’inspecter manuellement ces prédictions pour s’assurer d’une validité élevée (voir la figure 7 à titre d’exemple). Une évaluation externe de nos prédictions a permis de déterminer que sur les 310 associations protéine-maladie provenant d’une vaste base de données DisGeNet19, 103 ont été identifiées dans notre étude d’exploration de textes, et 88 associations supplémentaires ont été prédites par notre analyse du graphe de connaissances avec un score de probabilité >0,90.

Dans l’ensemble, CaseOLAP LIFT offre une flexibilité et une facilité d’utilisation améliorées dans la conception d’analyses personnalisées des associations entre les groupes de protéines fonctionnelles et plusieurs catégories de maladies dans de grands corpus de texte. Ce package est simplifié dans une nouvelle interface de ligne de commande conviviale et est publié en tant que conteneur docker, réduisant ainsi les problèmes associés à la configuration des environnements de programmation et des dépendances logicielles. Le pipeline CaseOLAP LIFT pour l’étude des protéines mitochondriales dans les maladies cardiovasculaires peut être facilement adapté ; Par exemple, les applications futures de cette technique pourraient impliquer l’étude des associations entre toutes les protéines associées à n’importe quel terme GO et à n’importe quelle catégorie biomédicale. De plus, les associations protéine-maladie classées identifiées par cette plate-forme de fouille de texte sont importantes dans la préparation de l’ensemble de données pour l’utilisation de techniques avancées de langage naturel. Le graphe de connaissances qui en résulte permet aux chercheurs de convertir ces résultats en connaissances biologiquement informatives et jette les bases d’analyses de suivi basées sur des graphiques.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par les National Institutes of Health (NIH) R35 HL135772 à P.P., NIH T32 HL13945 à A.R.P. et D.S., NIH T32 EB016640 à A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 à A.R.P. et D.S., NIH R01 HL146739 pour I.A., J.R., A.V., K.B., et le TC Laubisch Endowment à P.P. à UCLA.

Materials

Software – Docker Docker N/A docker.com

References

  1. The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
  2. Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
  3. Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
  4. Rehm, H. L., et al. ClinGen – The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
  5. Caulfield, M., et al. . The National Genomics Research and Healthcare Knowledgebase. , (2019).
  6. Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
  7. Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043 (2017).
  8. Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108 (2019).
  9. Yu, K. -. H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
  10. Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
  11. Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
  12. Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
  13. Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135 (2021).
  14. Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680 (2016).
  15. Wei, C. -. H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
  16. Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171 (2013).
  17. Wei, C. -. H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
  18. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
  19. Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
  20. Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
  21. Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
  22. Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
  23. Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
  24. Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96 (2021).
  25. Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304 (2022).
  26. Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726 (2017).
  27. Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
  28. Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118 (2021).
  29. Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
  30. Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
  31. Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
  32. . Neo4j Graph Data Platform Available from: https://neo4j.com/ (2022)
  33. Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Play Video

Cite This Article
Pelletier, A. R., Steinecke, D., Sigdel, D., Adam, I., Caufield, J. H., Guevara-Gonzalez, V., Ramirez, J., Verma, A., Bali, K., Downs, K., Wang, W., Bui, A., Ping, P. A Knowledge Graph Approach to Elucidate the Role of Organellar Pathways in Disease via Biomedical Reports. J. Vis. Exp. (200), e65084, doi:10.3791/65084 (2023).

View Video