Un protocole informatique, CaseOLAP LIFT, et un cas d’utilisation sont présentés pour étudier les protéines mitochondriales et leurs associations avec les maladies cardiovasculaires telles que décrites dans les rapports biomédicaux. Ce protocole peut être facilement adapté pour étudier les composants cellulaires et les maladies sélectionnés par l’utilisateur.
L’augmentation rapide et les grandes quantités de rapports biomédicaux, chacun contenant de nombreuses entités et des informations riches, représentent une ressource précieuse pour les applications d’exploration de textes biomédicaux. Ces outils permettent aux chercheurs d’intégrer, de conceptualiser et de traduire ces découvertes afin de découvrir de nouvelles perspectives sur la pathologie et la thérapeutique des maladies. Dans ce protocole, nous présentons CaseOLAP LIFT, un nouveau pipeline de calcul permettant d’étudier les composants cellulaires et leurs associations de maladies en extrayant des informations sélectionnées par l’utilisateur à partir d’ensembles de données textuelles (par exemple, la littérature biomédicale). Le logiciel identifie les protéines subcellulaires et leurs partenaires fonctionnels dans des documents pertinents pour la maladie. D’autres documents relatifs à la maladie sont identifiés à l’aide de la méthode d’imputation par étiquette du logiciel. Afin de contextualiser les associations protéine-maladie qui en résultent et d’intégrer des informations provenant de multiples ressources biomédicales pertinentes, un graphe de connaissances est automatiquement construit pour des analyses ultérieures. Nous présentons un cas d’utilisation avec un corpus de ~34 millions de documents texte téléchargés en ligne pour fournir un exemple d’élucidation du rôle des protéines mitochondriales dans les phénotypes distincts des maladies cardiovasculaires à l’aide de cette méthode. De plus, un modèle d’apprentissage profond a été appliqué au graphe de connaissances résultant pour prédire les relations non signalées auparavant entre les protéines et la maladie, ce qui a donné lieu à 1 583 associations avec des probabilités prédites >0,90 et avec une aire sous la courbe caractéristique de fonctionnement du récepteur (AUROC) de 0,91 sur l’ensemble de test. Ce logiciel dispose d’un flux de travail hautement personnalisable et automatisé, avec un large éventail de données brutes disponibles pour l’analyse ; Par conséquent, à l’aide de cette méthode, les associations protéine-maladie peuvent être identifiées avec une fiabilité accrue au sein d’un corpus textuel.
L’étude des protéines liées à la maladie améliore les connaissances scientifiques sur la pathogenèse et aide à identifier des thérapies potentielles. Plusieurs grands corpus de publications biomédicales, tels que les 34 millions d’articles de PubMed contenant des titres de publications, des résumés et des documents en texte intégral, rapportent de nouvelles découvertes qui relient les protéines aux maladies. Cependant, ces résultats sont fragmentés entre diverses sources et doivent être intégrés pour générer de nouvelles connaissances biomédicales. Plusieurs ressources biomédicales existent pour intégrer les associations protéine-maladie 1,2,3,4,5,6,7. Cependant, ces ressources organisées sont souvent incomplètes et peuvent ne pas englober les derniers résultats de recherche. Les approches de fouille de texte sont essentielles pour extraire et synthétiser les associations protéine-maladie dans de grands corpus textuels, ce qui permettrait une compréhension plus complète de ces concepts biomédicaux dans la littérature scientifique.
De multiples approches biomédicales d’exploration de textes existent pour découvrir les relations protéine-maladie 8,9,10,11,12,13,14, et d’autres contribuent en partie à déterminer ces relations en identifiant les protéines, les maladies ou d’autres entités biomédicales mentionnées dans le texte13,15,16,17, Esaïe 18 et 19. Cependant, bon nombre de ces outils n’ont pas accès à la littérature la plus récente, à l’exception de quelques-uns qui sont périodiquement mis à jour 8,11,13,15. De même, de nombreux outils ont également un champ d’étude limité, car ils sont limités à de grandes maladies ou protéines prédéfinies 9,13. Plusieurs approches sont également sujettes à l’identification de faux positifs dans le texte ; D’autres ont abordé ces questions avec une liste noire interprétable et globale de noms de protéines 9,11 ou des techniques de reconnaissance d’entités nominatives moins interprétables15,20. Alors que la plupart des ressources ne présentent que des résultats précalculés, certains outils offrent de l’interactivité via des applications Web ou un code logiciel accessible 8,9,11.
Pour remédier aux limitations ci-dessus, nous présentons le protocole suivant, CaseOLAP avec imputation par étiquette et texte intégral (CaseOLAP LIFT), comme une plate-forme flexible et personnalisable pour étudier les associations entre les protéines (par exemple, les protéines associées à une composante cellulaire) et les maladies à partir d’ensembles de données textuelles. Cette plate-forme comprend la curation automatisée des protéines spécifiques aux termes de l’ontologie génique (GO) (par exemple, les protéines spécifiques des organites), l’imputation des étiquettes thématiques manquantes dans les documents, l’analyse des documents en texte intégral, ainsi que des outils d’analyse et des outils prédictifs (Figure 1, Figure 2 et Tableau 1). CaseOLAP LIFT sélectionne les protéines spécifiques des organites en utilisant les termes GO fournis par l’utilisateur (par exemple, le compartiment des organites) et les protéines fonctionnellement liées à l’aide de STRING21, Reactome 22 et GRNdb23. Les documents d’étude de la maladie sont identifiés par leurs étiquettes d’en-tête de sujet médical annoté par PubMed (MeSH). Pour les ~15,1 % de documents non étiquetés, les étiquettes sont imputées si au moins un synonyme de terme MeSH se trouve dans le titre ou au moins deux dans le résumé. Cela permet de prendre en compte des publications jusque-là non catégorisées dans l’analyse de fouille de textes. CaseOLAP LIFT permet également à l’utilisateur de sélectionner des sections de publications (par exemple, titres et résumés uniquement, texte intégral ou texte intégral excluant les méthodes) dans un délai spécifié (par exemple, 2012-2022). Le logiciel dresse également de manière semi-automatique une liste noire de noms de protéines spécifiques à chaque cas d’utilisation, ce qui réduit considérablement les associations faussement positives entre protéines et maladies présentes dans d’autres approches. Dans l’ensemble, ces améliorations permettent une plus grande personnalisation et une plus grande automatisation, augmentent la quantité de données disponibles pour l’analyse et permettent d’établir des associations protéine-maladie plus fiables à partir de grands corpus de textes biomédicaux.
CaseOLAP LIFT intègre des connaissances biomédicales et représente la relation de divers concepts biomédicaux à l’aide d’un graphe de connaissances, qui est exploité pour prédire les relations cachées dans le graphe. Récemment, des méthodes de calcul basées sur des graphes ont été appliquées à des contextes biologiques, y compris l’intégration et l’organisation de concepts biomédicaux 24,25, la réaffectation et le développement de médicaments 26,27,28, et la prise de décision clinique à partir de données protéomiques 29.
Pour démontrer les utilités de CaseOLAP LIFT dans le cadre de la construction d’un graphe de connaissances, nous mettons en évidence un cas d’utilisation sur l’étude des associations entre les protéines mitochondriales et huit catégories de maladies cardiovasculaires. Les preuves provenant de ~362 000 documents pertinents pour la maladie ont été analysées pour identifier les principales protéines mitochondriales et les voies associées aux maladies. Ensuite, ces protéines, leurs protéines fonctionnellement liées et leurs résultats d’exploration de texte ont été incorporés dans un graphe de connaissances. Ce graphique a été exploité dans le cadre d’une analyse de prédiction de liens basée sur l’apprentissage profond pour prédire les associations protéine-maladie jusqu’à présent non rapportées dans les publications biomédicales.
La section d’introduction décrit les informations de base et les objectifs de notre protocole. La section suivante décrit les étapes du protocole de calcul. Par la suite, les résultats représentatifs de ce protocole sont décrits. Enfin, nous discutons brièvement des cas d’utilisation du protocole de calcul, des avantages, des inconvénients et des applications futures.
CaseOLAP LIFT permet aux chercheurs d’étudier les associations entre les protéines fonctionnelles (par exemple, les protéines associées à un composant cellulaire, un processus biologique ou une fonction moléculaire) et les catégories biologiques (par exemple, les maladies). Le protocole décrit doit être exécuté dans l’ordre spécifié, les sections 2 et 3 étant les étapes les plus critiques, car les sections 4 et 5 dépendent de leurs résultats. Comme alternative à la section 1 du protocole, le code CaseOLAP LIFT peut être cloné et accessible à partir du référentiel GitHub (https://github.com/CaseOLAP/caseolap_lift). Il est à noter que malgré les tests effectués lors du développement du logiciel, des bugs peuvent survenir. Si c’est le cas, l’étape ayant échoué doit être répétée. Si le problème persiste, il est recommandé de répéter la section 1 du protocole pour s’assurer que la dernière version du conteneur docker est utilisée. Une assistance supplémentaire est disponible en créant un problème sur le référentiel GitHub pour une assistance supplémentaire.
Cette méthode soutient la génération d’hypothèses en permettant aux chercheurs d’identifier les entités d’intérêt et de révéler les associations potentielles entre elles, qui peuvent ne pas être facilement accessibles dans les ressources biomédicales existantes. Les associations protéine-maladie qui en résultent permettent aux chercheurs d’obtenir de nouvelles informations via les mesures interprétables des scores : les scores de popularité indiquent les protéines les plus étudiées par rapport à une maladie, les scores de distinction indiquent les maladies les plus uniques à une protéine, et le score CaseOLAP combiné est une combinaison des deux. Pour éviter les identifications faussement positives (par exemple, en raison d’homonymes), certains outils d’exploration de texte utilisent une liste noire de termes pour éviter 9,11. De même, CaseOLAP LIFT utilise également une liste noire, mais permet à l’utilisateur d’adapter la liste noire à son cas d’utilisation. Par exemple, lors de l’étude de la maladie coronarienne (coronaropathie), le terme « coronaropathie » ne doit pas être considéré comme un nom pour la protéine « désoxyribonucléase activée par la caspase ». Cependant, lors de l’étude d’autres sujets, « CAD » peut généralement faire référence à la protéine.
CaseOLAP LIFT s’adapte à la quantité de données disponibles pour le text mining. La fonctionnalité de plage de dates allège la charge de calcul et crée une flexibilité pour la génération d’hypothèses (par exemple, étudier comment les connaissances scientifiques sur une association protéine-maladie ont changé au fil du temps). Parallèlement, les composantes d’imputation par étiquette et de texte intégral élargissent la portée des données disponibles pour l’exploration de texte. Les deux composants sont désactivés par défaut pour réduire les coûts de calcul, mais l’utilisateur peut décider d’inclure l’un ou l’autre composant. L’imputation par étiquette est conservatrice et elle catégorise correctement la plupart des publications (précision de 87 %), mais ne tient pas compte des autres étiquettes de catégorie (rappel de 2 %). Cette méthode repose actuellement sur une heuristique basée sur des règles qui correspond aux mots-clés de maladie, et il est prévu d’améliorer les performances grâce à l’utilisation de techniques de modélisation de sujets de document. Étant donné que de nombreux rapports non catégorisés ont tendance à être des publications récentes, les études portant sur une période récente (p. ex., toutes les publications au cours des 3 dernières années) sont mieux servies par la désactivation de l’imputation par étiquette. Le composant de recherche en texte intégral augmente les exigences en matière d’exécution et de stockage. Notamment, seule une minorité de documents ont le texte intégral disponible (~14% des documents de notre étude). En supposant que les noms de protéines mentionnés dans la section des méthodes des publications sont moins susceptibles d’être liés aux sujets de la maladie, il est recommandé d’interroger les articles en texte intégral à l’exclusion de la section des méthodes.
Les scores d’association protéine-maladie qui en résultent sont utiles pour les analyses traditionnelles telles que les analyses de clustering, de réduction de dimensionnalité ou d’enrichissement (par exemple, GO, voies), avec une certaine implémentation incluse dans ce progiciel. Pour contextualiser ces scores dans les connaissances biomédicales existantes, un graphe de connaissances est automatiquement construit et peut être exploré à l’aide d’outils de visualisation de graphes (par exemple, Neo4j32, Cytoscape33). Le graphe de connaissances peut également être utilisé pour des analyses prédictives (par exemple, la prédiction de liens entre les relations protéine-maladie non signalées, la détection de réseaux de protéines par les communautés, les méthodes de cheminement de la collecte de prix).
Nous avons examiné les paramètres d’évaluation du modèle pour les associations protéine-maladie prédites (tableau 5). Le modèle attribue un score de probabilité compris entre 0,0 et 1,0 à chaque association protéine-maladie, les scores plus proches de 1,0 indiquant un niveau de confiance plus élevé dans la prédiction. L’évaluation interne de la performance du modèle, qui était basée sur divers paramètres, y compris l’AUROC, l’exactitude, l’exactitude équilibrée, la spécificité et le rappel, a indiqué une excellente performance globale dans son travail. Cependant, l’évaluation a également mis en évidence un score plutôt faible pour la précision (0,15) du modèle, ce qui a entraîné à la fois un score AUPRC et un score F1 inférieurs. De futures études visant à améliorer cette métrique contribueront à améliorer les performances globales du modèle. Nous envisageons d’y parvenir en mettant en œuvre des modèles plus sophistiqués d’intégration de graphes de connaissances et de prédiction de graphes. Sur la base de la précision du modèle de 0,15, les chercheurs devraient s’attendre à environ 15 % d’identifications positives ; En particulier, sur l’ensemble des 12 688 associations protéine-maladie prédites par le modèle, environ 15 % sont des associations vraies-positives. Ce problème peut être atténué en ne considérant que les associations protéine-maladie avec un score de probabilité élevé (p. ex., >0,90) ; Dans notre cas d’utilisation, le filtrage avec un seuil de probabilité de 0,90 a conduit à des prédictions à haut niveau de confiance de 1 583 associations. Les chercheurs peuvent trouver utile d’inspecter manuellement ces prédictions pour s’assurer d’une validité élevée (voir la figure 7 à titre d’exemple). Une évaluation externe de nos prédictions a permis de déterminer que sur les 310 associations protéine-maladie provenant d’une vaste base de données DisGeNet19, 103 ont été identifiées dans notre étude d’exploration de textes, et 88 associations supplémentaires ont été prédites par notre analyse du graphe de connaissances avec un score de probabilité >0,90.
Dans l’ensemble, CaseOLAP LIFT offre une flexibilité et une facilité d’utilisation améliorées dans la conception d’analyses personnalisées des associations entre les groupes de protéines fonctionnelles et plusieurs catégories de maladies dans de grands corpus de texte. Ce package est simplifié dans une nouvelle interface de ligne de commande conviviale et est publié en tant que conteneur docker, réduisant ainsi les problèmes associés à la configuration des environnements de programmation et des dépendances logicielles. Le pipeline CaseOLAP LIFT pour l’étude des protéines mitochondriales dans les maladies cardiovasculaires peut être facilement adapté ; Par exemple, les applications futures de cette technique pourraient impliquer l’étude des associations entre toutes les protéines associées à n’importe quel terme GO et à n’importe quelle catégorie biomédicale. De plus, les associations protéine-maladie classées identifiées par cette plate-forme de fouille de texte sont importantes dans la préparation de l’ensemble de données pour l’utilisation de techniques avancées de langage naturel. Le graphe de connaissances qui en résulte permet aux chercheurs de convertir ces résultats en connaissances biologiquement informatives et jette les bases d’analyses de suivi basées sur des graphiques.
The authors have nothing to disclose.
Ce travail a été soutenu par les National Institutes of Health (NIH) R35 HL135772 à P.P., NIH T32 HL13945 à A.R.P. et D.S., NIH T32 EB016640 à A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 à A.R.P. et D.S., NIH R01 HL146739 pour I.A., J.R., A.V., K.B., et le TC Laubisch Endowment à P.P. à UCLA.