Nous présentons un protocole et code de programmation associé ainsi que des échantillons de métadonnées pour soutenir une identification automatisée basée sur un nuage des phrases-catégorie association représentant des concepts uniques dans le domaine de certaines connaissances de l’utilisateur dans la littérature biomédicale. L’association de catégorie expression quantifiée par le présent protocole peut faciliter une analyse approfondie dans le domaine de connaissances choisies.
L’accumulation rapide de données textuelles biomédicales a largement dépassé la capacité humaine de curation manuelle et l’analyse, ce qui nécessite de nouveaux outils de text-mining pour extraire les connaissances biologiques de gros volumes de rapports scientifiques. Le pipeline sensibles au contexte sémantique Online Analytical Processing (CaseOLAP), développé en 2016, quantifie avec succès des relations expression-catégorie définie par l’utilisateur par le biais de l’analyse de données textuelles. CaseOLAP a de nombreuses applications biomédicales.
Nous avons développé un protocole pour un environnement de cloud computing soutenant l’end-to-end expression-exploitation minière et la plate-forme d’analyses. Notre protocole inclut le prétraitement des données (p. ex., téléchargement, extraction et analyse des documents de texte), d’indexation et de recherche avec Elasticsearch, créer une structure de document fonctionnel appelé texte-Cube et quantifier les relations de la phrase-catégorie à l’aide de l’algorithme de CaseOLAP principal.
Notre prétraitement de données génère des mappages de clé-valeur pour tous les documents en cause. Les données prétraitées sont indexées pour effectuer une recherche de documents, y compris les entités, qui facilite également la création de texte-Cube et CaseOLAP calcul du pointage. Les notes de CaseOLAP brutes obtenues sont interprétées à l’aide d’une série d’analyses intégratives, y compris la réduction de dimensionnalité, clustering, temporelle et géographiques. En outre, les scores de CaseOLAP sont utilisés pour créer une base de données graphique, qui permet la cartographie sémantique des documents.
CaseOLAP définit les relations de la phrase-catégorie dans exacte (identifie les relations) et cohérente (hautement reproductible) et de manière efficace (processus 100 000 mots/sec). Suite à ce protocole, les utilisateurs peuvent accéder un environnement de cloud computing pour soutenir leurs propres configurations et applications de CaseOLAP. Cette plate-forme offre une accessibilité accrue et habilite la communauté biomédicale avec les mots-outils pour les applications de la recherche biomédicale généralisée.
Une évaluation manuelle de millions de fichiers de texte pour l’étude de l’expression-catégorie association (par exemple., groupe d’âge à l’association de protéines) est incomparable avec l’efficacité fournie par une méthode de calcul automatisée. Nous voulons introduire la plate-forme de nuage sensibles au contexte sémantique Online Analytical Processing (CaseOLAP) comme une méthode d’extraction de mots pour calcul automatisé d’expression-catégorie association dans le contexte de recherche biomédicale.
La plate-forme CaseOLAP, qui a été tout d’abord définie en 20161, est très efficace par rapport aux méthodes traditionnelles de gestion des données et calcul à cause de sa gestion de document fonctionnel appelée texte-Cube2,3, 4, qui distribue les documents tout en conservant la hiérarchie sous-jacente et des quartiers. Il a été appliqué à la recherche biomédicale5 pour étudier l’entité-catégorie association. La plate-forme de CaseOLAP se compose de six étapes principales, y compris le téléchargement et l’extraction des données, l’analyse, indexation, création de texte-Cube, comte de l’entité et calcul du pointage CaseOLAP ; qui est l’objectif principal du protocole (Figure 1, Figure 2, tableau 1).
Pour implémenter l’algorithme de CaseOLAP, l’utilisateur configure catégories d’intérêt (p. ex., maladie, signes et symptômes, groupes d’âge, diagnostic) et les entités d’intérêt (par exemple, les protéines, les médicaments). Un exemple d’une catégorie inclus dans cet article est les « Groupes d’âge », qui a « Infantile », « enfant », « adolescent », et les sous-catégories « adulte » que les cellules du Cube-texte et noms (synonymes) de la protéine et abréviations en tant qu’entités. Medical Subject Headings (MeSH) sont mis en œuvre pour récupérer les publications correspondant à des catégories bien définies (tableau 2). Les descripteurs meSH sont organisés dans une arborescence hiérarchique permettant de rechercher des publications à différents niveaux de spécificité (un exemple illustré à la Figure 3). La plate-forme CaseOLAP utilise les fonctionnalités de données d’indexation et de recherche pour la conservation des documents associé à une entité qui faciliter le document au mappage des entités comte et CaseOLAP calcul du pointage.
Les détails du calcul score CaseOLAP est disponible dans les précédentes publications1,5. Cette note est calculée à l’aide de critères de classement spécifique basées sur la structure de document sous-jacente texte-Cube. Le score final est le produit d’intégrité, de popularitéet de caractère distinctif. L’intégrité décrit si une entité représentative est une unité intégrée de sémantique qui désigne collectivement un concept valable. L’ intégrité de l’expression définie par l’utilisateur, est égale à 1.0 parce qu’il se présente comme une phrase standard dans la littérature. Caractère distinctif représente la pertinence relative d’une phrase dans un sous-ensemble de documents par rapport au reste des autres cellules. Tout d’abord, il calcule la pertinence d’une entité à une cellule spécifique en comparant l’occurrence portant le nom de protéine dans l’ensemble de données cible et fournit un score normalisé de caractère distinctif . Popularité représente le fait que la phrase avec un score plus élevé de popularité apparaît plus souvent dans un sous-ensemble de documents. Les noms de rares protéines dans une cellule sont classés faible, alors qu’une augmentation de leur fréquence de mention a un rendement décroissant en raison de la mise en œuvre de la fonction logarithmique de fréquence. Mesurer quantitativement ces trois concepts dépend de la fréquence (1) le terme de l’entité sur une cellule et entre les cellules et (2) nombre de documents ayant cette entité (fréquence des documents) au sein de la cellule et entre les cellules.
Nous avons étudié deux scénarios représentatifs à l’aide d’un ensemble de données PubMed et notre algorithme. Nous nous intéressons en protéines mitochondriales comment sont associés à deux catégories uniques des descripteurs MeSH ; « Âges » et « maladies métaboliques et nutritionnelles ». Plus précisément, nous avons récupérer les 15,728,250 publications des publications de 20ans recueillies par PubMed (1998 à 2018), parmi eux, 8 123 458 abrégés uniques ont eu pleins descripteurs MeSH. En conséquence, 1 842 protéine mitochondriale humaine noms (y compris les abréviations et les synonymes), acquis de UniProt (uniprot.org) ainsi que de MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), sont systématiquement examinés. Leurs associations avec ces 8 899 019 publications et les entités ont été étudiées en utilisant notre protocole ; Nous avons construit un texte-Cube et calcule les scores respectifs de CaseOLAP.
Nous avons démontré que l’algorithme CaseOLAP peut créer une association d’expression quantitative à une catégorie de connaissance sur des volumes importants de données textuelles pour l’extraction de connaissances utiles. Suite à notre protocole, on peut construire le cadre CaseOLAP pour créer un texte désiré-Cube et quantifier les associations de l’entité-catégorie par l’intermédiaire de CaseOLAP calcul du pointage. Les notes de CaseOLAP brutes obtenues peuvent être prises pour des analyses intégratives incluant réduction dimensionnelle, clustering, analyse temporelle et géographique, ainsi que la création d’une base de données graphique qui permet la cartographie sémantique des documents.
Application de l’algorithme. Exemples d’entités définies par l’utilisateur, autres que les protéines, pourraient être une liste de noms de gènes, drogues, des signes et symptômes ainsi que leurs abréviations et les synonymes. En outre, il y a beaucoup de choix pour la sélection de la catégorie faciliter des analyses biomédicales défini par l’utilisateur (par exemple, [A] l’anatomie, Discipline et Occupation [H], phénomènes et processus [G]). Dans nos deux cas d’utilisation, toutes les publications scientifiques et leurs données textuelles sont extraites de la base de données MEDLINE à l’aide de PubMed comme moteur de recherche, tous deux administrés par la National Library of Medicine. Toutefois, la plate-forme de CaseOLAP peut être appliquée aux autres bases de données d’intérêt regroupant les documents biomédicales avec données textuelles telles que le FDA indésirables Event Reporting System (FAERS). Il s’agit d’une base de données ouverte contenant des informations sur les événements indésirables médicaux et des rapports d’erreurs de médicaments soumis à la FDA. Contrairement à MEDLINE et FAERS, les bases de données dans les hôpitaux contenant les dossiers médicaux électroniques des patients ne sont ne pas ouverts au public et sont limités par le Health Insurance Portability et Accountability Act connu comme HIPAA.
Algorithme de CaseOLAP a été appliquée avec succès aux différents types de données (p. ex. des actualités)1. L’implémentation de cet algorithme dans les documents de recherche biomédicales a été déposée en 20185. Les conditions d’applicabilité des CaseOLAP algorithme est que chacun des documents devrait être attribué avec les mots clés associés à des concepts (descripteurs MeSH dans les publications biomédicales, mots-clés dans les articles de presse). Si les mots-clés ne sont pas trouvées, on peut demander de6,Autophrase7 pour collecter les meilleurs phrases représentatives et créer la liste d’entité avant d’implémenter notre protocole. Notre protocole ne prévoit pas l’étape pour exécuter Autophrase.
Comparaison avec d’autres algorithmes. Le concept d’employer un Cube de données8,9,10 et un texte-Cube2,3,4 a évolué depuis 2005 avec les nouvelles avancées pour faire de l’exploration de données plus facile à appliquer. Le concept de traitement analytique en ligne (OLAP)11,12,13,14,15 , dans l’exploration de données et intelligence d’affaires remonte à 1993. OLAP, en général, agrège les informations provenant de systèmes multiples et le stocke dans un format multidimensionnel. Il existe différents types de systèmes OLAP dans l’exploration de données. Par exemple le traitement de Transaction et analytiques (1) hybride (HTAP)16,17, (2) OLAP multidimensionnel (MOLAP)18,19-Cube OLAP relationnel (ROLAP) à la base et (3)20.
Plus précisément, l’algorithme de CaseOLAP a été comparé avec nombreux algorithmes existants, en particulier, avec leurs améliorations de segmentation d’expression, y compris TF-IDF + Seg, MCX + Seg, MCX et SegPhrase. En outre, les RepPhrase (RP, aussi connu comme SegPhrase +) a été comparé avec ses propres variations d’ablation, y compris les RP (1), sans la mesure d’intégrité incorporée (RP No INT), RP (2), sans la mesure de popularité incorporée (RP No POP) et RP (3), sans le Caractère distinctif mesure intégrée (RP No DIS). Les résultats sont indiqués dans l’étude par Fangbo Tao et al.,1.
Il y a encore des défis sur l’exploration de données qui peut ajouter des fonctionnalités supplémentaires sur sauver et récupérer les données de la base de données. Sensibles au contexte sémantique Analytical Processing (CaseOLAP) implémente systématiquement le Elasticsearch pour construire une base de données d’indexation de millions de documents (protocole N° 5). Le texte-Cube est une structure de document construite sur les données indexées avec les catégories fournies par l’utilisateur (protocole N° 6). Cela améliore la fonctionnalité aux documents au sein et entre les cellules du Cube-texte et permettent de calculer la fréquence du terme des entités sur un document et la fréquence des documents sur une cellule spécifique (protocole 8). Le score final de CaseOLAP utilise ces calculs de fréquence pour un score final de sortie (protocole N° 9). En 2018, nous avons mis en œuvre cet algorithme afin d’étudier les protéines ECM et six maladies cardiaques pour analyser les protéines-maladie. Les détails de cette étude se trouvent dans l’étude de Liem, D.A. et al.,5. indiquant que CaseOLAP pourrait être largement utilisé dans la communauté biomédicale explorant une variété de maladies et les mécanismes.
Limites de l’algorithme. Extraction d’expression elle-même est une technique pour gérer et extraire les concepts importants de données textuelles. Tout en découvrant l’entité-catégorie association comme une grandeur mathématique (vecteur), cette technique est incapable de comprendre la polarité (p. ex., inclinaison positive ou négative) de l’association. On peut construire la synthèse quantitative des données utilisant la structure du document texte-Cude avec entités attribuées et les catégories, mais un concept qualitatif avec des niveaux de granularité microscopique n’est pas joignable. Certains concepts sont en constante évolution partir passé jusque maintenant. La synthèse présentée pour une association d’entité spécifique-catégorie comprend toutes les incidences dans l’ensemble de la littérature. Cela peut manquer la propagation temporelle de l’innovation. À l’avenir, nous prévoyons de traiter ces restrictions.
Applications futures. Environ 90 % des données recueillies dans le monde est dans les données de texte non structuré. Trouver une expression représentative et la relation avec les entités intégrées dans le texte, est une tâche très importante pour la mise en œuvre de nouvelles technologies (p. ex., Machine Learning, extraction d’Information, l’Intelligence artificielle). Pour rendre les données texte machine lisible, données doivent être organisé dans la base de données sur laquelle la prochaine couche d’outils pourrait être appliquée. À l’avenir, cet algorithme peut être une étape cruciale dans la fabrication de l’exploration de données plus fonctionnel pour la récupération de l’information et à la quantification des associations entité-catégorie.
The authors have nothing to disclose.
Ce travail a été soutenu en partie par le National Heart, Lung, and Blood Institute : R35 HL135772 (à la P. Ping) ; National Institute of General Medical Sciences : U54 GM114833 (à la P. Ping, K. Watson et Wang W.) ; U54 GM114838 (de J. Han) ; un cadeau de la Hellen & Larry Hoag Foundation et Dr. S. Setty ; et la dotation de T.C. Laubisch à UCLA (à la P. Ping).