Presentamos un protocolo y código de programación asociada así como muestras de metadatos para soportar una identificación automatizada basada en nube de Asociación de la categoría frases que representan conceptos únicos en dominio de conocimiento seleccionado usuario en literatura biomédica. La Asociación de categoría de frase cuantificada por este protocolo puede facilitar en el análisis de la profundidad en el dominio del conocimiento seleccionado.
La rápida acumulación de datos textuales biomédicas ha superado la capacidad humana de curación manual y análisis, que requiere de nuevas herramientas de minería de textos para extraer ideas biológicas de grandes volúmenes de informes científicos. La tubería del contexto semántico Online Analytical Processing (CaseOLAP), desarrollada en el año 2016, cuantifica con éxito relaciones de categoría de frase definida por el usuario a través del análisis de datos textuales. CaseOLAP tiene muchas aplicaciones biomédicas.
Hemos desarrollado un protocolo para un entorno basado en la nube, apoyando la plataforma de análisis y minería de frase end-to-end. Nuestro protocolo incluye preprocesado de datos (por ejemplo, descarga, extracción y análisis de documentos de texto), indexación y búsqueda con Elasticsearch, creando una estructura funcional documento llaman texto-Cube y cuantificar las relaciones de categoría de frase utilizando el algoritmo de CaseOLAP de base.
El preprocesamiento de datos genera asignaciones de clave y valor para todos los documentos involucrados. Los datos preprocesados sea indexados para llevar a cabo una búsqueda de documentos, incluidas las entidades, que facilita aún más la creación de texto-Cube y cálculo de puntuación de CaseOLAP. Los puntajes crudos obtenidos de la CaseOLAP se interpretan utilizando una serie de análisis integrados, incluyendo la reducción de dimensionalidad, clustering, temporal y análisis geográficos. Además, las puntuaciones de CaseOLAP se utilizan para crear una base de datos gráfica, que permite la asignación semántica de los documentos.
CaseOLAP define las relaciones de categoría de frase en una exacta (identifica relaciones), consistente (altamente reproducible) y de manera eficiente (procesos 100.000 palabras por segundo). Siguiendo este protocolo, los usuarios pueden acceder a un entorno de cloud computing para apoyar sus propias configuraciones y aplicaciones de CaseOLAP. Esta plataforma ofrece mayor accesibilidad y empodera a la comunidad biomédica con herramientas de minería de frase para aplicaciones de investigación biomédica generalizada.
Manual evaluación de millones de archivos de texto para el estudio de la Asociación de categoría de frase (por ejemplo., grupo de edad a la Asociación de la proteína) es incomparable con la eficacia de un método computacional automatizado. Queremos presentarle la plataforma en la nube de contexto semántico Online Analytical Processing (CaseOLAP) como un método de extracción de frase para cómputo automatizado de Asociación de categoría de frase en el contexto biomédico.
La plataforma CaseOLAP, que primero fue definida en 20161, es muy eficiente comparado con los métodos tradicionales de gestión de datos y computación por su gestión funcional llamado texto-cubo2,3, 4, que distribuye los documentos manteniendo la jerarquía y barrios subyacentes. Se ha aplicado en la investigación biomédica5 para estudiar asociación de categoría de la entidad. La plataforma de CaseOLAP consiste en seis pasos principales, incluyendo descarga y extracción de datos, análisis, indexación, creación de texto-cubo, cuenta de la entidad y cálculo de puntaje de CaseOLAP; cual es el objetivo principal del Protocolo (figura 1, figura 2, tabla 1).
Para implementar el algoritmo de CaseOLAP, el usuario establece las categorías de interés (p. ej., enfermedad, signos y síntomas, grupos de edad, diagnóstico) y entidades de interés (por ejemplo, proteínas, medicamentos). Un ejemplo de una categoría incluida en este artículo es el ‘Las edades’, que tiene ‘Infantil’, ‘niño’, ‘adolescente’, y ‘adultos’ subcategorías como las células de la texto-Cube y proteína nombres (sinónimos) y abreviaturas como entidades. Medical Subject Headings (MeSH) se implementan para recuperar publicaciones correspondientes a las categorías definidas (tabla 2). Descriptores meSH se organizan en una estructura de árbol jerárquica para permitir la búsqueda de publicaciones en diferentes niveles de especificidad (un ejemplo que se muestra en la figura 3). La plataforma de CaseOLAP utiliza la funcionalidad de indización y búsqueda de datos para la conservación de los documentos relacionados con una entidad que facilitar aún más el documento que la entidad cuenta cartografía y cálculo de puntuación de CaseOLAP.
Los detalles del cálculo de puntuación de CaseOLAP está disponible en anteriores publicaciones1,5. Esta puntuación se calcula utilizando criterios de clasificación específica basados en estructura de documento de texto-cubo subyacente. El resultado final es el producto de la integridad, popularidady carácter distintivo. Integridad describe una entidad representativa sea una integral unidad semántica que colectivamente se refiere a un concepto significativo. La integridad de la frase definida por el usuario es llevado a ser 1.0 porque se destaca como una frase estándar en la literatura. Carácter distintivo representa la importancia relativa de una frase en un subconjunto de documentos en comparación con el resto de las otras células. Primero calcula la relevancia de una entidad a una célula específica mediante la comparación de la ocurrencia del nombre proteína del objetivo conjunto de datos y proporciona una puntuación normalizada de carácter distintivo . Popularidad representa el hecho de que la frase con una puntuación de popularidad aparece más con frecuencia en un subconjunto de documentos. Nombres raros de la proteína en una célula se alinean bajo, mientras que un aumento en su frecuencia de mención tiene un retorno decreciente debido a la implementación de la función logarítmica de frecuencia. Medir cuantitativamente estos tres conceptos depende de la frecuencia (1) término de la entidad sobre una celda y a través de las células y (2) número de documentos que tengan esa entidad (frecuencia de documento) dentro de la célula y a través de las células.
Hemos estudiado dos escenarios representativos mediante un conjunto de datos de PubMed y nuestro algoritmo. Estamos interesados en cómo mitocondriales proteínas se asocian a dos únicas categorías de descriptores MeSH; “Los grupos de edad” y “enfermedades nutricionales y metabólicas”. Concretamente, hemos obtenido 15,728,250 publicaciones de publicaciones 20 años recogidos por PubMed (1998 a 2018), entre ellos, resúmenes únicos 8.123.458 han tenido completos descriptores MeSH. Por consiguiente, 1.842 proteína mitocondrial humano nombres (incluyendo las abreviaturas y sinónimos), adquiridos de UniProt (uniprot.org) y MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), son sistemáticamente examinado. Sus asociaciones con estas 8.899.019 publicaciones y entidades fueron estudiados usando nuestro protocolo; construye un cubo de texto y calcula los puntajes respectivos de CaseOLAP.
Hemos demostrado que el algoritmo de CaseOLAP puede crear una asociación cuantitativa frase basada en una categoría basada en el conocimiento sobre grandes volúmenes de datos textuales para la extracción de información significativa. Siguiendo nuestro protocolo, uno puede construir el marco de CaseOLAP para crear un cubo de texto deseado y cuantificar asociaciones de categoría de la entidad a través del cálculo de puntuación de CaseOLAP. Los puntajes crudos obtenidos de la CaseOLAP pueden tomarse para análisis integrantes incluyendo la reducción de dimensionalidad, clustering, análisis temporal y geográfico, así como la creación de una base de datos gráfica que permite la asignación semántica de los documentos.
Aplicabilidad del algoritmo de. Ejemplos de entidades definidas por el usuario, diferentes proteínas, podrían ser una lista de nombres de gene, drogas, específicos signos y síntomas incluyendo sinónimos y abreviaturas. Además, hay muchas opciones para la selección de categoría facilitar la definida por el usuario biomédicos análisis específicos (por ejemplo, anatomía [A], disciplina y ocupación [H], fenómenos y procesos [G]). En nuestros dos casos de uso, todas las publicaciones científicas y sus datos textuales se recuperan de la base de datos MEDLINE mediante PubMed como el motor de búsqueda, ambos gestionados por la Biblioteca Nacional de medicina. Sin embargo, la plataforma de CaseOLAP puede aplicarse a otras bases de datos de interés que contienen documentos biomédicos con datos textuales como la FDA adversos evento informes sistema (FAERS). Se trata de una base de datos abierta que contiene información sobre eventos adversos clínicos y de informes de errores de medicación presentados a la FDA. A diferencia de MEDLINE y FAERS, bases de datos que contiene registros electrónicos de salud de pacientes de hospitales no abiertas al público y se limitan por la Health Insurance Portability y Accountability Act, conocida como HIPAA.
Algoritmo de CaseOLAP se ha aplicado con éxito a los diferentes tipos de datos (por ejemplo, noticias)1. La implementación de este algoritmo en documentos biomédicos realizada en 20185. Los requisitos para la aplicabilidad del algoritmo CaseOLAP es que cada uno de los documentos debe asignarse con palabras clave asociada con los conceptos (por ejemplo, descriptores MeSH en publicaciones biomédicas, palabras clave en artículos de prensa). Si no se encuentran palabras, uno puede aplicar Autophrase6,7 para recoger mejores frases representativas y construir la lista de personas antes de implementar el protocolo. Nuestro protocolo no proporciona el paso para realizar Autophrase.
Comparación con otros algoritmos de. El concepto de usar un cubo de datos8,9,10 y texto-cubo2,3,4 ha ido evolucionando desde el año 2005 con nuevos avances para hacer minería de datos más aplicable. El concepto de procesamiento analítico en línea (OLAP)11,12,13,14,15 en minería de datos e inteligencia de negocios se remonta a 1993. OLAP, en general, agrega la información de múltiples sistemas y almacena en un formato multidimensional. Hay diferentes tipos de sistemas OLAP en minería de datos. Por ejemplo procesamiento de transacción/analítica (1) híbrido (HTAP)16,17, de18,de OLAP Multidimensional (MOLAP) (2)19-cubo OLAP relacional (ROLAP) de base y (3)20.
Específicamente, el algoritmo de CaseOLAP se ha comparado con numerosos algoritmos existentes, específicamente, con sus mejoras de segmentación de la frase, incluyendo TF-IDF + Seg, MCX + Seg, MCX y SegPhrase. Por otra parte, RepPhrase (RP, también conocido como SegPhrase +) ha sido comparado con sus propias variaciones de ablación, incluyendo (1) RP sin la medida de integridad incorporada (RP No INT), (2) RP sin la medida de popularidad incorporada (RP No POP) y (3) RP sin la Medida de carácter distintivo incorporado (RP No DIS). Los resultados se muestran en el estudio por Fangbo Tao et al.1.
Todavía hay retos en minería de datos que puede Agregar funcionalidad adicional sobre guardar y recuperar los datos de la base de datos. Sensibles al contexto semántico Analytical Processing, (CaseOLAP) implementa sistemáticamente el Elasticsearch para construir una base de datos de indexación de millones de documentos (protocolo 5). El texto-cubo es una estructura de documento construida sobre los datos indexados con categorías suministrada por el usuario (Protocolo de 6). Esto aumenta la funcionalidad de los documentos dentro y a través de la celda del cubo de texto y nos permiten calcular frecuencia de término de las entidades en un documento y documento frecuencia sobre una celda concreta (protocolo 8). La puntuación final de CaseOLAP utiliza estos cálculos de frecuencia para un marcador final de salida (9 del Protocolo). En el 2018, hemos implementado este algoritmo para estudiar proteínas ECM y seis enfermedades cardiacas para analizar asociaciones de proteína-enfermedad. Los detalles de este estudio pueden encontrarse en el estudio por Liem, D.A. et al.5. lo que indica que CaseOLAP podía ser ampliamente utilizado en la comunidad biomédica, explorando una variedad de enfermedades y mecanismos.
Limitaciones del algoritmo de. Explotación minera de la frase sí mismo es una técnica para administrar y recuperar conceptos importantes de datos textuales. Descubrir la Asociación entidad categoría como una cantidad matemática (vector), esta técnica es incapaz de averiguar la polaridad (por ejemplo, inclinación positiva o negativa) de la asociación. Uno puede construir la síntesis cuantitativa de los datos utilizando la estructura del documento texto-Cude con categorías y entidades asignadas, pero no se logra un concepto cualitativo resulta microscópica. Algunos conceptos están evolucionando continuamente desde pasado hasta ahora. El resumen presentado por la Asociación de una categoría específica de entidad incluye todas las incidencias a lo largo de la literatura. Esto puede carecer la propagación temporal de la innovación. En el futuro, planeamos abordar estas limitaciones.
Aplicaciones futuro. Cerca del 90% de los datos acumulados en el mundo está en los datos de texto no estructurado. Encontrar una frase representativa y relación con las entidades en el texto es una tarea muy importante para la aplicación de nuevas tecnologías (por ejemplo, en el aprender de máquina, extracción de información, Inteligencia Artificial). Para hacer que los datos de texto máquina legible, datos que se organizó en la base de datos sobre los que podría aplicarse la siguiente capa de herramientas. En el futuro, este algoritmo puede ser un paso crucial en la fabricación de minería de datos más funcional para la recuperación de la información y la cuantificación de las asociaciones de categoría de la entidad.
The authors have nothing to disclose.
Este trabajo fue financiado en parte por el National Heart, Lung and Blood Institute: HL135772 R35 (al P. Ping); Instituto Nacional de Ciencias de Medicina General: GM114833 U54 (a Ping P., K. Watson y W. Wang); U54 GM114838 (a J. Han); un regalo de la Hellen & Larry Hoag Foundation y el Dr. S. Setty; y la dotación de T.C. Laubisch en UCLA (al P. Ping).