Se presenta un protocolo computacional, CaseOLAP LIFT, y un caso de uso para investigar las proteínas mitocondriales y sus asociaciones con las enfermedades cardiovasculares descritas en los informes biomédicos. Este protocolo se puede adaptar fácilmente para estudiar los componentes celulares y las enfermedades seleccionadas por el usuario.
El rápido aumento y la gran cantidad de informes biomédicos, cada uno de los cuales contiene numerosas entidades y una rica información, representan un rico recurso para las aplicaciones de minería de textos biomédicos. Estas herramientas permiten a los investigadores integrar, conceptualizar y traducir estos descubrimientos para descubrir nuevos conocimientos sobre la patología y la terapéutica de la enfermedad. En este protocolo, presentamos CaseOLAP LIFT, un nuevo canal computacional para investigar los componentes celulares y sus asociaciones de enfermedades mediante la extracción de información seleccionada por el usuario de conjuntos de datos de texto (por ejemplo, literatura biomédica). El software identifica las proteínas subcelulares y sus socios funcionales dentro de documentos relevantes para la enfermedad. Los documentos adicionales relevantes para la enfermedad se identifican a través del método de imputación de etiquetas del software. Para contextualizar las asociaciones proteína-enfermedad resultantes e integrar la información de múltiples recursos biomédicos relevantes, se construye automáticamente un gráfico de conocimiento para su posterior análisis. Presentamos un caso de uso con un corpus de ~34 millones de documentos de texto descargados en línea para proporcionar un ejemplo de dilucidación del papel de las proteínas mitocondriales en distintos fenotipos de enfermedades cardiovasculares utilizando este método. Además, se aplicó un modelo de aprendizaje profundo al grafo de conocimiento resultante para predecir las relaciones entre las proteínas y la enfermedad que no se habían informado previamente, lo que dio como resultado 1.583 asociaciones con probabilidades predichas >0,90 y con un área bajo la curva característica operativa del receptor (AUROC) de 0,91 en el conjunto de prueba. Este software cuenta con un flujo de trabajo altamente personalizable y automatizado, con una amplia gama de datos sin procesar disponibles para su análisis; Por lo tanto, utilizando este método, las asociaciones proteína-enfermedad se pueden identificar con mayor fiabilidad dentro de un corpus de texto.
El estudio de las proteínas relacionadas con la enfermedad mejora el conocimiento científico de la patogénesis y ayuda a identificar posibles terapias. Varios grandes corpus de texto de publicaciones biomédicas, como los 34 millones de artículos de PubMed que contienen títulos de publicaciones, resúmenes y documentos de texto completo, informan de nuevos hallazgos que vinculan las proteínas con las enfermedades. Sin embargo, estos hallazgos están fragmentados en varias fuentes y deben integrarse para generar nuevos conocimientos biomédicos. Existen varios recursos biomédicos para integrar las asociaciones proteína-enfermedad 1,2,3,4,5,6,7. Sin embargo, estos recursos seleccionados a menudo están incompletos y es posible que no abarquen los últimos hallazgos de la investigación. Los enfoques de minería de textos son esenciales para extraer y sintetizar asociaciones proteína-enfermedad en grandes corpus de texto, lo que daría lugar a una comprensión más completa de estos conceptos biomédicos en la literatura científica.
Existen múltiples enfoques biomédicos de minería de textos para descubrir las relaciones proteína-enfermedad 8,9,10,11,12,13,14, y otros contribuyen en parte a determinar estas relaciones mediante la identificación de las proteínas, enfermedades u otras entidades biomédicas mencionadas en el texto13,15,16,17, 18,19. Sin embargo, muchas de estas herramientas carecen de acceso a la literatura más actualizada, con excepción de algunas que se actualizan periódicamente 8,11,13,15. Del mismo modo, muchas herramientas también tienen un alcance de estudio limitado, ya que se limitan a enfermedades o proteínas predefinidas en general 9,13. Varios enfoques también son propensos a la identificación de falsos positivos dentro del texto; Otros han abordado estas cuestiones con una lista negra interpretable y global de nombres de proteínas 9,11 o menos técnicas de reconocimiento de entidades de nombres interpretables15,20. Si bien la mayoría de los recursos presentan solo resultados precalculados, algunas herramientas ofrecen interactividad a través de aplicaciones web o código de software accesible 8,9,11.
Para abordar las limitaciones anteriores, presentamos el siguiente protocolo, CaseOLAP con imputación de etiquetas y texto completo (CaseOLAP LIFT), como una plataforma flexible y personalizable para investigar asociaciones entre proteínas (por ejemplo, proteínas asociadas con un componente celular) y enfermedades a partir de conjuntos de datos de texto. Esta plataforma cuenta con la curación automatizada de proteínas específicas de términos de ontología génica (GO) (por ejemplo, proteínas específicas de orgánulos), imputación de etiquetas de temas de documentos faltantes, análisis de documentos de texto completo, así como herramientas de análisis y herramientas predictivas (Figura 1, Figura 2 y Tabla 1). CaseOLAP LIFT selecciona proteínas específicas de orgánulos mediante el uso de términos GO proporcionados por el usuario (p. ej., compartimento de orgánulos) y proteínas funcionalmente relacionadas mediante el uso de STRING21, Reactoma 22 y GRNdb23. Los documentos de estudio de enfermedades se identifican por sus etiquetas de encabezado de materia médica (MeSH) anotadas en PubMed. Para el ~15,1% de los documentos sin etiquetar, las etiquetas se imputan si se encuentra al menos un sinónimo de término MeSH en el título o al menos dos en el resumen. Esto permite que las publicaciones que antes no se habían categorizado se tengan en cuenta en el análisis de minería de textos. CaseOLAP LIFT también permite al usuario seleccionar secciones de publicaciones (por ejemplo, solo títulos y resúmenes, texto completo o texto completo excluyendo métodos) dentro de un período de tiempo específico (por ejemplo, 2012-2022). El software también selecciona de forma semiautomática una lista negra de nombres de proteínas específicos de cada caso de uso, lo que reduce de forma vital las asociaciones proteína-enfermedad de falsos positivos presentes en otros enfoques. En general, estas mejoras permiten una mayor personalización y automatización, amplían la cantidad de datos disponibles para el análisis y producen asociaciones proteína-enfermedad más fiables a partir de grandes corpus de textos biomédicos.
CaseOLAP LIFT incorpora el conocimiento biomédico y representa la relación de varios conceptos biomédicos utilizando un grafo de conocimiento, que se aprovecha para predecir relaciones ocultas en el grafo. Recientemente, los métodos de computación basados en gráficos se han aplicado a entornos biológicos, incluida la integración y organización de conceptos biomédicos 24,25, la reutilización y el desarrollo de fármacos 26,27,28, y para la toma de decisiones clínicas a partir de datos proteómicos 29.
Para demostrar las utilidades de CaseOLAP LIFT en el contexto de la construcción de un grafo de conocimiento, destacamos un caso de uso en la investigación de las asociaciones entre las proteínas mitocondriales y ocho categorías de enfermedades cardiovasculares. Se analizó la evidencia de ~ 362,000 documentos relevantes para la enfermedad para identificar las principales proteínas mitocondriales y las vías asociadas con las enfermedades. A continuación, estas proteínas, sus proteínas funcionalmente relacionadas y sus resultados de minería de texto se incorporaron a un gráfico de conocimiento. Este gráfico se aprovechó en un análisis de predicción de enlaces basado en el aprendizaje profundo para predecir las asociaciones proteína-enfermedad que hasta ahora no se habían reportado en las publicaciones biomédicas.
La sección de introducción describe los antecedentes y los objetivos de nuestro protocolo. En la siguiente sección se describen los pasos del protocolo computacional. Posteriormente, se describen los resultados representativos de este protocolo. Finalmente, discutimos brevemente los casos de uso del protocolo computacional, las ventajas, los inconvenientes y las aplicaciones futuras.
CaseOLAP LIFT permite a los investigadores investigar asociaciones entre proteínas funcionales (p. ej., proteínas asociadas con un componente celular, un proceso biológico o una función molecular) y categorías biológicas (p. ej., enfermedades). El protocolo descrito debe ejecutarse en la secuencia especificada, siendo la sección 2 y la sección 3 del protocolo los pasos más críticos, ya que la sección 4 y la sección 5 del protocolo dependen de sus resultados. Como alternativa a la sección 1 del protocolo, el código CaseOLAP LIFT se puede clonar y acceder a él desde el repositorio de GitHub (https://github.com/CaseOLAP/caseolap_lift). Cabe señalar que a pesar de las pruebas durante el desarrollo del software, pueden ocurrir errores. Si es así, se debe repetir el paso fallido. Si el problema persiste, se recomienda repetir la sección 1 del protocolo para asegurarse de que se utiliza la versión más reciente del contenedor Docker. Para obtener más ayuda, cree un problema en el repositorio de GitHub para obtener soporte adicional.
Este método apoya la generación de hipótesis al permitir a los investigadores identificar entidades de interés y revelar las posibles asociaciones entre ellas, que pueden no ser fácilmente accesibles en los recursos biomédicos existentes. Las asociaciones proteína-enfermedad resultantes permiten a los investigadores obtener nuevos conocimientos a través de las métricas interpretables de las puntuaciones: las puntuaciones de popularidad indican las proteínas más estudiadas en relación con una enfermedad, las puntuaciones de distintividad indican las enfermedades más exclusivas de una proteína, y la puntuación combinada de CaseOLAP es una combinación de ambas. Para evitar identificaciones de falsos positivos (por ejemplo, debido a homónimos), algunas herramientas de minería de texto utilizan una lista negra de términos para evitar 9,11. Del mismo modo, CaseOLAP LIFT también utiliza una lista negra, pero permite al usuario adaptar la lista negra a su caso de uso. Por ejemplo, cuando se estudia la enfermedad de las arterias coronarias (EAC), “EAC” no debe considerarse un nombre para la proteína “desoxirribonucleasa activada por caspasas”. Sin embargo, cuando se estudian otros temas, “CAD” generalmente puede referirse a la proteína.
CaseOLAP LIFT se adapta a la cantidad de datos disponibles para la minería de textos. La funcionalidad del rango de fechas alivia la carga computacional y crea flexibilidad para la generación de hipótesis (por ejemplo, estudiar cómo ha cambiado el conocimiento científico sobre una asociación proteína-enfermedad a lo largo del tiempo). Mientras tanto, la imputación de etiquetas y los componentes de texto completo mejoran el alcance de los datos disponibles para la minería de textos. Ambos componentes están deshabilitados de forma predeterminada para reducir los costos computacionales, pero el usuario puede decidir incluir cualquiera de los componentes. La imputación de etiquetas es conservadora y categoriza correctamente la mayoría de las publicaciones (87% de precisión), pero omite otras etiquetas de categoría (2% de recuerdo). Este método se basa actualmente en una heurística basada en reglas que coincide con las palabras clave de la enfermedad, y hay planes para mejorar el rendimiento mediante el uso de técnicas de modelado de temas de documentos. Dado que muchos informes no categorizados tienden a ser publicaciones recientes, los estudios que investigan un rango de fechas reciente (por ejemplo, todas las publicaciones dentro de los últimos 3 años) son más útiles deshabilitando la imputación de etiquetas. El componente de texto completo aumenta el tiempo de ejecución y los requisitos de almacenamiento. Cabe destacar que solo una minoría de los documentos tienen el texto completo disponible (~14% de los documentos de nuestro estudio). Asumiendo que los nombres de las proteínas mencionados en la sección de métodos de las publicaciones tienen menos probabilidades de estar relacionados con los temas de la enfermedad, se recomienda consultar los artículos de texto completo excluyendo la sección de métodos.
Las puntuaciones de asociación proteína-enfermedad resultantes son útiles para los análisis tradicionales, como la agrupación, la reducción de la dimensionalidad o los análisis de enriquecimiento (p. ej., GO, vías), con alguna implementación incluida en este paquete de software. Para contextualizar estas puntuaciones dentro del conocimiento biomédico existente, se construye automáticamente un gráfico de conocimiento que se puede explorar utilizando herramientas de visualización de gráficos (por ejemplo, Neo4j32, Cytoscape33). El gráfico de conocimiento también se puede utilizar para análisis predictivos (p. ej., predicción de vínculos de relaciones proteína-enfermedad no informadas, detección comunitaria de redes de proteínas, métodos de búsqueda de rutas de recolección de premios).
Hemos examinado las métricas de evaluación del modelo para las asociaciones proteína-enfermedad predichas (Tabla 5). El modelo asigna una puntuación de probabilidad entre 0,0 y 1,0 a cada asociación proteína-enfermedad, y las puntuaciones más cercanas a 1,0 indican un mayor nivel de confianza en la predicción. La evaluación interna del rendimiento del modelo, que se basó en varias métricas, entre ellas el AUROC, la precisión, la precisión equilibrada, la especificidad y la recuperación, indicó un excelente rendimiento general en su trabajo. Sin embargo, la evaluación también puso de manifiesto una puntuación bastante pobre para la precisión (0,15) del modelo, lo que dio lugar a una puntuación más baja tanto en el AUPRC como en la F1. Los estudios futuros para mejorar esta métrica ayudarán a elevar el rendimiento general del modelo. Prevemos que esto podría lograrse mediante la implementación de modelos de predicción de gráficos y de integración de gráficos de conocimiento más sofisticados. Sobre la base de la precisión del modelo de 0,15, los investigadores deben anticipar aproximadamente un 15% de identificaciones positivas; En particular, de todas las 12.688 asociaciones proteína-enfermedad predichas por el modelo, aproximadamente el 15% son asociaciones verdaderas positivas. Esto se puede mitigar considerando solo las asociaciones proteína-enfermedad con una puntuación de probabilidad alta (p. ej., >0,90); En nuestro caso de uso, el filtrado con un umbral de probabilidad de 0,90 condujo a predicciones de alta confianza de 1.583 asociaciones. A los investigadores también les puede resultar útil inspeccionar manualmente estas predicciones para garantizar una alta validez (consulte la Figura 7 como ejemplo). Una evaluación externa de nuestras predicciones determinó que de las 310 asociaciones proteína-enfermedad de una extensa base de datos curada DisGeNet19, 103 se identificaron en nuestro estudio de minería de textos, y 88 asociaciones adicionales fueron predichas por nuestro análisis de gráficos de conocimiento con una puntuación de probabilidad >0,90.
En general, CaseOLAP LIFT presenta una mayor flexibilidad y facilidad de uso en el diseño de análisis personalizados de las asociaciones entre grupos de proteínas funcionales y múltiples categorías de enfermedades en grandes corpus de texto. Este paquete se simplifica en una nueva interfaz de línea de comandos fácil de usar y se lanza como un contenedor Docker, lo que reduce los problemas asociados con la configuración de los entornos de programación y las dependencias de software. La línea de producción CaseOLAP LIFT para estudiar las proteínas mitocondriales en enfermedades cardiovasculares se puede adaptar fácilmente; por ejemplo, las aplicaciones futuras de esta técnica podrían implicar la investigación de las asociaciones entre cualquier proteína asociada con cualquier término GO y cualquier categoría biomédica. Además, las asociaciones proteína-enfermedad identificadas por esta plataforma de minería de textos son importantes en la preparación del conjunto de datos para el uso de técnicas avanzadas de lenguaje natural. El gráfico de conocimiento resultante permite a los investigadores convertir estos hallazgos en conocimiento biológicamente informativo y sienta las bases para los análisis basados en gráficos de seguimiento.
The authors have nothing to disclose.
Este trabajo fue apoyado por los Institutos Nacionales de Salud (NIH, por sus siglas en inglés) R35 HL135772 a P.P., NIH T32 HL13945 a A.R.P. y D.S., NIH T32 EB016640 a A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 a A.R.P. y D.S., NIH R01 HL146739 para I.A., J.R., A.V., K.B., y el TC Laubisch Endowment a P.P. en UCLA.