Summary

Un enfoque de grafos de conocimiento para dilucidar el papel de las vías organelares en la enfermedad a través de informes biomédicos

Published: October 13, 2023
doi:

Summary

Se presenta un protocolo computacional, CaseOLAP LIFT, y un caso de uso para investigar las proteínas mitocondriales y sus asociaciones con las enfermedades cardiovasculares descritas en los informes biomédicos. Este protocolo se puede adaptar fácilmente para estudiar los componentes celulares y las enfermedades seleccionadas por el usuario.

Abstract

El rápido aumento y la gran cantidad de informes biomédicos, cada uno de los cuales contiene numerosas entidades y una rica información, representan un rico recurso para las aplicaciones de minería de textos biomédicos. Estas herramientas permiten a los investigadores integrar, conceptualizar y traducir estos descubrimientos para descubrir nuevos conocimientos sobre la patología y la terapéutica de la enfermedad. En este protocolo, presentamos CaseOLAP LIFT, un nuevo canal computacional para investigar los componentes celulares y sus asociaciones de enfermedades mediante la extracción de información seleccionada por el usuario de conjuntos de datos de texto (por ejemplo, literatura biomédica). El software identifica las proteínas subcelulares y sus socios funcionales dentro de documentos relevantes para la enfermedad. Los documentos adicionales relevantes para la enfermedad se identifican a través del método de imputación de etiquetas del software. Para contextualizar las asociaciones proteína-enfermedad resultantes e integrar la información de múltiples recursos biomédicos relevantes, se construye automáticamente un gráfico de conocimiento para su posterior análisis. Presentamos un caso de uso con un corpus de ~34 millones de documentos de texto descargados en línea para proporcionar un ejemplo de dilucidación del papel de las proteínas mitocondriales en distintos fenotipos de enfermedades cardiovasculares utilizando este método. Además, se aplicó un modelo de aprendizaje profundo al grafo de conocimiento resultante para predecir las relaciones entre las proteínas y la enfermedad que no se habían informado previamente, lo que dio como resultado 1.583 asociaciones con probabilidades predichas >0,90 y con un área bajo la curva característica operativa del receptor (AUROC) de 0,91 en el conjunto de prueba. Este software cuenta con un flujo de trabajo altamente personalizable y automatizado, con una amplia gama de datos sin procesar disponibles para su análisis; Por lo tanto, utilizando este método, las asociaciones proteína-enfermedad se pueden identificar con mayor fiabilidad dentro de un corpus de texto.

Introduction

El estudio de las proteínas relacionadas con la enfermedad mejora el conocimiento científico de la patogénesis y ayuda a identificar posibles terapias. Varios grandes corpus de texto de publicaciones biomédicas, como los 34 millones de artículos de PubMed que contienen títulos de publicaciones, resúmenes y documentos de texto completo, informan de nuevos hallazgos que vinculan las proteínas con las enfermedades. Sin embargo, estos hallazgos están fragmentados en varias fuentes y deben integrarse para generar nuevos conocimientos biomédicos. Existen varios recursos biomédicos para integrar las asociaciones proteína-enfermedad 1,2,3,4,5,6,7. Sin embargo, estos recursos seleccionados a menudo están incompletos y es posible que no abarquen los últimos hallazgos de la investigación. Los enfoques de minería de textos son esenciales para extraer y sintetizar asociaciones proteína-enfermedad en grandes corpus de texto, lo que daría lugar a una comprensión más completa de estos conceptos biomédicos en la literatura científica.

Existen múltiples enfoques biomédicos de minería de textos para descubrir las relaciones proteína-enfermedad 8,9,10,11,12,13,14, y otros contribuyen en parte a determinar estas relaciones mediante la identificación de las proteínas, enfermedades u otras entidades biomédicas mencionadas en el texto13,15,16,17, 18,19. Sin embargo, muchas de estas herramientas carecen de acceso a la literatura más actualizada, con excepción de algunas que se actualizan periódicamente 8,11,13,15. Del mismo modo, muchas herramientas también tienen un alcance de estudio limitado, ya que se limitan a enfermedades o proteínas predefinidas en general 9,13. Varios enfoques también son propensos a la identificación de falsos positivos dentro del texto; Otros han abordado estas cuestiones con una lista negra interpretable y global de nombres de proteínas 9,11 o menos técnicas de reconocimiento de entidades de nombres interpretables15,20. Si bien la mayoría de los recursos presentan solo resultados precalculados, algunas herramientas ofrecen interactividad a través de aplicaciones web o código de software accesible 8,9,11.

Para abordar las limitaciones anteriores, presentamos el siguiente protocolo, CaseOLAP con imputación de etiquetas y texto completo (CaseOLAP LIFT), como una plataforma flexible y personalizable para investigar asociaciones entre proteínas (por ejemplo, proteínas asociadas con un componente celular) y enfermedades a partir de conjuntos de datos de texto. Esta plataforma cuenta con la curación automatizada de proteínas específicas de términos de ontología génica (GO) (por ejemplo, proteínas específicas de orgánulos), imputación de etiquetas de temas de documentos faltantes, análisis de documentos de texto completo, así como herramientas de análisis y herramientas predictivas (Figura 1, Figura 2 y Tabla 1). CaseOLAP LIFT selecciona proteínas específicas de orgánulos mediante el uso de términos GO proporcionados por el usuario (p. ej., compartimento de orgánulos) y proteínas funcionalmente relacionadas mediante el uso de STRING21, Reactoma 22 y GRNdb23. Los documentos de estudio de enfermedades se identifican por sus etiquetas de encabezado de materia médica (MeSH) anotadas en PubMed. Para el ~15,1% de los documentos sin etiquetar, las etiquetas se imputan si se encuentra al menos un sinónimo de término MeSH en el título o al menos dos en el resumen. Esto permite que las publicaciones que antes no se habían categorizado se tengan en cuenta en el análisis de minería de textos. CaseOLAP LIFT también permite al usuario seleccionar secciones de publicaciones (por ejemplo, solo títulos y resúmenes, texto completo o texto completo excluyendo métodos) dentro de un período de tiempo específico (por ejemplo, 2012-2022). El software también selecciona de forma semiautomática una lista negra de nombres de proteínas específicos de cada caso de uso, lo que reduce de forma vital las asociaciones proteína-enfermedad de falsos positivos presentes en otros enfoques. En general, estas mejoras permiten una mayor personalización y automatización, amplían la cantidad de datos disponibles para el análisis y producen asociaciones proteína-enfermedad más fiables a partir de grandes corpus de textos biomédicos.

CaseOLAP LIFT incorpora el conocimiento biomédico y representa la relación de varios conceptos biomédicos utilizando un grafo de conocimiento, que se aprovecha para predecir relaciones ocultas en el grafo. Recientemente, los métodos de computación basados en gráficos se han aplicado a entornos biológicos, incluida la integración y organización de conceptos biomédicos 24,25, la reutilización y el desarrollo de fármacos 26,27,28, y para la toma de decisiones clínicas a partir de datos proteómicos 29.

Para demostrar las utilidades de CaseOLAP LIFT en el contexto de la construcción de un grafo de conocimiento, destacamos un caso de uso en la investigación de las asociaciones entre las proteínas mitocondriales y ocho categorías de enfermedades cardiovasculares. Se analizó la evidencia de ~ 362,000 documentos relevantes para la enfermedad para identificar las principales proteínas mitocondriales y las vías asociadas con las enfermedades. A continuación, estas proteínas, sus proteínas funcionalmente relacionadas y sus resultados de minería de texto se incorporaron a un gráfico de conocimiento. Este gráfico se aprovechó en un análisis de predicción de enlaces basado en el aprendizaje profundo para predecir las asociaciones proteína-enfermedad que hasta ahora no se habían reportado en las publicaciones biomédicas.

La sección de introducción describe los antecedentes y los objetivos de nuestro protocolo. En la siguiente sección se describen los pasos del protocolo computacional. Posteriormente, se describen los resultados representativos de este protocolo. Finalmente, discutimos brevemente los casos de uso del protocolo computacional, las ventajas, los inconvenientes y las aplicaciones futuras.

Protocol

1. Ejecución del contenedor de Docker Descargue el contenedor de la ventana acoplable CaseOLAP LIFT utilizando la ventana de terminal y escribiendo docker pull caseolap/caseolap_lift:latest. Cree un directorio que almacene todos los datos y la salida del programa (por ejemplo, mkdir caseolap_lift_shared_folder). Inicie el contenedor de Docker con el comando docker run –name caseolap_lift -it -v PATH_TO_FOLDER:/caseolap_lift_shared_folder caseolap/caseolap_lift:latest bash con PATH_TO_FOLDER como la ruta de archivo completa de la carpeta (por ejemplo, / Users/caseolap/caseolap_lift_shared_folder). Los comandos futuros de la sección 2 se emitirán en esta ventana de terminal. Inicie la búsqueda elástica dentro del contenedor. En una nueva ventana de terminal, escriba docker exec -it –user elastic caseolap_lift bash /workspace/start_elastic_search.sh.NOTA: En este protocolo, CaseOLAP LIFT se ejecuta de forma interactiva, con cada paso realizado secuencialmente. Este análisis también se puede ejecutar de extremo a extremo pasándolo como un archivo .txt de parámetros. Los parámetros.txt utilizados en este estudio se encuentran en / workspace/caseolap_lift/parameters.txt. Para acceder a más detalles sobre cada paso, ejecute el comando con la marca – -help o visite la documentación en el repositorio de GitHub (https://github.com/CaseOLAP/caseolap_lift). 2. Preparación de las enfermedades y las proteínas Navegue a la carpeta caseolap_lift con cd / workspace/caseolap_lift Asegúrese de que los vínculos de descarga de config/knowledge_base_links.json estén actualizados y sean precisos para la versión más reciente de cada recurso de la base de conocimientos. De forma predeterminada, los archivos solo se descargan una vez; Para actualizar estos archivos y volver a descargarlos, ejecute el paso de preprocesamiento con -r en el paso 2.4. Determine el término de GO y las categorías de enfermedades que se utilizarán para este estudio. Encuentre los identificadores de todos los términos GO y los identificadores MeSH en http://geneontology.org/ y https://meshb.nlm.nih.gov/, respectivamente. Ejecute el módulo de preprocesamiento mediante las opciones de la línea de comandos. Este paso de preprocesamiento ensambla enfermedades específicas, enumera las proteínas que se van a estudiar y recopila sinónimos de proteínas para la minería de textos. Indique los términos GO estudiados definidos por el usuario utilizando el indicador -c y los números del árbol MeSH de la enfermedad utilizando el indicador -d, y especifique las abreviaturas con -a. Comando de ejemplo:preprocesamiento de caseolap_lift.py python -a “CM ARR CHD VD IHD CCD VOO OTH” -d “C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195,C14.280.282,C14.280.383,C14.280.470,C14.280.945,C14.280.459,C14.280.720” -c “GO:0005739” –incluir-sinónimos –incluir-ppi -k 1 -s 0.99 –incluir-pw -n 4 -r 0.5 –incluir-tfd Examine las categorías.txt, core_proteins.txt y proteins_of_interest.txt archivos del paso anterior en la carpeta de salida . Asegúrese de que todas las categorías de enfermedades en categorías.txt sean correctas y que se identifique una cantidad razonable de proteínas dentro de core_proteins.txt y proteins_of_interest.txt. Si es necesario, repita el paso 2.4 y modifique los parámetros para incluir un mayor o menor número de proteínas.NOTA: El número de proteínas incluidas en el estudio está determinado por los indicadores –include-ppi, –include-pw y –include-tfd para incluir las interacciones proteína-proteína, las proteínas con vías de reactoma compartidas y las proteínas con dependencia del factor de transcripción, respectivamente. Su funcionalidad específica se especifica con indicadores adicionales como -k, -s, -n y -r (consulte la documentación). 3. Minería de textos Asegúrese de que los archivos de categorías.txt, core_proteins.txt y proteins_of_interest.txt del paso anterior se encuentren en la carpeta de salida. Utilice estos archivos como entrada para la minería de texto. Opcionalmente, ajuste las configuraciones relacionadas con el análisis y la indexación del documento en la carpeta de configuración . Consulte una versión anterior del protocolo CaseOLAP para obtener más detalles sobre la configuración y la resolución de problemas8. Ejecute el módulo de minería de texto con python caseolap_lift.py text_mining. Agregue el indicador – l para imputar los temas de los documentos sin categorizar y el indicador -t para descargar el texto completo de los documentos relevantes para la enfermedad. Otros indicadores opcionales especifican un intervalo de fechas de las publicaciones que se van a descargar (-d) y proporcionan opciones para examinar los nombres de las proteínas (descritas en el paso 3.3). En la figura 3 se muestra un ejemplo de un documento analizado.Ejemplo de comando: python caseolap_lift.py text_mining -d “2012-10-01,2022-10-01” -l -tNOTA: La mayor parte del tiempo del protocolo computacional se dedica al paso 3.2, que puede abarcar más de 24 horas. El tiempo de ejecución dependerá del tamaño del corpus de texto que se va a descargar, que también dependerá del intervalo de fechas y de si la imputación de etiquetas y la funcionalidad de texto completo están habilitadas. (Recomendado) Revisa los nombres de las proteínas. Los nombres de las proteínas identificados en las publicaciones relevantes para la enfermedad contribuyen a las asociaciones entre proteínas y enfermedades, pero son propensos a falsos positivos (es decir, homónimos con otras palabras). Para solucionar este problema, enumere los posibles homónimos en una lista negra (config/remove_these_synonyms.txt) para que se excluyan de los pasos posteriores.Buscar nombres para inspeccionar: en la carpeta de resultados, busque los nombres de proteínas con la frecuencia más alta en all_proteins o core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt) y los nombres de proteínas con las puntuaciones más altas en las carpetas de ranked_proteins en función de las puntuaciones de interés. Si hay muchos nombres, priorice la inspección de los nombres con mayor puntuación. Inspeccione los nombres: escriba python caseolap_lift.py text_mining -c seguido de un nombre de proteína para mostrar hasta 10 publicaciones que contengan nombres. Luego, para cada nombre, verifique si el nombre es específico de la proteína. Vuelva a calcular las puntuaciones: Escriba python caseolap_lift.py text_mining -s. Repita los pasos 3.1, 3.2 y 3.3 hasta que los nombres del paso 3.1 parezcan correctos. 4. Análisis de los resultados Asegúrese de que los resultados de la minería de texto estén en la carpeta de resultados (por ejemplo, directorios result/all_proteins y result/core_proteins y archivos asociados), que se utilizarán como entrada para el paso de análisis. Específicamente, se informa una puntuación que indica la fuerza de cada asociación proteína-enfermedad en los resultados de caseolap.csv de la minería de texto. Indique qué conjunto de resultados de minería de texto se va a utilizar para el análisis especificando –analyze_core_proteins para incluir solo las proteínas relacionadas con el término GO o –analyze_all_proteins para incluir todas las proteínas relacionadas funcionalmente. Identificar las principales proteínas y vías para cada enfermedad. Las asociaciones proteína-enfermedad significativas se definen como aquellas con puntuaciones que superan un umbral especificado. La puntuación Z transforma las puntuaciones de CaseOLAP dentro de cada categoría de enfermedad y considera las proteínas con puntuaciones por encima de un umbral especificado (indicado por la marca -z ) como significativas.NOTA: Las vías biológicas significativas para cada enfermedad se identifican automáticamente utilizando proteínas significativas como entrada para el análisis de la vía del reactoma. Todas estas proteínas se informan en el result_table.csv resultante en la carpeta analysis_results, y las cifras relevantes y los resultados del análisis de la vía se generan automáticamente en la carpeta analysis_results.Ejemplo de comando: python caseolap_lift.py analyze_results -z 3.0 –analyze_core_proteins Revise los resultados del análisis y ajústelos según sea necesario. El número de proteínas y, por lo tanto, las vías del reactoma enriquecido significativas para cada categoría de enfermedad dependen del umbral de puntuación z utilizado en el análisis. Una tabla de puntuación z, generada en el analysis_results/zscore_cutoff_table.csv de salida, indica el número de proteínas significativas para cada categoría de enfermedad para ayudar en la selección de un umbral de puntuación z lo más alto posible, al tiempo que se obtienen varias proteínas significativas para cada categoría de enfermedad. 5. Análisis predictivo Construye un grafo de conocimiento.Asegúrese de que los archivos necesarios estén en la carpeta de resultados, incluida la carpeta kg generada a partir del preprocesamiento (paso 2.4) y la caseolap.csv de los resultados de la minería de texto en las carpetas all_proteins o core_proteins (paso 3.2). Diseña el grafo de conocimiento. En función de la tarea posterior, incluya o excluya componentes del gráfico de conocimiento completo. El gráfico de conocimiento consta de puntuaciones de proteínas-enfermedades de la minería de textos y conexiones a los recursos de la base de conocimientos utilizados en el paso 2.4 (Figura 4). Incluya el árbol de enfermedades MeSH con la bandera –include_mesh , las interacciones proteína-proteína de STRING con –include_ppi, las vías de reactoma compartidas con –include_pw y la dependencia del factor de transcripción de GRNdb/GTEx con –include_tfd. Ejecute el módulo de construcción de grafos de conocimiento. Indique qué conjunto de resultados de minería de texto se va a utilizar para el análisis especificando –analyze_core_proteins para incluir solo las proteínas relacionadas con el término GO o –analyze_all_proteins para incluir todas las proteínas relacionadas funcionalmente. De forma predeterminada, las puntuaciones de CaseOLAP sin procesar se cargan como ponderaciones de borde entre los ganglios de proteína y enfermedad; Para escalar los grosores de los bordes, indique –use_z_score o puntuaciones z no negativas con –scale_z_score.Ejemplo de comando: python caseolap_lift.py prepare_knowledge_graph –scale_z_score Predecir nuevas asociaciones proteína-enfermedad.Asegúrese de que los archivos de gráficos de conocimiento, merged_edges.tsv y merged_nodes.tsv, se generan desde el paso anterior (paso 5.1.3). Ejecute el script de predicción del gráfico de conocimiento para predecir las asociaciones proteína-enfermedad hasta ahora no informadas en la literatura científica escribiendo python kg_analysis/run_kg_analysis.py. Esto se implementa con GraPE30 y utiliza DistMult31 para producir incrustaciones de gráficos de conocimiento, que un perceptrón multicapa utiliza para predecir las asociaciones proteína-enfermedad. En la carpeta output/kg_analysis se guardan las predicciones con una probabilidad predicha >0,90 (predictions.csv) y las métricas de evaluación del modelo (eval_results.csv).NOTA: En este trabajo, los parámetros del modelo elegidos (por ejemplo, método de incrustación, modelo de predicción de enlaces, hiperparámetros) se adaptaron para el estudio representativo. Este código sirve como ejemplo y punto de partida para otros análisis. Para explorar los parámetros del modelo, consulte la documentación de GraPE (https://github.com/AnacletoLAB/grape).

Representative Results

Siguiendo este protocolo, se obtuvieron resultados representativos para estudiar las asociaciones entre las proteínas mitocondriales (Tabla 2) y ocho categorías de enfermedades cardiovasculares (Tabla 3). En estas categorías, encontramos 363.567 publicaciones publicadas desde 2012 hasta octubre de 2022 (362.878 categorizadas por metadatos MeSH, 6.923 categorizadas por imputación de etiqueta). Todas las publicaciones tenían títulos, 276.524 tenían resúmenes y 51.065 tenían el texto completo disponible. En total, se identificaron 584 de las 1.687 proteínas mitocondriales consultadas en las publicaciones, mientras que se identificaron 3.284 de las 8.026 proteínas funcionalmente relacionadas consultadas. En total, se identificaron 14 proteínas únicas con puntuaciones significativas en todas las categorías de enfermedades, con un umbral de puntuación z de 3,0 (Figura 5). El análisis de la vía del reactoma de estas proteínas reveló 12 vías significativas para todas las enfermedades (Figura 6). Todas las proteínas, vías, enfermedades y puntuaciones se integraron en un gráfico de conocimiento (Tabla 4). Este gráfico de conocimiento se aprovechó para predecir 12.688 nuevas asociaciones proteína-enfermedad y se filtró con una puntuación de probabilidad de 0,90 para producir 1.583 predicciones de alta confianza. En la Figura 7 se muestra un ejemplo destacado de dos asociaciones proteína-enfermedad, ilustrado en el contexto de otras entidades biológicas relevantes relacionadas funcionalmente con las proteínas. Las métricas de evaluación del modelo se presentan en la Tabla 5. Figura 1: Vista dinámica del flujo de trabajo. Esta figura representa los cuatro pasos principales de este flujo de trabajo. En primer lugar, las proteínas relevantes se seleccionan en función de los términos GO proporcionados por el usuario (por ejemplo, componentes celulares), y las categorías de enfermedades se preparan en función de los identificadores MeSH de enfermedades proporcionados por el usuario. En segundo lugar, las asociaciones entre proteínas y enfermedades se calculan en la etapa de minería de textos. Las publicaciones dentro de un determinado rango de fechas se descargan e indexan. Las publicaciones que estudian la enfermedad se identifican (a través de etiquetas MeSH y, opcionalmente, a través de etiquetas imputadas), y sus textos completos se descargan e indexan. Los nombres de las proteínas se consultan en las publicaciones y se utilizan para calcular las puntuaciones de asociación proteína-enfermedad. A continuación, tras la minería de textos, estas puntuaciones ayudan a identificar las principales asociaciones de proteínas y vías. Finalmente, se construye un grafo de conocimiento que abarca estas proteínas, enfermedades y sus relaciones dentro de la base de conocimiento biomédico. Las nuevas asociaciones proteína-enfermedad se predicen en función del gráfico de conocimiento construido. Estos pasos utilizan los datos más recientes disponibles de las bases de conocimiento biomédico y PubMed. Haga clic aquí para ver una versión más grande de esta figura. Figura 2: Arquitectura técnica del flujo de trabajo. Los detalles técnicos de este flujo de trabajo se ilustran en esta figura. El usuario proporciona los números del árbol MeSH de las categorías de enfermedades y los términos GO. Los documentos de texto se descargan de PubMed, los documentos relevantes para la enfermedad se identifican en función de las etiquetas MeSH proporcionadas, y los documentos sin etiquetas MeSH que indican el tema reciben etiquetas de categoría imputadas. Se adquieren las proteínas asociadas con los términos GO proporcionados. Este conjunto de proteínas se amplía para incluir proteínas que están relacionadas funcionalmente a través de interacciones proteína-proteína, vías biológicas compartidas y dependencia de factores de transcripción. Estas proteínas se consultan en documentos relevantes para la enfermedad y se puntúan mediante CaseOLAP. Haga clic aquí para ver una versión más grande de esta figura. Figura 3: Ejemplo de un documento procesado. Aquí se presenta un ejemplo de un documento de texto analizado e indexado. En orden, los campos relevantes indican el nombre del índice (_index, _type), el ID de PubMed (_id, pmid), las subsecciones del documento (título, resumen, full_text, introducción, métodos, resultados, discusión) y otros metadatos (año, MeSH, ubicación, revista). Solo con fines de visualización, las subsecciones del documento se truncan con puntos suspensivos. El campo MeSH contiene los temas del documento, que a veces pueden ser proporcionados por nuestro paso de imputación de etiquetas. Haga clic aquí para ver una versión más grande de esta figura. Figura 4: Esquema del gráfico de conocimiento y recursos biomédicos. En esta figura se muestra el esquema del gráfico de conocimiento. Cada nodo y arista representa un tipo de nodo o arista, respectivamente. Los límites entre las enfermedades cardiovasculares (ECV) y las proteínas se ponderan mediante las puntuaciones de CaseOLAP. Los bordes de la interacción proteína-proteína (PPI) se ponderan mediante puntuaciones de confianza STRING. Los bordes de la dependencia del factor de transcripción (TFD) derivados de GRNdb/GTEx, los bordes del árbol de enfermedades derivados del MeSH y los bordes de la vía derivados del reactoma no están ponderados. Haga clic aquí para ver una versión más grande de esta figura. Figura 5: Principales asociaciones proteína-enfermedad. Esta figura presenta proteínas mitocondriales significativas para cada categoría de enfermedad. La transformación de la puntuación Z se aplicó a las puntuaciones de CaseOLAP dentro de cada categoría para identificar proteínas significativas utilizando un umbral de 3,0. (Arriba) Número de proteínas mitocondriales significativas para cada enfermedad: Estos gráficos de violín representan la distribución de las puntuaciones z para las proteínas en cada categoría de enfermedad. El número total de proteínas significativas para cada categoría de enfermedad se muestra encima de cada gráfico de violín. Se identificaron un total de 14 proteínas únicas como significativas en todas las enfermedades, y algunas proteínas fueron significativas para múltiples enfermedades. (Abajo) Proteínas con mayor puntuación: El mapa de calor muestra las 10 proteínas principales que obtuvieron las puntuaciones z promedio más altas en todas las enfermedades. Los valores en blanco representan la ausencia de puntuación obtenida entre la proteína y la enfermedad. Haga clic aquí para ver una versión más grande de esta figura. Figura 6: Principales asociaciones vía-enfermedad. Esta figura ilustra las principales vías biológicas asociadas con las categorías de enfermedades estudiadas, según se determina mediante el análisis de la vía del actoma. Todos los análisis de vía se filtraron con p < 0,05. Los valores del mapa de calor representan la puntuación z promedio de todas las proteínas dentro de la vía. (Arriba) Vías conservadas entre todas las enfermedades: En general, se identificaron 14 proteínas relevantes para todas las categorías de enfermedades, y se revelaron 12 vías conservadas entre todas las categorías de enfermedades. Se construyó un dendrograma basado en la estructura jerárquica de la vía para vincular las vías con funciones biológicas similares. La altura del dendrograma representa la profundidad relativa dentro de la jerarquía de vías; Las funciones biológicas amplias tienen extremidades más largas, y las vías más específicas tienen extremidades más cortas. (Abajo) Vías distintas a una categoría de enfermedad: El análisis de vías se realizó utilizando proteínas que lograron una puntuación z significativa en cada enfermedad. Las tres vías principales con los valores p más bajos asociados con cada enfermedad se muestran e indican con asteriscos. Las vías podrían estar entre las tres primeras en múltiples enfermedades. Haga clic aquí para ver una versión más grande de esta figura. Figura 7: Aplicación del aprendizaje profundo para completar gráficos de conocimiento. En esta figura se presenta un ejemplo de aplicación del aprendizaje profundo a un gráfico de conocimiento específico de una enfermedad. Se predicen relaciones ocultas entre las proteínas y la enfermedad, y estas se indican en azul. Se muestran las probabilidades calculadas para ambas predicciones, con valores que van de 0,0 a 1,0 y donde 1,0 indica una predicción fuerte. Se incluyen varias proteínas con interacciones conocidas, que representan las interacciones proteína-proteína, la dependencia de factores de transcripción y las vías biológicas compartidas. Para la visualización, se muestra un subgrafo de algunos nodos con relevancia para el ejemplo resaltado. Clave: CI = cardiopatía isquémica; R-HSA-1430728 = metabolismo; O14949 = citocromo b-c1 complejo subunidad 8; P17568 = NADH deshidrogenasa (ubiquinona) 1 subcomplejo beta subunidad 7; Q9NYF8 Factor de transcripción asociado a Bcl-2 1, puntuación: 7,24 x 10−7; P49821 = NADH deshidrogenasa (ubiquinona) flavoproteína 1, mitocondrial, puntuación: 1,06 x 10−5; P31930 = citocromo b-c1 complejo subunidad 1, mitocondrial, puntuación: 4,98 x 10−5; P99999 = citocromo c, puntuación: 0,399. Haga clic aquí para ver una versión más grande de esta figura. Tabla 1: Flujo de trabajo y pasos de limitación de velocidad. En esta tabla se presentan estimaciones aproximadas del tiempo de cálculo para cada etapa del flujo de trabajo. Las opciones para incluir componentes de la canalización cambiarán el tiempo de ejecución total necesario para completar el análisis. La estimación del tiempo total varía en función de los recursos computacionales disponibles, incluidas las especificaciones de hardware y la configuración del software. Como estimación aproximada, el protocolo tardó 36 h de tiempo de ejecución activo en ejecutarse en nuestro servidor computacional, con seis núcleos, 32 Gb de RAM y 2 Tb de almacenamiento, pero esto puede ser más rápido o más lento en otros dispositivos. Haga clic aquí para descargar esta tabla. Tabla 2: Ensamblaje automático de las proteínas componentes celulares. Esta tabla muestra el número de proteínas asociadas con un componente celular determinado (es decir, el término GO), las proteínas relacionadas funcionalmente con ellos a través de interacciones proteína-proteína (PPI), vías compartidas (PW) y dependencia del factor de transcripción (TFD). El número de proteínas totales es el número de proteínas de todas las categorías anteriores combinadas. Todas las proteínas funcionalmente relacionadas se obtuvieron utilizando los parámetros predeterminados de CaseOLAP LIFT. Haga clic aquí para descargar esta tabla. Tabla 3: Estadísticas de imputación de etiquetas MeSH. Esta tabla muestra las categorías de enfermedades, los números del árbol MeSH utilizados como término principal de todas las enfermedades incluidas en la categoría, el número de artículos de PubMed encontrados en cada categoría entre 2012 y 2022 y el número de artículos adicionales incluidos en función del paso de imputación de la etiqueta. Haga clic aquí para descargar esta tabla. Tabla 4: Estadística de construcción de grafos de conocimiento. En esta tabla se describen las estadísticas del tamaño del gráfico de conocimiento construido, incluidos los distintos nodos y tipos de borde. Las puntuaciones de CaseOLAP representan la relación entre una proteína y una categoría de enfermedad cardiovascular (ECV). Haga clic aquí para descargar esta tabla. Tabla 5: Estadísticas y validaciones de predicción de gráficos de conocimiento. En esta tabla se presentan las métricas de evaluación para la predicción del vínculo del gráfico de conocimiento de las asociaciones proteína-enfermedad nuevas/ocultas. Los bordes del gráfico de conocimiento se dividieron en conjuntos de datos de entrenamiento y prueba 70/30, y la conectividad del gráfico de los bordes se conservó en ambos conjuntos de datos. La precisión indica la proporción de predicciones clasificadas correctamente, mientras que la precisión equilibrada corrige el desequilibrio de clase. La especificidad indica la proporción de predicciones negativas correctamente clasificadas. La precisión indica la proporción de predicciones positivas correctas de todas las predicciones positivas, mientras que la recuperación indica la proporción de predicciones positivas correctas de todas las aristas positivas (es decir, asociaciones proteína-enfermedad identificadas a través de la minería de texto). La puntuación F1 es la media armónica de la precisión y la recuperación. El área bajo la curva de características operativas del receptor (AUROC) describe qué tan bien el modelo distingue entre predicciones positivas y negativas, donde 1.0 indica un clasificador perfecto. El área bajo la curva de precisión-recuperación (AUPRC) mide el equilibrio entre la precisión y la recuperación en diferentes umbrales de probabilidad, con valores más altos que indican un mejor rendimiento. Haga clic aquí para descargar esta tabla.

Discussion

CaseOLAP LIFT permite a los investigadores investigar asociaciones entre proteínas funcionales (p. ej., proteínas asociadas con un componente celular, un proceso biológico o una función molecular) y categorías biológicas (p. ej., enfermedades). El protocolo descrito debe ejecutarse en la secuencia especificada, siendo la sección 2 y la sección 3 del protocolo los pasos más críticos, ya que la sección 4 y la sección 5 del protocolo dependen de sus resultados. Como alternativa a la sección 1 del protocolo, el código CaseOLAP LIFT se puede clonar y acceder a él desde el repositorio de GitHub (https://github.com/CaseOLAP/caseolap_lift). Cabe señalar que a pesar de las pruebas durante el desarrollo del software, pueden ocurrir errores. Si es así, se debe repetir el paso fallido. Si el problema persiste, se recomienda repetir la sección 1 del protocolo para asegurarse de que se utiliza la versión más reciente del contenedor Docker. Para obtener más ayuda, cree un problema en el repositorio de GitHub para obtener soporte adicional.

Este método apoya la generación de hipótesis al permitir a los investigadores identificar entidades de interés y revelar las posibles asociaciones entre ellas, que pueden no ser fácilmente accesibles en los recursos biomédicos existentes. Las asociaciones proteína-enfermedad resultantes permiten a los investigadores obtener nuevos conocimientos a través de las métricas interpretables de las puntuaciones: las puntuaciones de popularidad indican las proteínas más estudiadas en relación con una enfermedad, las puntuaciones de distintividad indican las enfermedades más exclusivas de una proteína, y la puntuación combinada de CaseOLAP es una combinación de ambas. Para evitar identificaciones de falsos positivos (por ejemplo, debido a homónimos), algunas herramientas de minería de texto utilizan una lista negra de términos para evitar 9,11. Del mismo modo, CaseOLAP LIFT también utiliza una lista negra, pero permite al usuario adaptar la lista negra a su caso de uso. Por ejemplo, cuando se estudia la enfermedad de las arterias coronarias (EAC), “EAC” no debe considerarse un nombre para la proteína “desoxirribonucleasa activada por caspasas”. Sin embargo, cuando se estudian otros temas, “CAD” generalmente puede referirse a la proteína.

CaseOLAP LIFT se adapta a la cantidad de datos disponibles para la minería de textos. La funcionalidad del rango de fechas alivia la carga computacional y crea flexibilidad para la generación de hipótesis (por ejemplo, estudiar cómo ha cambiado el conocimiento científico sobre una asociación proteína-enfermedad a lo largo del tiempo). Mientras tanto, la imputación de etiquetas y los componentes de texto completo mejoran el alcance de los datos disponibles para la minería de textos. Ambos componentes están deshabilitados de forma predeterminada para reducir los costos computacionales, pero el usuario puede decidir incluir cualquiera de los componentes. La imputación de etiquetas es conservadora y categoriza correctamente la mayoría de las publicaciones (87% de precisión), pero omite otras etiquetas de categoría (2% de recuerdo). Este método se basa actualmente en una heurística basada en reglas que coincide con las palabras clave de la enfermedad, y hay planes para mejorar el rendimiento mediante el uso de técnicas de modelado de temas de documentos. Dado que muchos informes no categorizados tienden a ser publicaciones recientes, los estudios que investigan un rango de fechas reciente (por ejemplo, todas las publicaciones dentro de los últimos 3 años) son más útiles deshabilitando la imputación de etiquetas. El componente de texto completo aumenta el tiempo de ejecución y los requisitos de almacenamiento. Cabe destacar que solo una minoría de los documentos tienen el texto completo disponible (~14% de los documentos de nuestro estudio). Asumiendo que los nombres de las proteínas mencionados en la sección de métodos de las publicaciones tienen menos probabilidades de estar relacionados con los temas de la enfermedad, se recomienda consultar los artículos de texto completo excluyendo la sección de métodos.

Las puntuaciones de asociación proteína-enfermedad resultantes son útiles para los análisis tradicionales, como la agrupación, la reducción de la dimensionalidad o los análisis de enriquecimiento (p. ej., GO, vías), con alguna implementación incluida en este paquete de software. Para contextualizar estas puntuaciones dentro del conocimiento biomédico existente, se construye automáticamente un gráfico de conocimiento que se puede explorar utilizando herramientas de visualización de gráficos (por ejemplo, Neo4j32, Cytoscape33). El gráfico de conocimiento también se puede utilizar para análisis predictivos (p. ej., predicción de vínculos de relaciones proteína-enfermedad no informadas, detección comunitaria de redes de proteínas, métodos de búsqueda de rutas de recolección de premios).

Hemos examinado las métricas de evaluación del modelo para las asociaciones proteína-enfermedad predichas (Tabla 5). El modelo asigna una puntuación de probabilidad entre 0,0 y 1,0 a cada asociación proteína-enfermedad, y las puntuaciones más cercanas a 1,0 indican un mayor nivel de confianza en la predicción. La evaluación interna del rendimiento del modelo, que se basó en varias métricas, entre ellas el AUROC, la precisión, la precisión equilibrada, la especificidad y la recuperación, indicó un excelente rendimiento general en su trabajo. Sin embargo, la evaluación también puso de manifiesto una puntuación bastante pobre para la precisión (0,15) del modelo, lo que dio lugar a una puntuación más baja tanto en el AUPRC como en la F1. Los estudios futuros para mejorar esta métrica ayudarán a elevar el rendimiento general del modelo. Prevemos que esto podría lograrse mediante la implementación de modelos de predicción de gráficos y de integración de gráficos de conocimiento más sofisticados. Sobre la base de la precisión del modelo de 0,15, los investigadores deben anticipar aproximadamente un 15% de identificaciones positivas; En particular, de todas las 12.688 asociaciones proteína-enfermedad predichas por el modelo, aproximadamente el 15% son asociaciones verdaderas positivas. Esto se puede mitigar considerando solo las asociaciones proteína-enfermedad con una puntuación de probabilidad alta (p. ej., >0,90); En nuestro caso de uso, el filtrado con un umbral de probabilidad de 0,90 condujo a predicciones de alta confianza de 1.583 asociaciones. A los investigadores también les puede resultar útil inspeccionar manualmente estas predicciones para garantizar una alta validez (consulte la Figura 7 como ejemplo). Una evaluación externa de nuestras predicciones determinó que de las 310 asociaciones proteína-enfermedad de una extensa base de datos curada DisGeNet19, 103 se identificaron en nuestro estudio de minería de textos, y 88 asociaciones adicionales fueron predichas por nuestro análisis de gráficos de conocimiento con una puntuación de probabilidad >0,90.

En general, CaseOLAP LIFT presenta una mayor flexibilidad y facilidad de uso en el diseño de análisis personalizados de las asociaciones entre grupos de proteínas funcionales y múltiples categorías de enfermedades en grandes corpus de texto. Este paquete se simplifica en una nueva interfaz de línea de comandos fácil de usar y se lanza como un contenedor Docker, lo que reduce los problemas asociados con la configuración de los entornos de programación y las dependencias de software. La línea de producción CaseOLAP LIFT para estudiar las proteínas mitocondriales en enfermedades cardiovasculares se puede adaptar fácilmente; por ejemplo, las aplicaciones futuras de esta técnica podrían implicar la investigación de las asociaciones entre cualquier proteína asociada con cualquier término GO y cualquier categoría biomédica. Además, las asociaciones proteína-enfermedad identificadas por esta plataforma de minería de textos son importantes en la preparación del conjunto de datos para el uso de técnicas avanzadas de lenguaje natural. El gráfico de conocimiento resultante permite a los investigadores convertir estos hallazgos en conocimiento biológicamente informativo y sienta las bases para los análisis basados en gráficos de seguimiento.

Divulgations

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue apoyado por los Institutos Nacionales de Salud (NIH, por sus siglas en inglés) R35 HL135772 a P.P., NIH T32 HL13945 a A.R.P. y D.S., NIH T32 EB016640 a A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 a A.R.P. y D.S., NIH R01 HL146739 para I.A., J.R., A.V., K.B., y el TC Laubisch Endowment a P.P. en UCLA.

Materials

Software – Docker Docker N/A docker.com

References

  1. The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
  2. Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
  3. Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
  4. Rehm, H. L., et al. ClinGen – The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
  5. Caulfield, M., et al. . The National Genomics Research and Healthcare Knowledgebase. , (2019).
  6. Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
  7. Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043 (2017).
  8. Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108 (2019).
  9. Yu, K. -. H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
  10. Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
  11. Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
  12. Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
  13. Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135 (2021).
  14. Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680 (2016).
  15. Wei, C. -. H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
  16. Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171 (2013).
  17. Wei, C. -. H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
  18. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
  19. Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
  20. Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
  21. Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
  22. Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
  23. Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
  24. Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96 (2021).
  25. Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304 (2022).
  26. Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726 (2017).
  27. Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
  28. Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118 (2021).
  29. Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
  30. Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
  31. Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
  32. . Neo4j Graph Data Platform Available from: https://neo4j.com/ (2022)
  33. Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Play Video

Citer Cet Article
Pelletier, A. R., Steinecke, D., Sigdel, D., Adam, I., Caufield, J. H., Guevara-Gonzalez, V., Ramirez, J., Verma, A., Bali, K., Downs, K., Wang, W., Bui, A., Ping, P. A Knowledge Graph Approach to Elucidate the Role of Organellar Pathways in Disease via Biomedical Reports. J. Vis. Exp. (200), e65084, doi:10.3791/65084 (2023).

View Video