Summary

Uma Abordagem de Gráfico de Conhecimento para Elucidar o Papel das Vias Organelares na Doença via Relatórios Biomédicos

Published: October 13, 2023
doi:

Summary

Um protocolo computacional, CaseOLAP LIFT, e um caso de uso são apresentados para investigar proteínas mitocondriais e suas associações com doenças cardiovasculares, conforme descrito em relatórios biomédicos. Este protocolo pode ser facilmente adaptado para estudar componentes celulares e doenças selecionadas pelo usuário.

Abstract

O rápido aumento e a grande quantidade de relatórios biomédicos, cada um contendo numerosas entidades e informações ricas, representam um rico recurso para aplicações de mineração de texto biomédico. Essas ferramentas permitem que os pesquisadores integrem, conceituam e traduzam essas descobertas para descobrir novos insights sobre patologia e terapêutica de doenças. Neste protocolo, apresentamos o CaseOLAP LIFT, um novo pipeline computacional para investigar componentes celulares e suas associações de doenças, extraindo informações selecionadas pelo usuário de conjuntos de dados de texto (por exemplo, literatura biomédica). O software identifica proteínas subcelulares e seus parceiros funcionais dentro de documentos relevantes para a doença. Documentos adicionais relevantes para doenças são identificados por meio do método de imputação de rótulos do software. Para contextualizar as associações proteína-doença resultantes e integrar informações de múltiplos recursos biomédicos relevantes, um gráfico de conhecimento é automaticamente construído para análises posteriores. Apresentamos um caso de uso com um corpus de ~34 milhões de documentos de texto baixados on-line para fornecer um exemplo de elucidação do papel das proteínas mitocondriais em fenótipos distintos de doenças cardiovasculares usando este método. Além disso, um modelo de aprendizagem profunda foi aplicado ao gráfico de conhecimento resultante para prever relações não relatadas anteriormente entre proteínas e doenças, resultando em 1.583 associações com probabilidades previstas >0,90 e com uma área sob a curva receiver operating characteristic (AUROC) de 0,91 no conjunto de teste. Este software possui um fluxo de trabalho altamente personalizável e automatizado, com um amplo escopo de dados brutos disponíveis para análise; portanto, usando esse método, associações proteína-doença podem ser identificadas com maior confiabilidade dentro de um corpus de texto.

Introduction

O estudo de proteínas relacionadas a doenças aumenta o conhecimento científico da patogênese e ajuda a identificar potenciais terapêuticas. Vários grandes corpora de textos de publicações biomédicas, como os 34 milhões de artigos do PubMed contendo títulos de publicações, resumos e documentos de texto completo, relatam novas descobertas que ligam proteínas a doenças. No entanto, esses achados são fragmentados em várias fontes e devem ser integrados para gerar novos insights biomédicos. Existem vários recursos biomédicos para integrar as associações proteína-doença 1,2,3,4,5,6,7. No entanto, esses recursos selecionados são frequentemente incompletos e podem não abranger os resultados mais recentes da pesquisa. Abordagens de mineração de texto são essenciais para extrair e sintetizar associações proteína-doença em grandes corpora textuais, o que resultaria em uma compreensão mais abrangente desses conceitos biomédicos na literatura científica.

Existem múltiplas abordagens biomédicas de mineração de texto para descobrir relações proteína-doença 8,9,10,11,12,13,14, e outras contribuem em parte para determinar essas relações, identificando as proteínas, doenças ou outras entidades biomédicas mencionadas no texto 13,15,16,17, 18,19. No entanto, muitos desses instrumentos carecem de acesso à literatura mais atualizada, com exceção de alguns que são atualizados periodicamente8,11,13,15. Da mesma forma, muitos instrumentos também têm um escopo limitado de estudo, pois estão confinados a amplas doenças ou proteínas predefinidas 9,13. Várias abordagens também são propensas à identificação de falsos positivos dentro do texto; Outros abordaram essas questões com uma lista negra interpretável e global de nomes de proteínas 9,11 ou técnicas de reconhecimento de entidades de nomes menos interpretáveis15,20. Enquanto a maioria dos recursos apresenta apenas resultados pré-computados, algumas ferramentas oferecem interatividade via web apps ou código de software acessível 8,9,11.

Para abordar as limitações acima, apresentamos o seguinte protocolo, CaseOLAP com imputação de rótulo e texto completo (CaseOLAP LIFT), como uma plataforma flexível e personalizável para investigar associações entre proteínas (por exemplo, proteínas associadas a um componente celular) e doenças a partir de conjuntos de dados de texto. Essa plataforma apresenta curadoria automatizada de proteínas termo-específicas de ontologia gênica (GO) (por exemplo, proteínas específicas de organelas), imputação de rótulos de tópicos de documentos ausentes, análise de documentos de texto completo, bem como ferramentas de análise e ferramentas preditivas (Figura 1, Figura 2 e Tabela 1). O CaseOLAP LIFT seleciona proteínas específicas de organelas usando termos GO fornecidos pelo usuário (por exemplo, compartimento de organela) e proteínas funcionalmente relacionadas usando STRING21, Reactome 22 e GRNdb23. Os documentos que estudam doenças são identificados por seus rótulos de cabeçalho de assunto médico anotado no PubMed (MeSH). Para os ~15,1% de documentos sem rótulo, os rótulos são imputados se pelo menos um sinônimo de termo MeSH for encontrado no título ou pelo menos dois forem encontrados no resumo. Isso permite que publicações não categorizadas anteriormente sejam consideradas na análise de mineração de texto. O CaseOLAP LIFT também permite que o usuário selecione seções de publicações (por exemplo, apenas títulos e resumos, texto completo ou texto completo excluindo métodos) dentro de um período de tempo especificado (por exemplo, 2012-2022). O software também seleciona semi-automaticamente uma lista negra específica de casos de uso de nomes de proteínas, reduzindo vitalmente as associações de proteínas-doenças falso-positivas presentes em outras abordagens. No geral, essas melhorias permitem maior personalização e automação, expandem a quantidade de dados disponíveis para análise e produzem associações mais confiáveis de proteínas-doenças a partir de grandes corpora de texto biomédico.

CaseOLAP LIFT incorpora conhecimento biomédico e representa a relação de vários conceitos biomédicos usando um gráfico de conhecimento, que é aproveitado para prever relações ocultas no gráfico. Recentemente, métodos computacionais baseados em grafos têm sido aplicados em cenários biológicos, incluindo a integração e organização de conceitos biomédicos24,25, reaproveitamento e desenvolvimento de fármacos26,27,28, e para a tomada de decisão clínica a partir de dados proteômicos29.

Para demonstrar as utilidades do CaseOLAP LIFT no contexto da construção de um gráfico de conhecimento, destacamos um caso de uso na investigação das associações entre proteínas mitocondriais e oito categorias de doença cardiovascular. Evidências de ~362.000 documentos relevantes para doenças foram analisadas para identificar as principais proteínas mitocondriais e vias associadas às doenças. Em seguida, essas proteínas, suas proteínas funcionalmente relacionadas e seus resultados de mineração de texto foram incorporados em um gráfico de conhecimento. Este gráfico foi aproveitado em uma análise de predição de link baseada em aprendizado profundo para prever associações proteína-doença até agora não relatadas em publicações biomédicas.

A seção de introdução descreve as informações básicas e os objetivos do nosso protocolo. A seção a seguir descreve as etapas do protocolo computacional. Posteriormente, são descritos os resultados representativos desse protocolo. Finalmente, discutimos brevemente os casos de uso de protocolos computacionais, vantagens, desvantagens e aplicações futuras.

Protocol

1. Executando o contêiner do docker Baixe o contêiner docker CaseOLAP LIFT usando a janela do terminal e digitando docker pull caseolap/caseolap_lift:latest. Crie um diretório que armazenará todos os dados e saída do programa (por exemplo, mkdir caseolap_lift_shared_folder). Inicie o contêiner do docker com o comando docker run –name caseolap_lift -it -v PATH_TO_FOLDER:/caseolap_lift_shared_folder caseolap/caseolap_lift:latest bash com PATH_TO_FOLDER como o caminho completo do arquivo para a pasta (por exemplo, / Users/caseolap/caseolap_lift_shared_folder). Comandos futuros da seção 2 serão emitidos nesta janela do terminal. Inicie a pesquisa elástica dentro do contêiner. Em uma nova janela de terminal, digite docker exec -it –user elastic caseolap_lift bash /workspace/start_elastic_search.sh.Observação : neste protocolo, CaseOLAP LIFT é executado interativamente, com cada etapa executada sequencialmente. Essa análise também pode ser executada de ponta a ponta, passando-a como um arquivo .txt parâmetros. Os parâmetros.txt utilizados neste estudo estão em / workspace/caseolap_lift/parameters.txt. Para acessar mais detalhes sobre cada etapa, execute o comando com o sinalizador – -help ou visite a documentação no repositório do GitHub (https://github.com/CaseOLAP/caseolap_lift). 2. Preparação das doenças e proteínas Navegue até a pasta caseolap_lift com cd / workspace/caseolap_lift Verifique se os links de download em config/knowledge_base_links.json estão atualizados e precisos para a versão mais recente de cada recurso da base de conhecimento. Por padrão, os arquivos são baixados apenas uma vez; Para atualizar esses arquivos e baixar novamente, execute a etapa de pré-processamento com -R na etapa 2.4. Determinar o termo GO e as categorias de doença a serem utilizadas neste estudo. Encontre os identificadores de todos os termos GO e identificadores MeSH em http://geneontology.org/ e https://meshb.nlm.nih.gov/, respectivamente. Execute o módulo de pré-processamento usando opções de linha de comando. Essa etapa de pré-processamento reúne doenças específicas, lista proteínas a serem estudadas e reúne sinônimos de proteínas para mineração de texto. Indique os termos GO estudados definidos pelo usuário usando o sinalizador -c e os números da árvore MeSH da doença usando o sinalizador -d e especifique abreviações com -a. Exemplo de comando:pré-processamento de caseolap_lift.py python -a “CM ARR CHD VD IHD CCD VOO OTH” -d “C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195,C14.280.282,C14.280.383,C14.280.470,C14.280.945,C14.280.459,C14.280.720” -c “GO:0005739” –include-sinônimos –include-ppi -k 1 -s 0.99 –include-pw -n 4 -r 0.5 –include-tfd Examine as categorias.txt, core_proteins.txt e arquivos proteins_of_interest.txt da etapa anterior na pasta de saída . Certifique-se de que todas as categorias de doenças em categorias.txt estejam corretas e que uma quantidade razoável de proteínas seja identificada dentro core_proteins.txt e proteins_of_interest.txt. Se necessário, repita a etapa 2.4 e modifique os parâmetros para incluir um número maior ou menor de proteínas.NOTA: O número de proteínas incluídas no estudo é determinado por –include-ppi, –include-pw, e –include-tfd sinalizadores para incluir interacções proteína-proteína, proteínas com vias de reactoma compartilhadas, e proteínas com dependência do factor de transcrição, respectivamente. Sua funcionalidade específica é especificada com sinalizadores adicionais, como -k, -s, -n e -r (consulte a documentação). 3. Mineração de texto Verifique se os arquivos de categorias.txt, core_proteins.txt e proteins_of_interest.txt da etapa anterior foram encontrados na pasta de saída. Use esses arquivos como entrada para a mineração de texto. Opcionalmente, ajuste as configurações referentes à análise e indexação do documento na pasta config . Consulte uma versão anterior do protocolo CaseOLAP para obter mais detalhes sobre configuração e solução de problemas8. Execute o módulo de mineração de texto com python caseolap_lift.py text_mining. Adicione o sinalizador – l para imputar os tópicos de documentos não categorizados e o sinalizador -t para baixar o texto completo de documentos relevantes para doenças. Outros sinalizadores opcionais especificam um intervalo de datas de publicações a serem baixadas (-d) e fornecem opções para selecionar os nomes das proteínas (descritas na etapa 3.3). Uma amostra de um documento analisado é mostrada na Figura 3.Exemplo de comando: python caseolap_lift.py text_mining -d “2012-10-01,2022-10-01” -l -tNOTA: A maior parte do tempo do protocolo computacional é gasto na etapa 3.2, que pode potencialmente se estender por mais de 24 horas. O tempo de execução dependerá do tamanho do corpus de texto a ser baixado, que também dependerá do intervalo de datas e se a imputação de rótulo e a funcionalidade de texto completo estão habilitadas. (Recomendado) Rastreie os nomes das proteínas. Os nomes de proteínas identificados em publicações relevantes para doenças contribuem para associações de doenças proteicas, mas são propensos a falsos positivos (ou seja, homônimos com outras palavras). Para resolver isso, enumere possíveis homônimos em uma lista negra (config/remove_these_synonyms.txt) para que eles sejam excluídos das etapas a jusante.Encontre nomes para inspecionar: na pasta de resultados, encontre os nomes de proteínas com maior frequência em all_proteins ou core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt) e os nomes de proteínas com as maiores pontuações nas pastas em ranked_proteins dependendo da(s) pontuação(ões) de interesse. Se houver muitos nomes, priorize a inspeção dos nomes mais pontuadores. Inspecione os nomes: digite python caseolap_lift.py text_mining -c seguido de um nome de proteína para exibir até 10 publicações contendo nome. Em seguida, para cada nome, verifique se o nome é específico da proteína. Recalcule as pontuações: digite python caseolap_lift.py text_mining -s. Repita as etapas 3.1, 3.2 e 3.3 até que os nomes na etapa 3.1 pareçam corretos. 4. Análise dos resultados Verifique se os resultados da mineração de texto estão na pasta de resultados (por exemplo, diretórios de resultado/all_proteins e resultado/core_proteins e arquivos associados), que serão usados como entrada para a etapa de análise. Especificamente, um escore indicando a força de cada associação proteína-doença é relatado no caseolap.csv resultados da mineração de texto. Indique qual conjunto de resultados de mineração de texto usar para a análise, especificando –analyze_core_proteins incluir apenas as proteínas relacionadas ao termo GO ou –analyze_all_proteins incluir todas as proteínas funcionalmente relacionadas. Identifique as principais proteínas e vias para cada doença. Associações significativas proteína-doença são definidas como aquelas com escores que excedem um limiar especificado. O escore Z transforma os escores CaseOLAP dentro de cada categoria de doença e considera as proteínas com escores acima de um limiar especificado (indicado pelo sinalizador -z ) como significativas.NOTA: Vias biológicas significativas para cada doença são identificadas automaticamente usando proteínas significativas como entrada para a análise da via do reatoma. Todas essas proteínas são relatadas no result_table.csv resultante na pasta analysis_results, e os números relevantes e os resultados da análise de caminho são gerados automaticamente na pasta analysis_results.Exemplo de comando: python caseolap_lift.py analyze_results -z 3.0 –analyze_core_proteins Revise os resultados da análise e ajuste conforme necessário. O número de proteínas e, portanto, as vias de reactoma enriquecido significativas para cada categoria de doença dependem do limiar de escore z utilizado na análise. Uma tabela de escore z, gerada na saída/analysis_results/zscore_cutoff_table.csv, indica o número de proteínas significativas para cada categoria de doença para ajudar na seleção de um limiar de escore z o mais alto possível, produzindo várias proteínas significativas para cada categoria de doença. 5. Análise preditiva Construa um gráfico de conhecimento.Verifique se os arquivos necessários estão na pasta de resultados, incluindo a pasta kg gerada a partir do pré-processamento (etapa 2.4) e o caseolap.csv dos resultados de mineração de texto nas pastas all_proteins ou core_proteins (etapa 3.2). Projete o gráfico de conhecimento. Dependendo da tarefa a jusante, inclua ou exclua componentes do gráfico de conhecimento completo. O gráfico de conhecimento consiste em escores proteína-doença da mineração de texto e conexões com os recursos da base de conhecimento usados na etapa 2.4 (Figura 4). Inclua a árvore da doença de MeSH com o sinalizador –include_mesh , as interações proteína-proteína de STRING com –include_ppi, as vias de reactoma compartilhadas com –include_pw e a dependência do fator de transcrição de GRNdb/GTEx com –include_tfd. Execute o módulo de construção do gráfico de conhecimento. Indique qual conjunto de resultados de mineração de texto usar para a análise, especificando –analyze_core_proteins incluir apenas as proteínas relacionadas ao termo GO ou –analyze_all_proteins incluir todas as proteínas funcionalmente relacionadas. Por padrão, as pontuações brutas do CaseOLAP são carregadas como os pesos de borda entre os nós da proteína e da doença; Para dimensionar os pesos das bordas, indique –use_z_score ou escores z não negativos com –scale_z_score.Exemplo de comando: python caseolap_lift.py prepare_knowledge_graph –scale_z_score Prever novas associações proteína-doença.Verifique se os arquivos do gráfico de conhecimento, merged_edges.tsv e merged_nodes.tsv, são a saída da etapa anterior (etapa 5.1.3). Execute o script de previsão do gráfico de conhecimento para prever associações proteína-doença até agora não relatadas na literatura científica digitando python kg_analysis/run_kg_analysis.py. Isso é implementado com GraPE30 e usa DistMult31 para produzir incorporações de gráficos de conhecimento, que um perceptron de várias camadas usa para prever as associações proteína-doença. Na pasta saída/kg_analysis, as previsões com probabilidade prevista >0,90 (previsões.csv) e as métricas de avaliação do modelo (eval_results.csv) são salvas.NOTA: Neste trabalho, os parâmetros do modelo escolhido (por exemplo, método de incorporação, modelo de predição de link, hiperparâmetros) foram adaptados para o estudo representativo. Esse código serve de exemplo e ponto de partida para outras análises. Para explorar os parâmetros do modelo, consulte a documentação do GraPE (https://github.com/AnacletoLAB/grape).

Representative Results

Resultados representativos foram produzidos seguindo esse protocolo para estudar as associações entre proteínas mitocondriais (Tabela 2) e oito categorias de doenças cardiovasculares (Tabela 3). Nessas categorias, foram encontradas 363.567 publicações publicadas de 2012 a outubro de 2022 (362.878 categorizadas por metadados MeSH, 6.923 categorizadas por imputação de rótulo). Todas as publicações possuíam títulos, 276.524 tinham resumos e 51.065 tinham o texto completo disponível. No geral, 584 das 1.687 proteínas mitocondriais consultadas foram identificadas nas publicações, enquanto 3.284 de suas 8.026 proteínas funcionalmente relacionadas consultadas foram identificadas. No total, foram identificadas 14 proteínas únicas com escores significativos em todas as categorias de doenças, com limiar de escore z de 3,0 (Figura 5). A análise da via Reactome dessas proteínas revelou 12 vias significativas para todas as doenças (Figura 6). Todas as proteínas, vias, doenças e escores foram integrados em um gráfico de conhecimento (Tabela 4). Este gráfico de conhecimento foi aproveitado para prever 12.688 novas associações proteína-doença e filtrado com um escore de probabilidade de 0,90 para produzir 1.583 previsões de alta confiança. Um exemplo destacado de duas associações proteína-doença é mostrado na Figura 7, ilustrada no contexto de outras entidades biológicas relevantes funcionalmente relacionadas às proteínas. As métricas de avaliação do modelo estão relatadas na Tabela 5. Figura 1: Visualização dinâmica do fluxo de trabalho. Esta figura representa as quatro etapas principais desse fluxo de trabalho. Primeiro, as proteínas relevantes são selecionadas com base nos termos de GO fornecidos pelo usuário (por exemplo, componentes celulares), e as categorias de doenças são preparadas com base nos identificadores MeSH de doença fornecidos pelo usuário. Em segundo lugar, as associações entre proteínas e doenças são calculadas na etapa de mineração de texto. As publicações dentro de um determinado intervalo de datas são baixadas e indexadas. As publicações que estudam doenças são identificadas (através de rótulos MeSH e, opcionalmente, através de rótulos imputados), e seus textos completos são baixados e indexados. Os nomes das proteínas são consultados nas publicações e usados para calcular os escores de associação proteína-doença. Em seguida, após a mineração de texto, essas pontuações ajudam a identificar as principais associações de proteínas e caminhos. Finalmente, constrói-se um gráfico de conhecimento englobando essas proteínas, doenças e suas relações dentro da base de conhecimento biomédico. Novas associações proteína-doença são previstas com base no gráfico de conhecimento construído. Essas etapas utilizam os dados mais recentes disponíveis nas bases de conhecimento biomédico e no PubMed. Clique aqui para ver uma versão maior desta figura. Figura 2: Arquitetura técnica do fluxo de trabalho. Os detalhes técnicos desse fluxo de trabalho são ilustrados nesta figura. O usuário fornece os números da árvore MeSH das categorias de doenças e termo(s) GO. Os documentos de texto são baixados do PubMed, os documentos relevantes para doenças são identificados com base nos rótulos MeSH fornecidos e os documentos sem rótulos MeSH que indicam tópicos recebem rótulos de categoria imputados. As proteínas associadas ao(s) termo(s) GO fornecido(s) são adquiridas. Este conjunto de proteínas é expandido para incluir proteínas que são funcionalmente relacionadas através de interações proteína-proteína, vias biológicas compartilhadas, e dependência de fator de transcrição. Essas proteínas são consultadas em documentos relevantes para a doença e pontuadas pelo CaseOLAP. Clique aqui para ver uma versão maior desta figura. Figura 3: Um exemplo de um documento processado. Um exemplo de um documento de texto analisado e indexado é apresentado aqui. Em ordem, os campos relevantes indicam o nome do índice (_index, _type), o ID do PubMed (_id, pmid), as subseções do documento (título, resumo, full_text, introdução, métodos, resultados, discussão) e outros metadados (ano, MeSH, local, periódico). Apenas para fins de exibição, as subseções do documento são truncadas com reticências. O campo MeSH contém os tópicos do documento, que às vezes podem ser fornecidos pela nossa etapa de imputação de rótulo. Clique aqui para ver uma versão maior desta figura. Figura 4: Esquema gráfico de conhecimento e recursos biomédicos. Esta figura representa o esquema do gráfico de conhecimento. Cada nó e borda representa um tipo de nó ou borda, respectivamente. As bordas entre as doenças cardiovasculares (DCV) e as proteínas são ponderadas pelos escores de CaseOLAP. As bordas da interação proteína-proteína (IBP) são ponderadas pelos escores de confiança STRING. As bordas da TFD (transcription factor depended) derivada do GRNdb/GTEx, as bordas da árvore de doenças derivadas do MeSH e as bordas da via derivada do reactoma não são ponderadas. Clique aqui para ver uma versão maior desta figura. Figura 5: Principais associações proteína-doença. Esta figura apresenta proteínas mitocondriais significativas para cada categoria de doença. A transformação do escore Z foi aplicada aos escores CaseOLAP dentro de cada categoria para identificar proteínas significativas usando um limiar de 3,0. (Topo) Número de proteínas mitocondriais significativas para cada doença: Estes gráficos de violino retratam a distribuição dos escores z para proteínas em cada categoria de doença. O número total de proteínas significativas para cada categoria de doença é mostrado acima de cada parcela de violino. Um total de 14 proteínas únicas foram identificadas como significativas em todas as doenças, e algumas proteínas foram significativas para várias doenças. (Parte inferior) Proteínas com melhor pontuação: O mapa de calor exibe as 10 principais proteínas que obtiveram os maiores escores z médios em todas as doenças. Os valores em branco não representam escore obtido entre a proteína e a doença. Clique aqui para ver uma versão maior desta figura. Figura 6: Vias superiores-associações doença. Esta figura ilustra as principais vias biológicas associadas às categorias de doenças estudadas, determinadas através da análise da via do reatoma. Todas as análises de vias foram filtradas com p < 0,05. Os valores do mapa de calor representam o escore z médio de todas as proteínas dentro da via. (Topo) Vias conservadas entre todas as doenças: No geral, 14 proteínas foram identificadas com relevância para todas as categorias de doenças, e 12 vias conservadas entre todas as categorias de doenças foram reveladas. Um dendrograma foi construído com base na estrutura hierárquica da via para ligar as vias com funções biológicas semelhantes. A altura do dendrograma representa a profundidade relativa dentro da hierarquia da via; Funções biológicas amplas têm membros mais longos, e vias mais específicas têm membros mais curtos. (Parte inferior) Vias distintas para uma categoria de doença: A análise das vias foi realizada usando proteínas que alcançaram um escore z significativo em cada doença. As três principais vias com os menores valores de p associados a cada doença são mostradas e indicadas por asteriscos. Os caminhos podem estar entre os três primeiros em várias doenças. Clique aqui para ver uma versão maior desta figura. Figura 7: Aplicação do deep learning para conclusão do gráfico de conhecimento. Um exemplo de aplicação do aprendizado profundo a um gráfico de conhecimento específico da doença é apresentado nesta figura. Relações ocultas entre proteínas e doenças são previstas, e estas são indicadas em azul. Probabilidades computadas para ambas as previsões são exibidas, com valores variando de 0,0 a 1,0 e com 1,0 indicando uma forte predição. Várias proteínas com interações conhecidas são incluídas, representando interações proteína-proteína, dependência de fator de transcrição e vias biológicas compartilhadas. Para visualização, um subgrafo de alguns nós com relevância para o exemplo destacado é mostrado. Chave: DIC = cardiopatia isquêmica; R-HSA-1430728 = metabolismo; O14949 = citocromo b-c1 complexo subunidade 8; P17568 = NADH desidrogenase (ubiquinona) 1 subunidade beta do subcomplexo 7; Q9NYF8 Bcl-2-associated transcription factor 1, escore: 7,24 x 10−7; P49821 = NADH desidrogenase (ubiquinona) flavoproteína 1, mitocondrial, escore: 1,06 x 10−5; P31930 = citocromo b-c1 complexo subunidade 1, mitocondrial, escore: 4,98 x 10−5; P99999 = citocromo c, escore: 0,399. Clique aqui para ver uma versão maior desta figura. Tabela 1: Fluxo de trabalho e etapas de limitação de taxa. Esta tabela apresenta estimativas aproximadas do tempo computacional para cada estágio do fluxo de trabalho. As opções para incluir componentes do pipeline alterarão o tempo de execução total necessário para concluir a análise. A estimativa de tempo total varia de acordo com os recursos computacionais disponíveis, incluindo as especificações de hardware e configurações de software. Como uma estimativa aproximada, o protocolo levou 36 h de tempo de execução ativo para ser executado em nosso servidor computacional, com seis núcleos, 32 Gb de RAM e 2 Tb de armazenamento, mas isso pode ser mais rápido ou mais lento em outros dispositivos. Clique aqui para baixar esta tabela. Tabela 2: Montagem automática das proteínas componentes celulares. Esta tabela mostra o número de proteínas associadas a um determinado componente celular (i.e., termo GO), proteínas funcionalmente relacionadas a eles via interações proteína-proteína (PPI), vias compartilhadas (PW) e dependência de fatores de transcrição (TFD). O número de proteínas totais é o número de proteínas de todas as categorias anteriores combinadas. Todas as proteínas funcionalmente relacionadas foram obtidas usando os parâmetros padrão do CaseOLAP LIFT. Clique aqui para baixar esta tabela. Tabela 3: Estatísticas de imputação de rótulos MeSH. Esta tabela exibe as categorias de doenças, os números da árvore MeSH usados como o termo pai de todas as doenças incluídas na categoria, o número de artigos do PubMed encontrados em cada categoria de 2012 a 2022 e o número de artigos adicionais incluídos com base na etapa de imputação de rótulo. Clique aqui para baixar esta tabela. Tabela 4: Estatísticas de construção de gráficos de conhecimento. Esta tabela descreve as estatísticas para o tamanho do gráfico de conhecimento construído, incluindo os vários nós e tipos de borda. Os escores CaseOLAP representam a relação entre uma proteína e uma categoria de doença cardiovascular (DCV). Clique aqui para baixar esta tabela. Tabela 5: Estatísticas e validações de predição de gráficos de conhecimento. Esta tabela relata as métricas de avaliação para a predição de link do gráfico de conhecimento de associações novas/ocultas proteína-doença. As bordas do gráfico de conhecimento foram particionadas em conjuntos de dados de treinamento e teste 70/30, e a conectividade gráfica das bordas foi preservada em ambos os conjuntos de dados. A acurácia indica a proporção de predições corretamente classificadas, enquanto a acurácia balanceada corrige o desequilíbrio de classes. A especificidade indica a proporção de predições negativas corretamente classificadas. A precisão indica a proporção de predições positivas corretas de todas as previsões positivas, enquanto a recordação indica a proporção de predições positivas corretas de todas as arestas positivas (ou seja, associações proteína-doença identificadas via mineração de texto). O escore de F1 é a média harmônica da precisão e recordação. A área sob a curva receiver operating characteristic (AUROC) descreve quão bem o modelo distingue entre predições positivas e negativas, com 1,0 indicando um classificador perfeito. A área sob a curva de evocação de precisão (AUPRC) mede o trade-off entre precisão e evocação em limiares de probabilidade variados, com valores mais altos indicando melhor desempenho. Clique aqui para baixar esta tabela.

Discussion

O CaseOLAP LIFT capacita os pesquisadores a investigar associações entre proteínas funcionais (por exemplo, proteínas associadas a um componente celular, processo biológico ou função molecular) e categorias biológicas (por exemplo, doenças). O protocolo descrito deve ser executado na sequência especificada, sendo a seção 2 do protocolo e a seção 3 do protocolo as etapas mais críticas, pois a seção 4 do protocolo e a seção 5 do protocolo dependem de seus resultados. Como alternativa à seção de protocolo 1, o código CaseOLAP LIFT pode ser clonado e acessado a partir do repositório GitHub (https://github.com/CaseOLAP/caseolap_lift). Deve-se notar que, apesar dos testes durante o desenvolvimento do software, bugs podem ocorrer. Em caso afirmativo, a etapa com falha deve ser repetida. Se o problema persistir, é recomendável repetir a seção 1 do protocolo para garantir que a versão mais recente do contêiner docker seja usada. Mais assistência está disponível criando um problema no repositório do GitHub para obter suporte adicional.

Esse método auxilia na geração de hipóteses, permitindo que os investigadores identifiquem entidades de interesse e revelem as potenciais associações entre elas, que podem não ser facilmente acessíveis nos recursos biomédicos existentes. As associações proteína-doença resultantes permitem que os pesquisadores obtenham novos insights por meio das métricas interpretáveis dos escores: os escores de popularidade indicam as proteínas mais estudadas em relação a uma doença, os escores de distinção indicam doenças mais exclusivas de uma proteína e o escore combinado CaseOLAP é uma combinação dos dois. Para evitar identificações falso-positivas (por exemplo, devido a homônimos), algumas ferramentas de mineração de texto utilizam uma lista negra de termos para evitar 9,11. Da mesma forma, o CaseOLAP LIFT também utiliza uma lista negra, mas permite que o usuário adapte a lista negra ao seu caso de uso. Por exemplo, ao estudar a doença arterial coronariana (DAC), “DAC” não deve ser considerado um nome para a proteína “desoxirribonuclease ativada por caspase”. No entanto, ao estudar outros tópicos, “DAC” geralmente pode se referir à proteína.

CaseOLAP LIFT se adapta à quantidade de dados disponíveis para mineração de texto. A funcionalidade de intervalo de datas alivia a carga computacional e cria flexibilidade para a geração de hipóteses (por exemplo, estudar como o conhecimento científico sobre uma associação proteína-doença mudou ao longo do tempo). Enquanto isso, a imputação de rótulos e os componentes de texto completo aumentam o escopo de dados disponíveis para mineração de texto. Ambos os componentes são desabilitados por padrão para reduzir os custos computacionais, mas o usuário pode decidir incluir qualquer um dos componentes. A imputação de rótulos é conservadora e categoriza corretamente a maioria das publicações (87% de precisão), mas erra outros rótulos de categoria (2% lembram). Atualmente, esse método depende de uma heurística baseada em regras que corresponde às palavras-chave da doença, e há planos para melhorar o desempenho por meio do uso de técnicas de modelagem de tópicos de documentos. Como muitos relatórios não categorizados tendem a ser publicações recentes, estudos que investigam um intervalo de datas recente (por exemplo, todas as publicações nos últimos 3 anos) são mais bem atendidos pela desativação da imputação de rótulos. O componente de texto completo aumenta os requisitos de tempo de execução e armazenamento. Notavelmente, apenas uma minoria dos documentos tem o texto completo disponível (~14% dos documentos em nosso estudo). Supondo que os nomes de proteínas mencionados na seção de métodos das publicações são menos prováveis de estarem relacionados aos tópicos da doença, recomenda-se consultar artigos completos excluindo a seção de métodos.

Os escores de associação proteína-doença resultantes são úteis para análises tradicionais, como agrupamento, redução de dimensionalidade ou análises de enriquecimento (por exemplo, GO, vias), com alguma implementação incluída neste pacote de software. Para contextualizar esses escores dentro do conhecimento biomédico existente, um gráfico de conhecimento é construído automaticamente e pode ser explorado usando ferramentas de visualização de gráficos (por exemplo, Neo4j32, Cytoscape33). O gráfico de conhecimento também pode ser usado para análises preditivas (por exemplo, predição de link de relações proteína-doença não relatadas, detecção comunitária de redes de proteínas, métodos de caminhada por caminhos de coleta de prêmios).

Examinamos as métricas de avaliação do modelo para as associações prometidas-doença previstas (Tabela 5). O modelo atribui um escore de probabilidade entre 0,0 e 1,0 para cada associação proteína-doença, com escores mais próximos de 1,0 indicando maior nível de confiança na predição. A avaliação interna do desempenho do modelo, que foi baseada em várias métricas, incluindo o AUROC, precisão, precisão balanceada, especificidade e recall, indicou excelente desempenho geral em seu trabalho. No entanto, a avaliação também destacou uma pontuação bastante ruim para a precisão (0,15) do modelo, resultando em uma pontuação mais baixa de AUPRC e F1. Estudos futuros para melhorar essa métrica ajudarão a elevar o desempenho geral do modelo. Imaginamos que isso poderia ser alcançado implementando modelos mais sofisticados de incorporação de gráficos e previsão de gráficos. Com base na precisão do modelo de 0,15, os investigadores deveriam antecipar aproximadamente 15% de identificações positivas; Em particular, de todas as 12.688 associações proteína-doença previstas pelo modelo, aproximadamente 15% são associações verdadeiro-positivas. Isso pode ser atenuado considerando-se apenas associações proteína-doença com um alto escore de probabilidade (por exemplo, >0,90); Em nosso caso de uso, a filtragem com um limiar de probabilidade de 0,90 levou a predições de alta confiança de 1.583 associações. Os investigadores podem achar útil também inspecionar manualmente essas previsões para garantir alta validade (veja a Figura 7 como exemplo). Uma avaliação externa de nossas previsões determinou que das 310 associações proteína-doença de um extenso banco de dados curado DisGeNet19, 103 foram identificadas em nosso estudo de mineração de texto, e 88 associações adicionais foram previstas por nossa análise de gráfico de conhecimento com um escore de probabilidade >0,90.

No geral, o CaseOLAP LIFT apresenta maior flexibilidade e usabilidade na concepção de análises personalizadas das associações entre grupos de proteínas funcionais e múltiplas categorias de doenças em grandes corpora de texto. Este pacote é simplificado em uma nova interface de linha de comando amigável e é lançado como um contêiner docker, reduzindo assim os problemas associados à configuração dos ambientes de programação e dependências de software. O pipeline CaseOLAP LIFT para estudar proteínas mitocondriais em doenças cardiovasculares pode ser facilmente adaptado; por exemplo, futuras aplicações dessa técnica poderiam envolver a investigação das associações entre quaisquer proteínas associadas a quaisquer termos GO e qualquer categoria biomédica. Além disso, as associações de proteínas-doenças identificadas por esta plataforma de mineração de texto são importantes na preparação do conjunto de dados para o uso de técnicas avançadas de linguagem natural. O gráfico de conhecimento resultante permite que os investigadores convertam esses achados em conhecimento biologicamente informativo e estabelece as bases para análises baseadas em gráficos de acompanhamento.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabalho foi apoiado pelo National Institutes of Health (NIH) R35 HL135772 para P.P., NIH T32 HL13945 para A.R.P. e D.S., NIH T32 EB016640 para A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 para A.R.P. e D.S., NIH R01 HL146739 para I.A., J.R., A.V., K.B., e TC Laubisch Endowment para P.P. na UCLA.

Materials

Software – Docker Docker N/A docker.com

References

  1. The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
  2. Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
  3. Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
  4. Rehm, H. L., et al. ClinGen – The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
  5. Caulfield, M., et al. . The National Genomics Research and Healthcare Knowledgebase. , (2019).
  6. Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
  7. Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043 (2017).
  8. Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108 (2019).
  9. Yu, K. -. H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
  10. Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
  11. Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
  12. Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
  13. Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135 (2021).
  14. Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680 (2016).
  15. Wei, C. -. H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
  16. Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171 (2013).
  17. Wei, C. -. H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
  18. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
  19. Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
  20. Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
  21. Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
  22. Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
  23. Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
  24. Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96 (2021).
  25. Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304 (2022).
  26. Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726 (2017).
  27. Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
  28. Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118 (2021).
  29. Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
  30. Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
  31. Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
  32. . Neo4j Graph Data Platform Available from: https://neo4j.com/ (2022)
  33. Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Play Video

Cite This Article
Pelletier, A. R., Steinecke, D., Sigdel, D., Adam, I., Caufield, J. H., Guevara-Gonzalez, V., Ramirez, J., Verma, A., Bali, K., Downs, K., Wang, W., Bui, A., Ping, P. A Knowledge Graph Approach to Elucidate the Role of Organellar Pathways in Disease via Biomedical Reports. J. Vis. Exp. (200), e65084, doi:10.3791/65084 (2023).

View Video