Um protocolo computacional, CaseOLAP LIFT, e um caso de uso são apresentados para investigar proteínas mitocondriais e suas associações com doenças cardiovasculares, conforme descrito em relatórios biomédicos. Este protocolo pode ser facilmente adaptado para estudar componentes celulares e doenças selecionadas pelo usuário.
O rápido aumento e a grande quantidade de relatórios biomédicos, cada um contendo numerosas entidades e informações ricas, representam um rico recurso para aplicações de mineração de texto biomédico. Essas ferramentas permitem que os pesquisadores integrem, conceituam e traduzam essas descobertas para descobrir novos insights sobre patologia e terapêutica de doenças. Neste protocolo, apresentamos o CaseOLAP LIFT, um novo pipeline computacional para investigar componentes celulares e suas associações de doenças, extraindo informações selecionadas pelo usuário de conjuntos de dados de texto (por exemplo, literatura biomédica). O software identifica proteínas subcelulares e seus parceiros funcionais dentro de documentos relevantes para a doença. Documentos adicionais relevantes para doenças são identificados por meio do método de imputação de rótulos do software. Para contextualizar as associações proteína-doença resultantes e integrar informações de múltiplos recursos biomédicos relevantes, um gráfico de conhecimento é automaticamente construído para análises posteriores. Apresentamos um caso de uso com um corpus de ~34 milhões de documentos de texto baixados on-line para fornecer um exemplo de elucidação do papel das proteínas mitocondriais em fenótipos distintos de doenças cardiovasculares usando este método. Além disso, um modelo de aprendizagem profunda foi aplicado ao gráfico de conhecimento resultante para prever relações não relatadas anteriormente entre proteínas e doenças, resultando em 1.583 associações com probabilidades previstas >0,90 e com uma área sob a curva receiver operating characteristic (AUROC) de 0,91 no conjunto de teste. Este software possui um fluxo de trabalho altamente personalizável e automatizado, com um amplo escopo de dados brutos disponíveis para análise; portanto, usando esse método, associações proteína-doença podem ser identificadas com maior confiabilidade dentro de um corpus de texto.
O estudo de proteínas relacionadas a doenças aumenta o conhecimento científico da patogênese e ajuda a identificar potenciais terapêuticas. Vários grandes corpora de textos de publicações biomédicas, como os 34 milhões de artigos do PubMed contendo títulos de publicações, resumos e documentos de texto completo, relatam novas descobertas que ligam proteínas a doenças. No entanto, esses achados são fragmentados em várias fontes e devem ser integrados para gerar novos insights biomédicos. Existem vários recursos biomédicos para integrar as associações proteína-doença 1,2,3,4,5,6,7. No entanto, esses recursos selecionados são frequentemente incompletos e podem não abranger os resultados mais recentes da pesquisa. Abordagens de mineração de texto são essenciais para extrair e sintetizar associações proteína-doença em grandes corpora textuais, o que resultaria em uma compreensão mais abrangente desses conceitos biomédicos na literatura científica.
Existem múltiplas abordagens biomédicas de mineração de texto para descobrir relações proteína-doença 8,9,10,11,12,13,14, e outras contribuem em parte para determinar essas relações, identificando as proteínas, doenças ou outras entidades biomédicas mencionadas no texto 13,15,16,17, 18,19. No entanto, muitos desses instrumentos carecem de acesso à literatura mais atualizada, com exceção de alguns que são atualizados periodicamente8,11,13,15. Da mesma forma, muitos instrumentos também têm um escopo limitado de estudo, pois estão confinados a amplas doenças ou proteínas predefinidas 9,13. Várias abordagens também são propensas à identificação de falsos positivos dentro do texto; Outros abordaram essas questões com uma lista negra interpretável e global de nomes de proteínas 9,11 ou técnicas de reconhecimento de entidades de nomes menos interpretáveis15,20. Enquanto a maioria dos recursos apresenta apenas resultados pré-computados, algumas ferramentas oferecem interatividade via web apps ou código de software acessível 8,9,11.
Para abordar as limitações acima, apresentamos o seguinte protocolo, CaseOLAP com imputação de rótulo e texto completo (CaseOLAP LIFT), como uma plataforma flexível e personalizável para investigar associações entre proteínas (por exemplo, proteínas associadas a um componente celular) e doenças a partir de conjuntos de dados de texto. Essa plataforma apresenta curadoria automatizada de proteínas termo-específicas de ontologia gênica (GO) (por exemplo, proteínas específicas de organelas), imputação de rótulos de tópicos de documentos ausentes, análise de documentos de texto completo, bem como ferramentas de análise e ferramentas preditivas (Figura 1, Figura 2 e Tabela 1). O CaseOLAP LIFT seleciona proteínas específicas de organelas usando termos GO fornecidos pelo usuário (por exemplo, compartimento de organela) e proteínas funcionalmente relacionadas usando STRING21, Reactome 22 e GRNdb23. Os documentos que estudam doenças são identificados por seus rótulos de cabeçalho de assunto médico anotado no PubMed (MeSH). Para os ~15,1% de documentos sem rótulo, os rótulos são imputados se pelo menos um sinônimo de termo MeSH for encontrado no título ou pelo menos dois forem encontrados no resumo. Isso permite que publicações não categorizadas anteriormente sejam consideradas na análise de mineração de texto. O CaseOLAP LIFT também permite que o usuário selecione seções de publicações (por exemplo, apenas títulos e resumos, texto completo ou texto completo excluindo métodos) dentro de um período de tempo especificado (por exemplo, 2012-2022). O software também seleciona semi-automaticamente uma lista negra específica de casos de uso de nomes de proteínas, reduzindo vitalmente as associações de proteínas-doenças falso-positivas presentes em outras abordagens. No geral, essas melhorias permitem maior personalização e automação, expandem a quantidade de dados disponíveis para análise e produzem associações mais confiáveis de proteínas-doenças a partir de grandes corpora de texto biomédico.
CaseOLAP LIFT incorpora conhecimento biomédico e representa a relação de vários conceitos biomédicos usando um gráfico de conhecimento, que é aproveitado para prever relações ocultas no gráfico. Recentemente, métodos computacionais baseados em grafos têm sido aplicados em cenários biológicos, incluindo a integração e organização de conceitos biomédicos24,25, reaproveitamento e desenvolvimento de fármacos26,27,28, e para a tomada de decisão clínica a partir de dados proteômicos29.
Para demonstrar as utilidades do CaseOLAP LIFT no contexto da construção de um gráfico de conhecimento, destacamos um caso de uso na investigação das associações entre proteínas mitocondriais e oito categorias de doença cardiovascular. Evidências de ~362.000 documentos relevantes para doenças foram analisadas para identificar as principais proteínas mitocondriais e vias associadas às doenças. Em seguida, essas proteínas, suas proteínas funcionalmente relacionadas e seus resultados de mineração de texto foram incorporados em um gráfico de conhecimento. Este gráfico foi aproveitado em uma análise de predição de link baseada em aprendizado profundo para prever associações proteína-doença até agora não relatadas em publicações biomédicas.
A seção de introdução descreve as informações básicas e os objetivos do nosso protocolo. A seção a seguir descreve as etapas do protocolo computacional. Posteriormente, são descritos os resultados representativos desse protocolo. Finalmente, discutimos brevemente os casos de uso de protocolos computacionais, vantagens, desvantagens e aplicações futuras.
O CaseOLAP LIFT capacita os pesquisadores a investigar associações entre proteínas funcionais (por exemplo, proteínas associadas a um componente celular, processo biológico ou função molecular) e categorias biológicas (por exemplo, doenças). O protocolo descrito deve ser executado na sequência especificada, sendo a seção 2 do protocolo e a seção 3 do protocolo as etapas mais críticas, pois a seção 4 do protocolo e a seção 5 do protocolo dependem de seus resultados. Como alternativa à seção de protocolo 1, o código CaseOLAP LIFT pode ser clonado e acessado a partir do repositório GitHub (https://github.com/CaseOLAP/caseolap_lift). Deve-se notar que, apesar dos testes durante o desenvolvimento do software, bugs podem ocorrer. Em caso afirmativo, a etapa com falha deve ser repetida. Se o problema persistir, é recomendável repetir a seção 1 do protocolo para garantir que a versão mais recente do contêiner docker seja usada. Mais assistência está disponível criando um problema no repositório do GitHub para obter suporte adicional.
Esse método auxilia na geração de hipóteses, permitindo que os investigadores identifiquem entidades de interesse e revelem as potenciais associações entre elas, que podem não ser facilmente acessíveis nos recursos biomédicos existentes. As associações proteína-doença resultantes permitem que os pesquisadores obtenham novos insights por meio das métricas interpretáveis dos escores: os escores de popularidade indicam as proteínas mais estudadas em relação a uma doença, os escores de distinção indicam doenças mais exclusivas de uma proteína e o escore combinado CaseOLAP é uma combinação dos dois. Para evitar identificações falso-positivas (por exemplo, devido a homônimos), algumas ferramentas de mineração de texto utilizam uma lista negra de termos para evitar 9,11. Da mesma forma, o CaseOLAP LIFT também utiliza uma lista negra, mas permite que o usuário adapte a lista negra ao seu caso de uso. Por exemplo, ao estudar a doença arterial coronariana (DAC), “DAC” não deve ser considerado um nome para a proteína “desoxirribonuclease ativada por caspase”. No entanto, ao estudar outros tópicos, “DAC” geralmente pode se referir à proteína.
CaseOLAP LIFT se adapta à quantidade de dados disponíveis para mineração de texto. A funcionalidade de intervalo de datas alivia a carga computacional e cria flexibilidade para a geração de hipóteses (por exemplo, estudar como o conhecimento científico sobre uma associação proteína-doença mudou ao longo do tempo). Enquanto isso, a imputação de rótulos e os componentes de texto completo aumentam o escopo de dados disponíveis para mineração de texto. Ambos os componentes são desabilitados por padrão para reduzir os custos computacionais, mas o usuário pode decidir incluir qualquer um dos componentes. A imputação de rótulos é conservadora e categoriza corretamente a maioria das publicações (87% de precisão), mas erra outros rótulos de categoria (2% lembram). Atualmente, esse método depende de uma heurística baseada em regras que corresponde às palavras-chave da doença, e há planos para melhorar o desempenho por meio do uso de técnicas de modelagem de tópicos de documentos. Como muitos relatórios não categorizados tendem a ser publicações recentes, estudos que investigam um intervalo de datas recente (por exemplo, todas as publicações nos últimos 3 anos) são mais bem atendidos pela desativação da imputação de rótulos. O componente de texto completo aumenta os requisitos de tempo de execução e armazenamento. Notavelmente, apenas uma minoria dos documentos tem o texto completo disponível (~14% dos documentos em nosso estudo). Supondo que os nomes de proteínas mencionados na seção de métodos das publicações são menos prováveis de estarem relacionados aos tópicos da doença, recomenda-se consultar artigos completos excluindo a seção de métodos.
Os escores de associação proteína-doença resultantes são úteis para análises tradicionais, como agrupamento, redução de dimensionalidade ou análises de enriquecimento (por exemplo, GO, vias), com alguma implementação incluída neste pacote de software. Para contextualizar esses escores dentro do conhecimento biomédico existente, um gráfico de conhecimento é construído automaticamente e pode ser explorado usando ferramentas de visualização de gráficos (por exemplo, Neo4j32, Cytoscape33). O gráfico de conhecimento também pode ser usado para análises preditivas (por exemplo, predição de link de relações proteína-doença não relatadas, detecção comunitária de redes de proteínas, métodos de caminhada por caminhos de coleta de prêmios).
Examinamos as métricas de avaliação do modelo para as associações prometidas-doença previstas (Tabela 5). O modelo atribui um escore de probabilidade entre 0,0 e 1,0 para cada associação proteína-doença, com escores mais próximos de 1,0 indicando maior nível de confiança na predição. A avaliação interna do desempenho do modelo, que foi baseada em várias métricas, incluindo o AUROC, precisão, precisão balanceada, especificidade e recall, indicou excelente desempenho geral em seu trabalho. No entanto, a avaliação também destacou uma pontuação bastante ruim para a precisão (0,15) do modelo, resultando em uma pontuação mais baixa de AUPRC e F1. Estudos futuros para melhorar essa métrica ajudarão a elevar o desempenho geral do modelo. Imaginamos que isso poderia ser alcançado implementando modelos mais sofisticados de incorporação de gráficos e previsão de gráficos. Com base na precisão do modelo de 0,15, os investigadores deveriam antecipar aproximadamente 15% de identificações positivas; Em particular, de todas as 12.688 associações proteína-doença previstas pelo modelo, aproximadamente 15% são associações verdadeiro-positivas. Isso pode ser atenuado considerando-se apenas associações proteína-doença com um alto escore de probabilidade (por exemplo, >0,90); Em nosso caso de uso, a filtragem com um limiar de probabilidade de 0,90 levou a predições de alta confiança de 1.583 associações. Os investigadores podem achar útil também inspecionar manualmente essas previsões para garantir alta validade (veja a Figura 7 como exemplo). Uma avaliação externa de nossas previsões determinou que das 310 associações proteína-doença de um extenso banco de dados curado DisGeNet19, 103 foram identificadas em nosso estudo de mineração de texto, e 88 associações adicionais foram previstas por nossa análise de gráfico de conhecimento com um escore de probabilidade >0,90.
No geral, o CaseOLAP LIFT apresenta maior flexibilidade e usabilidade na concepção de análises personalizadas das associações entre grupos de proteínas funcionais e múltiplas categorias de doenças em grandes corpora de texto. Este pacote é simplificado em uma nova interface de linha de comando amigável e é lançado como um contêiner docker, reduzindo assim os problemas associados à configuração dos ambientes de programação e dependências de software. O pipeline CaseOLAP LIFT para estudar proteínas mitocondriais em doenças cardiovasculares pode ser facilmente adaptado; por exemplo, futuras aplicações dessa técnica poderiam envolver a investigação das associações entre quaisquer proteínas associadas a quaisquer termos GO e qualquer categoria biomédica. Além disso, as associações de proteínas-doenças identificadas por esta plataforma de mineração de texto são importantes na preparação do conjunto de dados para o uso de técnicas avançadas de linguagem natural. O gráfico de conhecimento resultante permite que os investigadores convertam esses achados em conhecimento biologicamente informativo e estabelece as bases para análises baseadas em gráficos de acompanhamento.
The authors have nothing to disclose.
Este trabalho foi apoiado pelo National Institutes of Health (NIH) R35 HL135772 para P.P., NIH T32 HL13945 para A.R.P. e D.S., NIH T32 EB016640 para A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 para A.R.P. e D.S., NIH R01 HL146739 para I.A., J.R., A.V., K.B., e TC Laubisch Endowment para P.P. na UCLA.