Apresentamos um protocolo e código de programação associado, bem como amostras de metadados para apoiar uma identificação automatizada baseada em nuvem de associação de frases-categoria representando conceitos exclusivos no domínio de usuário selecionado conhecimento na literatura biomédica. A associação de frase-categoria quantificada pelo presente protocolo pode facilitar na análise de profundidade no domínio do conhecimento selecionado.
A acumulação rápida de dados textuais biomédicos longe excedeu a capacidade humana de curadoria manual e análise, necessitando de novas ferramentas de mineração de texto para extrair ideias biológicas de grandes volumes de relatórios científicos. O pipeline de reconhecimento de contexto semântico Online Analytical Processing (CaseOLAP), desenvolvido em 2016, com êxito quantifica relacionamentos frase-categoria definida pelo usuário através da análise de dados textuais. CaseOLAP tem muitas aplicações biomédicas.
Temos desenvolvido um protocolo para um ambiente baseado em nuvem, apoiando a frase de fim-de-final-mineração e plataforma de análises. Nosso protocolo inclui pré-processamento de dados (por exemplo, transferindo, extração e análise de documentos de texto), indexação e pesquisa com Elasticsearch, criando uma estrutura de documento funcional chamado texto-cubo e quantificar as relações de frase-categoria usando o algoritmo de CaseOLAP do núcleo.
Nossa pré-processamento de dados gera mapeamentos chave-valor para todos os documentos envolvidos. Os dados pré-processado são indexados para efectuar uma pesquisa de documentos, incluindo as entidades, o que facilita ainda mais a criação de texto-cubo e cálculo de Pontuação de CaseOLAP. Os escores brutos obtidos do CaseOLAP são interpretados usando uma série de análises Integrativa, incluindo a redução de dimensionalidade, clusterização, temporal e de análises geográficas. Além disso, os escores de CaseOLAP são usados para criar um banco de dados gráfico, que permite o mapeamento de semântico dos documentos.
CaseOLAP define a frase-categoria relações em um exato (identifica as relações), consistente (altamente reprodutível) e de forma eficiente (processos 100.000 palavras/seg). Na sequência deste protocolo, os usuários podem acessar um ambiente de computação em nuvem para oferecer suporte a suas próprias configurações e aplicações de CaseOLAP. Esta plataforma oferece maior acessibilidade e capacita a Comunidade biomédica com ferramentas de mineração de frase para aplicações de pesquisa biomédica generalizada.
Avaliação manual de milhões de arquivos de texto para o estudo da Associação de frase-categoria (por exemplo., faixa etária para associação de proteína) é incomparável com a eficiência fornecida por um método computacional automatizado. Queremos introduzir a plataforma baseada em nuvem sensível ao contexto semântico Online Analytical Processing (CaseOLAP) como um método de mineração de frase para computação automatizada da associação da categoria-frase no contexto biomédico.
A plataforma CaseOLAP, que primeiro foi definida em 20161, é muito eficiente em comparação com os métodos tradicionais de gerenciamento de dados e computação por causa de sua gestão de documento funcional chamado texto-cubo2,3, 4, que distribui os documentos, mantendo a hierarquia e bairros subjacentes. Tiver sido aplicado em investigação biomédica5 para estudar a associação entidade-categoria. A plataforma de CaseOLAP consiste em seis etapas principais, incluindo download e extração de dados, análise, indexação, criação de texto-cubo, contagem de entidade e cálculo de Pontuação de CaseOLAP; Qual é o foco principal do protocolo (Figura 1, Figura 2, tabela 1).
Para implementar o algoritmo de CaseOLAP, o usuário configura a categorias de interesse (por exemplo, doença, sinais e sintomas, grupos de idade, diagnóstico) e entidades de interesse (por exemplo, proteínas, drogas). Um exemplo de uma categoria incluída neste artigo é a ‘Grupos de idade’, que tem ‘Infantil’, ‘criança’, ‘adolescente’, e ‘adultas’ subcategorias como células do cubo-texto e nomes de proteína (sinônimos) e abreviaturas como entidades. Medical Subject Headings (MeSH) são implementados para recuperar publicações correspondentes às categorias definidas (tabela 2). Descritores de malha são organizados em uma estrutura de árvore hierárquica para permitir a busca de publicações em diferentes níveis de especificidade (um exemplo mostrado na Figura 3). A plataforma CaseOLAP utiliza a funcionalidade de indexação e busca de dados para a curadoria dos documentos associados a uma entidade que facilitar ainda mais o documento de mapeamento de entidade contagem e cálculo de Pontuação de CaseOLAP.
Os detalhes do cálculo CaseOLAP Pontuação está disponível em anteriores Publicações1,5. Esta pontuação é calculada usando critérios específicos de classificação com base na estrutura de documento subjacente do texto-cubo. O resultado final é o produto de integridade, popularidadee distinção. Integridade descreve-se uma entidade representativa é uma unidade semântica integral que coletivamente se refere a um conceito significativo. A integridade da frase definida pelo usuário é levado para ser 1.0 porque ele permanece como uma frase padrão na literatura. Distintividade representa a importância relativa de uma frase em um subconjunto dos documentos em comparação com o resto das outras células. Primeiro calcula a relevância de uma entidade para uma célula específica, comparando a ocorrência do nome proteína no conjunto de dados de destino e fornece uma pontuação normalizada de distintividade . Popularidade representa o fato de que a frase com uma pontuação mais elevada de popularidade aparece mais frequentemente em um subconjunto dos documentos. Nomes raros de proteína em uma célula são classificados em baixo, enquanto um aumento na sua frequência de menção tem um retorno decrescente devido a implementação da função logarítmica da frequência. Estes três conceitos de medição quantitativa depende da frequência de (1) o termo da entidade sobre uma célula e entre as células e (2) o número de documentos com essa entidade (frequência de documento) dentro da célula e entre as células.
Temos estudado dois cenários representativos usando um conjunto de dados PubMed e nosso algoritmo. Estamos interessados em proteínas como mitocondriais estão associados com duas categorias únicas de descritores de malha; “Faixas etárias” e “doenças nutricionais e metabólicas”. Especificamente, nós obtida 15,728,250 publicações de publicações de 20 anos, coletadas pelo PubMed (1998 a 2018), entre eles, 8.123.458 resumos originais tem tido descritores de malha completo. Por conseguinte, 1.842 proteína mitocondrial humano nomes (incluindo abreviações e sinônimos), adquiridas de UniProt (uniprot.org) bem como de MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), são sistematicamente examinados. Suas associações com essas 8.899.019 publicações e entidades foram estudadas usando nosso protocolo; Temos construído um texto-cubo e calculadas as respectivas pontuações CaseOLAP.
Nós demonstramos que o algoritmo de CaseOLAP pode criar uma associação de frase com base quantitativa para uma categoria de conhecimento sobre grandes volumes de dados textuais para extração de insights significativos. Seguindo o nosso protocolo, pode-se construir o quadro de CaseOLAP para criar um cubo de texto desejado e quantificar associações de entidade-categoria através do cálculo de Pontuação de CaseOLAP. Os escores brutos obtidos de CaseOLAP podem ser tomados para análises Integrativa, incluindo a redução de dimensionalidade, cluster, análise temporal e geográfica, bem como a criação de um banco de dados gráfico que permite o mapeamento de semântico dos documentos.
Aplicabilidade do algoritmo. Exemplos de entidades definidas pelo usuário, além de proteínas, podem ser uma lista de nomes de gene, drogas, sinais específicos e sintomas, incluindo suas siglas e sinônimos. Além disso, há muitas escolhas para a seleção de categoria facilitar o usuário-definido biomédicas análises específicas (por exemplo, anatomia [A], disciplina e ocupação [H], fenômenos e processos [G]). Em nossos dois casos de uso, todas as publicações científicas e seus dados textuais são recuperados do banco de dados MEDLINE, usando o PubMed como o motor de busca, ambos geridos pela Biblioteca Nacional de medicina. No entanto, a plataforma de CaseOLAP pode ser aplicada a outros bancos de dados de interesse contendo documentos biomédicos com dados textuais tais como o FDA adversos evento Reporting System (fazendas). Este é um banco de dados aberto, contendo informações sobre eventos adversos médicos e relatórios de erros de medicação submetidos ao FDA. Em contraste com o MEDLINE e fazendas, bancos de dados contendo registros eletrônicos de saúde de pacientes de hospitais são não aberto ao público e são restritos pelo Health Insurance Portability and Accountability Act, conhecido como HIPAA.
CaseOLAP algoritmo foi aplicado com sucesso para os diferentes tipos de dados (por exemplo, artigos de notícias)1. A implementação deste algoritmo em documentos biomédicos foi feita em 20185. Os requisitos para a aplicabilidade do algoritmo de CaseOLAP é que cada um dos documentos deve ser atribuído com palavras-chave associadas os conceitos (por exemplo, descritores MeSH em publicações biomédicas, palavras-chave em artigos de notícias). Se não se encontram palavras-chave, um pode aplicar Autophrase6,7 para coletar top frases representativas e construir a lista de entidades antes de implementar nosso protocolo. Nosso protocolo não fornece o passo para executar Autophrase.
Comparação com outros algoritmos. O conceito de uso de um cubo de dados8,9,10 e um texto-cubo2,3,4 tem vindo a evoluir desde 2005 com novos avanços para tornar mais aplicável a mineração de dados. O conceito de processamento analítico Online (OLAP)11,12,13,14,15 em mineração de dados e business intelligence remonta a 1993. OLAP, em geral, agrega as informações de vários sistemas e armazena-lo em um formato multidimensional. Existem diferentes tipos de sistemas OLAP implementados em mineração de dados. Por exemplo, processamento de transação/analítica de híbrido (1) (HTAP)16,17, (2) Multidimensional OLAP (MOLAP)18,19-cubo OLAP relacional (ROLAP) de base e (3)20.
Especificamente, o algoritmo de CaseOLAP tem sido comparado com numerosos algoritmos existentes, especificamente, com suas melhorias de segmentação de frase, incluindo TF-IDF + Seg, MCX + Seg, MCX e SegPhrase. Além disso, RepPhrase (RP, também conhecido como SegPhrase +) tem sido comparado com suas próprias variações de ablação, incluindo (1) RP sem a medida de integridade incorporada (RP n INT), RP (2), sem a medida de popularidade incorporada (RP n POP) e (3) RP sem o Medida da distintividade incorporada (RP n DIS). Os resultados de benchmark são mostrados no estudo por Fangbo Tao et al1.
Existem ainda desafios na mineração de dados que pode adicionar funcionalidade adicional sobre salvando e recuperando os dados do banco de dados. Sensível ao contexto semântico Analytical Processing (CaseOLAP) sistematicamente implementa o Elasticsearch para construir um banco de dados de indexação de milhões de documentos (protocolo 5). O texto-Cube é uma estrutura de documento construída sobre os dados indexados com categorias fornecido pelo usuário (protocolo 6). Isto melhora a funcionalidade aos documentos dentro e através de célula do texto-cubo e permitir-nos calcular a frequência do termo das entidades sobre um documento e a frequência de documento sobre uma célula específica (8 do protocolo). O resultado final de CaseOLAP utiliza esses cálculos de frequência para uma pontuação final de saída (protocolo 9). Em 2018, implementamos este algoritmo para estudar proteínas ECM e seis doenças de coração, para analisar as associações de proteína-doença. Os detalhes deste estudo podem ser encontrados no estudo por Liem, D.A. et al.5. indicando que o CaseOLAP podia ser amplamente utilizado na Comunidade biomédica, explorando uma variedade de doenças e mecanismos.
Limitações do algoritmo. Mineração de frase em si é uma técnica para gerenciar e recuperar conceitos importantes de dados textuais. Descobrindo a associação entidade-categoria como uma quantidade matemática (vetor), essa técnica é incapaz de perceber a polaridade (por exemplo, a inclinação positiva ou negativa) da associação. Se pode construir a sumarização quantitativa dos dados utilizando a estrutura do documento de texto-Cude com entidades afectadas e categorias, mas um conceito qualitativo com granularidades microscópicas não pode ser alcançado. Alguns conceitos estão em constante evolução do passado até agora. O resumo apresentado por uma associação de entidade específica-categoria inclui todas as incidências em toda a literatura. Este pode faltar a propagação temporal da inovação. No futuro, pretendemos abordar estas limitações.
Aplicações futuras. Cerca de 90% dos dados acumulados no mundo é nos dados de texto não estruturados. Encontrar uma frase representativa e relação com as entidades incorporadas no texto é uma tarefa muito importante para a implementação de novas tecnologias (por exemplo, aprendizagem de máquina, extração de informações, Artificial Intelligence). Para os dados de texto da máquina legível, dados precisam ser organizados em banco de dados sobre os quais a próxima camada de ferramentas poderia ser implementada. No futuro, este algoritmo pode ser um passo crucial na tomada mais funcional para a recuperação da informação e a quantificação das associações entidade-categoria de mineração de dados.
The authors have nothing to disclose.
Este trabalho foi financiado em parte pelo nacional do coração, pulmão e sangue Instituto: R35 HL135772 (a P. Ping); Instituto Nacional de ciências médicas do General: U54 GM114833 (a P. Ping, K. Watson e W. Wang); U54 GM114838 (para J. Han); um presente da Hellen & Larry Hoag Foundation e Dr. S. Soares; e a doação de T.C. Laubisch na UCLA (a P. Ping).