Vi presentiamo un protocollo e codice di programmazione associato, nonché esempi di metadati per supportare un’identificazione automatizzata basata su cloud dell’associazione di categoria di frasi che rappresentano concetti unici nel dominio selezionato conoscenza utente nella letteratura biomedica. L’associazione di frase-categoria quantificata dal presente protocollo può facilitare un’analisi approfondita del dominio di conoscenza selezionato.
Il rapido accumulo di dati testuali biomedicali ha superato la capacità umana di curatela manuale e analisi, che richiedono nuovi strumenti di text mining per estrarre intuizioni biologiche da grandi volumi di relazioni scientifiche. La pipeline di Context-aware semantico Online Analytical Processing (CaseOLAP), sviluppata nel 2016, quantifica con successo relazioni di frase-categoria definita dall’utente attraverso l’analisi dei dati testuali. CaseOLAP ha molte applicazioni biomediche.
Abbiamo sviluppato un protocollo per un ambiente basato su cloud supporta la-to-end frase-estrazione mineraria e la piattaforma di analisi. Il nostro protocollo include dati di pre-elaborazione (ad esempio, scaricare, l’estrazione e l’analisi di documenti di testo), indicizzazione e ricerca con Elasticsearch, creazione di una struttura funzionale documento chiamato testo-Cube e quantificare le relazioni frase-categoria utilizzando l’algoritmo di CaseOLAP di nucleo.
I nostri dati di pre-elaborazione genera mapping di chiave-valore per tutti i documenti interessati. I dati pre-elaborati vengono indicizzati per effettuare una ricerca dei documenti, comprese le persone giuridiche, che facilita ulteriormente la creazione di testo-cubo e calcolo del Punteggio di CaseOLAP. I punteggi grezzi ottenuti di CaseOLAP vengono interpretati utilizzando una serie di analisi integrative, compresa la riduzione della dimensionalità, clustering, temporale e analisi geografiche. Inoltre, i punteggi di CaseOLAP vengono utilizzati per creare un database grafico, che consente il mapping semantico dei documenti.
CaseOLAP definisce la frase-categoria relazioni in modo accurato (identifica relazioni), coerente (altamente riproducibili) e in modo efficiente (processi 100.000 parole/sec). A seguito di questo protocollo, gli utenti possono accedere un ambiente di cloud computing per supportare le proprie configurazioni e applicazioni di CaseOLAP. Questa piattaforma offre una maggiore accessibilità e autorizza la comunità biomedica con strumenti di frase-mining applications diffusa ricerca biomedica.
Valutazione manuale di milioni di file di testo per lo studio dell’associazione frase-categoria (ad es.., età gruppo all’associazione di proteine) è incomparabile con l’efficienza fornita da un metodo di calcolo automatico. Vogliamo introdurre la piattaforma di cloud-based Context-aware semantico Online Analytical Processing (CaseOLAP) come un metodo di frase-minerario per calcolo automatico dell’associazione di categoria di frase in ambito biomedico.
La piattaforma CaseOLAP, che è stata definita in primo luogo nel 20161, è molto efficiente rispetto ai metodi tradizionali di gestione dei dati e calcolo a causa della sua gestione funzionale documento chiamato testo-Cube2,3, 4, che distribuisce i documenti pur mantenendo la sottostante gerarchia e quartieri. È stato applicato nella ricerca biomedica5 per studiare entità-categoria associazione. La piattaforma CaseOLAP è costituito da sei passaggi principali, tra cui download ed estrazione di dati, l’analisi, indicizzazione, creazione del testo-cubo, conteggio delle entità e calcolo di Punteggio CaseOLAP; che è l’obiettivo principale del protocollo (Figura 1, figura 2, tabella 1).
Per implementare l’algoritmo di CaseOLAP, l’utente imposta la categoria di interesse (ad es., malattia, segni e sintomi, fasce d’età, diagnosi) e le entità di interesse (ad es., proteine, farmaci). Un esempio di una categoria inclusa in questo articolo è il ‘Età’, che ha ‘Neonato’, ‘bambino’, ‘adolescenziale’, e ‘adulte’ sottocategorie come celle di testo-cubo e proteina nomi (sinonimi) e abbreviazioni come entità. Medical Subject Headings (MeSH) vengono implementati per recuperare le pubblicazioni corrispondenti alle categorie definite (tabella 2). Descrittori di maglia sono organizzati in una struttura gerarchica ad albero per consentire la ricerca di pubblicazioni a diversi livelli di specificità (un esempio è mostrato nella Figura 3). La piattaforma CaseOLAP utilizza la funzionalità di indicizzazione e ricerca di dati per la curatela dei documenti associati a un’entità che favoriscano ulteriormente documento di mapping di entità conteggio e calcolo del Punteggio di CaseOLAP.
I dettagli del calcolo punteggio CaseOLAP è disponibile in precedenti pubblicazioni1,5. Questo punteggio viene calcolato utilizzando i criteri di classificazione specifico basati sulla struttura di documento di testo-cubo sottostante. Il Punteggio finale è il prodotto di integrità, la popolaritàe carattere distintivo. L’integrità descrive se un’entità rappresentativa è un’unità integrale semantica che collettivamente si riferisce ad un concetto significativo. L’ integrità della frase definita dall’utente viene considerato come 1.0 perché si erge come una frase standard nella letteratura. Carattere distintivo rappresenta l’importanza relativa di una frase in un sottoinsieme di documenti rispetto al resto delle altre cellule. Prima calcola la pertinenza di un’entità a una cella specifica confrontando l’occorrenza del nome della proteina nel set di dati di destinazione e fornisce un punteggio normalizzato di carattere distintivo . Popolarità rappresenta il fatto che la frase con un punteggio più alto gradimento compare più frequentemente in un sottoinsieme di documenti. Nomi di proteina rara in una cella vengono classificati in basso, mentre un aumento della loro frequenza di menzione ha un ritorno diminuzione grazie all’implementazione della funzione logaritmica di frequenza. Questi tre concetti di misura quantitativamente dipende dalla frequenza (1) termine dell’entità su una cella e tra le cellule e (2) numero di documenti aventi tale entità (frequenza documento) all’interno della cellula e attraverso le cellule.
Abbiamo studiato due scenari rappresentativi utilizzando un set di dati di PubMed e il nostro algoritmo. Siamo interessati in proteine mitocondriali come sono associati due categorie univoche dei descrittori MeSH; “Età” e “malattie nutrizionali e metaboliche”. In particolare, abbiamo recuperato 15,728,250 pubblicazioni da pubblicazioni di 20 anni raccolti da PubMed (1998 a 2018), fra loro, 8.123.458 unici estratti hanno avuto completo maglia descrittori. Di conseguenza, 1.842 proteina mitocondriale umana nomi (abbreviazioni e sinonimi), acquistati da UniProt (http://www.UniProt.org/) come pure da MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), sono sistematicamente esaminato. Loro associazioni con questi 8.899.019 pubblicazioni ed entità sono stati studiati usando il nostro protocollo; Abbiamo costruito un testo-cubo e calcolati i rispettivi punteggi di CaseOLAP.
Abbiamo dimostrato che l’algoritmo di CaseOLAP possibile creare un’associazione quantitativa di frase basata a una categoria basata sulla conoscenza sopra grandi volumi di dati testuali per l’estrazione di approfondimenti significativi. Seguendo il nostro protocollo, uno può costruire il quadro di CaseOLAP per creare un cubo di testo desiderato e quantificare le associazioni di entità-categoria attraverso il calcolo del Punteggio di CaseOLAP. I punteggi grezzi ottenuti di CaseOLAP possono essere adottati per analisi integrative, compresa la riduzione della dimensionalità, clustering, l’analisi temporale e geografica, nonché la creazione di un database grafico che consente la mappatura semantica dei documenti.
Applicabilità dell’algoritmo. Esempi di entità definite dall’utente, diverse proteine, potrebbero essere un elenco di nomi di gene, droghe, segni e sintomi specifici comprese le loro abbreviazioni e sinonimi. Inoltre, ci sono molte scelte per la selezione di categoria facilitare analisi biomediche definito dall’utente specifiche (ad es., anatomia [A], disciplina e occupazione [H], fenomeni e processi [G]). Nei nostri due casi d’uso, tutte le pubblicazioni scientifiche e loro dati testuali vengono recuperati dal database MEDLINE utilizzando PubMed come motore di ricerca, entrambi gestiti dalla National Library of Medicine. Tuttavia, la piattaforma di CaseOLAP può essere applicata ad altri database di interesse contenente documenti biomedici con dati testuali quali la FDA negativi eventi Reporting System (FAERS). Si tratta di un database aperto contenente informazioni sul medicali eventi avversi e report di errore farmaco presentato alla FDA. In contrasto con MEDLINE e FAERS, database negli ospedali contenenti electronic health record da pazienti non siano aperte al pubblico e sono limitati dall’Health Insurance Portability and Accountability Act conosciuto come HIPAA.
Algoritmo di CaseOLAP è stato applicato con successo per i diversi tipi di dati (ad es., articoli di notizie)1. L’implementazione di questo algoritmo in biomedical documenti compiuto nel 20185. I requisiti per l’applicabilità dell’algoritmo di CaseOLAP è che ciascuno dei documenti deve essere assegnato con parole chiave associate con i concetti (ad esempio i descrittori MeSH in pubblicazioni biomediche, parole chiave in articoli di notizie). Se non si trovano parole chiave, si può applicare Autophrase6,7 per raccogliere frasi rappresentative superiori e creare un elenco di entità prima di implementare il nostro protocollo. Il nostro protocollo non prevede il passaggio per eseguire Autophrase.
Confronto con altri algoritmi di. Il concetto dell’utilizzo di un cubo di dati8,9,10 e un testo-Cube2,3,4 si è evoluto dal 2005 con nuovi progressi per rendere il data mining dei dati più applicabile. Il concetto di elaborazione analitica Online (OLAP)11,12,13,14,15 in business intelligence e data mining dati risale al 1993. OLAP, in generale, aggrega le informazioni provenienti da più sistemi e lo memorizza in un formato multi-dimensionale. Ci sono diversi tipi di sistemi OLAP implementati nel data mining. Ad esempio elaborazione delle transazioni/analitica (1) ibrido (HTAP)16,17, (2) OLAP multidimensionale (MOLAP)18,19-cubo OLAP relazionale (ROLAP) fondate e (3)20.
In particolare, l’algoritmo di CaseOLAP è stato confrontato con numerosi algoritmi esistenti, in particolare, con i miglioramenti della segmentazione loro frase, tra cui TF-IDF + Seg, MCX + Seg, MCX e SegPhrase. Inoltre, RepPhrase (RP, noto anche come SegPhrase +) è stato confrontato con un proprio variazioni di ablazione, inclusi (1) RP senza la misura di integrità incorporata (RP INT n), (2) RP senza misura la popolarità incorporata (RP No POP) e (3) RP senza il Misura di carattere distintivo incorporato (RP No DIS). I risultati dei benchmark sono mostrati nello studio di Fangbo Tao et al.1.
Ci sono ancora sfide sul data mining, che possono aggiungere funzionalità aggiuntive nel corso di salvataggio e recupero dei dati dal database. Consapevoli del contesto semantico Analytical Processing (CaseOLAP) implementa sistematicamente la Elasticsearch per costruire un database di indicizzazione di milioni di documenti (protocollo n. 5). Il testo-cubo è una struttura di documento costruita sopra i dati indicizzati con categorie fornito dall’utente (protocollo n. 6). Questo migliora la funzionalità per i documenti all’interno e attraverso la cella del testo-cubo e ci permettono di calcolare la frequenza di termine delle entità sopra un documento e il documento frequenza sopra una cella specifica (protocollo n. 8). Il Punteggio finale di CaseOLAP utilizza questi calcoli di frequenza per un punteggio finale di uscita (protocollo n. 9). Nel 2018, abbiamo implementato questo algoritmo per lo studio di proteine ECM e sei cuore malattie per analizzare le associazioni proteina-malattia. I dettagli di questo studio possono essere trovati nello studio di Liem, D.A. et al.5. che indica che il CaseOLAP potrebbe essere ampiamente usato nella comunità biomedica esplorare una varietà di malattie e meccanismi.
Limiti dell’algoritmo. Data mining di frase stessa è una tecnica per gestire e recuperare i concetti importanti da dati testuali. Scoprendo l’associazione di categoria di entità come una quantità matematica (vettore), questa tecnica è in grado di capire la polarità (ad es., inclinazione positiva o negativa) dell’associazione. Uno può costruire il Riepilogo quantitativo dei dati che utilizza la struttura del documento di testo-Cude con casi assegnati e categorie, ma un concetto qualitativo con granularità microscopica non può essere raggiunto. Alcuni concetti sono in continua evoluzione dal passato fino ad ora. Il riepilogo presentato per un’associazione di categoria di entità specifica include tutte le incidenze in tutta la letteratura. Questo può mancare la propagazione temporale dell’innovazione. In futuro, prevediamo di risolvere queste limitazioni.
Future applicazioni. Circa il 90% dei dati accumulati nel mondo è nei dati di testo non strutturati. Trovare una frase rappresentativa e la relazione con le entità incorporati nel testo è un compito molto importante per l’implementazione delle nuove tecnologie (ad es., Machine Learning, estrazione di informazioni, l’intelligenza artificiale). Per rendere i dati di testo macchina leggibile, i dati devono essere organizzate nel database su cui lo strato successivo di strumenti potrebbe essere implementato. In futuro, questo algoritmo può essere un passo cruciale nel rendere più funzionale per il recupero di informazioni e la quantificazione delle associazioni di categoria di entità datamining.
The authors have nothing to disclose.
Questo lavoro è stato supportato in parte dal National Heart, Lung e Blood Institute: HL135772 R35 (a P. Ping); Istituto nazionale di scienze mediche generali: U54 GM114833 (a P. Ping, K. Watson e Wang W.); U54 GM114838 (per J. Han); un regalo dal Hellen & Larry Hoag Foundation e Setty Dr. S.; e l’investitura del T.C. Laubisch presso la UCLA (a P. Ping).