Wir präsentieren Ihnen ein Protokoll und zugehörigen Programmcode sowie Metadaten Proben, eine Cloud-basierte automatische Identifikation von Phrasen-Kategorie Verband, einzigartige Konzepte in ausgewählten Knowledge Benutzerdomäne in der biomedizinischen Literatur zu unterstützen. Die Satz-Kategorie Assoziation quantifiziert durch dieses Protokoll kann eingehende Analyse im Bereich ausgewählten Knowledge erleichtern.
Die schnelle Anhäufung von biomedizinischen Textdaten hat die menschliche Fähigkeit der manuellen Kuration und Analyse, erfordern neuartige Text-Mining-Tools um biologische Erkenntnisse aus große Mengen an wissenschaftliche Berichte zu extrahieren weit übertroffen. Die kontextsensitive semantische Online Analytical Processing (CaseOLAP)-Pipeline, entwickelt im Jahr 2016, quantifiziert erfolgreich benutzerdefinierten Satz-Kategorie-Beziehungen durch die Analyse von Textdaten. CaseOLAP hat viele biomedizinische Anwendungen.
Wir haben ein Protokoll für eine Cloud-basierte Umgebung Unterstützung der End-to-End Satz-Bergbau und Analyse-Plattform entwickelt. Unser Protokoll beinhaltet Daten Vorverarbeitung (z. B. Download, Extraktion und Analyse Textdokumente), Indizierung und Suche mit Elasticsearch, Erstellung einer funktionalen Dokumentenstruktur namens Text-Cube und Quantifizierung der Satz-Kategorie-Beziehungen Verwendung des Kern-CaseOLAP-Algorithmus.
Unsere Daten-Vorverarbeitung erzeugt Schlüssel-Wert-Zuordnungen für alle Dokumente beteiligt. Die vorverarbeiteten Daten ist indiziert zur Durchführung einer Suche von Dokumenten, einschließlich Einrichtungen, der weitere Text-Cube-Erstellung und CaseOLAP Partitur Berechnung erleichtert. Die erhaltenen rohen CaseOLAP Scores werden mit einer Reihe von integrativen Analysen, einschließlich der Reduzierung der Dimensionalität, clustering, zeitliche, und geografische interpretiert. Darüber hinaus werden die CaseOLAP Noten verwendet, um eine grafische Datenbank erstellen die semantische Zuordnung der Dokumente ermöglicht.
CaseOLAP Satz-Kategorie Beziehungen definiert in einer genauen (identifiziert Beziehungen), konsistent (hoch reproduzierbare), und effizient (Prozesse 100.000 Wörter/sec). Nach diesem Protokoll können Benutzer eine Cloud-computing Umgebung zur Unterstützung ihre eigenen Konfigurationen und Anwendungen des CaseOLAP zugreifen. Diese Plattform bietet verbesserte Zugänglichkeit und befähigt die biomedizinische Gemeinschaft mit Satz-Mining-Tools für Anwendungen in der weit verbreiteten biomedizinische Forschung.
Manuelle Auswertung von Millionen von Text-Dateien für das Studium der Satz-Kategorie Assoziation (z. B.., Altersgruppe Protein Verband) ist unvergleichbar mit der Effizienz von eine automatisierte, computergestützte Methode zur Verfügung gestellt. Wir wollen die Cloud-basierte kontextsensitive semantische Online Analytical Processing (CaseOLAP)-Plattform als ein Satz-Mining-Methode für die automatische Berechnung der Satz-Kategorie Assoziation im biomedizinischen Bereich einzuführen.
Die CaseOLAP-Plattform, die erstmals im Jahr 20161definiert wurde, ist sehr effizient im Vergleich zu den traditionellen Methoden der Datenverwaltung und Berechnung aufgrund seiner funktionalen Dokumentenmanagement als Text-Cube2,3, 4, der die Dokumente verteilt und gleichzeitig die zugrunde liegende Hierarchie und Nachbarschaften. Es wurde in der biomedizinischen Forschung5 Entität-Kategorie Assoziation zu studieren angewendet. Die CaseOLAP-Plattform besteht aus sechs Hauptschritte einschließlich Download und die Extraktion von Daten, Analyse, Indizierung, Text-Cube-Erstellung, Entität Graf und CaseOLAP Partitur Berechnung; Das ist der Schwerpunkt des Protokolls (Abbildung 1, Abbildung 2, Tabelle 1).
Um den CaseOLAP-Algorithmus zu implementieren, stellt der Benutzer Kategorien von Interesse (z. B. Krankheit, Anzeichen und Symptome, Altersgruppen, Diagnose) und Unternehmen von Interesse (z.B. Proteine, Drogen). Ein Beispiel für eine Kategorie, die in diesem Artikel enthalten ist die “Altersklassen”, die “Baby”, “Kind”, “Jugendliche”, und “Erwachsenen” Unterkategorien wie Zellen des Text-Cube und Protein Namen (Synonyme) und Abkürzungen als Entitäten. Medical Subject Headings (MeSH) sind implementiert, um Publikationen entsprechend den definierten Kategorien (Tabelle 2) abrufen. MeSH-Deskriptoren werden in einer hierarchischen Baumstruktur organisiert, um Suche nach Publikationen zu unterschiedlichen Ebenen der Spezifität (ein Beispiel in Abbildung 3dargestellt) zu ermöglichen. Die CaseOLAP-Plattform nutzt die Datenfunktionalität Indizierung und Suche für Kuration der Dokumente, die einer Entität zugeordnet die Dokument Entität Graf Mapping und CaseOLAP Partitur Berechnung weiter zu erleichtern.
Die Details der CaseOLAP-Score-Berechnung gibt es in früheren Veröffentlichungen1,5. Dieses Ergebnis wird anhand von bestimmten Kriterien basierend auf zugrunde liegende Dokumentstruktur Text-Cube berechnet. Das Endergebnis ist das Produkt von Integrität, Popularitätund Unverwechselbarkeit. Integrität beschreibt, ob eine repräsentative Einheit ist eine semantische Einheit, die gemeinsam auf ein sinnvolles Konzept verweist. Die Integrität der benutzerdefinierten Satz stammt 1.0 sein, weil es als eine standard Phrase in der Literatur steht. Besonderheit stellt die relative Bedeutung eines Ausdrucks in einer Teilmenge der Dokumente, die verglichen mit dem Rest der anderen Zellen. Es berechnet die Relevanz eines Unternehmens auf eine bestimmte Zelle durch den Vergleich der Vorkommen des Namens Protein in den Ziel-Datensatz und bietet eine standardisierte Bewertung der Unterscheidungskraft . Popularität stellt erscheint die Tatsache, die mit einer höheren Punktzahl Popularität phrase immer häufiger in eine Teilmenge der Dokumente. Seltene Protein Namen in einer Zelle sind niedrig, eingestuft, während eine Zunahme der Häufigkeit ihrer Erwähnung eine abnehmende Rendite aufgrund der Umsetzung der logarithmischen Funktion der Frequenz hat. Quantitativ messen diese drei Konzepte hängt von (1) Begriff der Entität in einer Zelle und in den Zellen und (2) die Anzahl der Dokumente, die mit dieser Entität (Dokument Frequenz) innerhalb der Zelle und über die Zellen.
Wir haben zwei repräsentative Szenarien mithilfe einer PubMed-Dataset und unser Algorithmus untersucht. Wir sind interessiert an wie mitochondrialen Proteinen zwei eindeutige Kategorien von MeSH Deskriptoren; zugeordnet sind “Altersklassen” und “Ernährungs- und metabolische Krankheiten”. Insbesondere wir abgerufen 15,728,250 Publikationen aus 20 Jahren Publikationen gesammelt von PubMed (1998 bis 2018), unter ihnen, 8.123.458 einzigartige Abstracts hatten volle MeSH-Deskriptoren. Dementsprechend 1.842 menschlichen mitochondrialen Proteins Namen (einschließlich Abkürzungen und Synonyme), erworben von UniProt (uniprot.org) sowie MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), werden systematisch untersucht. Ihre Verbände mit diesen 8.899.019 Publikationen und Organisationen waren mit unser Protokoll untersucht; wir einen Text-Würfel gebaut und die jeweiligen CaseOLAP Scores berechnet.
Wir haben gezeigt, dass der CaseOLAP-Algorithmus eine Satz basiert quantitative Zuordnung zu einer wissensbasierten Kategorie über große Mengen von Textdaten für die Extraktion von aussagekräftige Erkenntnisse erstellen kann. Im Anschluss an unser Protokoll kann man bauen, CaseOLAP Rahmen um einen gewünschten Text-Cube erstellen und Entität-Berufsverbände durch CaseOLAP Score Berechnung zu quantifizieren. Die erhaltenen rohen CaseOLAP Noten können auf integrative Analysen einschließlich der Reduzierung der Dimensionalität, clustering, zeitliche und räumliche Analyse sowie die Erstellung einer grafischen Datenbank ermöglicht semantische Zuordnung der Dokumente weitergeleitet.
Anwendbarkeit des Algorithmus. Beispiele für benutzerdefinierte Entitäten als Proteine, könnte eine Liste von gen Namen, Drogen, bestimmte Anzeichen und Symptome, einschließlich ihrer Abkürzungen und Synonyme. Darüber hinaus gibt es viele Möglichkeiten für Kategorieauswahl um bestimmte benutzerdefinierte biomedizinische Analysen (z. B. Anatomie [A], Disziplin und Beruf [H], Phänomene und Prozesse [G]) zu erleichtern. In unseren beiden Anwendungsfällen, alle wissenschaftlichen Publikationen und ihrer textuellen Daten werden abgerufen, aus der MEDLINE-Datenbank PubMed als Suchmaschine verwenden, beide von der National Library of Medicine verwaltet. Allerdings kann die CaseOLAP-Plattform auf andere Datenbanken von Interesse, biomedizinische Dokumente mit textuellen Daten wie die FDA nachteilige Event Reporting System (FAERS) angewendet werden. Dies ist eine offene Datenbank mit Informationen über medizinische Zwischenfälle und Fehlerberichte Medikamente FDA eingereicht. Im Gegensatz zu MEDLINE und FAERS Datenbanken in Krankenhäusern mit elektronischen Krankenakten von Patienten sind nicht für die Öffentlichkeit zugänglich und werden von der Health Insurance Portability and Accountability Act bekannt als HIPAA eingeschränkt.
CaseOLAP-Algorithmus wurde erfolgreich auf die verschiedenen Arten von Daten (z. B. Zeitungsartikel)1. angewendet Die Implementierung dieses Algorithmus in biomedizinischen Dokumenten 20185verzeichnen. Die Voraussetzungen für die Anwendbarkeit des CaseOLAP-Algorithmus ist, dass jedes Dokument mit Schlüsselwörtern, verbunden mit den Konzepten (z. B. MeSH Deskriptoren in biomedizinischen Veröffentlichungen, Schlüsselwörter in News-Artikel) zugewiesen werden soll. Wenn Schlüsselwörter nicht gefunden werden, können eine Autophrase6,7 Top repräsentative Sätze zu sammeln und bauen Entity List vor der Implementierung unserer Protokoll anwenden. Unser Protokoll bietet nicht den Schritt, um Autophrase durchzuführen.
Vergleich mit anderen Algorithmen. Das Konzept des Verwendens einer Daten-Cube8,9,10 und eine Text-Cube2,3,4 hat sich seit 2005 mit neuen Zuführungen, Data-Mining mehr anwendbar zu machen weiter entwickelt. Das Konzept von Online Analytical Processing (OLAP)11,12,13,14,15 in Data-Mining und Business Intelligence geht zurück bis 1993. OLAP, sammelt die Informationen aus verschiedenen Systemen im allgemeinen und speichert es in einem multi-dimensionalen Format. Es gibt verschiedene Arten von OLAP-Systemen implementiert im Datamining. Zum Beispiel (1) Hybrid Transaktion/Analytical Processing (HTAP)16,17, (2) multidimensionale OLAP (MOLAP)18,19-Cube basiert, und (3) relationale OLAP (ROLAP)20.
Insbesondere der CaseOLAP-Algorithmus wurde im Vergleich mit zahlreichen vorhandenen Algorithmen, insbesondere mit ihren Satz Segmentierung Verbesserungen, darunter TF-IDF + Seg, MCX + Seg, MCX und SegPhrase. Darüber hinaus RepPhrase (RP, auch bekannt als SegPhrase +) wurde im Vergleich mit ihren eigenen Ablation Variationen, einschließlich RP (1) ohne die Integrität Maßnahme aufgenommen (RP No INT), (2) RP ohne die Popularität Maßnahme aufgenommen (RP No POP) und (3) RP ohne die Unterscheidungskraft Maßnahme aufgenommen (RP No DIS). Die Benchmark-Ergebnisse sind in der Studie von Fangbo Tao Et Al.1gezeigt.
Data Mining, die zusätzlichen Funktionalität hinzufügen können, speichern und Abrufen von Daten aus der Datenbank gibt es noch Herausforderungen. Kontextsensitive semantische Analytical Processing (CaseOLAP) implementiert systematisch die Elasticsearch um eine Indexdatenbank von Millionen von Dokumenten (Protokoll Nr. 5) zu bauen. Text-Cube ist ein Dokument über die indizierten Daten mit Benutzer bereitgestellten Kategorien (Protokoll Nr. 6) gebaut. Dies verbessert die Funktionalität zu den Dokumenten innerhalb und über der Zelle des Text-Cubes und ermöglichen es uns, Begriff Frequenz der Entitäten über ein Dokument und Dokument-Frequenz über eine bestimmte Zelle (Protokoll 8) zu berechnen. Das Endergebnis der CaseOLAP nutzt diese Frequenz Berechnungen zur Ausgabe von einem Endstand (Protokoll 9). Im Jahr 2018 implementierten wir dieser Algorithmus um ECM Proteine und sechs Herzkrankheiten, Protein-Krankheit Verbände analysieren zu studieren. Die Details dieser Studie finden Sie in der Studie von Liem, D.A. Et Al.5. darauf hinweist, dass CaseOLAP weit in die biomedizinische Gemeinschaft eine Vielzahl von Krankheiten und Mechanismen zu erforschen verwendet werden könnte.
Einschränkungen des Algorithmus. Satz-Bergbau selbst ist eine Technik zu verwalten und wichtige Konzepte von textuellen Daten abzurufen. Während die Entdeckung Entität-Kategorie Assoziation als eine mathematische Größe (Vektor), ist diese Technik nicht in der Lage, herauszufinden, die Polarität (z. B. positive oder negative Neigung) des Vereins. Man kann die quantitative Zusammenfassung der Daten unter Verwendung der Text-Glaswürfel Dokumentstruktur mit zugewiesenen Einheiten und Kategorien bauen, aber eine qualitative Konzept mit mikroskopischen Granularitäten nicht erreicht werden kann. Einige Konzepte werden kontinuierlich weiterentwickelt, seit dem letzten bis jetzt. Die Zusammenfassung für eine bestimmte Entität-Kategorie Association präsentiert umfasst alle Fälle in der Literatur. Dies kann die zeitliche Verbreitung der Innovation fehlt. In Zukunft planen wir, diese Einschränkungen zu beheben.
Zukünftige Anwendungen. Etwa 90 % der gesammelten Daten in der Welt ist in den unstrukturierten Textdaten. Suche nach einem repräsentativen Ausdruck und die Beziehung zu den Entitäten in den Text eingebettet ist eine sehr wichtige Aufgabe für die Umsetzung neuer Technologien (z.B. maschinelles lernen, Information Extraction, künstliche Intelligenz). Um die Textdaten Maschine lesbar zu machen, müssen die Daten in der Datenbank organisiert werden, die nächste Schicht von Werkzeugen umgesetzt werden könnten. Dieser Algorithmus kann in Zukunft ein entscheidender Schritt bei der Herstellung von Data-Mining funktioneller für den Abruf von Informationen und die Quantifizierung der Entität-Berufsverbände sein.
The authors have nothing to disclose.
Diese Arbeit wurde teilweise durch National Heart, Lung and Blood Institute unterstützt: R35 HL135772 (auf s. Ping); National Institute of General Medical Sciences: U54 GM114833 (zu P. Ping, K. Watson und W. Wang); U54 GM114838 (in J. Han); ein Geschenk von den Hellen & Larry Hoag Foundation und Dr. S. Setty; und der t.c. Laubisch-Stiftung an der UCLA (auf s. Ping).