We presenteren een protocol en de bijbehorende programmacode evenals metagegevens monsters ter ondersteuning van een cloud-gebaseerde automatische identificatie van zinnen-categorie vereniging van unieke concepten in het domein van de geselecteerde kennis van de gebruiker in de biomedische literatuur. De vereniging van de zin-categorie gekwantificeerd door dit protocol kan vergemakkelijken diepgaande analyse in het domein van de geselecteerde kennis.
De snelle accumulatie van biomedische tekstuele gegevens heeft overtrof de menselijke capaciteit van handmatige curatie en analyse, waardoor nieuwe tekst-mijnbouw tools om extract biologische inzichten van grote volumes van wetenschappelijke rapporten. De pijpleiding van omgevingsbewuste semantische Online Analytical Processing (CaseOLAP), ontwikkeld in 2016, kwantificeert succesvol zin-categorie gebruiker gedefinieerde relaties door middel van de analyse van tekstuele gegevens. CaseOLAP heeft veel biomedische toepassingen.
We hebben een protocol voor een cloud-gebaseerde omgeving ter ondersteuning van end-to-end zin-mijnbouw en analyses platform ontwikkeld. Ons protocol omvat gegevens voorbewerken (bijvoorbeeld downloaden, extractie en parseren van tekstdocumenten), indexering en zoeken met Elasticsearch, maken van de structuur van een functionele document tekst-kubus, en kwantificeren van zin-categorie relaties genoemd met behulp van het algoritme van de CaseOLAP kern.
Onze gegevens voorbewerken genereert sleutel / waarde-toewijzingen voor alle documenten die betrokken zijn. De voorverwerkte gegevens wordt geïndexeerd voor het uitvoeren van een zoekopdracht voor documenten met inbegrip van entiteiten, die de tekst-kubus oprichting en CaseOLAP score berekening verder vergemakkelijkt. De verkregen ruwe CaseOLAP scores worden geïnterpreteerd met behulp van een reeks van integratieve analyses, met inbegrip van dimensionaliteit vermindering, clustering, stoffelijk, en geografische analyses. Daarnaast worden de scores van de CaseOLAP gebruikt om een grafische database, waarmee semantische toewijzing van de documenten te maken.
CaseOLAP definieert zin-categorie relaties in een nauwkeurige (herkent relaties), consistente (zeer reproduceerbaar is), en efficiënte wijze (processen 100.000 woorden/sec). Naar aanleiding van dit protocol, kunnen gebruikers een cloud computing omgeving ter ondersteuning van hun eigen configuraties en de toepassingen van CaseOLAP. Dit platform biedt verbeterde toegankelijkheid en machtigt de biomedische Gemeenschap met zin-mining tools voor wijdverbreide biomedisch onderzoek toepassingen.
Handmatige evaluatie van miljoenen van de tekstbestanden voor de studie van zin-categorie Associatie (bv., leeftijdsgroep aan eiwit vereniging) is onvergelijkbaar met de efficiency geboden door een geautomatiseerde computationele methode. We willen introduceren het cloud-gebaseerde omgevingsbewuste semantische Online Analytical Processing (CaseOLAP) platform als een zin-mijnbouw methode voor automatische berekening van zin-categorie Associatie in de biomedische context.
Het platform van de CaseOLAP, die werd voor het eerst gedefinieerd in 20161, is zeer efficiënt in vergelijking met de traditionele methoden voor gegevensbeheer en berekening vanwege haar functionele documentbeheer genaamd tekst-Cube2,3, 4, die de documenten distribueert met behoud van onderliggende hiërarchie en buurten. Deze is vereffend in biomedisch onderzoek5 van de studievereniging van de entiteit-categorie. Het CaseOLAP platform bestaat uit zes hoofdstappen, met inbegrip van de download en extractie van gegevens, ontleden, indexering, tekst-kubus oprichting, entiteit graaf en CaseOLAP score berekening; dat is de belangrijkste focus van het protocol (afbeelding 1, afbeelding 2, tabel 1).
Ter uitvoering van het algoritme CaseOLAP, stelt de gebruiker categorieën van belang (bijv. ziekte, tekenen en symptomen, leeftijdsgroepen, diagnose) en entiteiten van belang (bijv. eiwitten, drugs). Een voorbeeld van een categorie die is opgenomen in dit artikel is de ‘Leeftijdsgroepen’, dat ‘Baby’, ‘kind’, ‘adolescent’, en ‘volwassen’ subcategorieën als cellen voor de tekst-Cube en eiwit namen (synoniemen) en afkortingen als entiteiten. Medische onderwerptitels (MeSH) worden uitgevoerd om op te halen van de publicaties die overeenkomen met de gedefinieerde categorieën (tabel 2). MeSH descriptoren zijn ingedeeld in een hiërarchische boomstructuur te zoeken naar publicaties op verschillende niveaus van specificiteit (een monster dat is afgebeeld in Figuur 3) staan. Het CaseOLAP platform maakt gebruik van de gegevens indexeren en zoek functionaliteit voor curatie van de documenten die zijn gekoppeld aan een entiteit die document entiteit graaf mapping en CaseOLAP score berekening verder te vergemakkelijken.
De details van de berekening van de score CaseOLAP is beschikbaar in eerdere publicaties1,5. Deze score wordt berekend met behulp van specifieke ranking criteria op basis van de structuur van het document van onderliggende tekst-kubus. De eindscore is het product van integriteit, populariteiten onderscheidend vermogen. Integriteit beschrijft of een representatieve entiteit is een integraal semantische eenheid die collectief naar een zinvol concept verwijst. De integriteit van de door de gebruiker gedefinieerde zin is genomen 1.0 omdat het staat als een standaard zin in de literatuur. Onderscheidend vermogen vertegenwoordigt het relatieve belang van een zin in een subset van documenten vergeleken met de rest van de andere cellen. Het eerst berekent de relevantie van een entiteit naar een specifieke cel door het vergelijken van het voorkomen van de naam van de eiwitten in de gegevensset van de doelgroep en biedt een genormaliseerde onderscheidend vermogen score. Populariteit zichtbaar verwijst naar het feit dat met een hogere populariteit score vaker in een subset van documenten. Zeldzame eiwit namen in een cel zijn gerangschikt laag, terwijl een toename in hun frequentie van vermelding een dalende rendement als gevolg van de uitvoering van de logaritmische functie van de frequentie heeft. Kwantitatief meten van deze drie begrippen hangt af van de frequentie van de (1) de termijn voor de entiteit op een cel en de cellen en (2) aantal documenten hebben van die entiteit (document/bClk frequentie) binnen de cel en over de cellen.
Wij hebben twee representatieve scenario’s met behulp van een dataset PubMed en ons algoritme bestudeerd. Wij zijn geïnteresseerd in hoe mitochondriale eiwitten worden geassocieerd met twee unieke soorten MeSH descriptoren; “Leeftijdsgroepen” en “voedings- en metabole ziekten”. Specifiek, we ontvangen 15,728,250 publicaties uit 20 jaar publicaties verzameld door PubMed (1998-2018), onder hen, 8,123,458 unieke samenvattingen had volledige MeSH descriptoren. Dienovereenkomstig, 1,842 menselijke mitochondriale eiwit namen (inclusief afkortingen en synoniemen), verkregen uit UniProt (uniprot.org) en MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), worden systematisch onderzocht. Hun verenigingen met deze 8,899,019 publicaties en entiteiten werden bestudeerd met behulp van ons protocol; we gebouwd een tekst-kubus en de respectieve CaseOLAP scores berekend.
We hebben aangetoond dat de CaseOLAP-algoritme een zin gebaseerd kwantitatieve vereniging aan een kennis gebaseerde categorie via grote hoeveelheden tekstgegevens voor extractie van zinvolle inzichten maken kunt. Na ons protocol, kan een het CaseOLAP kader kwantificeren entiteit-categorie verenigingen via CaseOLAP score berekening te maken van een gewenste tekst-kubus bouwen. De verkregen ruwe scores van de CaseOLAP kunnen worden genomen om de integratieve analyses, met inbegrip van dimensionaliteit vermindering, clustering, temporele en geografische analyse, evenals de oprichting van een grafische database waarmee semantische toewijzing van de documenten.
Toepasselijkheid van het algoritme. Voorbeelden van aangepaste entiteiten, dan eiwitten, zou een lijst van gene namen, drugs, specifieke tekenen en symptomen, met inbegrip van hun afkortingen en synoniemen. Verder zijn er vele keuzen voor categorie selectie om specifieke gebruiker gedefinieerde biomedische analyses uitgevoerd (bijvoorbeeld anatomie [A], Discipline en bezetting [H], verschijnselen en processen [G]). In onze twee gebruiksvoorbeelden, alle wetenschappelijke publicaties en hun tekstuele gegevens worden opgehaald uit de MEDLINE database PubMed als de zoekmachine gebruiken, zowel beheerd door de National Library of Medicine. Het platform CaseOLAP kan echter worden toegepast op andere databases van belang met biomedische documenten met tekstuele gegevens zoals de FDA Adverse Event Reporting systeem (FAERS). Dit is een open database met informatie over medische ongewenste voorvallen en medicatie foutenrapporten ingediend bij de FDA. In tegenstelling tot MEDLINE en FAERS, databanken in ziekenhuizen met elektronische medische dossiers van patiënten zijn niet open voor het publiek en zijn beperkt door de Health Insurance Portability and Accountability Act bekend als HIPAA.
CaseOLAP-algoritme is met succes toegepast op de verschillende soorten gegevens (bijvoorbeeld nieuwsartikelen)1. De implementatie van dit algoritme in biomedische documenten geboekt in 20185. De eisen voor de toepasbaarheid van CaseOLAP algoritme is dat elk van de documenten moet worden toegewezen met trefwoorden die zijn gekoppeld aan de begrippen (bijv. maaswijdte descriptoren in biomedische publicaties, trefwoorden in nieuwsartikelen). Als zoekwoorden niet worden gevonden, kan een aanvraag Autophrase6,7 voor het verzamelen van hoogste vertegenwoordiger zinnen en samenstellen van de lijst van de entiteit vóór de tenuitvoerlegging van ons protocol. Ons protocol voorziet niet in de stap om uit te voeren Autophrase.
Vergelijking met andere algoritmen. Het concept van het gebruik van een gegevenskubus8,9,10 en een tekst-Cube2,3,4 heeft zich ontwikkeld sinds 2005 met nieuwe vorderingen te maken datamining meer van toepassing. Het concept van Online Analytical Processing (OLAP)11,12,13,14,15 in datamining en bedrijfsinformatie gaat terug tot 1993. OLAP, aggregaten van de gegevens van meerdere systemen in het algemeen, en slaat deze op in een multi-dimensionale formaat. Er zijn verschillende types van OLAP-systemen geïmplementeerd in datamining. Bijvoorbeeld (1) hybride-transactie/analytische verwerking (HTAP)16,17, (2) Multidimensionale OLAP (MOLAP)18,19-kubus op basis, en (3) relationele OLAP-(ROLAP)20.
In het bijzonder de CaseOLAP algoritme is vergeleken met talrijke bestaande algoritmen, specifiek, met hun zin segmentatie verbeteringen, met inbegrip van TF-IDF + Seg, MCX + Seg, MCX en SegPhrase. Bovendien, RepPhrase (RP, ook bekend als SegPhrase +) is vergeleken met eigen ablatie variaties, met inbegrip van (1) RP zonder de integriteit maatregel opgenomen (RP No INT), (2) RP zonder de populariteit maatregel opgenomen (RP No POP) en (3) RP zonder de Onderscheidend vermogen maatregel opgenomen (RP geen DIS). De benchmarkresultaten staan in de studie door Fangbo Tao et al.1.
Er zijn nog steeds uitdagingen op datamining die extra functionaliteit toevoegen kunt over het opslaan en ophalen van de gegevens uit de database. Omgevingsbewuste semantische Analytical Processing (CaseOLAP) implementeert systematisch de Elasticsearch om te bouwen van een indexering database van miljoenen documenten (Protocol 5). De tekst-kubus is de structuur van een document over de geïndexeerde gegevens met gebruiker opgegeven categorieën (Protocol 6) gebouwd. Dit verbetert de functionaliteit om de documenten binnen en buiten de cel van de tekst-kubus en laten toe te berekenen term frequentie van de entiteiten over een document en de frequentie van het document op een specifieke cel (Protocol 8). De eindscore van de CaseOLAP maakt gebruik van deze frequentie berekeningen uitvoeren een eindscore (Protocol 9). In 2018 wij dit algoritme om te studeren ECM eiwitten en zes hart-en vaatziekten te analyseren van eiwit-ziekte verenigingen. De details van deze studie kunnen worden gevonden in de studie door Liem, D.A. et al.5. die aangeeft dat de CaseOLAP in de biomedische Gemeenschap allerlei ziekten en mechanismen verkennen wijd gebruikt kan worden.
Beperkingen van het algoritme. Zin mijnbouw zelf is een techniek om te beheren en belangrijke concepten van tekstuele gegevens op te halen. Tijdens het ontdekken van entiteit-categorie vereniging als een wiskundige grootheid (vector), is deze techniek niet in staat om erachter te komen de polariteit (b.v., positief of negatief hellingsgradiënt) van de vereniging. Men kan bouwen de kwantitatieve samenvatting van de gegevens met behulp van de structuur van het document van de tekst-Cude met toegewezen entiteiten en categorieën, maar een kwalitatieve concept met microscopische granularities kan niet worden bereikt. Bepaalde begrippen evolueren voortdurend van verleden tot nu. De samenvatting gepresenteerd voor de vereniging van een bepaalde entiteit-categorie bevat alle incidenten in de literatuur. Dit kan het ontbreken van de temporele verspreiding van de innovatie. In de toekomst, we zijn van plan om aan te pakken van deze beperkingen.
Toekomstige toepassingen. Ongeveer 90% van de verzamelde gegevens in de wereld is in de ongestructureerde tekstgegevens. Het vinden van een representatieve zin en de relatie tot de entiteiten die in de tekst ingesloten is een zeer belangrijke taak voor de uitvoering van de nieuwe technologieën (b.v., machinaal leren, informatie-extractie, kunstmatige intelligentie). De-tekstgegevens machine om leesbaar te maken, moeten gegevens worden georganiseerd in de database die de volgende laag voor tools kan worden uitgevoerd. Dit algoritme kunnen in de toekomst een cruciale stap in het maken van datamining functioneler voor het ophalen van informatie en de kwantificering van de entiteit-categorie verenigingen.
The authors have nothing to disclose.
Dit werk werd gedeeltelijk ondersteund door de National Heart, Lung, en bloed Instituut: R35 HL135772 (op P. Ping); National Institute of General Medical Sciences: U54 GM114833 (met P. Ping, K. Watson en W. Wang); U54 GM114838 (aan J. Han); een geschenk van de Hellen & Larry Hoag Foundation en Dr. S. Setty; en de T.C. Laubisch endowment aan de UCLA (op P. Ping).