Summary

Cloud-gebaseerde zin Mining en analyse van User-Defined Phrase-categorie vereniging in biomedische publicaties

Published: February 23, 2019
doi:

Summary

We presenteren een protocol en de bijbehorende programmacode evenals metagegevens monsters ter ondersteuning van een cloud-gebaseerde automatische identificatie van zinnen-categorie vereniging van unieke concepten in het domein van de geselecteerde kennis van de gebruiker in de biomedische literatuur. De vereniging van de zin-categorie gekwantificeerd door dit protocol kan vergemakkelijken diepgaande analyse in het domein van de geselecteerde kennis.

Abstract

De snelle accumulatie van biomedische tekstuele gegevens heeft overtrof de menselijke capaciteit van handmatige curatie en analyse, waardoor nieuwe tekst-mijnbouw tools om extract biologische inzichten van grote volumes van wetenschappelijke rapporten. De pijpleiding van omgevingsbewuste semantische Online Analytical Processing (CaseOLAP), ontwikkeld in 2016, kwantificeert succesvol zin-categorie gebruiker gedefinieerde relaties door middel van de analyse van tekstuele gegevens. CaseOLAP heeft veel biomedische toepassingen.

We hebben een protocol voor een cloud-gebaseerde omgeving ter ondersteuning van end-to-end zin-mijnbouw en analyses platform ontwikkeld. Ons protocol omvat gegevens voorbewerken (bijvoorbeeld downloaden, extractie en parseren van tekstdocumenten), indexering en zoeken met Elasticsearch, maken van de structuur van een functionele document tekst-kubus, en kwantificeren van zin-categorie relaties genoemd met behulp van het algoritme van de CaseOLAP kern.

Onze gegevens voorbewerken genereert sleutel / waarde-toewijzingen voor alle documenten die betrokken zijn. De voorverwerkte gegevens wordt geïndexeerd voor het uitvoeren van een zoekopdracht voor documenten met inbegrip van entiteiten, die de tekst-kubus oprichting en CaseOLAP score berekening verder vergemakkelijkt. De verkregen ruwe CaseOLAP scores worden geïnterpreteerd met behulp van een reeks van integratieve analyses, met inbegrip van dimensionaliteit vermindering, clustering, stoffelijk, en geografische analyses. Daarnaast worden de scores van de CaseOLAP gebruikt om een grafische database, waarmee semantische toewijzing van de documenten te maken.

CaseOLAP definieert zin-categorie relaties in een nauwkeurige (herkent relaties), consistente (zeer reproduceerbaar is), en efficiënte wijze (processen 100.000 woorden/sec). Naar aanleiding van dit protocol, kunnen gebruikers een cloud computing omgeving ter ondersteuning van hun eigen configuraties en de toepassingen van CaseOLAP. Dit platform biedt verbeterde toegankelijkheid en machtigt de biomedische Gemeenschap met zin-mining tools voor wijdverbreide biomedisch onderzoek toepassingen.

Introduction

Handmatige evaluatie van miljoenen van de tekstbestanden voor de studie van zin-categorie Associatie (bv., leeftijdsgroep aan eiwit vereniging) is onvergelijkbaar met de efficiency geboden door een geautomatiseerde computationele methode. We willen introduceren het cloud-gebaseerde omgevingsbewuste semantische Online Analytical Processing (CaseOLAP) platform als een zin-mijnbouw methode voor automatische berekening van zin-categorie Associatie in de biomedische context.

Het platform van de CaseOLAP, die werd voor het eerst gedefinieerd in 20161, is zeer efficiënt in vergelijking met de traditionele methoden voor gegevensbeheer en berekening vanwege haar functionele documentbeheer genaamd tekst-Cube2,3, 4, die de documenten distribueert met behoud van onderliggende hiërarchie en buurten. Deze is vereffend in biomedisch onderzoek5 van de studievereniging van de entiteit-categorie. Het CaseOLAP platform bestaat uit zes hoofdstappen, met inbegrip van de download en extractie van gegevens, ontleden, indexering, tekst-kubus oprichting, entiteit graaf en CaseOLAP score berekening; dat is de belangrijkste focus van het protocol (afbeelding 1, afbeelding 2, tabel 1).

Ter uitvoering van het algoritme CaseOLAP, stelt de gebruiker categorieën van belang (bijv. ziekte, tekenen en symptomen, leeftijdsgroepen, diagnose) en entiteiten van belang (bijv. eiwitten, drugs). Een voorbeeld van een categorie die is opgenomen in dit artikel is de ‘Leeftijdsgroepen’, dat ‘Baby’, ‘kind’, ‘adolescent’, en ‘volwassen’ subcategorieën als cellen voor de tekst-Cube en eiwit namen (synoniemen) en afkortingen als entiteiten. Medische onderwerptitels (MeSH) worden uitgevoerd om op te halen van de publicaties die overeenkomen met de gedefinieerde categorieën (tabel 2). MeSH descriptoren zijn ingedeeld in een hiërarchische boomstructuur te zoeken naar publicaties op verschillende niveaus van specificiteit (een monster dat is afgebeeld in Figuur 3) staan. Het CaseOLAP platform maakt gebruik van de gegevens indexeren en zoek functionaliteit voor curatie van de documenten die zijn gekoppeld aan een entiteit die document entiteit graaf mapping en CaseOLAP score berekening verder te vergemakkelijken.

De details van de berekening van de score CaseOLAP is beschikbaar in eerdere publicaties1,5. Deze score wordt berekend met behulp van specifieke ranking criteria op basis van de structuur van het document van onderliggende tekst-kubus. De eindscore is het product van integriteit, populariteiten onderscheidend vermogen. Integriteit beschrijft of een representatieve entiteit is een integraal semantische eenheid die collectief naar een zinvol concept verwijst. De integriteit van de door de gebruiker gedefinieerde zin is genomen 1.0 omdat het staat als een standaard zin in de literatuur. Onderscheidend vermogen vertegenwoordigt het relatieve belang van een zin in een subset van documenten vergeleken met de rest van de andere cellen. Het eerst berekent de relevantie van een entiteit naar een specifieke cel door het vergelijken van het voorkomen van de naam van de eiwitten in de gegevensset van de doelgroep en biedt een genormaliseerde onderscheidend vermogen score. Populariteit zichtbaar verwijst naar het feit dat met een hogere populariteit score vaker in een subset van documenten. Zeldzame eiwit namen in een cel zijn gerangschikt laag, terwijl een toename in hun frequentie van vermelding een dalende rendement als gevolg van de uitvoering van de logaritmische functie van de frequentie heeft. Kwantitatief meten van deze drie begrippen hangt af van de frequentie van de (1) de termijn voor de entiteit op een cel en de cellen en (2) aantal documenten hebben van die entiteit (document/bClk frequentie) binnen de cel en over de cellen.

Wij hebben twee representatieve scenario’s met behulp van een dataset PubMed en ons algoritme bestudeerd. Wij zijn geïnteresseerd in hoe mitochondriale eiwitten worden geassocieerd met twee unieke soorten MeSH descriptoren; “Leeftijdsgroepen” en “voedings- en metabole ziekten”. Specifiek, we ontvangen 15,728,250 publicaties uit 20 jaar publicaties verzameld door PubMed (1998-2018), onder hen, 8,123,458 unieke samenvattingen had volledige MeSH descriptoren. Dienovereenkomstig, 1,842 menselijke mitochondriale eiwit namen (inclusief afkortingen en synoniemen), verkregen uit UniProt (uniprot.org) en MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), worden systematisch onderzocht. Hun verenigingen met deze 8,899,019 publicaties en entiteiten werden bestudeerd met behulp van ons protocol; we gebouwd een tekst-kubus en de respectieve CaseOLAP scores berekend.

Protocol

Opmerking: We hebben ontwikkeld dit protocol op basis van de programmeertaal Python. Voor het uitvoeren van dit programma, hebben Anaconda Python en Git is vooraf geïnstalleerd op het apparaat. De opdrachten in dit protocol zijn gebaseerd op Unix-omgeving. Dit protocol biedt het detail van het downloaden van gegevens uit de database PubMed (MEDLINE), het parseren van de gegevens, en het opzetten van een cloud computing-platform voor de woordgroep mijnbouw en kwantificering van gebruiker gedefinieerde entiteit-categorie Associatie. 1. krijgen code en python milieu-setup Download of kopieer de code repository van Github (https://github.com/CaseOLAP/caseolap) of door te typen ‘git clone https://github.com/CaseOLAP/caseolap.git’ in het terminalvenster. Navigeer naar de map ‘caseolap’. Dit is de hoofdmap van het project. In deze map, wordt de map ‘data’ gevuld met meerdere gegevenssets als u vooruitgang door middel van deze stappen in het protocol. De ‘input’ directory is voor de gebruiker opgegeven gegevens. De ‘log’ directory heeft logboekbestanden voor probleemoplossing. De map ‘resultaat’ is waar de eindresultaten zullen worden opgeslagen. Met behulp van de terminal venster, ga naar de directory waar je gecloned onze GitHub repository. Scheppen van een klimaat van de CaseOLAP met behulp van het bestand ‘environment.yml’ door te typen “conda env maken -f environment.yaml’ in de terminal. Activeer dan het milieu door ‘bron activeren caseolap’ te typen in de terminal. 2. downloaden van documenten Ervoor te zorgen dat het FTP-adres in ‘ftp_configuration.json’ in de configuratiemap hetzelfde als de basislijn van de jaarlijkse of dagelijkse updatebestanden link adres is, gevonden in de link (https://www.nlm.nih.gov/databases/download/pubmed_medline.html) . Alleen de basislijn of de update te downloaden bestanden alleen ingesteld ‘echte’ in het ‘download_config.json’ bestand in de map ‘config’. Standaard, het downloadt en zowel de basislijn en de update bestanden worden uitgepakt. Een steekproef van uitgepakte XML-gegevens kan worden bekeken op (https://github.com/CaseOLAP/caseolap-pipelines/blob/master/data/extracted-data-sample.xml) Typ ‘python run_download.py’ in het terminal-venster voor het downloaden van samenvattingen uit de Pubmed database. Hiermee maakt u een map met de naam ‘ftp.ncbi.nlm.nih.gov’ in de huidige map. Dit proces controleert de integriteit van de gedownloade gegevens en haalt het naar de doelmap. Ga naar de directory van de ‘log’ de om logboekberichten te lezen in ‘download_log.txt’ in het geval dat het downloadproces mislukt. Als het proces is voltooid, zal de debugging boodschappen van de download-proces in dit logboekbestand worden afgedrukt. Wanneer het downloaden is voltooid, navigeren door ‘ftp.ncbi.nlm.nih.gov’ om ervoor te zorgen dat er ‘updatefiles’ of ‘basefiles’ of beide directories op basis van configuratie in ‘download_config.json’ downloaden. Het bestand statistieken komen beschikbaar op ‘filestat.txt’ in de map ‘data’. 3. het parseren van documenten Ervoor te zorgen dat gedownloade en uitgepakte gegevens beschikbaar op ‘ftp.ncbi.nlm.nih.gov’ map uit stap 2 is. Deze map is de map van de invoergegevens in deze stap. Als u wilt wijzigen van het schema van gegevens-parsing, selecteer parameters in ‘parsing_config.json’ bestand in de map ‘config’ door hun waarde aan ‘true’. Standaard het ontleedt de PMID, auteurs, abstract, MeSH, locatie, dagboek, publicatiedatum. Typ ‘python run_parsing.py’ in de terminal aan de documenten van de gedownloade (of uitgepakte) bestanden ontleden. Deze stap parseert alle gedownloade XML-bestanden en maakt u een python woordenboek voor elk document met toetsen (bv., PMID, auteurs, abstract, MeSH van het bestand op basis van het parseren van schema setup bij stap 3.2). Zodra het parseren van gegevens is voltooid, zorg ervoor dat de verdeelde gegevens wordt opgeslagen in het bestand met de naam ‘pubmed.json’ in de map data. Een steekproef van de verdeelde gegevens is beschikbaar op Figuur 3. Ga naar de directory van de ‘log’ de om logboekberichten te lezen in ‘parsing_log.txt’ in het geval dat het parseren mislukt. Als het proces is voltooid, zal de foutopsporingsberichten in het logboekbestand worden afgedrukt. 4. mesh PMID toewijzen aan Zorg ervoor dat de verdeelde gegevens (‘pubmed.json’) beschikbaar bij de “gegevens” folder is. Typ ‘python run_mesh2pmid.py’ in de terminal uit te voeren van MeSH PMID toewijzen aan. Hiermee maakt u een tabel met toewijzingen waar elk van de Maas bijbehorende PMIDs verzamelt. Een enkele PMID kan vallen onder de meerdere MeSH-termen. Zodra de toewijzing is voltooid, zorg ervoor dat er ‘mesh2pmid.json’ in de map data. Een steekproef van de top 20 toewijzing statistieken is beschikbaar in de tabel-2, figuren 4 en 5. Ga naar de directory van de ‘log’ de om logboekberichten te lezen in ‘mesh2pmid_mapping_log.txt’ in het geval dat dit proces mislukt. Als het proces is voltooid, zal de foutopsporingsberichten van de toewijzing in dit logboekbestand worden afgedrukt. 5. document indexeren Download de Elasticsearch toepassing van https://www.elastic.co. Op dit moment, is de download beschikbaar op (https://www.elastic.co/downloads/elasticsearch). Om te downloaden van de software in de externe cloud, typt u ‘wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-x.x.x.tar.gz’ in de terminal. Zorg ervoor dat ‘x.x.x’ in het bovenstaande commando wordt vervangen door de juiste versienummer. Ervoor te zorgen dat gedownloade ‘elasticsearch-x.x.x.tar.gz’-bestand wordt weergegeven in de root directory dan pak de bestanden door te typen “xvzf elasticsearch tar-x.x.x.tar.gz’ in het terminalvenster. Open een nieuwe terminal en ga naar de ElasticSearch bin directory door te typen “cd Elasticsearch/bin” in de terminal van de wortelfolder. Start de server Elasticsearch door te typen “. / Elasticsearch’ in het terminalvenster. Zorg ervoor dat de server wordt gestart zonder foutmeldingen. In geval van fout op Elasticsearch server starten, volg de instructies op (https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html). De inhoud in de ‘index_init_config.json’ in ‘config’ directory instellen van de inleiding van de index wijzigen. Standaard zal het selecteert u alle items aanwezig. Typ ‘python run_index_init.py’ in de terminal om te starten van een index-database op de server Elasticsearch. Dit initialiseert de index met een aantal criteria bekend als indexinformatie (bijvoorbeeld de indexnaam van de, naam, aantal scherven, aantal replica’s). Hier ziet u het bericht vermelden index met succes is gemaakt. Selecteer de items in de ‘index_populate_config.json’ in de map ‘config’ door hun waarde aan ‘true’. Standaard zal het selecteert u alle items aanwezig. Zorg ervoor dat de verdeelde gegevens (‘pubmed.json’) aanwezig in de folder ‘gegevens is’. Typ ‘python run_index_populate.py’ in de terminal om in te vullen van de index door het creëren van bulkdata met twee componenten. Een eerste onderdeel is een woordenboek met metagegevens informatie over de Indexnaam typenaam, en bulk-id (bijvoorbeeld ‘PMID’). A tweede component is een gegevenswoordenboek met alle informatie over de codes (bijvoorbeeld ‘titel’, ‘abstracte’, ‘MeSH’). Ga naar de directory van de ‘log’ de om logboekberichten te lezen in ‘indexing_log.txt’ in het geval dat dit proces mislukt. Als het proces is voltooid, zal de foutopsporingsberichten van het indexeren in het logboekbestand worden afgedrukt. 6. tekst-kubus oprichting De nieuwste MeSH Tree downloaden beschikbaar op (https://www.nlm.nih.gov/mesh/filelist.html). De huidige versie van de code is met behulp van MeSH boom 2018 als ‘meshtree2018.bin’ in de input directory. De categorieën van belang (bijvoorbeeld ziekte namen, leeftijdsgroepen, geslacht) bepalen. Een categorie bevatten een of meer MeSH descriptoren (https://meshb-prev.nlm.nih.gov/treeView). Verzamelen MeSH-id voor een categorie. De namen van de categorieën in het bestand ‘textcube_config.json’ in de configuratiemap (zie een voorbeeld van de categorie ‘Leeftijdsgroep’ in de gedownloade versie van ‘textcube_config.json’ bestand) opslaan. Zet de verzamelde categorieën van MeSH-id’s in een lijn gescheiden door een spatie. De categorie-bestand opslaan als ‘categories.txt’ in de ‘input’ directory (zie een voorbeeld van ‘Leeftijdsgroep’ MeSH-id’s in de gedownloade versie van ‘categories.txt’ bestand). Dit algoritme selecteert automatisch alle afstammeling MeSH descriptoren. Een voorbeeld van hoofdknooppunten en nakomelingen worden gepresenteerd Figuur 4. Zorg ervoor dat ‘mesh2pmid.json’ in de map ‘data’. Als de boom MeSH is bijgewerkt met een andere naam (bijvoorbeeld ‘meashtree2019.bin’) in de map ‘input’, zorg ervoor dat dit goed is vertegenwoordigd in het pad van de ingevoerde gegevens in het bestand ‘run_textube.py’. Typ ‘python run_textcube.py’ in de terminal om te maken van de structuur van een document gegevens tekst-kubus genoemd. Hiermee maakt u een verzameling documenten (PMIDs) voor elke categorie. Een enkel document (PMID) kan vallen onder meerdere categorieën (Zie tabel 3A, 3B van de tabel, figuur 6A en figuur 7A). Zodra de tekst-kubus oprichting stap is voltooid, zorg ervoor dat de volgende gegevensbestanden worden opgeslagen in de map ‘data’: (1) een cel aan PMID tabel als “textcube_cell2pmid.json”, (2) een PMID naar tabel van de toewijzing van de cel als “textcube_pmid2cell.json”, (3) een de collectie van alle onderliggende MeSH termen voor een cel als “meshterms_per_cat.json” (4) tekst-kubus gegevens statistieken als “textcube_stat.txt”. Ga naar de directory van de ‘log’ de om logboekberichten te lezen in ‘textcube_log.txt’ in het geval dat dit proces mislukt. Als het proces is voltooid, zal de foutopsporingsberichten van de tekst-kubus oprichting in het logboekbestand worden afgedrukt. 7. entiteit graaf Gebruiker gedefinieerde entiteiten (bijv. eiwitten namen, genen, chemicaliën) maken. Zet één entiteit en de afkortingen in een enkele lijn gescheiden door “|”. De entiteit-bestand opslaan als ‘entities.txt’ in de map ‘input’. Een steekproef van entiteiten kan worden gevonden in tabel 4. Zorg ervoor dat Elasticsearch server wordt uitgevoerd. Ga anders door naar stap 5.2 en 5.3 opnieuw op te starten van de server Elasticsearch. Verwacht wordt dat een geïndexeerde database met de naam ‘pubmed’ in uw Elasticsearch server die werd opgericht in stap 5. Zorg ervoor dat ‘textcube_pmid2cell.json’ in de map ‘data’. Typ ‘python run_entitycount.py’ in de terminal entiteit graaf bewerking uit te voeren. Dit zoekt de documenten uit de geïndexeerde database en telt de entiteit in elk document evenals verzamelt de PMIDs waarin entiteiten zijn gevonden. Zodra de telling van de entiteit is voltooid, zorg ervoor dat de definitieve resultaten worden opgeslagen als ‘entitycount.txt’ en ‘entityfound_pmid2cell.json’ in de map ‘data’. Ga naar de directory van de ‘log’ de om logboekberichten te lezen in ‘entitycount_log.txt’ in het geval dat dit proces mislukt. Als het proces is voltooid, zal de foutopsporingsberichten van de telling van de entiteit in het logboekbestand worden afgedrukt. 8. Metadata update Zorg ervoor dat alle ingevoerde gegevens (‘entitycount.txt’, ‘textcube_pmid2cell.json’, ‘entityfound_pmid2cell.txt’) in de map ‘data’. Dit zijn de invoergegevens voor Metadata Update. Typ ‘python run_metadata_update.py’ in de terminal om te werken van de metagegevens. Dit bereidt een collectie metagegevens (bijvoorbeeld celnaam, bijbehorende MeSH, PMIDs) vertegenwoordigen elk tekstdocument in de cel. Een voorbeeld van tekst-Cube metagegevens wordt gepresenteerd in tabel 3A en tabel 3B. Zodra de Metadata-Update is voltooid, zorg ervoor dat ‘metadata_pmid2pcount.json’ en ‘metadata_cell2pmid.json’ bestanden worden opgeslagen in de map ‘data’. Ga naar de directory van de ‘log’ de om logboekberichten te lezen in ‘metadata_update_log.txt’ in het geval dat dit proces mislukt. Als het proces is voltooid, zal de foutopsporingsberichten van de metadata update in het logboekbestand worden afgedrukt. 9. CaseOLAP score berekening Zorg ervoor dat ‘metadata_pmid2pcount.json’ en ‘metadata_cell2pmid.json’ bestanden aanwezig zijn in de map ‘gegevens’. Dit zijn de invoergegevens voor score berekening. Typ ‘python run_caseolap_score.py’ in de terminal CaseOLAP score berekening uitvoeren. Dit berekent de score van de CaseOLAP van de entiteiten die op basis van gebruiker gedefinieerde categorieën. De score van de CaseOLAP is het product van integriteit, populariteiten onderscheidend vermogen. Zodra de score berekening is voltooid, zorg ervoor dat dit de resultaten in meerdere bestanden (bijvoorbeeld populariteit als ‘pop.csv’, onderscheidend vermogen als ‘dist.csv’, CaseOLAP score als ‘caseolap.csv’), wordt opgeslagen in de map ‘leiden tot’. De samenvatting van de CaseOLAP score berekening wordt ook gepresenteerd in tabel 5. Ga naar de directory van de ‘log’ de om logboekberichten te lezen in ‘caseolap_score_log.txt’ in het geval dat dit proces mislukt. Als het proces is voltooid, zal de debugging boodschappen van de CaseOLAP score berekening in het logboekbestand worden afgedrukt.

Representative Results

Om het monster resultaten opleveren, wij de CaseOLAP-algoritme geïmplementeerd in twee onderwerp koppen/descriptors: “Leeftijdsgroepen” en “Voeding en metabole ziekten” zoals use cases. Leeftijdsgroepen. Wij alle 4 subcategorieen in “Leeftijdsgroepen” (baby, kind, puber en volwassen) geselecteerd als cellen in een tekst-kubus. De verkregen metagegevens en statistieken worden weergegeven in tabel 3A. De vergelijking van het aantal documenten onder de cellen tekst-Cube is weergegeven in figuur 6A. Volwassene bevat 172,394 documenten die het hoogste nummer is over alle cellen. De volwassen en adolescent subcategorieën hebben het hoogste aantal gedeelde documenten (26,858 documenten). Met name deze documenten opgenomen de entiteit van onze alleen de rente (dat wil zeggen, mitochondriale eiwitten). De Venn-diagram in figuur 6B vertegenwoordigt het aantal entiteiten (dat wil zeggen, mitochondriale eiwitten) gevonden binnen elke cel, en binnen meerdere overlappingen tussen de cellen. Het aantal eiwitten gedeeld binnen alle leeftijdsgroepen subcategorieën is 162. De volwassen subcategorie beeldt het hoogste aantal unieke eiwitten (151) gevolgd door kinderen (16), kind (8) en adolescenten (1). Wij berekend de eiwit-leeftijd groep vereniging als een CaseOLAP score. De eiwitten van de top 10 (gebaseerd op de gemiddelde score van CaseOLAP) die is gekoppeld aan de zuigeling, de kind, de adolescent en de volwassene subcategorieën zijn plantensterolen 26-hydroxylase, Alpha-Crystalline B ketting, 25-hydroxyvitamin D-1 alpha-hydroxylase, Serotransferrin, citraatsynthase, L-seryl-tRNA, natrium/kalium-vervoer ATPase subeenheid alpha-3, Glutathione S-transferase omega-1 NADPH: adrenodoxin oxidoreductasen en mitochondriale peptide methionine sulfoxide reductase (afgebeeld in Figuur 6 c). De volwassen subcategorie verschijnt 10 heatmap cellen met een hogere intensiteit in vergelijking met de heatmap cellen van de adolescent, het kind en de zuigeling subcategorie, die aangeeft dat de top 10 mitochondriale eiwitten de sterkste verenigingen de volwassen subcategorie vertonen. De eiwitten mitochondriaal plantensterolen 26-hydroxylase heeft hoge verenigingen in alle leeftijd-subcategorieën waarvan is aangetoond dat zij door heatmap cellen met hogere intensiteiten in vergelijking met de heatmap cellen van de andere 9 mitochondriale eiwitten. De statistische verdeling van het absolute verschil tussen de twee groepen in de partituur toont het volgende bereik voor het gemiddelde verschil met een betrouwbaarheidsinterval van 99%: (1) het gemiddelde verschil tussen ‘Advertentie’ en ‘INFT’ ligt in het bereik (0.029 aan 0.042), (2) het gemiddelde verschil tussen ‘Advertentie’ en ‘Kinderen’ leugens in het bereik (0.021 tot 0,030), (3) het gemiddelde verschil tussen ‘Advertentie’ en ‘Enolvormen’ ligt in het bereik (0.020 aan 0.029), (4) het gemiddelde verschil tussen ‘Enolvormen’ en ‘INFT’ leugens in het bereik (0,015 tot 0,022), (5) het gemiddelde verschil tussen ‘Enolvormen’ en ‘Kinderen’ ligt in het bereik (0,007 aan 0.010), (6) het gemiddelde verschil tussen ‘Kinderen’ en ‘INFT’ leugens in het bereik (0.011-0.016). Voeding en metabole ziekten. We kozen 2 subcategorieën van “Voeding en metabole ziekten” (dat wil zeggen, stofwisselingsziekte en voedingsproblemen) 2 om cellen te maken in een tekst-kubus. De verkregen metagegevens en statistieken worden weergegeven in tabel 3B. De vergelijking van het aantal documenten onder de cellen tekst-Cube is weergegeven in figuur 7A. De subcategorie stofwisselingsziekte bevat 54,762 documenten, gevolgd door 19,181 documenten in voedingsproblemen. De subcategorieën stofwisselingsziekte en voedingsproblemen hebben 7,101 gedeelde documenten. Met name deze documenten opgenomen de entiteit van onze alleen de rente (dat wil zeggen, mitochondriale eiwitten). De Venn-diagram in figuur 7B vertegenwoordigt het aantal entiteiten binnen elke cel, en binnen meerdere overlappingen tussen de cellen gevonden. Wij berekend de eiwit-“Nutritionele- en metabole ziekten” vereniging als een CaseOLAP score. De eiwitten van de top 10 (gebaseerd op de gemiddelde score van CaseOLAP) die zijn gekoppeld aan deze use-case zijn plantensterolen 26-hydroxylase, Alpha-Crystalline B keten, L-seryl-tRNA citraatsynthase, tRNA pseudouridine synthase A, 25-hydroxyvitamin D-1 alpha-hydroxylase, Glutathione S-transferase omega-1, NADPH: adrenodoxin oxidoreductasen, mitochondriale peptide methionine sulfoxide reductase, Plasminogen activator inhibitor 1 (afgebeeld in Figuur 7 c). Meer dan de helft (54%) van alle eiwitten worden gedeeld tussen de subcategorieën metabole ziekten en voedingsproblemen (397 eiwitten). Interessant is dat bijna de helft (43%) van alle bijbehorende eiwitten in de subcategorie stofwisselingsziekte zijn unieke (300 eiwitten), terwijl voedingsproblemen slechts een paar unieke eiwitten (35 vertonen). Alpha-Crystalline B keten toont de sterkste vereniging aan de subcategorie metabole ziekten. Plantensterolen 26-hydroxylase, mitochondriale geeft de sterkste vereniging in de subcategorie van voedingsproblemen, waarmee wordt aangegeven dat deze eiwitten mitochondriaal zeer relevante studies beschrijven voedingsproblemen. De statistische verdeling van het absolute verschil in de partituur tussen twee groepen ‘MBD’ en ‘NTD’ toont het bereik (0.046 aan 0.061) voor het gemiddelde verschil als een betrouwbaarheidsinterval van 99%. Figuur 1. Dynamische weergave van de CaseOLAP-Workflow. Dit cijfer vertegenwoordigt de 5 belangrijke stappen in de workflow van de CaseOLAP. In stap 1 begint de werkstroom door te downloaden en uitpakken van tekstuele documenten (bijvoorbeeld uit PubMed). In stap 2, zijn geëxtraheerde gegevens geparseerd om te maken een gegevenswoordenboek voor elk document, alsmede een MeSH PMID toewijzen aan. In stap 3 wordt het indexeren van de gegevens uitgevoerd om snelle en efficiënte entiteit zoeken. In stap 4, wordt informatie over een gebruiker opgegeven categorie (bijv.., wortel MeSH voor elke cel) uitgevoerd een tekst-kubus moet worden opgebouwd. In stap 5, is de werking van de graaf entiteit uitvoeringsduur van indexgegevens voor het berekenen van de scores van de CaseOLAP. Deze stappen worden herhaald op iteratieve wijze het systeem bijwerken met de meest recente informatie beschikbaar in een openbare database (b.v., PubMed). Klik hier voor een grotere versie van dit cijfer. Figuur 2. Technische architectuur van de CaseOLAP-Workflow. Deze afbeelding ziet u de technische details van de CaseOLAP-workflow. Gegevens uit het archief van PubMed worden verkregen van de PubMed FTP-server. De gebruiker verbinding met de server van de wolk (bijvoorbeeld AWS connectiviteit) via hun apparaat en maakt een downloaden pijpleiding die downloads en haalt de gegevens om een lokaal repository in de cloud. Uitgepakte gegevens zijn gestructureerd, geverifieerd en gebracht naar een juiste indeling met een pijpleiding voor het parseren van gegevens. Tegelijkertijd wordt een MeSH aan PMID mapping tabel gemaakt tijdens de ontleden stap, die wordt gebruikt voor tekst-Cube bouw. Verdeelde gegevens worden opgeslagen als een JSON zoals dictionary voor sleutel / waarde-formaat met de metagegevens van een document (bijvoorbeeld PMID, MeSH, publishing jaar). De indexering stap verder verbetert de gegevens door de uitvoering van Elasticsearch voor het afhandelen van bulkdata. Vervolgens wordt de tekst-kubus gemaakt met de gebruiker gedefinieerde categorieën door de uitvoering van MeSH PMID toewijzen aan. Wanneer de tekst-kubus oprichting en indexering stappen zijn voltooid, wordt een entiteit telling uitgevoerd. Entiteit graaf gegevens ten uitvoer worden gelegd aan de tekst-Cube-metagegevens. Ten slotte is de CaseOLAP score berekend op basis van de onderliggende structuur van de tekst-kubus. Klik hier voor een grotere versie van dit cijfer. Figuur 3. Een voorbeeld van een verdeelde document. Een monster van de verdeelde gegevens in deze afbeelding wordt gepresenteerd. De verdeelde gegevens zijn gerangschikt als een sleutel / waarde-paar dat compatibel is met indexeren en document metadata creatie. In deze afbeelding is een PMID (bijvoorbeeld “25896987”) dienst doet als een sleutel en verzameling van daarmee verband houdende informatie (bijvoorbeeld titel, Journal, datum, Abstract, MeSH, stoffen, afdeling en locatie publiceren) zijn als waarde. De allereerste toepassing van zulke metadata van het document is de bouw van MeSH aan PMID toewijzing (Figuur 5 en tabel 2), die later wordt uitgevoerd om de tekst-kubus te maken en voor het berekenen van de score van de CaseOLAP met de gebruiker opgegeven entiteiten en Categorieën. Klik hier voor een grotere versie van dit cijfer. Figuur 4. Een voorbeeld van een MeSH-boom. De ‘leeftijd groepen MeSH boom is aangepast van de boomstructuur gegevens beschikbaar in het NIH-database (MeSH boom 2018, ). MeSH descriptoren worden geïmplementeerd met hun knooppunt-id (bijv. personen [M01], leeftijdsgroepen [M01.060], Adolescent [M01.060.057], volwassene [M01.060.116], kind [M01.060.406], zuigeling [M01.060.703]) te verzamelen van de documenten die relevant zijn voor een specifieke MeSH descriptor ( Tabel 3A). Klik hier voor een grotere versie van dit cijfer. Figuur 5. Gaas aan PMID toewijzing in leeftijdsgroepen. Dit cijfer geeft het aantal tekstdocumenten (elk gekoppeld met een PMID) verzameld onder de MeSH descriptoren in “Leeftijdsgroepen” als een complot van de zeepbel. De Maas naar PMID toewijzing wordt gegenereerd om het exacte aantal documenten verzameld onder de MeSH-descriptoren. Totaal 3,062,143 unieke documenten werden verzameld onder de 18 afstammeling MeSH descriptoren (Zie tabel 2). Hoe hoger het aantal PMIDs hebt geselecteerd onder een specifieke MeSH descriptor, hoe groter de straal van de zeepbel vertegenwoordigen de MeSH “descriptor”. Bijvoorbeeld, het hoogste aantal documenten werden verzameld onder de MeSH “descriptor” “Volwassen” (1,786,371 documenten), overwegende dat het minste aantal tekstdocumenten werden verzameld onder de MeSH “descriptor” “Kind, Postmature” (62-documenten).Een extra voorbeeld van MeSH PMID toewijzen aan is gegeven voor “Voeding en metabole ziekten” (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). Totaal 422,039 unieke documenten werden verzameld onder de 361 afstammeling MeSH descriptoren in “Voeding en metabole ziekten”. Het hoogste aantal documenten werden verzameld onder de MeSH “descriptor” “Obesitas” (77,881 documenten) gevolgd door “Diabetes Mellitus Type 2’ (61,901 documenten), overwegende dat” glycogeen opslag ziekte, typ VIII “tentoongesteld de laagste aantal documenten (1 document ). Een gerelateerde tabel is ook online beschikbaar op (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). Klik hier voor een grotere versie van dit cijfer. Figuur 6. “Leeftijdsgroepen” als een use-case. Dit cijfer presenteert de resultaten van een use-case van het CaseOLAP platform. In dit geval, de namen van de eiwitten en hun afkortingen (zie voorbeeld in tabel 4) worden geïmplementeerd als entiteiten en “Leeftijdsgroepen” met inbegrip van de cellen: zuigeling (INFT), kind (kinderen) en adolescent (Enolvormen) volwassene (advertentie), worden geïmplementeerd als subcategorieën (Zie Tabel 3A). (A) Aantal documenten in “Leeftijdsgroepen”: Deze warmte kaart toont het aantal documenten verdeeld over de cellen van de “Leeftijd groepen” (voor meer informatie over de tekst-kubus oprichting Zie Protocol 4 en tabel 3A). Een groter aantal documenten wordt gepresenteerd met een donkere intensiteit van de heatmap cel (Zie de schaal). Een enkel document kan worden opgenomen in meer dan één cel. De heatmap presenteert het aantal documenten binnen een cel langs de diagonaal positie (bijvoorbeeld advertentie bevat 172,394 documenten die het hoogste nummer is over alle cellen). Het nondiagonal standpunt vertegenwoordigt het aantal documenten die vallen onder twee cellen (bijvoorbeeld advertentie en Enolvormen hebben 26,858 gedeelde documenten). (B) . Entiteit graaf in “Leeftijdsgroepen”: de Venn-diagram vertegenwoordigt het aantal eiwitten gevonden in de vier cellen vertegenwoordigt “Leeftijdsgroepen” (INFT, Peuterbedje Enolvormen en advertentie). Het aantal eiwitten gedeeld binnen alle cellen is 162. De leeftijdsgroep advertentie toont het hoogste aantal unieke eiwitten (151) gevolgd door kinderen (16), INFT (8) en Enolvormen (1). (C) CaseOLAP score presentatie in “Leeftijdsgroepen”: De top 10 eiwitten met de hoogste gemiddelde scores van de CaseOLAP in elke groep worden gepresenteerd in een warmte-kaart. Een hogere score van CaseOLAP wordt gepresenteerd met een donkere intensiteit van de heatmap cel (Zie de schaal). De eiwit-namen worden weergegeven in de linkerkolom en de cellen (INFT Peuterbedje, Enolvormen, advertentie) worden weergegeven langs de x-as. Sommige eiwitten tonen een sterke associatie met een specifieke leeftijdsgroep (bijvoorbeeld plantensterolen 26-hydroxylase, alpha-Crystalline B ketting en L-seryl-tRNA hebben sterke verenigingen met advertentie, terwijl de natrium/kalium-vervoer ATPase subeenheid alpha-3 heeft een sterke associatie met INFT). Klik hier voor een grotere versie van dit cijfer. Figuur 7. “Nutritionele- en metabole ziekten” als een use-case: dit cijfer presenteert de resultaten van een ander gebruiksvoorbeeld van het CaseOLAP platform. In dit geval, de namen van de eiwitten en hun afkortingen (zie voorbeeld in tabel 4) worden geïmplementeerd als entiteiten en “Voeding en metabole ziekte” met inbegrip van de twee cellen: stofwisselingsziekte (MBD) en voedingsproblemen (NTD) worden geïmplementeerd als subcategorieën (Zie tabel 3B). (A). aantal documenten in “Voeding en metabole ziekten”: deze heatmap toont het aantal tekstdocumenten in de cellen van “Voeding en metabole ziekten” (voor details over de tekst-kubus oprichting Zie Protocol 4 en tabel 3B ). Een groter aantal documenten wordt gepresenteerd met een donkere intensiteit van de heatmap cel (Zie schaal). Een enkel document kan worden opgenomen in meer dan één cel. De heatmap presenteert het totale aantal documenten binnen een cel langs de diagonaal positie (bijvoorbeeld MBD bevat 54,762 documenten die het hoogste aantal is over de twee cellen). Het nondiagonal standpunt vertegenwoordigt het aantal documenten gedeeld door de twee cellen (bijvoorbeeld MBD en NTD hebben 7,101 gedeelde documenten). (B). entiteit graaf in “Voeding en metabole ziekten”: de Venn-diagram vertegenwoordigt het aantal eiwitten gevonden in de twee cellen vertegenwoordigt “Voeding en metabole ziekten” (MBD en NTD). Het aantal eiwitten gedeeld binnen de twee cellen is 397. De cel MBD beeldt 300 unieke eiwitten, en de NTD-cel toont 35 unieke eiwitten. (C). CaseOLAP score presentatie in “Voeding en metabole ziekten”: de eiwitten van de top 10 met de hoogste gemiddelde scores van de CaseOLAP in “Voeding en metabole ziekten” worden gepresenteerd in een warmte-kaart. Een hogere score van CaseOLAP wordt gepresenteerd met een donkere intensiteit van de heatmap cel (Zie schaal). De eiwit-namen worden weergegeven in de linkerkolom en cellen (MBD en NTD) worden weergegeven langs de x-as. Sommige eiwitten tonen een sterke associatie met de categorie van een bepaalde ziekte (bijvoorbeeld alpha-Crystalline B keten heeft een hoge vereniging met stofwisselingsziekte en plantensterolen 26-hydroxylase heeft een hoge vereniging met voedingsproblemen). Klik hier voor een grotere versie van dit cijfer. Tijd (percentage van de totale tijd) Stappen in het CaseOLAP platform Algoritme en de gegevensstructuur van het CaseOLAP platform Complexiteit van het algoritme en gegevensstructuur Details van de stappen 40% Downloaden enParseren Iteratie en boom parsing algoritmen Iteratie met geneste lus en constante vermenigvuldiging: O(n^2), O (log n). Waar ‘n’ is aantal iteraties. Elke procedure itereert de pijpleiding downloaden over meerdere bestanden. Parseren van een enkel document loopt elke procedure over de boomstructuur van onbewerkte XML-gegevens. 30% Indexeren, zoeken en tekst kubus oprichting Iteratie, zoektocht algoritmen door Elasticsearch (sorteren, Lucene index prioriteitswachtrijen, eindige statuscomputers, beetje twiddling hacks, regex query’s) Complexiteit gerelateerde aan Elasticsearch (https://www.elastic.co/) Documenten worden geïndexeerd door de uitvoering van de iteratie-proces over het gegevenswoordenboek. De tekst-kubus oprichting implementeert meta-de gegevens van het document en de informatie over een gebruiker opgegeven categorie. 30% Entiteit tellen en CaseOLAP berekening Iteratie in integriteit, populariteit, onderscheidend vermogen berekening O(1), O(n^2), meerdere complexiteit aan caseOLAP Score berekening op basis van iteratie typen gerelateerde. Entiteit graaf operatie de documenten worden weergegeven en een bewerking van de graaf over de lijst maken. De entiteit graaf data worden gebruikt voor het berekenen van de score van de CaseOLAP. Tabel 1. Algoritmen en complexiteit. Deze tabel bevat informatie over de tijd die doorgebracht (percentage van de totale tijd doorgebracht) over de procedures (b.v., downloading, ontleden), datastructuur en details over de uitgevoerde algoritmen in de CaseOLAP platform. CaseOLAP implementeert de professionele indexeren en de zoektoepassing Elasticsearch genoemd. Meer informatie over complexiteit aan Elasticsearch en interne algoritmen gerelateerde vindt u op (https://www.elastic.co). MeSH descriptoren Aantal van PMIDs verzameld Volwassene 1,786,371 Middle Aged 1,661,882 Leeftijd 1,198,778 Adolescent 706,429 Jong volwassene 486,259 Kind 480,218 Leeftijd, 80 jaar en ouder 453,348 Kind, Preschool 285,183 Baby 218,242 Baby, Newborn 160,702 Baby, voorbarig 17,701 Kindersterfte, laag geboortegewicht 5,707 Kwetsbare ouderen 4,811 Baby, zeer laag geboortegewicht 4,458 Baby, klein voor de zwangerschapsduur 3,168 Baby, uiterst prematuur 1,171 Baby, extreem laag geboortegewicht 1,003 Baby, Postmature 62 Tabel 2. Gaas op PMID toewijzing statistieken. Deze tabel geeft een overzicht van alle onderliggende MeSH descriptoren van “Leeftijdsgroepen” en hun aantal verzamelde PMIDs (tekstdocumenten). De visualisatie van deze statistieken wordt gepresenteerd in Figuur 5. A Baby (INFT) Kind (kinderen) Adolescent (Enolvormen) Volwassene (advertentie) MeSH hoofdobject-ID M01.060.703 M01.060.406 M01.060.057 M01.060.116 Aantal onderliggende MeSH descriptors 9 2 1 6 Aantal PMIDs geselecteerd 16,466 26,907 35,158 172,394 Aantal entiteiten gevonden 233 297 257 443 B Metabole ziekten (MBD) Voedingsproblemen (NTD) MeSH hoofdobject-ID C18.452 C18.654 Aantal onderliggende MeSHdescriptoren 308 53 Aantal PMIDs verzameld 54,762 19,181 Aantal entiteiten gevonden 697 432 Tabel 3. Tekst-Cube metagegevens. Een tabelweergave van tekst-Cube metagegevens wordt gepresenteerd. De tabellen bevatten informatie over de categorieën en gaas descriptor wortels en nakomelingen, die worden uitgevoerd voor het verzamelen van de documenten in elke cel. De tabel bevat ook de statistieken van de verzamelde documenten en entiteiten. (A) “Leeftijdsgroepen”: dit is een tabelvorm blijk van “Leeftijdsgroepen” met inbegrip van baby (INFT), kind (kinderen) en adolescent (Enolvormen) volwassene (advertentie) en hun MeSH wortel IDs, aantal onderliggende MeSH descriptoren, aantal geselecteerde PMIDs en aantal gevonden entiteiten. (B) “Voeding en metabole ziekten”: dit is een tabelvorm vertoning van “Voeding en metabole ziekten” waaronder stofwisselingsziekte (MBD) en voedingsproblemen (NTD) met hun MeSH root ID’s, aantal onderliggende MeSH descriptors, aantal geselecteerde PMIDs en het aantal gevonden entiteiten. Eiwit namen en synoniemen Afkortingen N-acetylglutamate synthase, mitochondriaal, aminozuur acetyltransferase, N-acetylglutamate synthase lange vorm; N-acetylglutamate synthase korte vorm; N-acetylglutamate synthase geconserveerd domein form] (EG 2.3.1.1) Eiwit/nucleic zuur deglycase DJ-1 (Maillard deglycase) (oncogen DJ1) (Parkinson ziekte eiwit 7) (ziekte van Parkinson-geassocieerde deglycase) (DJ-1 eiwit) (EG 3.1.2.-) (EG 3.5.1.-) (EG 3.5.1.124) (DJ-1) Pyruvaat carboxylase, mitochondriale (pyrodruivenzuur carboxylase) (EG 6.4.1.1) (PCB) Bcl-2-bindend onderdeel 3 (p53 omhoog-geregeld modulator van apoptosis) (JFY-1) BH3-interactie domein dood agonist [BH3-interactie domein dood agonist p15 (p15 BID); BH3-interactie domein dood agonist p13; BH3-interactie domein dood agonist p11] (p22 bod) (BID) (p13 bod) (p11 bod) ATP synthase subeenheid Alfa, mitochondriale (ATP-synthase F1 subeenheid α) Cytochroom P450 11B2, mitochondriale (aldosteron synthase) (aldosteron-synthese enzym) (CYPXIB2) (cytochroom P-450Aldo) (cytochroom P-450_C_18) (steroïde 18-hydroxylase) (ALDOS) (EG 1.14.15.4) (EG 1.14.15.5) 60 kDa warmte schok eiwit, mitochondriale (60 kDa chaperonin) (Chaperonin 60) (CPN60) (Heat shock protein 60) (mitochondriale matrix eiwit P1) (P60 lymfocyt eiwit) (HSP-60) (Hsp60) (HuCHA60) (EG 3.6.4.9) Caspase-4 (ijs en Ced-3 homolog 2) (Protease-TX) [gekloofd in: Caspase-4 subeenheid 1; Caspase-4 subeenheid 2] (CASP-4) (EG 3.4.22.57) (ICH-2) (ICE(rel)-II) (Mih1) Tabel 4. Proeven van tabel Entity. Deze tabel geeft het monster van entiteiten uitgevoerd in onze twee use-cases: “Leeftijdsgroepen” en “Voeding en metabole ziekten” (Figuur 6 en 7 van de figuur, tabel 3A,B). De entiteiten bevatten eiwitten namen, synoniemen en afkortingen. Elke entiteit (met de synoniemen en afkortingen) is geselecteerde één voor één en is doorgegeven via de zoekbewerking entiteit over geïndexeerde gegevens (zie protocol 3 en 5). De zoekactie produceert een lijst van documenten die de entiteit graaf werking verder te vergemakkelijken. Hoeveelheden Door de gebruiker gedefinieerde Berekend Vergelijking van de hoeveelheid Betekenis van de hoeveelheid Integriteit Ja No Integriteit van gebruiker gedefinieerd entiteiten beschouwd als 1.0. Dit object vertegenwoordigt een betekenisvolle zin. Numerieke waarde is 1.0 wanneer er reeds een gevestigde uitdrukking. Populariteit No Ja Vergelijking van de populariteit in figuur 1 (Workflow en algoritme) verwijzing 5, ‘Materialen en methoden’ sectie. Gebaseerd op termijn frequentie van de zin binnen een cel. Genormaliseerd door de frequentie van de totale duur van de cel. Toename van de frequentie van de termijn heeft resultaat aan het afnemen. Onderscheidend vermogen No Ja Vergelijking van het onderscheidend vermogen in figuur 1 (Workflow en algoritme) verwijzing 5, ‘Materialen en methoden’ sectie. Gebaseerd op termijn frequentie en document frequentie binnen een cel en over de aangrenzende cellen. Genormaliseerd door de frequentie van de totale duur en de frequentie van het document. Kwantitatief, is het de kans dat een zin uniek in een specifieke cel is. CaseOLAP score No Ja CaseOLAP score vergelijking in figuur 1 (Workflow en algoritme) verwijzing 5, ‘Materialen en methoden’ sectie. Gebaseerd op integriteit, populariteit en onderscheidend vermogen. Numerieke waarde valt altijd binnen 0 tot 1. Kwantitatief vertegenwoordigt de score van de CaseOLAP de vereniging zin-categorie Tabel 5. CaseOLAP vergelijkingen: The CaseOLAP algoritme werd ontwikkeld door Fangbo Tao en Jiawei Han et al. in 20161. Deze tabel geeft kort, de CaseOLAP score berekening bestaande uit drie onderdelen: integriteit, populariteit, en onderscheidend vermogen en hun bijbehorende wiskundige betekenis. In onze use-cases, de integriteit score voor eiwitten is 1.0 (de maximale score) omdat zij als gevestigde Entiteitsnamen staan. De scores van de CaseOLAP in onze use-cases te zien in Figuur 6 c en Figuur 7 c.

Discussion

We hebben aangetoond dat de CaseOLAP-algoritme een zin gebaseerd kwantitatieve vereniging aan een kennis gebaseerde categorie via grote hoeveelheden tekstgegevens voor extractie van zinvolle inzichten maken kunt. Na ons protocol, kan een het CaseOLAP kader kwantificeren entiteit-categorie verenigingen via CaseOLAP score berekening te maken van een gewenste tekst-kubus bouwen. De verkregen ruwe scores van de CaseOLAP kunnen worden genomen om de integratieve analyses, met inbegrip van dimensionaliteit vermindering, clustering, temporele en geografische analyse, evenals de oprichting van een grafische database waarmee semantische toewijzing van de documenten.

Toepasselijkheid van het algoritme. Voorbeelden van aangepaste entiteiten, dan eiwitten, zou een lijst van gene namen, drugs, specifieke tekenen en symptomen, met inbegrip van hun afkortingen en synoniemen. Verder zijn er vele keuzen voor categorie selectie om specifieke gebruiker gedefinieerde biomedische analyses uitgevoerd (bijvoorbeeld anatomie [A], Discipline en bezetting [H], verschijnselen en processen [G]). In onze twee gebruiksvoorbeelden, alle wetenschappelijke publicaties en hun tekstuele gegevens worden opgehaald uit de MEDLINE database PubMed als de zoekmachine gebruiken, zowel beheerd door de National Library of Medicine. Het platform CaseOLAP kan echter worden toegepast op andere databases van belang met biomedische documenten met tekstuele gegevens zoals de FDA Adverse Event Reporting systeem (FAERS). Dit is een open database met informatie over medische ongewenste voorvallen en medicatie foutenrapporten ingediend bij de FDA. In tegenstelling tot MEDLINE en FAERS, databanken in ziekenhuizen met elektronische medische dossiers van patiënten zijn niet open voor het publiek en zijn beperkt door de Health Insurance Portability and Accountability Act bekend als HIPAA.

CaseOLAP-algoritme is met succes toegepast op de verschillende soorten gegevens (bijvoorbeeld nieuwsartikelen)1. De implementatie van dit algoritme in biomedische documenten geboekt in 20185. De eisen voor de toepasbaarheid van CaseOLAP algoritme is dat elk van de documenten moet worden toegewezen met trefwoorden die zijn gekoppeld aan de begrippen (bijv. maaswijdte descriptoren in biomedische publicaties, trefwoorden in nieuwsartikelen). Als zoekwoorden niet worden gevonden, kan een aanvraag Autophrase6,7 voor het verzamelen van hoogste vertegenwoordiger zinnen en samenstellen van de lijst van de entiteit vóór de tenuitvoerlegging van ons protocol. Ons protocol voorziet niet in de stap om uit te voeren Autophrase.

Vergelijking met andere algoritmen. Het concept van het gebruik van een gegevenskubus8,9,10 en een tekst-Cube2,3,4 heeft zich ontwikkeld sinds 2005 met nieuwe vorderingen te maken datamining meer van toepassing. Het concept van Online Analytical Processing (OLAP)11,12,13,14,15 in datamining en bedrijfsinformatie gaat terug tot 1993. OLAP, aggregaten van de gegevens van meerdere systemen in het algemeen, en slaat deze op in een multi-dimensionale formaat. Er zijn verschillende types van OLAP-systemen geïmplementeerd in datamining. Bijvoorbeeld (1) hybride-transactie/analytische verwerking (HTAP)16,17, (2) Multidimensionale OLAP (MOLAP)18,19-kubus op basis, en (3) relationele OLAP-(ROLAP)20.

In het bijzonder de CaseOLAP algoritme is vergeleken met talrijke bestaande algoritmen, specifiek, met hun zin segmentatie verbeteringen, met inbegrip van TF-IDF + Seg, MCX + Seg, MCX en SegPhrase. Bovendien, RepPhrase (RP, ook bekend als SegPhrase +) is vergeleken met eigen ablatie variaties, met inbegrip van (1) RP zonder de integriteit maatregel opgenomen (RP No INT), (2) RP zonder de populariteit maatregel opgenomen (RP No POP) en (3) RP zonder de Onderscheidend vermogen maatregel opgenomen (RP geen DIS). De benchmarkresultaten staan in de studie door Fangbo Tao et al.1.

Er zijn nog steeds uitdagingen op datamining die extra functionaliteit toevoegen kunt over het opslaan en ophalen van de gegevens uit de database. Omgevingsbewuste semantische Analytical Processing (CaseOLAP) implementeert systematisch de Elasticsearch om te bouwen van een indexering database van miljoenen documenten (Protocol 5). De tekst-kubus is de structuur van een document over de geïndexeerde gegevens met gebruiker opgegeven categorieën (Protocol 6) gebouwd. Dit verbetert de functionaliteit om de documenten binnen en buiten de cel van de tekst-kubus en laten toe te berekenen term frequentie van de entiteiten over een document en de frequentie van het document op een specifieke cel (Protocol 8). De eindscore van de CaseOLAP maakt gebruik van deze frequentie berekeningen uitvoeren een eindscore (Protocol 9). In 2018 wij dit algoritme om te studeren ECM eiwitten en zes hart-en vaatziekten te analyseren van eiwit-ziekte verenigingen. De details van deze studie kunnen worden gevonden in de studie door Liem, D.A. et al.5. die aangeeft dat de CaseOLAP in de biomedische Gemeenschap allerlei ziekten en mechanismen verkennen wijd gebruikt kan worden.

Beperkingen van het algoritme. Zin mijnbouw zelf is een techniek om te beheren en belangrijke concepten van tekstuele gegevens op te halen. Tijdens het ontdekken van entiteit-categorie vereniging als een wiskundige grootheid (vector), is deze techniek niet in staat om erachter te komen de polariteit (b.v., positief of negatief hellingsgradiënt) van de vereniging. Men kan bouwen de kwantitatieve samenvatting van de gegevens met behulp van de structuur van het document van de tekst-Cude met toegewezen entiteiten en categorieën, maar een kwalitatieve concept met microscopische granularities kan niet worden bereikt. Bepaalde begrippen evolueren voortdurend van verleden tot nu. De samenvatting gepresenteerd voor de vereniging van een bepaalde entiteit-categorie bevat alle incidenten in de literatuur. Dit kan het ontbreken van de temporele verspreiding van de innovatie. In de toekomst, we zijn van plan om aan te pakken van deze beperkingen.

Toekomstige toepassingen. Ongeveer 90% van de verzamelde gegevens in de wereld is in de ongestructureerde tekstgegevens. Het vinden van een representatieve zin en de relatie tot de entiteiten die in de tekst ingesloten is een zeer belangrijke taak voor de uitvoering van de nieuwe technologieën (b.v., machinaal leren, informatie-extractie, kunstmatige intelligentie). De-tekstgegevens machine om leesbaar te maken, moeten gegevens worden georganiseerd in de database die de volgende laag voor tools kan worden uitgevoerd. Dit algoritme kunnen in de toekomst een cruciale stap in het maken van datamining functioneler voor het ophalen van informatie en de kwantificering van de entiteit-categorie verenigingen.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit werk werd gedeeltelijk ondersteund door de National Heart, Lung, en bloed Instituut: R35 HL135772 (op P. Ping); National Institute of General Medical Sciences: U54 GM114833 (met P. Ping, K. Watson en W. Wang); U54 GM114838 (aan J. Han); een geschenk van de Hellen & Larry Hoag Foundation en Dr. S. Setty; en de T.C. Laubisch endowment aan de UCLA (op P. Ping).

References

  1. Tao, F., Zhuang, H., et al. Phrase-Based Summarization in Text Cubes. IEEE Data Engineering Bulletin. , 74-84 (2016).
  2. Ding, B., Zhao, B., Lin, C. X., Han, J., Zhai, C. TopCells: Keyword-based search of top-k aggregated documents in text cube. IEEE 26th International Conference on Data Engineering (ICDE). , 381-384 (2010).
  3. Ding, B., et al. Efficient Keyword-Based Search for Top-K Cells in Text Cube. IEEE Transactions on Knowledge and Data Engineering. 23 (12), 1795-1810 (2011).
  4. Liu, X., et al. A Text Cube Approach to Human, Social and Cultural Behavior in the Twitter Stream.Social Computing, Behavioral-Cultural Modeling and Prediction. Lecture Notes in Computer Science. 7812, (2013).
  5. Liem, D. A., et al. Phrase Mining of Textual Data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology-Heart and Circulatory. , (2018).
  6. Shang, J., et al. Automated Phrase Mining from Massive Text Corpora. IEEE Transactions on Knowledge and Data Engineering. 30 (10), 1825-1837 (2018).
  7. Liu, J., Shang, J., Wang, C., Ren, X., Han, J. Mining Quality Phrases from Massive Text Corpora. Proceedings ACM-Sigmod International Conference on Management of Data. , 1729-1744 (2015).
  8. Lee, S., Kim, N., Kim, J. A Multi-dimensional Analysis and Data Cube for Unstructured Text and Social Media. IEEE Fourth International Conference on Big Data and Cloud Computing. , 761-764 (2014).
  9. Lin, C. X., Ding, B., Han, J., Zhu, F., Zhao, B. Text Cube: Computing IR Measures for Multidimensional Text Database Analysis. IEEE Data Mining. , 905-910 (2008).
  10. Hsu, W. J., Lu, Y., Lee, Z. Q. Accelerating Topic Exploration of Multi-Dimensional Documents Parallel and Distributed Processing Symposium Workshops (IPDPSW). IEEE International. , 1520-1527 (2017).
  11. Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP technology. SIGMOD Record. 26 (1), 65-74 (1997).
  12. Ravat, F., Teste, O., Tournier, R. Olap aggregation function for textual data warehouse. ICEIS – 9th International Conference on Enterprise Information Systems, Proceedings. , 151-156 (2007).
  13. Ho, C. T., Agrawal, R., Megiddo, N., Srikant, R. Range Queries in OLAP Data Cubes. SIGMOD Conference. , (1997).
  14. Saxena, V., Pratap, A. Olap Cube Representation for Object- Oriented Database. International Journal of Software Engineering & Applications. 3 (2), (2012).
  15. Maniatis, A. S., Vassiliadis, P., Skiadopoulos, S., Vassiliou, Y. Advanced visualization for OLAP. DOLAP. , (2003).
  16. Bog, A. . Benchmarking Transaction and Analytical Processing Systems: The Creation of a Mixed Workload Benchmark and its Application. , 7-13 (2013).
  17. Özcan, F., Tian, Y., Tözün, P. Hybrid Transactional/Analytical Processing: A Survey. In Proceedings of the ACM International Conference on Management of Data (SIGMOD). , 1771-1775 (2017).
  18. Hasan, K. M. A., Tsuji, T., Higuchi, K. An Efficient Implementation for MOLAP Basic Data Structure and Its Evaluation. International Conference on Database Systems for Advanced Applications. , 288-299 (2007).
  19. Nantajeewarawat, E. Advances in Databases: Concepts, Systems and Applications. DASFAA 2007. Lecture Notes in Computer Science. 4443, (2007).
  20. Shimada, T., Tsuji, T., Higuchi, K. A storage scheme for multidimensional data alleviating dimension dependency. Third International Conference on Digital Information Management. , 662-668 (2007).

Play Video

Cite This Article
Sigdel, D., Kyi, V., Zhang, A., Setty, S. P., Liem, D. A., Shi, Y., Wang, X., Shen, J., Wang, W., Han, J., Ping, P. Cloud-Based Phrase Mining and Analysis of User-Defined Phrase-Category Association in Biomedical Publications. J. Vis. Exp. (144), e59108, doi:10.3791/59108 (2019).

View Video