Een computationeel protocol, CaseOLAP LIFT, en een use case worden gepresenteerd voor het onderzoeken van mitochondriale eiwitten en hun associaties met hart- en vaatziekten zoals beschreven in biomedische rapporten. Dit protocol kan eenvoudig worden aangepast om door de gebruiker geselecteerde cellulaire componenten en ziekten te bestuderen.
De snel toenemende en enorme hoeveelheden biomedische rapporten, die elk tal van entiteiten en rijke informatie bevatten, vormen een rijke bron voor biomedische textminingtoepassingen. Deze tools stellen onderzoekers in staat om deze ontdekkingen te integreren, te conceptualiseren en te vertalen om nieuwe inzichten in ziektepathologie en therapeutica te ontdekken. In dit protocol presenteren we CaseOLAP LIFT, een nieuwe computationele pijplijn om cellulaire componenten en hun ziekteassociaties te onderzoeken door door de gebruiker geselecteerde informatie uit tekstdatasets (bijv. Biomedische literatuur) te extraheren. De software identificeert subcellulaire eiwitten en hun functionele partners in ziekterelevante documenten. Aanvullende ziekterelevante documenten worden geïdentificeerd via de label-imputatiemethode van de software. Om de resulterende eiwit-ziekteassociaties te contextualiseren en informatie uit meerdere relevante biomedische bronnen te integreren, wordt automatisch een kennisgrafiek geconstrueerd voor verdere analyses. We presenteren een use case met een corpus van ~ 34 miljoen tekstdocumenten die online zijn gedownload om een voorbeeld te geven van het ophelderen van de rol van mitochondriale eiwitten in verschillende fenotypes van hart- en vaatziekten met behulp van deze methode. Bovendien werd een deep learning-model toegepast op de resulterende kennisgrafiek om eerder niet-gerapporteerde relaties tussen eiwitten en ziekte te voorspellen, wat resulteerde in 1.583 associaties met voorspelde waarschijnlijkheden >0,90 en met een gebied onder de receiver operating characteristic curve (AUROC) van 0,91 op de testset. Deze software beschikt over een zeer aanpasbare en geautomatiseerde workflow, met een breed scala aan onbewerkte gegevens die beschikbaar zijn voor analyse; Daarom kunnen met behulp van deze methode eiwit-ziekteassociaties worden geïdentificeerd met verhoogde betrouwbaarheid binnen een tekstcorpus.
Het bestuderen van ziektegerelateerde eiwitten verbetert de wetenschappelijke kennis van pathogenese en helpt bij het identificeren van potentiële therapieën. Verschillende grote tekstcorpora van biomedische publicaties, zoals de 34 miljoen artikelen van PubMed met publicatietitels, samenvattingen en full-text documenten, rapporteren nieuwe bevindingen die eiwitten koppelen aan ziekten. Deze bevindingen zijn echter gefragmenteerd over verschillende bronnen en moeten worden geïntegreerd om nieuwe biomedische inzichten te genereren. Er bestaan verschillende biomedische middelen om eiwit-ziekteassociatieste integreren 1,2,3,4,5,6,7. Deze samengestelde bronnen zijn echter vaak onvolledig en omvatten mogelijk niet de nieuwste onderzoeksresultaten. Text-mining benaderingen zijn essentieel om eiwit-ziekte associaties in grote tekst corpora te extraheren en te synthetiseren, wat zou resulteren in een uitgebreider begrip van deze biomedische concepten in de wetenschappelijke literatuur.
Er bestaan meerdere biomedische textminingbenaderingen om eiwit-ziekterelaties 8,9,10,11,12,13,14 te ontdekken, en anderen dragen gedeeltelijk bij aan het bepalen van deze relaties door de eiwitten, ziekten of andere biomedische entiteiten te identificeren die in tekst 13,15,16,17 worden genoemd, 18,19. Veel van deze tools hebben echter geen toegang tot de meest actuele literatuur, met uitzondering van een paar die periodiek worden bijgewerkt 8,11,13,15. Evenzo hebben veel hulpmiddelen ook een beperkte reikwijdte van het onderzoek, omdat ze beperkt zijn tot brede vooraf gedefinieerde ziekten of eiwitten 9,13. Verschillende benaderingen zijn ook gevoelig voor de identificatie van valse positieven in de tekst; Anderen hebben deze problemen aangepakt met een interpreteerbare en wereldwijde zwarte lijst van eiwitnamen9,11 of minder interpreteerbare naamentiteitsherkenningstechnieken15,20. Hoewel de meeste bronnen alleen vooraf berekende resultaten presenteren, bieden sommige tools interactiviteit via web-apps of toegankelijke softwarecode 8,9,11.
Om de bovenstaande beperkingen aan te pakken, presenteren we het volgende protocol, CaseOLAP met label imputatie en volledige tekst (CaseOLAP LIFT), als een flexibel en aanpasbaar platform om associaties tussen eiwitten (bijv. Eiwitten geassocieerd met een cellulaire component) en ziekten uit tekstdatasets te onderzoeken. Dit platform biedt geautomatiseerde curatie van genontologie (GO) termspecifieke eiwitten (bijv. Organel-specifieke eiwitten), imputatie van ontbrekende documentonderwerplabels, analyse van full-text documenten, evenals analysetools en voorspellende hulpmiddelen (figuur 1, figuur 2 en tabel 1). CaseOLAP LIFT cureert organelspecifieke eiwitten met behulp van door de gebruiker verstrekte GO-termen (bijv. Organelcompartiment) en functioneel gerelateerde eiwitten met behulp van STRING21, Reactome 22 en GRNdb23. Ziekte-bestuderende documenten worden geïdentificeerd door hun PubMed-geannoteerde medische onderwerp header (MeSH) labels. Voor de ~15,1% van de niet-gelabelde documenten worden labels toegekend als ten minste één MeSH-termsynoniem in de titel wordt gevonden of ten minste twee in het abstract. Dit maakt het mogelijk om eerder niet-gecategoriseerde publicaties mee te nemen in de text-mining analyse. CaseOLAP LIFT stelt de gebruiker ook in staat om secties van publicaties te selecteren (bijv. Alleen titels en samenvattingen, volledige tekst of volledige tekst exclusief methoden) binnen een bepaald tijdsbestek (bijv. 2012-2022). De software beheert ook semi-automatisch een use case-specifieke zwarte lijst van eiwitnamen, waardoor de vals-positieve eiwitziekte-associaties die aanwezig zijn in andere benaderingen van vitaal belang worden verminderd. Over het algemeen maken deze verbeteringen een grotere aanpasbaarheid en automatisering mogelijk, breiden ze de hoeveelheid gegevens uit die beschikbaar zijn voor analyse en leveren ze meer zelfverzekerde eiwitziekteassociaties op van grote biomedische tekstcorpora.
CaseOLAP LIFT bevat biomedische kennis en vertegenwoordigt de relatie van verschillende biomedische concepten met behulp van een kennisgrafiek, die wordt gebruikt om verborgen relaties in de grafiek te voorspellen. Onlangs zijn op grafieken gebaseerde berekeningsmethoden toegepast op biologische omgevingen, waaronder het integreren en organiseren van biomedische concepten 24,25, herbestemming en ontwikkeling van geneesmiddelen 26,27,28, en voor klinische besluitvorming op basis van proteomics-gegevens 29.
Om de nut van CaseOLAP LIFT in de setting van het construeren van een kennisgrafiek aan te tonen, belichten we een use case over het onderzoek naar de associaties tussen mitochondriale eiwitten en acht categorieën hart- en vaatziekten. Bewijs van ~ 362.000 ziekterelevante documenten werd geanalyseerd om de belangrijkste mitochondriale eiwitten en routes geassocieerd met de ziekten te identificeren. Vervolgens werden deze eiwitten, hun functioneel gerelateerde eiwitten en hun text-mining resultaten opgenomen in een knowledge graph. Deze grafiek werd gebruikt in een op deep learning gebaseerde linkvoorspellingsanalyse om eiwit-ziekteassociaties te voorspellen die tot nu toe niet zijn gerapporteerd in biomedische publicaties.
In het introductiegedeelte worden de achtergrondinformatie en doelstellingen van ons protocol beschreven. In de volgende sectie worden de stappen van het computationele protocol beschreven. Vervolgens worden de representatieve resultaten van dit protocol beschreven. Tot slot bespreken we kort de computationele protocol use cases, voor- en nadelen en toekomstige toepassingen.
CaseOLAP LIFT stelt onderzoekers in staat om associaties te onderzoeken tussen functionele eiwitten (bijvoorbeeld eiwitten geassocieerd met een cellulaire component, biologisch proces of moleculaire functie) en biologische categorieën (bijvoorbeeld ziekten). Het beschreven protocol moet worden uitgevoerd in de opgegeven volgorde, waarbij protocolsectie 2 en protocolsectie 3 de meest kritieke stappen zijn, omdat protocolsectie 4 en protocolsectie 5 afhankelijk zijn van hun resultaten. Als alternatief voor protocolsectie 1 kan de CaseOLAP LIFT-code worden gekloond en geopend vanuit de GitHub-repository (https://github.com/CaseOLAP/caseolap_lift). Opgemerkt moet worden dat ondanks het testen tijdens de softwareontwikkeling, bugs kunnen optreden. Als dat het geval is, moet de mislukte stap worden herhaald. Als het probleem zich blijft voordoen, wordt het aanbevolen protocolsectie 1 te herhalen om ervoor te zorgen dat de nieuwste versie van de docker-container wordt gebruikt. Verdere hulp is beschikbaar door een probleem aan te maken op de GitHub-opslagplaats voor extra ondersteuning.
Deze methode ondersteunt het genereren van hypothesen door onderzoekers in staat te stellen entiteiten van belang te identificeren en de potentiële associaties tussen hen te onthullen, die mogelijk niet gemakkelijk toegankelijk zijn in bestaande biomedische bronnen. De resulterende eiwit-ziekteassociaties stellen onderzoekers in staat om nieuwe inzichten te krijgen via de interpreteerbare statistieken van de scores: de populariteitsscores geven de meest bestudeerde eiwitten aan in relatie tot een ziekte, de onderscheidende scores geven ziekten aan die het meest uniek zijn voor een eiwit, en de gecombineerde CaseOLAP-score is een combinatie van de twee. Om vals-positieve identificaties te voorkomen (bijvoorbeeld vanwege homoniemen), gebruiken sommige text-mining tools een zwarte lijst met termen om 9,11 te vermijden. Op dezelfde manier maakt CaseOLAP LIFT ook gebruik van een zwarte lijst, maar stelt de gebruiker in staat om de zwarte lijst aan te passen aan hun use case. Bij het bestuderen van coronaire hartziekte (CAD) moet “CAD” bijvoorbeeld niet worden beschouwd als een naam voor het eiwit “caspase-geactiveerde deoxyribonuclease”. Bij het bestuderen van andere onderwerpen kan “CAD” echter meestal verwijzen naar het eiwit.
CaseOLAP LIFT past zich aan de hoeveelheid data aan die beschikbaar is voor text mining. De functionaliteit van het datumbereik verlicht de rekenlast en creëert flexibiliteit voor het genereren van hypothesen (bijvoorbeeld het bestuderen van hoe de wetenschappelijke kennis over een eiwit-ziekteassociatie in de loop van de tijd is veranderd). Ondertussen vergroten de label-imputatie en full-text-componenten de reikwijdte van de gegevens die beschikbaar zijn voor text-mining. Beide componenten zijn standaard uitgeschakeld om de rekenkosten te verlagen, maar de gebruiker kan besluiten om beide componenten op te nemen. De labeltoerekening is conservatief en categoriseert de meeste publicaties correct (87% precisie), maar mist andere categorielabels (2% recall). Deze methode is momenteel gebaseerd op een op regels gebaseerde heuristiek die overeenkomt met ziektezoekwoorden en er zijn plannen om de prestaties te verbeteren door het gebruik van technieken voor het modelleren van documentonderwerpen. Aangezien veel niet-gecategoriseerde rapporten meestal recente publicaties zijn, zijn studies die een recent datumbereik onderzoeken (bijvoorbeeld alle publicaties in de afgelopen 3 jaar) beter gediend met het uitschakelen van labeltoerekening. De full-text component verhoogt de runtime- en opslagvereisten. Met name slechts een minderheid van de documenten heeft de volledige tekst beschikbaar (~ 14% van de documenten in onze studie). Ervan uitgaande dat de eiwitnamen die in de methodensectie van de publicaties worden genoemd, minder waarschijnlijk gerelateerd zijn aan de ziekteonderwerpen, wordt aanbevolen om volledige tekstartikelen op te vragen, met uitzondering van de sectie methoden.
De resulterende eiwit-ziekteassociatiescores zijn nuttig voor traditionele analyses zoals clustering, dimensionaliteitsreductie of verrijkingsanalyses (bijv. GO, pathways), met enige implementatie in dit softwarepakket. Om deze scores te contextualiseren binnen bestaande biomedische kennis, wordt automatisch een kennisgrafiek geconstrueerd en kan deze worden verkend met behulp van grafiekvisualisatietools (bijv. Neo4j32, Cytoscape33). De knowledge graph kan ook worden gebruikt voor voorspellende analyses (bijv. linkvoorspelling van niet-gerapporteerde eiwit-ziekterelaties, gemeenschapsdetectie van eiwitnetwerken, methoden voor het verzamelen van prijspaden).
We hebben de modelevaluatiemetrieken voor de voorspelde eiwitziekteassociaties onderzocht (tabel 5). Het model kent een waarschijnlijkheidsscore tussen 0,0 en 1,0 toe aan elke eiwitziekteassociatie, waarbij scores dichter bij 1,0 wijzen op een hoger niveau van vertrouwen in de voorspelling. De interne evaluatie van de modelprestaties, die was gebaseerd op verschillende statistieken, waaronder de AUROC, nauwkeurigheid, uitgebalanceerde nauwkeurigheid, specificiteit en terugroepactie, gaf uitstekende algemene prestaties aan in zijn werk. De evaluatie wees echter ook op een vrij slechte score voor de precisie (0,15) van het model, wat resulteerde in zowel een lagere AUPRC- als F1-score. Toekomstige studies om deze statistiek te verbeteren, zullen helpen om de algehele prestaties van het model te verbeteren. We stellen ons voor dat dit kan worden bereikt door meer geavanceerde kennisgrafiekinbedding en grafiekvoorspellingsmodellen te implementeren. Op basis van de precisie van het model van 0,15 zouden onderzoekers ongeveer 15% positieve identificaties moeten verwachten; In het bijzonder, van alle 12.688 eiwitziekte-associaties voorspeld door het model, zijn ongeveer 15% true-positive associaties. Dit kan worden verzacht door alleen eiwit-ziekteassociaties met een hoge waarschijnlijkheidsscore (bijv. >0,90) te overwegen; In onze use case leidde filtering met een waarschijnlijkheidsdrempel van 0,90 tot zeer betrouwbare voorspellingen van 1.583 associaties. Onderzoekers kunnen het nuttig vinden om deze voorspellingen ook handmatig te inspecteren om een hoge validiteit te garanderen (zie figuur 7 als voorbeeld). Een externe evaluatie van onze voorspellingen bepaalde dat van de 310 eiwitziekteassociaties uit een uitgebreide samengestelde database DisGeNet19, 103 werden geïdentificeerd in onze text-mining studie, en 88 extra associaties werden voorspeld door onze knowledge graph-analyse met een waarschijnlijkheidsscore >0,90.
Over het algemeen biedt CaseOLAP LIFT verbeterde flexibiliteit en bruikbaarheid bij het ontwerpen van aangepaste analyses van de associaties tussen functionele eiwitgroepen en meerdere categorieën ziekten in grote tekstcorpora. Dit pakket is gestroomlijnd in een nieuwe gebruiksvriendelijke opdrachtregelinterface en wordt uitgebracht als een docker-container, waardoor de problemen in verband met het configureren van de programmeeromgevingen en softwareafhankelijkheden worden verminderd. De CaseOLAP LIFT-pijplijn om mitochondriale eiwitten bij hart- en vaatziekten te bestuderen, kan eenvoudig worden aangepast; toekomstige toepassingen van deze techniek kunnen bijvoorbeeld betrekking hebben op het onderzoeken van de associaties tussen eiwitten die verband houden met GO-termen en elke biomedische categorie. Bovendien zijn de gerangschikte eiwitziekteassociaties die door dit textminingplatform worden geïdentificeerd, belangrijk bij de voorbereiding van de dataset voor het gebruik van geavanceerde natuurlijke taaltechnieken. De resulterende knowledge graph stelt onderzoekers in staat om deze bevindingen om te zetten in biologisch informatieve kennis en legt de basis voor follow-up graph-based analyses.
The authors have nothing to disclose.
Dit werk werd ondersteund door National Institutes of Health (NIH) R35 HL135772 naar P.P., NIH T32 HL13945 naar A.R.P. en D.S., NIH T32 EB016640 naar A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 naar A.R.P. en D.S., NIH R01 HL146739 voor I.A., J.R., A.V., K.B., en de TC Laubisch Endowment to P.P. bij UCLA.