Summary

Een kennisgrafiekbenadering om de rol van organellaire routes bij ziekten op te helderen via biomedische rapporten

Published: October 13, 2023
doi:

Summary

Een computationeel protocol, CaseOLAP LIFT, en een use case worden gepresenteerd voor het onderzoeken van mitochondriale eiwitten en hun associaties met hart- en vaatziekten zoals beschreven in biomedische rapporten. Dit protocol kan eenvoudig worden aangepast om door de gebruiker geselecteerde cellulaire componenten en ziekten te bestuderen.

Abstract

De snel toenemende en enorme hoeveelheden biomedische rapporten, die elk tal van entiteiten en rijke informatie bevatten, vormen een rijke bron voor biomedische textminingtoepassingen. Deze tools stellen onderzoekers in staat om deze ontdekkingen te integreren, te conceptualiseren en te vertalen om nieuwe inzichten in ziektepathologie en therapeutica te ontdekken. In dit protocol presenteren we CaseOLAP LIFT, een nieuwe computationele pijplijn om cellulaire componenten en hun ziekteassociaties te onderzoeken door door de gebruiker geselecteerde informatie uit tekstdatasets (bijv. Biomedische literatuur) te extraheren. De software identificeert subcellulaire eiwitten en hun functionele partners in ziekterelevante documenten. Aanvullende ziekterelevante documenten worden geïdentificeerd via de label-imputatiemethode van de software. Om de resulterende eiwit-ziekteassociaties te contextualiseren en informatie uit meerdere relevante biomedische bronnen te integreren, wordt automatisch een kennisgrafiek geconstrueerd voor verdere analyses. We presenteren een use case met een corpus van ~ 34 miljoen tekstdocumenten die online zijn gedownload om een voorbeeld te geven van het ophelderen van de rol van mitochondriale eiwitten in verschillende fenotypes van hart- en vaatziekten met behulp van deze methode. Bovendien werd een deep learning-model toegepast op de resulterende kennisgrafiek om eerder niet-gerapporteerde relaties tussen eiwitten en ziekte te voorspellen, wat resulteerde in 1.583 associaties met voorspelde waarschijnlijkheden >0,90 en met een gebied onder de receiver operating characteristic curve (AUROC) van 0,91 op de testset. Deze software beschikt over een zeer aanpasbare en geautomatiseerde workflow, met een breed scala aan onbewerkte gegevens die beschikbaar zijn voor analyse; Daarom kunnen met behulp van deze methode eiwit-ziekteassociaties worden geïdentificeerd met verhoogde betrouwbaarheid binnen een tekstcorpus.

Introduction

Het bestuderen van ziektegerelateerde eiwitten verbetert de wetenschappelijke kennis van pathogenese en helpt bij het identificeren van potentiële therapieën. Verschillende grote tekstcorpora van biomedische publicaties, zoals de 34 miljoen artikelen van PubMed met publicatietitels, samenvattingen en full-text documenten, rapporteren nieuwe bevindingen die eiwitten koppelen aan ziekten. Deze bevindingen zijn echter gefragmenteerd over verschillende bronnen en moeten worden geïntegreerd om nieuwe biomedische inzichten te genereren. Er bestaan verschillende biomedische middelen om eiwit-ziekteassociatieste integreren 1,2,3,4,5,6,7. Deze samengestelde bronnen zijn echter vaak onvolledig en omvatten mogelijk niet de nieuwste onderzoeksresultaten. Text-mining benaderingen zijn essentieel om eiwit-ziekte associaties in grote tekst corpora te extraheren en te synthetiseren, wat zou resulteren in een uitgebreider begrip van deze biomedische concepten in de wetenschappelijke literatuur.

Er bestaan meerdere biomedische textminingbenaderingen om eiwit-ziekterelaties 8,9,10,11,12,13,14 te ontdekken, en anderen dragen gedeeltelijk bij aan het bepalen van deze relaties door de eiwitten, ziekten of andere biomedische entiteiten te identificeren die in tekst 13,15,16,17 worden genoemd, 18,19. Veel van deze tools hebben echter geen toegang tot de meest actuele literatuur, met uitzondering van een paar die periodiek worden bijgewerkt 8,11,13,15. Evenzo hebben veel hulpmiddelen ook een beperkte reikwijdte van het onderzoek, omdat ze beperkt zijn tot brede vooraf gedefinieerde ziekten of eiwitten 9,13. Verschillende benaderingen zijn ook gevoelig voor de identificatie van valse positieven in de tekst; Anderen hebben deze problemen aangepakt met een interpreteerbare en wereldwijde zwarte lijst van eiwitnamen9,11 of minder interpreteerbare naamentiteitsherkenningstechnieken15,20. Hoewel de meeste bronnen alleen vooraf berekende resultaten presenteren, bieden sommige tools interactiviteit via web-apps of toegankelijke softwarecode 8,9,11.

Om de bovenstaande beperkingen aan te pakken, presenteren we het volgende protocol, CaseOLAP met label imputatie en volledige tekst (CaseOLAP LIFT), als een flexibel en aanpasbaar platform om associaties tussen eiwitten (bijv. Eiwitten geassocieerd met een cellulaire component) en ziekten uit tekstdatasets te onderzoeken. Dit platform biedt geautomatiseerde curatie van genontologie (GO) termspecifieke eiwitten (bijv. Organel-specifieke eiwitten), imputatie van ontbrekende documentonderwerplabels, analyse van full-text documenten, evenals analysetools en voorspellende hulpmiddelen (figuur 1, figuur 2 en tabel 1). CaseOLAP LIFT cureert organelspecifieke eiwitten met behulp van door de gebruiker verstrekte GO-termen (bijv. Organelcompartiment) en functioneel gerelateerde eiwitten met behulp van STRING21, Reactome 22 en GRNdb23. Ziekte-bestuderende documenten worden geïdentificeerd door hun PubMed-geannoteerde medische onderwerp header (MeSH) labels. Voor de ~15,1% van de niet-gelabelde documenten worden labels toegekend als ten minste één MeSH-termsynoniem in de titel wordt gevonden of ten minste twee in het abstract. Dit maakt het mogelijk om eerder niet-gecategoriseerde publicaties mee te nemen in de text-mining analyse. CaseOLAP LIFT stelt de gebruiker ook in staat om secties van publicaties te selecteren (bijv. Alleen titels en samenvattingen, volledige tekst of volledige tekst exclusief methoden) binnen een bepaald tijdsbestek (bijv. 2012-2022). De software beheert ook semi-automatisch een use case-specifieke zwarte lijst van eiwitnamen, waardoor de vals-positieve eiwitziekte-associaties die aanwezig zijn in andere benaderingen van vitaal belang worden verminderd. Over het algemeen maken deze verbeteringen een grotere aanpasbaarheid en automatisering mogelijk, breiden ze de hoeveelheid gegevens uit die beschikbaar zijn voor analyse en leveren ze meer zelfverzekerde eiwitziekteassociaties op van grote biomedische tekstcorpora.

CaseOLAP LIFT bevat biomedische kennis en vertegenwoordigt de relatie van verschillende biomedische concepten met behulp van een kennisgrafiek, die wordt gebruikt om verborgen relaties in de grafiek te voorspellen. Onlangs zijn op grafieken gebaseerde berekeningsmethoden toegepast op biologische omgevingen, waaronder het integreren en organiseren van biomedische concepten 24,25, herbestemming en ontwikkeling van geneesmiddelen 26,27,28, en voor klinische besluitvorming op basis van proteomics-gegevens 29.

Om de nut van CaseOLAP LIFT in de setting van het construeren van een kennisgrafiek aan te tonen, belichten we een use case over het onderzoek naar de associaties tussen mitochondriale eiwitten en acht categorieën hart- en vaatziekten. Bewijs van ~ 362.000 ziekterelevante documenten werd geanalyseerd om de belangrijkste mitochondriale eiwitten en routes geassocieerd met de ziekten te identificeren. Vervolgens werden deze eiwitten, hun functioneel gerelateerde eiwitten en hun text-mining resultaten opgenomen in een knowledge graph. Deze grafiek werd gebruikt in een op deep learning gebaseerde linkvoorspellingsanalyse om eiwit-ziekteassociaties te voorspellen die tot nu toe niet zijn gerapporteerd in biomedische publicaties.

In het introductiegedeelte worden de achtergrondinformatie en doelstellingen van ons protocol beschreven. In de volgende sectie worden de stappen van het computationele protocol beschreven. Vervolgens worden de representatieve resultaten van dit protocol beschreven. Tot slot bespreken we kort de computationele protocol use cases, voor- en nadelen en toekomstige toepassingen.

Protocol

1. De dockercontainer uitvoeren Download de CaseOLAP LIFT docker container door het terminalvenster te gebruiken en docker pull caseolap/caseolap_lift:latest in te typen. Maak een map waarin alle programmagegevens en uitvoer worden opgeslagen (bijv. mkdir caseolap_lift_shared_folder). Start de docker-container met de opdracht docker run –name caseolap_lift -it -v PATH_TO_FOLDER:/caseolap_lift_shared_folder caseolap/caseolap_lift:latest bash met PATH_TO_FOLDER als het volledige bestandspad voor de map (bijvoorbeeld /Users/caseolap/caseolap_lift_shared_folder). Toekomstige commando’s uit sectie 2 worden in dit terminalvenster uitgegeven. Start de elastische zoekopdracht in de container. Typ in een nieuw terminalvenster docker exec -it –user elastic caseolap_lift bash /workspace/start_elastic_search.sh.OPMERKING: In dit protocol wordt CaseOLAP LIFT interactief uitgevoerd, waarbij elke stap sequentieel wordt uitgevoerd. Deze analyse kan ook end-to-end worden uitgevoerd door deze door te geven als een parameters.txt bestand. De parameters .txt in dit onderzoek worden gebruikt, bevinden zich in / workspace/caseolap_lift/parameters.txt. Voor meer informatie over elke stap voert u de opdracht uit met de vlag — help of gaat u naar de documentatie op de GitHub-opslagplaats (https://github.com/CaseOLAP/caseolap_lift). 2. Voorbereiding van de ziekten en eiwitten Navigeer naar de map caseolap_lift met cd /workspace/caseolap_lift Zorg ervoor dat de downloadkoppelingen in config/knowledge_base_links.json up-to-date en nauwkeurig zijn voor de nieuwste versie van elke Knowledge Base-bron. Standaard worden de bestanden slechts één keer gedownload; Als u deze bestanden wilt bijwerken en opnieuw wilt downloaden, voert u de voorbewerkingsstap uit met -r in stap 2.4. Bepaal de GO-term en ziektecategorieën die voor deze studie moeten worden gebruikt. Vind de id’s voor alle GO-termen en MeSH-id’s op respectievelijk http://geneontology.org/ en https://meshb.nlm.nih.gov/. Voer de voorbewerkingsmodule uit met behulp van opdrachtregelopties. Deze voorbewerkingsstap verzamelt gespecificeerde ziekten, geeft een lijst van eiwitten om te bestuderen en verzamelt eiwitsynoniemen voor text-mining. Geef de door de gebruiker gedefinieerde bestudeerde GO-termen aan met behulp van de – c-vlag en de MeSH-boomnummers van de ziekte met behulp van de – d-vlag en specificeer afkortingen met -a.Voorbeeld commando:python caseolap_lift.py preprocessing -a “CM ARR CHD VD IHD CCD VOO OTH” -d “C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195,C14.280.282,C14.280.383,C14.280.470,C14.280.945,C14.280.459,C14.280.720” -c “GO:0005739” –include-synoniemen –include-ppi -k 1 -s 0,99 –include-pw -n 4 -r 0,5 –include-tfd Bekijk de categorieën.txt, core_proteins.txt en proteins_of_interest.txt bestanden uit de vorige stap in de uitvoermap . Zorg ervoor dat alle ziektecategorieën in categorieën.txt correct zijn en dat een redelijke hoeveelheid eiwitten binnen core_proteins.txt en proteins_of_interest.txt wordt geïdentificeerd. Herhaal indien nodig stap 2.4 en wijzig de parameters om een groter of kleiner aantal eiwitten op te nemen.OPMERKING: Het aantal eiwitten in de studie wordt bepaald door –include-ppi, –include-pw en –include-tfd vlaggen om respectievelijk eiwit-eiwitinteracties, eiwitten met gedeelde reactoomroutes en eiwitten met transcriptiefactorafhankelijkheid op te nemen. Hun specifieke functionaliteit wordt gespecificeerd met extra vlaggen zoals -k, -s, -n en -r (zie documentatie). 3. Tekstmining Zorg ervoor dat de categorieën.txt, core_proteins.txt en proteins_of_interest.txt bestanden uit de vorige stap zich in de uitvoermap bevinden. Gebruik deze bestanden als invoer voor de text-mining. U kunt desgewenst de configuraties aanpassen die betrekking hebben op het parseren en indexeren van documenten in de configuratiemap . Zie een eerdere versie van het CaseOLAP-protocol voor meer informatie over configuratie en probleemoplossing8. Voer de text-mining module uit met python caseolap_lift.py text_mining. Voeg de vlag -l toe om de onderwerpen van niet-gecategoriseerde documenten toe te schrijven en de – t-vlag om de volledige tekst van ziekterelevante documenten te downloaden. Andere optionele vlaggen geven een datumbereik op van publicaties die moeten worden gedownload (-d) en bieden opties om de eiwitnamen te screenen (beschreven in stap 3.3). Een voorbeeld van een geparseerd document is weergegeven in figuur 3.Voorbeeld commando: python caseolap_lift.py text_mining -d “2012-10-01,2022-10-01” -l -tOPMERKING: Een groot deel van de computationele protocoltijd wordt besteed aan stap 3.2, die mogelijk meer dan 24 uur kan duren. De runtime is afhankelijk van de grootte van het te downloaden tekstcorpus, dat ook afhankelijk is van het datumbereik en of labeltoerekening en volledige tekstfunctionaliteit zijn ingeschakeld. (Aanbevolen) Screen de eiwitnamen. De eiwitnamen die in ziekterelevante publicaties worden geïdentificeerd, dragen bij aan associaties met eiwitziekten, maar zijn vatbaar voor valse positieven (d.w.z. homoniemen met andere woorden). Om dit aan te pakken, somt u mogelijke homoniemen op in een zwarte lijst (config/remove_these_synonyms.txt), zodat ze worden uitgesloten van de downstream-stappen.Zoek namen om te inspecteren: Zoek onder de resultatenmap de eiwitnamen met de hoogste frequentie onder all_proteins of core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt) en eiwitnamen met de hoogste scores onder de mappen in ranked_proteins afhankelijk van de score(s) van interesse. Als er veel namen zijn, geef dan prioriteit aan de inspectie van de best scorende namen. Controleer de namen: Typ python caseolap_lift.py text_mining -c gevolgd door een eiwitnaam om maximaal 10 naambevattende publicaties weer te geven. Controleer vervolgens voor elke naam of de naam eiwitspecifiek is. Herbereken de scores: Typ python caseolap_lift.py text_mining -s. Herhaal stap 3.1, stap 3.2 en stap 3.3 totdat de namen in stap 3.1 correct lijken. 4. Analyse van de resultaten Zorg ervoor dat de text-mining resultaten zich in de resultatenmap bevinden (bijvoorbeeld result/ all_proteins en result/core_proteins directories en bijbehorende bestanden), die worden gebruikt als input voor de analysestap. In het bijzonder wordt een score die de sterkte van elke eiwitziekteassociatie aangeeft, gerapporteerd in de caseolap.csv resultaten van de text-mining. Geef aan welke set text-mining resultaten moet worden gebruikt voor de analyse door –analyze_core_proteins op te geven om alleen de GO-term gerelateerde eiwitten op te nemen of –analyze_all_proteins om alle functioneel gerelateerde eiwitten op te nemen. Identificeer de belangrijkste eiwitten en routes voor elke ziekte. Significante eiwitziekteassociaties worden gedefinieerd als die met scores die een bepaalde drempel overschrijden. Z-score transformeert de CaseOLAP-scores binnen elke ziektecategorie en beschouwt de eiwitten met scores boven een gespecificeerde drempel (aangegeven door de -z-vlag ) als significant.OPMERKING: Biologische routes die significant zijn voor elke ziekte worden automatisch geïdentificeerd met behulp van significante eiwitten als input voor de analyse van de reactoomroute. Al deze eiwitten worden gerapporteerd in de resulterende result_table.csv in de analysis_results map en relevante cijfers en resultaten van routeanalyse worden automatisch gegenereerd in de analysis_results map.Voorbeeld commando: python caseolap_lift.py analyze_results -z 3.0 –analyze_core_proteins Bekijk de analyseresultaten en pas deze zo nodig aan. Het aantal eiwitten en dus de verrijkte reactoomroutes die significant zijn voor elke ziektecategorie zijn afhankelijk van de z-scoredrempel die in de analyse wordt gebruikt. Een z-scoretabel, gegenereerd bij output/analysis_results/zscore_cutoff_table.csv, geeft het aantal eiwitten aan dat significant is voor elke ziektecategorie om te helpen bij de selectie van een z-scoredrempel die zo hoog mogelijk is, terwijl verschillende eiwitten worden opgeleverd die significant zijn voor elke ziektecategorie. 5. Voorspellende analyse Maak een knowledge graph.Zorg ervoor dat de vereiste bestanden zich in de resultatenmap bevinden, inclusief de map kg die is gegenereerd door voorbewerking (stap 2.4) en de caseolap.csv uit de tekstminingresultaten onder de mappen all_proteins of core_proteins (stap 3.2). Ontwerp de knowledge graph. Afhankelijk van de downstream-taak kunt u onderdelen van de volledige knowledge graph opnemen of uitsluiten. De knowledge graph bestaat uit eiwitziektescores van de text-mining en verbindingen met de knowledge base resources die in stap 2.4 (figuur 4) worden gebruikt. Neem de MeSH-ziekteboom op met de vlag –include_mesh , de eiwit-eiwitinteracties van STRING met –include_ppi, de gedeelde reactoomroutes met –include_pw en de transcriptiefactorafhankelijkheid van GRNdb/GTEx met –include_tfd. Voer de knowledge graph-constructiemodule uit. Geef aan welke set textminingresultaten moet worden gebruikt voor de analyse door –analyze_core_proteins op te geven om alleen de GO-termgerelateerde eiwitten op te nemen of –analyze_all_proteins om alle functioneel gerelateerde eiwitten op te nemen. Standaard worden ruwe CaseOLAP-scores geladen als de randgewichten tussen de eiwit- en ziekteknopen; Als u de randgewichten wilt schalen, geeft u –use_z_score of niet-negatieve Z-scores aan met –scale_z_score.Voorbeeld commando: python caseolap_lift.py prepare_knowledge_graph –scale_z_score Voorspel nieuwe eiwit-ziekte associaties.Zorg ervoor dat de knowledge graph-bestanden, merged_edges.tsv en merged_nodes.tsv, worden uitgevoerd uit de vorige stap (stap 5.1.3). Voer het knowledge graph-voorspellingsscript uit om eiwit-ziekteassociaties te voorspellen die tot nu toe niet zijn gerapporteerd in de wetenschappelijke literatuur door python kg_analysis / run_kg_analysis.py te typen. Dit wordt geïmplementeerd met GraPE30 en gebruikt DistMult31 om knowledge graph-inbeddingen te produceren, die een meerlaags perceptron gebruikt om de eiwit-ziekteassociaties te voorspellen. In de map output/kg_analysis worden voorspellingen met een voorspelde waarschijnlijkheid >0,90 (voorspellingen.csv) en modelevaluatiestatistieken (eval_results.csv) opgeslagen.OPMERKING: In dit werk werden de gekozen modelparameters (bijv. inbeddingsmethode, linkvoorspellingsmodel, hyperparameters) afgestemd op de representatieve studie. Deze code dient als voorbeeld en uitgangspunt voor andere analyses. Als u modelparameters wilt verkennen, raadpleegt u de documentatie van GraPE (https://github.com/AnacletoLAB/grape).

Representative Results

Volgens dit protocol werden representatieve resultaten verkregen om de associaties tussen mitochondriale eiwitten (tabel 2) en acht categorieën hart- en vaatziekten (tabel 3) te bestuderen. In deze categorieën vonden we 363.567 publicaties gepubliceerd van 2012 tot oktober 2022 (362.878 gecategoriseerd op MeSH-metadata, 6.923 gecategoriseerd op label imputatie). Alle publicaties hadden titels, 276.524 hadden samenvattingen en 51.065 hadden de volledige tekst beschikbaar. In totaal werden 584 van de 1.687 bevraagde mitochondriale eiwitten geïdentificeerd in de publicaties, terwijl 3.284 van hun 8.026 bevraagde functioneel gerelateerde eiwitten werden geïdentificeerd. In totaal werden 14 unieke eiwitten geïdentificeerd met significante scores in alle ziektecategorieën, met een z-scoredrempel van 3,0 (figuur 5). De Reactome pathway analyse van deze eiwitten onthulde 12 routes die significant zijn voor alle ziekten (figuur 6). Alle eiwitten, routes, ziekten en scores werden geïntegreerd in een knowledge graph (tabel 4). Deze kennisgrafiek werd gebruikt om 12.688 nieuwe eiwitziekteassociaties te voorspellen en gefilterd met een waarschijnlijkheidsscore van 0,90 om 1.583 voorspellingen met hoge betrouwbaarheid op te leveren. Een uitgelicht voorbeeld van twee eiwit-ziekteassociaties wordt getoond in figuur 7, geïllustreerd in de context van andere relevante biologische entiteiten die functioneel verwant zijn aan de eiwitten. De modelevaluatiestatistieken worden gerapporteerd in tabel 5. Figuur 1: Dynamische weergave van de workflow. Deze figuur geeft de vier belangrijkste stappen in deze workflow weer. Ten eerste worden relevante eiwitten samengesteld op basis van de door de gebruiker verstrekte GO-termen (bijv. Cellulaire componenten) en worden ziektecategorieën voorbereid op basis van de door de gebruiker verstrekte meSH-identificaties van de ziekte. Ten tweede worden associaties tussen eiwitten en ziekten berekend in de stap text-mining. Publicaties binnen een bepaald datumbereik worden gedownload en geïndexeerd. Ziekte-bestuderende publicaties worden geïdentificeerd (via MeSH-labels en optioneel via toegerekende labels), en hun volledige teksten worden gedownload en geïndexeerd. Eiwitnamen worden in de publicaties opgevraagd en gebruikt om de eiwit-ziekteassociatiescores te berekenen. Vervolgens, na text-mining, helpen deze scores bij het identificeren van de belangrijkste eiwit- en routeassociaties. Ten slotte wordt een kennisgrafiek geconstrueerd die deze eiwitten, ziekten en hun relaties binnen de biomedische kennisbasis omvat. Nieuwe eiwit-ziekteassociaties worden voorspeld op basis van de geconstrueerde kennisgrafiek. Deze stappen maken gebruik van de meest recent beschikbare gegevens uit de biomedische kennisbanken en PubMed. Klik hier om een grotere versie van deze figuur te bekijken. Figuur 2: Technische architectuur van de workflow. De technische details van deze workflow worden geïllustreerd in deze figuur. De gebruiker verstrekt de MeSH-boomnummers van de ziektecategorieën en GO-term(en). Tekstdocumenten worden gedownload van PubMed, ziekterelevante documenten worden geïdentificeerd op basis van de verstrekte MeSH-labels en documenten zonder onderwerp-aangevende MeSH-labels ontvangen toegerekende categorielabels. De eiwitten die geassocieerd zijn met de verstrekte GO-term(en) worden verworven. Deze eiwitset wordt uitgebreid met eiwitten die functioneel gerelateerd zijn via eiwit-eiwitinteracties, gedeelde biologische routes en transcriptiefactorafhankelijkheid. Deze eiwitten worden opgevraagd in ziekterelevante documenten en gescoord door CaseOLAP. Klik hier om een grotere versie van deze figuur te bekijken. Figuur 3: Een voorbeeld van een verwerkt document. Een voorbeeld van een geparseerd, geïndexeerd tekstdocument wordt hier weergegeven. In volgorde geven relevante velden de indexnaam (_index, _type), de PubMed-ID (_id, pmid), de documentsubsecties (titel, samenvatting, full_text, inleiding, methoden, resultaten, discussie) en andere metagegevens (jaar, MeSH, locatie, tijdschrift) aan. Alleen voor weergavedoeleinden worden de subsecties van het document afgekapt met weglatingstekens. Het veld MeSH bevat de documentonderwerpen, die soms kunnen worden geleverd door onze label-imputatiestap. Klik hier om een grotere versie van deze figuur te bekijken. Figuur 4: Kennisgrafiek schema en biomedische middelen. Deze afbeelding geeft het knowledge graph-schema weer. Elk knooppunt en elke rand vertegenwoordigt respectievelijk een knooppunt- of randtype. De randen tussen hart- en vaatziekten (CVD’s) en eiwitten worden gewogen door CaseOLAP-scores. De eiwit-eiwitinteractie (PPI) randen worden gewogen door STRING-betrouwbaarheidsscores. De GRNdb/GTEx-afgeleide transcriptiefactorafhankelijkheid (TFD) randen, MeSH-afgeleide ziekteboomranden en reactoom-afgeleide pathwayranden zijn ongewogen. Klik hier om een grotere versie van deze figuur te bekijken. Figuur 5: Top eiwit-ziekte associaties. Deze figuur toont mitochondriale eiwitten die significant zijn voor elke ziektecategorie. Z-score transformatie werd toegepast op de CaseOLAP-scores binnen elke categorie om significante eiwitten te identificeren met behulp van een drempel van 3,0. (Naar boven) Aantal mitochondriale eiwitten significant voor elke ziekte: Deze vioolplots tonen de verdeling van z-scores voor eiwitten in elke ziektecategorie. Het totale aantal eiwitten dat significant is voor elke ziektecategorie wordt boven elke vioolplot weergegeven. Een totaal van 14 unieke eiwitten werden geïdentificeerd als significant voor alle ziekten, en sommige eiwitten waren significant voor meerdere ziekten. (Onder) Best scorende eiwitten: De heatmap toont de top 10 eiwitten die de hoogste gemiddelde z-scores behaalden voor alle ziekten. De blancowaarden vertegenwoordigen geen verkregen score tussen het eiwit en de ziekte. Klik hier om een grotere versie van deze figuur te bekijken. Figuur 6: Top pathway-disease associaties. Deze figuur illustreert de belangrijkste biologische routes geassocieerd met de bestudeerde ziektecategorieën, zoals bepaald via reactoomrouteanalyse. Alle pathway-analyses werden gefilterd met p < 0,05. De heatmapwaarden vertegenwoordigen de gemiddelde z-score van alle eiwitten binnen de route. (Naar boven) Pathways geconserveerd tussen alle ziekten: In totaal werden 14 eiwitten geïdentificeerd die relevant waren voor alle ziektecategorieën, en 12 geconserveerde pathways onder alle ziektecategorieën werden onthuld. Een dendrogram werd geconstrueerd op basis van de hiërarchische structuur van de route om de paden te verbinden met vergelijkbare biologische functies. De dendrogramhoogte vertegenwoordigt de relatieve diepte binnen de padhiërarchie; brede biologische functies hebben langere ledematen en meer specifieke paden hebben kortere ledematen. (Onder) Pathways die verschillen van een ziektecategorie: Pathway-analyse werd uitgevoerd met behulp van eiwitten die een significante z-score bereikten in elke ziekte. De bovenste drie routes met de laagste p-waarden geassocieerd met elke ziekte worden weergegeven en aangegeven met sterretjes. De paden zouden bij meerdere ziekten in de top drie kunnen staan. Klik hier om een grotere versie van deze figuur te bekijken. Figuur 7: Toepassing van deep learning voor het voltooien van knowledge graphs. Een voorbeeld van het toepassen van deep learning op een ziektespecifieke kennisgrafiek wordt in deze figuur weergegeven. Verborgen relaties tussen eiwitten en ziekte worden voorspeld, en deze worden in blauw aangegeven. Berekende waarschijnlijkheden voor beide voorspellingen worden weergegeven, met waarden variërend van 0,0 tot 1,0 en met 1,0 die een sterke voorspelling aangeeft. Verschillende eiwitten met bekende interacties zijn opgenomen, die eiwit-eiwitinteracties, transcriptiefactorafhankelijkheid en gedeelde biologische routes vertegenwoordigen. Voor visualisatie wordt een subgraaf van enkele knooppunten met relevantie voor het gemarkeerde voorbeeld weergegeven. Sleutel: IHD = ischemische hartziekte; R-HSA-1430728 = metabolisme; O14949 = cytochroom b-c1 complex subeenheid 8; P17568 = NADH-dehydrogenase (ubiquinon) 1 bètasubcomplex subeenheid 7; Q9NYF8 Bcl-2-geassocieerde transcriptiefactor 1, score: 7,24 x 10−7; P49821 = NADH-dehydrogenase (ubiquinon) flavoproteïne 1, mitochondriaal, score: 1,06 x 10−5; P31930 = cytochroom b-c1 complex subeenheid 1, mitochondriaal, score: 4,98 x 10−5; P99999 = cytochroom c, score: 0,399. Klik hier om een grotere versie van deze figuur te bekijken. Tabel 1: Workflow en snelheidsbeperkende stappen. Deze tabel geeft ruwe schattingen van de rekentijd voor elke fase van de workflow. Opties om onderdelen van de pijplijn op te nemen, wijzigen de totale runtime die nodig is om de analyse te voltooien. De schatting van de totale tijd varieert afhankelijk van de beschikbare rekenbronnen, inclusief de hardwarespecificaties en software-instellingen. Als een ruwe schatting duurde het protocol 36 uur actieve runtime om uit te voeren op onze computationele server, met zes kernen, 32 Gb RAM en 2 Tb opslag, maar dit kan sneller of langzamer zijn op andere apparaten. Klik hier om deze tabel te downloaden. Tabel 2: Automatische assemblage van de cellulaire component eiwitten. Deze tabel toont het aantal eiwitten geassocieerd met een bepaalde cellulaire component (d.w.z. GO-term), eiwitten die functioneel aan hen gerelateerd zijn via eiwit-eiwitinteracties (PPI), gedeelde routes (PW) en transcriptiefactorafhankelijkheid (TFD). Het aantal totale eiwitten is het aantal eiwitten uit alle voorgaande categorieën samen. Alle functioneel gerelateerde eiwitten werden verkregen met behulp van de standaardparameters van CaseOLAP LIFT. Klik hier om deze tabel te downloaden. Tabel 3: MeSH-label-imputatiestatistieken. Deze tabel toont de ziektecategorieën, de MeSH-boomnummers die worden gebruikt als de bovenliggende term van alle ziekten die in de categorie zijn opgenomen, het aantal PubMed-artikelen dat in elke categorie is gevonden van 2012-2022 en het aantal extra artikelen dat is opgenomen op basis van de label-imputatiestap. Klik hier om deze tabel te downloaden. Tabel 4: Kennisgrafiek bouwstatistieken. Deze tabel beschrijft de statistieken voor de grootte van de geconstrueerde knowledge graph, inclusief de verschillende knooppunten en randtypen. De CaseOLAP-scores vertegenwoordigen de relatie tussen een eiwit en een categorie hart- en vaatziekten (CVD). Klik hier om deze tabel te downloaden. Tabel 5: Voorspellingsstatistieken en validaties van kennisgrafieken. Deze tabel geeft de evaluatiestatistieken weer voor de knowledge graph link voorspelling van nieuwe/verborgen eiwitziekteassociaties. De knowledge graph-randen werden opgedeeld in 70/30-trainings- en testgegevenssets en de grafiekconnectiviteit van de randen bleef in beide datasets behouden. De nauwkeurigheid geeft het aandeel voorspellingen aan dat correct is geclassificeerd, terwijl de gebalanceerde nauwkeurigheid corrigeert voor klassenonbalans. De specificiteit geeft het aandeel negatieve voorspellingen aan dat correct is geclassificeerd. De precisie geeft het aandeel van de juiste positieve voorspellingen aan uit alle positieve voorspellingen, terwijl de recall het aandeel van de juiste positieve voorspellingen aangeeft uit alle positieve randen (d.w.z. eiwit-ziekteassociaties geïdentificeerd via text-mining). De F1-score is het harmonische gemiddelde van de precisie en recall. Het gebied onder de receiver operating characteristic curve (AUROC) beschrijft hoe goed het model onderscheid maakt tussen positieve en negatieve voorspellingen, waarbij 1.0 een perfecte classificator aangeeft. Het gebied onder de precisie-terugroepcurve (AUPRC) meet de afweging tussen precisie en recall bij verschillende waarschijnlijkheidsdrempels, waarbij hogere waarden wijzen op betere prestaties. Klik hier om deze tabel te downloaden.

Discussion

CaseOLAP LIFT stelt onderzoekers in staat om associaties te onderzoeken tussen functionele eiwitten (bijvoorbeeld eiwitten geassocieerd met een cellulaire component, biologisch proces of moleculaire functie) en biologische categorieën (bijvoorbeeld ziekten). Het beschreven protocol moet worden uitgevoerd in de opgegeven volgorde, waarbij protocolsectie 2 en protocolsectie 3 de meest kritieke stappen zijn, omdat protocolsectie 4 en protocolsectie 5 afhankelijk zijn van hun resultaten. Als alternatief voor protocolsectie 1 kan de CaseOLAP LIFT-code worden gekloond en geopend vanuit de GitHub-repository (https://github.com/CaseOLAP/caseolap_lift). Opgemerkt moet worden dat ondanks het testen tijdens de softwareontwikkeling, bugs kunnen optreden. Als dat het geval is, moet de mislukte stap worden herhaald. Als het probleem zich blijft voordoen, wordt het aanbevolen protocolsectie 1 te herhalen om ervoor te zorgen dat de nieuwste versie van de docker-container wordt gebruikt. Verdere hulp is beschikbaar door een probleem aan te maken op de GitHub-opslagplaats voor extra ondersteuning.

Deze methode ondersteunt het genereren van hypothesen door onderzoekers in staat te stellen entiteiten van belang te identificeren en de potentiële associaties tussen hen te onthullen, die mogelijk niet gemakkelijk toegankelijk zijn in bestaande biomedische bronnen. De resulterende eiwit-ziekteassociaties stellen onderzoekers in staat om nieuwe inzichten te krijgen via de interpreteerbare statistieken van de scores: de populariteitsscores geven de meest bestudeerde eiwitten aan in relatie tot een ziekte, de onderscheidende scores geven ziekten aan die het meest uniek zijn voor een eiwit, en de gecombineerde CaseOLAP-score is een combinatie van de twee. Om vals-positieve identificaties te voorkomen (bijvoorbeeld vanwege homoniemen), gebruiken sommige text-mining tools een zwarte lijst met termen om 9,11 te vermijden. Op dezelfde manier maakt CaseOLAP LIFT ook gebruik van een zwarte lijst, maar stelt de gebruiker in staat om de zwarte lijst aan te passen aan hun use case. Bij het bestuderen van coronaire hartziekte (CAD) moet “CAD” bijvoorbeeld niet worden beschouwd als een naam voor het eiwit “caspase-geactiveerde deoxyribonuclease”. Bij het bestuderen van andere onderwerpen kan “CAD” echter meestal verwijzen naar het eiwit.

CaseOLAP LIFT past zich aan de hoeveelheid data aan die beschikbaar is voor text mining. De functionaliteit van het datumbereik verlicht de rekenlast en creëert flexibiliteit voor het genereren van hypothesen (bijvoorbeeld het bestuderen van hoe de wetenschappelijke kennis over een eiwit-ziekteassociatie in de loop van de tijd is veranderd). Ondertussen vergroten de label-imputatie en full-text-componenten de reikwijdte van de gegevens die beschikbaar zijn voor text-mining. Beide componenten zijn standaard uitgeschakeld om de rekenkosten te verlagen, maar de gebruiker kan besluiten om beide componenten op te nemen. De labeltoerekening is conservatief en categoriseert de meeste publicaties correct (87% precisie), maar mist andere categorielabels (2% recall). Deze methode is momenteel gebaseerd op een op regels gebaseerde heuristiek die overeenkomt met ziektezoekwoorden en er zijn plannen om de prestaties te verbeteren door het gebruik van technieken voor het modelleren van documentonderwerpen. Aangezien veel niet-gecategoriseerde rapporten meestal recente publicaties zijn, zijn studies die een recent datumbereik onderzoeken (bijvoorbeeld alle publicaties in de afgelopen 3 jaar) beter gediend met het uitschakelen van labeltoerekening. De full-text component verhoogt de runtime- en opslagvereisten. Met name slechts een minderheid van de documenten heeft de volledige tekst beschikbaar (~ 14% van de documenten in onze studie). Ervan uitgaande dat de eiwitnamen die in de methodensectie van de publicaties worden genoemd, minder waarschijnlijk gerelateerd zijn aan de ziekteonderwerpen, wordt aanbevolen om volledige tekstartikelen op te vragen, met uitzondering van de sectie methoden.

De resulterende eiwit-ziekteassociatiescores zijn nuttig voor traditionele analyses zoals clustering, dimensionaliteitsreductie of verrijkingsanalyses (bijv. GO, pathways), met enige implementatie in dit softwarepakket. Om deze scores te contextualiseren binnen bestaande biomedische kennis, wordt automatisch een kennisgrafiek geconstrueerd en kan deze worden verkend met behulp van grafiekvisualisatietools (bijv. Neo4j32, Cytoscape33). De knowledge graph kan ook worden gebruikt voor voorspellende analyses (bijv. linkvoorspelling van niet-gerapporteerde eiwit-ziekterelaties, gemeenschapsdetectie van eiwitnetwerken, methoden voor het verzamelen van prijspaden).

We hebben de modelevaluatiemetrieken voor de voorspelde eiwitziekteassociaties onderzocht (tabel 5). Het model kent een waarschijnlijkheidsscore tussen 0,0 en 1,0 toe aan elke eiwitziekteassociatie, waarbij scores dichter bij 1,0 wijzen op een hoger niveau van vertrouwen in de voorspelling. De interne evaluatie van de modelprestaties, die was gebaseerd op verschillende statistieken, waaronder de AUROC, nauwkeurigheid, uitgebalanceerde nauwkeurigheid, specificiteit en terugroepactie, gaf uitstekende algemene prestaties aan in zijn werk. De evaluatie wees echter ook op een vrij slechte score voor de precisie (0,15) van het model, wat resulteerde in zowel een lagere AUPRC- als F1-score. Toekomstige studies om deze statistiek te verbeteren, zullen helpen om de algehele prestaties van het model te verbeteren. We stellen ons voor dat dit kan worden bereikt door meer geavanceerde kennisgrafiekinbedding en grafiekvoorspellingsmodellen te implementeren. Op basis van de precisie van het model van 0,15 zouden onderzoekers ongeveer 15% positieve identificaties moeten verwachten; In het bijzonder, van alle 12.688 eiwitziekte-associaties voorspeld door het model, zijn ongeveer 15% true-positive associaties. Dit kan worden verzacht door alleen eiwit-ziekteassociaties met een hoge waarschijnlijkheidsscore (bijv. >0,90) te overwegen; In onze use case leidde filtering met een waarschijnlijkheidsdrempel van 0,90 tot zeer betrouwbare voorspellingen van 1.583 associaties. Onderzoekers kunnen het nuttig vinden om deze voorspellingen ook handmatig te inspecteren om een hoge validiteit te garanderen (zie figuur 7 als voorbeeld). Een externe evaluatie van onze voorspellingen bepaalde dat van de 310 eiwitziekteassociaties uit een uitgebreide samengestelde database DisGeNet19, 103 werden geïdentificeerd in onze text-mining studie, en 88 extra associaties werden voorspeld door onze knowledge graph-analyse met een waarschijnlijkheidsscore >0,90.

Over het algemeen biedt CaseOLAP LIFT verbeterde flexibiliteit en bruikbaarheid bij het ontwerpen van aangepaste analyses van de associaties tussen functionele eiwitgroepen en meerdere categorieën ziekten in grote tekstcorpora. Dit pakket is gestroomlijnd in een nieuwe gebruiksvriendelijke opdrachtregelinterface en wordt uitgebracht als een docker-container, waardoor de problemen in verband met het configureren van de programmeeromgevingen en softwareafhankelijkheden worden verminderd. De CaseOLAP LIFT-pijplijn om mitochondriale eiwitten bij hart- en vaatziekten te bestuderen, kan eenvoudig worden aangepast; toekomstige toepassingen van deze techniek kunnen bijvoorbeeld betrekking hebben op het onderzoeken van de associaties tussen eiwitten die verband houden met GO-termen en elke biomedische categorie. Bovendien zijn de gerangschikte eiwitziekteassociaties die door dit textminingplatform worden geïdentificeerd, belangrijk bij de voorbereiding van de dataset voor het gebruik van geavanceerde natuurlijke taaltechnieken. De resulterende knowledge graph stelt onderzoekers in staat om deze bevindingen om te zetten in biologisch informatieve kennis en legt de basis voor follow-up graph-based analyses.

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Dit werk werd ondersteund door National Institutes of Health (NIH) R35 HL135772 naar P.P., NIH T32 HL13945 naar A.R.P. en D.S., NIH T32 EB016640 naar A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 naar A.R.P. en D.S., NIH R01 HL146739 voor I.A., J.R., A.V., K.B., en de TC Laubisch Endowment to P.P. bij UCLA.

Materials

Software – Docker Docker N/A docker.com

Riferimenti

  1. The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
  2. Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
  3. Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
  4. Rehm, H. L., et al. ClinGen – The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
  5. Caulfield, M., et al. . The National Genomics Research and Healthcare Knowledgebase. , (2019).
  6. Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
  7. Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043 (2017).
  8. Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108 (2019).
  9. Yu, K. -. H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
  10. Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
  11. Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
  12. Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
  13. Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135 (2021).
  14. Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680 (2016).
  15. Wei, C. -. H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
  16. Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171 (2013).
  17. Wei, C. -. H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
  18. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
  19. Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
  20. Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
  21. Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
  22. Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
  23. Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
  24. Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96 (2021).
  25. Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304 (2022).
  26. Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726 (2017).
  27. Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
  28. Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118 (2021).
  29. Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
  30. Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
  31. Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
  32. . Neo4j Graph Data Platform Available from: https://neo4j.com/ (2022)
  33. Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Play Video

Citazione di questo articolo
Pelletier, A. R., Steinecke, D., Sigdel, D., Adam, I., Caufield, J. H., Guevara-Gonzalez, V., Ramirez, J., Verma, A., Bali, K., Downs, K., Wang, W., Bui, A., Ping, P. A Knowledge Graph Approach to Elucidate the Role of Organellar Pathways in Disease via Biomedical Reports. J. Vis. Exp. (200), e65084, doi:10.3791/65084 (2023).

View Video