Summary

Ein Knowledge-Graph-Ansatz zur Aufklärung der Rolle von Organellen-Signalwegen bei Krankheiten anhand biomedizinischer Berichte

Published: October 13, 2023
doi:

Summary

Ein computergestütztes Protokoll, CaseOLAP LIFT, und ein Anwendungsfall zur Untersuchung von mitochondrialen Proteinen und ihren Assoziationen mit kardiovaskulären Erkrankungen, wie sie in biomedizinischen Berichten beschrieben sind, werden vorgestellt. Dieses Protokoll kann leicht angepasst werden, um vom Benutzer ausgewählte zelluläre Komponenten und Krankheiten zu untersuchen.

Abstract

Die schnell wachsenden und riesigen Mengen an biomedizinischen Berichten, die jeweils zahlreiche Entitäten und reichhaltige Informationen enthalten, stellen eine reichhaltige Ressource für biomedizinische Text-Mining-Anwendungen dar. Diese Werkzeuge ermöglichen es Forschern, diese Entdeckungen zu integrieren, zu konzeptualisieren und zu übersetzen, um neue Erkenntnisse über die Krankheitspathologie und Therapeutika zu gewinnen. In diesem Protokoll stellen wir CaseOLAP LIFT vor, eine neue Rechenpipeline zur Untersuchung zellulärer Komponenten und ihrer Krankheitsassoziationen durch Extraktion von benutzerausgewählten Informationen aus Textdatensätzen (z. B. biomedizinischer Literatur). Die Software identifiziert subzelluläre Proteine und ihre funktionellen Partner in krankheitsrelevanten Dokumenten. Weitere krankheitsrelevante Dokumente werden über die Label-Imputationsmethode der Software identifiziert. Um die resultierenden Protein-Krankheits-Assoziationen zu kontextualisieren und Informationen aus mehreren relevanten biomedizinischen Ressourcen zu integrieren, wird automatisch ein Wissensgraph für weitere Analysen erstellt. Wir präsentieren einen Anwendungsfall mit einem Korpus von ~34 Millionen Textdokumenten, die online heruntergeladen wurden, um ein Beispiel für die Aufklärung der Rolle von mitochondrialen Proteinen bei verschiedenen Phänotypen von Herz-Kreislauf-Erkrankungen mit dieser Methode zu geben. Darüber hinaus wurde ein Deep-Learning-Modell auf den resultierenden Wissensgraphen angewendet, um bisher nicht berichtete Beziehungen zwischen Proteinen und Krankheiten vorherzusagen, was zu 1.583 Assoziationen mit vorhergesagten Wahrscheinlichkeiten >0,90 und mit einer Fläche unter der Receiver-Betriebskennlinie (AUROC) von 0,91 auf dem Testsatz führte. Diese Software verfügt über einen hochgradig anpassbaren und automatisierten Workflow mit einer breiten Palette von Rohdaten, die für die Analyse zur Verfügung stehen. Daher können mit dieser Methode Protein-Krankheits-Assoziationen mit erhöhter Zuverlässigkeit innerhalb eines Textkorpus identifiziert werden.

Introduction

Die Untersuchung krankheitsrelevanter Proteine erweitert das wissenschaftliche Wissen über die Pathogenese und hilft, potenzielle Therapeutika zu identifizieren. Mehrere große Textkorpora biomedizinischer Publikationen, wie z. B. die 34 Millionen Artikel von PubMed, die Publikationstitel, Abstracts und Volltextdokumente enthalten, berichten über neue Erkenntnisse, die Proteine mit Krankheiten in Verbindung bringen. Diese Erkenntnisse sind jedoch über verschiedene Quellen hinweg fragmentiert und müssen integriert werden, um neue biomedizinische Erkenntnisse zu generieren. Es gibt mehrere biomedizinische Ressourcen, um Protein-Krankheits-Assoziationen zu integrieren 1,2,3,4,5,6,7. Diese kuratierten Ressourcen sind jedoch oft unvollständig und umfassen möglicherweise nicht die neuesten Forschungsergebnisse. Text-Mining-Ansätze sind unerlässlich, um Protein-Krankheits-Assoziationen in großen Textkorpora zu extrahieren und zu synthetisieren, was zu einem umfassenderen Verständnis dieser biomedizinischen Konzepte in der wissenschaftlichen Literatur führen würde.

Es gibt mehrere biomedizinische Text-Mining-Ansätze, um Protein-Krankheits-Beziehungen aufzudecken 8,9,10,11,12,13,14, und andere tragen teilweise zur Bestimmung dieser Beziehungen bei, indem sie die Proteine, Krankheiten oder andere biomedizinische Entitäten identifizieren, die in Text13,15,16,17 erwähnt werden. 18,19. Viele dieser Tools haben jedoch keinen Zugang zu der aktuellsten Literatur, mit Ausnahme einiger weniger, die regelmäßig aktualisiert werden 8,11,13,15. In ähnlicher Weise haben viele Instrumente auch einen begrenzten Untersuchungsumfang, da sie auf weit gefasste vordefinierte Krankheiten oder Proteine beschränkt sind 9,13. Mehrere Ansätze sind auch anfällig für die Identifizierung von falsch positiven Ergebnissen innerhalb des Textes. Andere haben diese Probleme mit einer interpretierbaren und globalen schwarzen Liste von Proteinnamen9,11 oder weniger interpretierbaren Techniken zur Erkennung von Namensentitäten15,20 angegangen. Während die meisten Ressourcen nur vorberechnete Ergebnisse präsentieren, bieten einige Tools Interaktivität über Web-Apps oder zugänglichen Softwarecode 8,9,11.

Um die oben genannten Einschränkungen zu adressieren, stellen wir das folgende Protokoll, CaseOLAP mit Label-Imputation und Volltext (CaseOLAP LIFT), als flexible und anpassbare Plattform vor, um Assoziationen zwischen Proteinen (z.B. Proteinen, die mit einer zellulären Komponente assoziiert sind) und Krankheiten aus Textdatensätzen zu untersuchen. Diese Plattform bietet die automatisierte Kuratierung von begriffsspezifischen Genontologie-Proteinen (z. B. organellenspezifische Proteine), die Imputation fehlender Themenbezeichnungen von Dokumenten, die Analyse von Volltextdokumenten sowie Analyse- und Vorhersagewerkzeuge (Abbildung 1, Abbildung 2 und Tabelle 1). CaseOLAP LIFT kuratiert organellenspezifische Proteine unter Verwendung von vom Benutzer bereitgestellten GO-Begriffen (z. B. Organellenkompartiment) und funktionell verwandte Proteine unter Verwendung von STRING21, Reactome 22 und GRNdb23. Dokumente zur Untersuchung von Krankheiten werden durch ihre PubMed-annotated Medical Subject Header (MeSH)-Etiketten identifiziert. Für die ~15,1% der unbeschrifteten Dokumente werden Bezeichnungen zugeschrieben, wenn mindestens ein MeSH-Begriffssynonym im Titel oder mindestens zwei im Abstract gefunden werden. Dadurch können bisher nicht kategorisierte Publikationen in der Text-Mining-Analyse berücksichtigt werden. CaseOLAP LIFT ermöglicht es dem Benutzer auch, Abschnitte von Publikationen (z. B. nur Titel und Abstracts, Volltext oder Volltext ohne Methoden) innerhalb eines bestimmten Zeitraums (z. B. 2012-2022) auszuwählen. Die Software kuratiert auch halbautomatisch eine anwendungsfallspezifische Blacklist mit Proteinnamen, wodurch die falsch-positiven Protein-Krankheits-Assoziationen, die bei anderen Ansätzen vorhanden sind, erheblich reduziert werden. Insgesamt ermöglichen diese Verbesserungen eine größere Anpassbarkeit und Automatisierung, erweitern die Menge der für die Analyse verfügbaren Daten und führen zu zuverlässigeren Protein-Krankheits-Assoziationen aus großen biomedizinischen Textkorpora.

CaseOLAP LIFT integriert biomedizinisches Wissen und stellt die Beziehung verschiedener biomedizinischer Konzepte mit Hilfe eines Wissensgraphen dar, der genutzt wird, um verborgene Beziehungen im Graphen vorherzusagen. In jüngster Zeit wurden graphenbasierte Berechnungsmethoden auf biologische Umgebungen angewendet, einschließlich der Integration und Organisation biomedizinischer Konzepte 24,25, der Umwidmung und Entwicklung von Medikamenten 26,27,28 und für die klinische Entscheidungsfindung aus Proteomikdaten 29.

Um den Nutzen von CaseOLAP LIFT bei der Erstellung eines Wissensgraphen zu demonstrieren, beleuchten wir einen Anwendungsfall zur Untersuchung der Assoziationen zwischen mitochondrialen Proteinen und acht Kategorien von Herz-Kreislauf-Erkrankungen. Die Evidenz aus ~362.000 krankheitsrelevanten Dokumenten wurde analysiert, um die wichtigsten mitochondrialen Proteine und Signalwege zu identifizieren, die mit den Krankheiten verbunden sind. Als nächstes wurden diese Proteine, ihre funktionell verwandten Proteine und ihre Text-Mining-Ergebnisse in einen Wissensgraphen integriert. Diese Grafik wurde in einer Deep-Learning-basierten Link-Prediction-Analyse genutzt, um Protein-Krankheits-Assoziationen vorherzusagen, über die in biomedizinischen Publikationen bisher nicht berichtet wurde.

In der Einleitung werden die Hintergrundinformationen und Ziele unseres Protokolls beschrieben. Im folgenden Abschnitt werden die Schritte des Berechnungsprotokolls beschrieben. Anschließend werden die repräsentativen Ergebnisse dieses Protokolls beschrieben. Abschließend gehen wir kurz auf die Anwendungsfälle, Vorteile, Nachteile und zukünftigen Anwendungen des Computerprotokolls ein.

Protocol

1. Ausführen des Docker-Containers Laden Sie den Docker-Container CaseOLAP LIFT herunter, indem Sie das Terminalfenster verwenden und docker pull caseolap/caseolap_lift:latest eingeben. Erstellen Sie ein Verzeichnis, in dem alle Programmdaten und -ausgaben gespeichert werden (z. B. mkdir caseolap_lift_shared_folder). Starten Sie den Docker-Container mit dem Befehl docker run –name caseolap_lift -it -v PATH_TO_FOLDER:/caseolap_lift_shared_folder caseolap/caseolap_lift:latest bash mit PATH_TO_FOLDER als vollständigem Dateipfad für den Ordner (z. B. /Users/caseolap/caseolap_lift_shared_folder). Zukünftige Befehle aus Abschnitt 2 werden in diesem Terminalfenster ausgegeben. Starten Sie die elastische Suche innerhalb des Containers. Geben Sie in einem neuen Terminalfenster docker exec -it –user elastic caseolap_lift bash /workspace/start_elastic_search.sh ein.HINWEIS: In diesem Protokoll wird CaseOLAP LIFT interaktiv ausgeführt, wobei jeder Schritt nacheinander ausgeführt wird. Diese Analyse kann auch End-to-End durchgeführt werden, indem sie als parameters.txt-Datei übergeben wird. Die Parameter.txt die in dieser Studie verwendet werden, befinden sich in / workspace/caseolap_lift/parameters.txt. Um auf weitere Details zu den einzelnen Schritten zuzugreifen, führen Sie den Befehl mit dem Flag –help aus, oder besuchen Sie die Dokumentation im GitHub-Repository (https://github.com/CaseOLAP/caseolap_lift). 2. Vorbereitung der Krankheiten und Proteine Navigieren Sie mit cd /workspace/caseolap_lift zum Ordner caseolap_lift Stellen Sie sicher, dass die Downloadlinks in config/knowledge_base_links.json für die neueste Version jeder Wissensdatenbankressource aktuell und korrekt sind. Standardmäßig werden die Dateien nur einmal heruntergeladen. Um diese Dateien zu aktualisieren und erneut herunterzuladen, führen Sie den Vorverarbeitungsschritt mit -r in Schritt 2.4 aus. Bestimmen Sie den GO-Begriff und die Krankheitskategorien, die für diese Studie verwendet werden sollen. Suchen Sie die Bezeichner für alle GO-Begriffe und MeSH-Bezeichner unter http://geneontology.org/ bzw. https://meshb.nlm.nih.gov/. Führen Sie das Vorverarbeitungsmodul mithilfe von Befehlszeilenoptionen aus. Dieser Vorverarbeitungsschritt stellt bestimmte Krankheiten zusammen, listet die zu untersuchenden Proteine auf und sammelt Proteinsynonyme für das Text-Mining. Geben Sie die benutzerdefinierten untersuchten GO-Begriffe mit dem Flag -c und die MeSH-Baumnummern der Krankheit mit dem Flag -d an, und geben Sie Abkürzungen mit -a an. Beispiel für einen Befehl:python caseolap_lift.py Vorverarbeitung -a “CM ARR CHD VD IHD CCD VOO OTH” -d “C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195,C14.280.282,C14.280.383,C14.280.470,C14.280.945,C14.280.459,C14.280.720” -c “GO:0005739” –include-synonyme –include-ppi -k 1 -s 0.99 –include-pw -n 4 -r 0.5 –include-tfd Untersuchen Sie die Kategorien.txt, core_proteins.txt und proteins_of_interest.txt Dateien aus dem vorherigen Schritt im Ausgabeordner . Stellen Sie sicher, dass alle Krankheitskategorien in den Kategorien.txt korrekt sind und dass innerhalb von core_proteins.txt und proteins_of_interest.txt eine angemessene Menge an Proteinen identifiziert wird. Wiederholen Sie ggf. Schritt 2.4 und ändern Sie die Parameter so, dass sie eine größere oder kleinere Anzahl von Proteinen enthalten.HINWEIS: Die Anzahl der in die Studie eingeschlossenen Proteine wird durch die Flags –include-ppi, –include-pw und –include-tfd bestimmt, um Protein-Protein-Interaktionen, Proteine mit gemeinsamen Reaktom-Signalwegen und Proteine mit Transkriptionsfaktorabhängigkeit einzuschließen. Ihre spezifische Funktionalität wird mit zusätzlichen Schaltern wie -k, -s, -n und -r spezifiziert (siehe Dokumentation). 3. Text-Mining Stellen Sie sicher, dass sich die Dateien categories.txt, core_proteins.txt und proteins_of_interest.txt aus dem vorherigen Schritt im Ausgabeordner befinden. Verwenden Sie diese Dateien als Eingabe für das Text-Mining. Passen Sie optional die Konfigurationen für die Analyse und Indizierung des Dokuments im Ordner config an. Weitere Informationen zur Konfiguration und Fehlerbehebung finden Sie in einer früheren Version des CaseOLAP-Protokolls8. Führen Sie das Text-Mining-Modul mit Python caseolap_lift.py text_mining aus. Fügen Sie das Flag – l hinzu, um die Themen von nicht kategorisierten Dokumenten zu imputieren, und das Flag -t , um den Volltext von krankheitsrelevanten Dokumenten herunterzuladen. Andere optionale Flags geben einen Datumsbereich der herunterzuladenden Publikationen an (-d) und bieten Optionen zum Screening der Proteinnamen (beschrieben in Schritt 3.3). Ein Beispiel für ein analysiertes Dokument ist in Abbildung 3 dargestellt.Beispielbefehl: python caseolap_lift.py text_mining -d “2012-10-01,2022-10-01” -l -tHINWEIS: Ein Großteil der Rechenprotokollzeit wird für Schritt 3.2 aufgewendet, der sich möglicherweise über 24 Stunden erstrecken kann. Die Laufzeit hängt von der Größe des herunterzuladenden Textkorpus ab, die auch vom Datumsbereich abhängt und davon, ob die Bezeichnungsimputation und die Volltextfunktionalität aktiviert sind. (Empfohlen) Siebe die Namen der Proteine. Die in krankheitsrelevanten Publikationen identifizierten Proteinnamen tragen zu Proteinkrankheitsassoziationen bei, sind aber anfällig für falsch positive Ergebnisse (d.h. Homonyme mit anderen Wörtern). Um dieses Problem zu beheben, listen Sie mögliche Homonyme in einer Blacklist (config/remove_these_synonyms.txt) auf, damit sie von den nachgelagerten Schritten ausgeschlossen werden.Zu untersuchende Namen suchen: Suchen Sie im Ergebnisordner die Proteinnamen mit der höchsten Häufigkeit unter all_proteins oder core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt) und die Proteinnamen mit den höchsten Punktzahlen unter den Ordnern in ranked_proteins je nach den interessierenden Punkten. Wenn es viele Namen gibt, priorisieren Sie die Überprüfung der Namen mit der höchsten Punktzahl. Überprüfen Sie die Namen: Geben Sie python caseolap_lift.py text_mining -c gefolgt von einem Proteinnamen ein, um bis zu 10 namensenthaltende Publikationen anzuzeigen. Prüfen Sie dann für jeden Namen, ob der Name proteinspezifisch ist. Berechnen Sie die Ergebnisse neu: Geben Sie python caseolap_lift.py text_mining -s ein. Wiederholen Sie die Schritte 3.1, 3.2 und 3.3, bis die Namen in Schritt 3.1 korrekt angezeigt werden. 4. Analyse der Ergebnisse Stellen Sie sicher, dass sich die Text-Mining-Ergebnisse im Ergebnisordner befinden (z. B. die Verzeichnisse result/all_proteins und result/core_proteins und die zugehörigen Dateien), die als Eingabe für den Analyseschritt verwendet werden. Insbesondere wird ein Score, der die Stärke jeder Protein-Krankheits-Assoziation angibt, in den caseolap.csv Ergebnissen aus dem Text-Mining berichtet. Geben Sie an, welche Text-Mining-Ergebnisse für die Analyse verwendet werden sollen, indem Sie entweder –analyze_core_proteins angeben, um nur die GO-Term-verwandten Proteine einzubeziehen, oder –analyze_all_proteins, um alle funktionell verwandten Proteine einzubeziehen. Identifizieren Sie die wichtigsten Proteine und Signalwege für jede Krankheit. Signifikante Protein-Krankheits-Assoziationen sind definiert als solche, deren Werte einen bestimmten Schwellenwert überschreiten. Der Z-Score transformiert die CaseOLAP-Scores innerhalb jeder Krankheitskategorie und betrachtet die Proteine mit Scores über einem bestimmten Schwellenwert (gekennzeichnet durch das -z-Flag ) als signifikant.HINWEIS: Biologische Signalwege, die für jede Krankheit von Bedeutung sind, werden automatisch identifiziert, indem signifikante Proteine als Input für die Analyse des Reaktomwegs verwendet werden. Alle diese Proteine werden in der resultierenden result_table.csv im Ordner analysis_results gemeldet, und relevante Zahlen und Ergebnisse der Signalweganalyse werden automatisch im Ordner analysis_results generiert.Beispielbefehl: python caseolap_lift.py analyze_results -z 3.0 –analyze_core_proteins Überprüfen Sie die Analyseergebnisse, und passen Sie sie bei Bedarf an. Die Anzahl der Proteine und damit die angereicherten Reaktomwege, die für jede Krankheitskategorie von Bedeutung sind, hängen von der in der Analyse verwendeten Z-Score-Schwelle ab. Eine Z-Score-Tabelle, die bei Output/analysis_results/zscore_cutoff_table.csv generiert wird, gibt die Anzahl der Proteine an, die für jede Krankheitskategorie von Bedeutung sind, um die Auswahl eines möglichst hohen Z-Score-Schwellenwerts zu erleichtern und gleichzeitig mehrere Proteine zu erhalten, die für jede Krankheitskategorie von Bedeutung sind. 5. Prädiktive Analyse Erstellen Sie einen Wissensgraphen.Stellen Sie sicher, dass sich die erforderlichen Dateien im Ergebnisordner befinden, einschließlich des kg-Ordners, der aus der Vorverarbeitung (Schritt 2.4) generiert wurde, und des caseolap.csv aus den Text-Mining-Ergebnissen in den Ordnern all_proteins oder core_proteins (Schritt 3.2). Entwerfen Sie den Knowledge Graph. Abhängig von der nachgelagerten Aufgabe können Sie Komponenten des vollständigen Wissensgraphen ein- oder ausschließen. Der Knowledge Graph besteht aus Protein-Krankheits-Scores aus dem Text-Mining und Verbindungen zu den in Schritt 2.4 verwendeten Wissensdatenbank-Ressourcen (Abbildung 4). Beziehen Sie den MeSH-Krankheitsbaum mit dem Flag –include_mesh , die Protein-Protein-Interaktionen von STRING mit –include_ppi, die gemeinsamen Reaktom-Signalwege mit –include_pw und die Transkriptionsfaktorabhängigkeit von GRNdb/GTEx mit –include_tfd ein. Führen Sie das Modul zum Erstellen des Wissensgraphen aus. Geben Sie an, welche Text-Mining-Ergebnisse für die Analyse verwendet werden sollen, indem Sie –analyze_core_proteins angeben, um nur die GO-term-verwandten Proteine einzubeziehen, oder –analyze_all_proteins , um alle funktionell verwandten Proteine einzubeziehen. Standardmäßig werden rohe CaseOLAP-Scores als Kantengewichte zwischen den Protein- und Krankheitsknoten geladen. Um die Kantengewichtungen zu skalieren, geben Sie –use_z_score oder nicht negative Z-Werte mit –scale_z_score an.Beispielbefehl: python caseolap_lift.py prepare_knowledge_graph –scale_z_score Vorhersage neuer Protein-Krankheits-Assoziationen.Stellen Sie sicher, dass die Knowledge Graph-Dateien merged_edges.tsv und merged_nodes.tsv aus dem vorherigen Schritt (Schritt 5.1.3) ausgegeben werden. Führen Sie das Vorhersageskript für den Wissensgraphen aus, um Protein-Krankheits-Assoziationen vorherzusagen, über die in der wissenschaftlichen Literatur bisher nicht berichtet wurde, indem Sie python kg_analysis/run_kg_analysis.py eingeben. Dies wird mit GraPE30 implementiert und verwendet DistMult31 zur Erstellung von Wissensgraphen-Einbettungen, die ein mehrschichtiges Perzeptron verwendet, um die Protein-Krankheits-Assoziationen vorherzusagen. Im Ordner output/kg_analysis werden Vorhersagen mit einer vorhergesagten Wahrscheinlichkeit >0,90 (Vorhersagen.csv) und Modellauswertungsmetriken (eval_results.csv) gespeichert.HINWEIS: In dieser Arbeit wurden die gewählten Modellparameter (z.B. Einbettungsmethode, Link-Vorhersagemodell, Hyperparameter) auf die repräsentative Studie zugeschnitten. Dieser Code dient als Beispiel und Ausgangspunkt für weitere Analysen. Informationen zu den Modellparametern finden Sie in der Dokumentation von GraPE (https://github.com/AnacletoLAB/grape).

Representative Results

Nach diesem Protokoll wurden repräsentative Ergebnisse erzielt, um die Assoziationen zwischen mitochondrialen Proteinen (Tabelle 2) und acht Kategorien von Herz-Kreislauf-Erkrankungen (Tabelle 3) zu untersuchen. In diesen Kategorien fanden wir 363.567 Publikationen, die von 2012 bis Oktober 2022 veröffentlicht wurden (362.878 kategorisiert nach MeSH-Metadaten, 6.923 kategorisiert nach Label-Imputation). Alle Publikationen hatten Titel, 276.524 hatten Abstracts und 51.065 hatten den Volltext. Insgesamt wurden 584 der 1.687 abgefragten mitochondrialen Proteine innerhalb der Publikationen identifiziert, während 3.284 der 8.026 abgefragten funktionell verwandten Proteine identifiziert wurden. Insgesamt wurden 14 einzigartige Proteine mit signifikanten Scores über alle Krankheitskategorien hinweg identifiziert, mit einem Z-Score-Schwellenwert von 3,0 (Abbildung 5). Die Analyse des Reactome-Signalwegs dieser Proteine ergab 12 Signalwege, die für alle Krankheiten von Bedeutung sind (Abbildung 6). Alle Proteine, Signalwege, Krankheiten und Scores wurden in einen Wissensgraphen integriert (Tabelle 4). Dieser Wissensgraph wurde genutzt, um 12.688 neuartige Protein-Krankheits-Assoziationen vorherzusagen, und mit einem Wahrscheinlichkeitswert von 0,90 gefiltert, um 1.583 Vorhersagen mit hoher Zuverlässigkeit zu erhalten. Ein hervorgehobenes Beispiel für zwei Protein-Krankheits-Assoziationen ist in Abbildung 7 dargestellt, dargestellt im Zusammenhang mit anderen relevanten biologischen Entitäten, die funktionell mit den Proteinen verwandt sind. Die Modellbewertungsmetriken sind in Tabelle 5 aufgeführt. Abbildung 1: Dynamische Ansicht des Workflows. Diese Abbildung stellt die vier Hauptschritte in diesem Workflow dar. Zuerst werden relevante Proteine auf der Grundlage der vom Benutzer bereitgestellten GO-Begriffe (z. B. zelluläre Komponenten) kuratiert, und Krankheitskategorien werden auf der Grundlage der vom Benutzer bereitgestellten Krankheits-MeSH-Identifikatoren vorbereitet. Zweitens werden im Text-Mining-Schritt Assoziationen zwischen Proteinen und Krankheiten berechnet. Publikationen innerhalb eines bestimmten Datumsbereichs werden heruntergeladen und indiziert. Publikationen, die sich mit der Krankheit befassen, werden identifiziert (über MeSH-Labels und optional über imputierte Labels), und ihre Volltexte werden heruntergeladen und indiziert. Proteinnamen werden in den Publikationen abgefragt und zur Berechnung der Protein-Krankheits-Assoziationswerte verwendet. Im Anschluss an das Text-Mining helfen diese Scores dabei, die wichtigsten Protein- und Signalweg-Assoziationen zu identifizieren. Abschließend wird ein Wissensgraph erstellt, der diese Proteine, Krankheiten und ihre Beziehungen innerhalb der biomedizinischen Wissensbasis umfasst. Neue Protein-Krankheits-Assoziationen werden auf der Grundlage des konstruierten Wissensgraphen vorhergesagt. In diesen Schritten werden die neuesten verfügbaren Daten aus den biomedizinischen Wissensdatenbanken und PubMed verwendet. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen. Abbildung 2: Technische Architektur des Workflows. Die technischen Details dieses Workflows sind in dieser Abbildung dargestellt. Der Benutzer gibt die MeSH-Baumnummern der Krankheitskategorien und GO-Begriffe an. Textdokumente werden von PubMed heruntergeladen, krankheitsrelevante Dokumente werden anhand der bereitgestellten MeSH-Labels identifiziert und Dokumente ohne themenbezogene MeSH-Labels erhalten imputierte Kategorie-Labels. Die Proteine, die mit dem/den bereitgestellten GO-Begriff(en) assoziiert sind, werden erworben. Dieser Proteinsatz wird um Proteine erweitert, die über Protein-Protein-Interaktionen, gemeinsame biologische Signalwege und die Abhängigkeit von Transkriptionsfaktoren funktionell miteinander verwandt sind. Diese Proteine werden innerhalb krankheitsrelevanter Dokumente abgefragt und von CaseOLAP bewertet. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen. Abbildung 3: Ein Beispiel für ein verarbeitetes Dokument. Hier finden Sie ein Beispiel für ein analysiertes, indiziertes Textdokument. In den relevanten Feldern werden der Indexname (_index, _type), die PubMed-ID (_id, pmid), die Unterabschnitte des Dokuments (Titel, Abstract, full_text, Einleitung, Methoden, Ergebnisse, Diskussion) und weitere Metadaten (Jahr, MeSH, Ort, Zeitschrift) angegeben. Nur zu Anzeigezwecken werden die Unterabschnitte des Dokuments mit Auslassungspunkten abgeschnitten. Das MeSH-Feld enthält die Dokumentthemen, die manchmal durch unseren Label-Imputation-Schritt bereitgestellt werden können. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen. Abbildung 4: Schema des Wissensgraphen und biomedizinische Ressourcen. Diese Abbildung zeigt das Schema des Wissensgraphen. Jeder Knoten und jede Kante stellt einen Knoten- bzw. Kantentyp dar. Die Grenzen zwischen kardiovaskulären Erkrankungen (CVDs) und Proteinen werden durch CaseOLAP-Scores gewichtet. Die Kanten der Protein-Protein-Interaktion (PPI) werden durch STRING-Konfidenzwerte gewichtet. Die GRNdb/GTEx-abgeleiteten Transkriptionsfaktor-Abhängigkeitskanten (TFD), die MeSH-abgeleiteten Krankheitsbaumkanten und die Reaktom-abgeleiteten Signalwegkanten sind ungewichtet. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen. Abbildung 5: Die wichtigsten Protein-Krankheits-Assoziationen. Diese Abbildung zeigt mitochondriale Proteine, die für jede Krankheitskategorie von Bedeutung sind. Die Z-Score-Transformation wurde auf die CaseOLAP-Scores innerhalb jeder Kategorie angewendet, um signifikante Proteine mit einem Schwellenwert von 3,0 zu identifizieren. (Nach oben) Anzahl der mitochondrialen Proteine, die für jede Krankheit von Bedeutung sind: Diese Geigendiagramme zeigen die Verteilung der Z-Werte für Proteine in jeder Krankheitskategorie. Die Gesamtzahl der Proteine, die für jede Krankheitskategorie von Bedeutung sind, wird über jedem Geigendiagramm angezeigt. Insgesamt wurden 14 einzigartige Proteine als signifikant für alle Krankheiten identifiziert, und einige Proteine waren für mehrere Krankheiten von Bedeutung. (Unten) Top-Scoring-Proteine: Die Heatmap zeigt die Top-10-Proteine an, die die höchsten durchschnittlichen Z-Werte für alle Krankheiten erhalten haben. Die Leerwerte stellen keinen erhaltenen Score zwischen dem Protein und der Krankheit dar. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen. Abbildung 6: Die wichtigsten Assoziationen zwischen Signalweg und Krankheit. Diese Abbildung veranschaulicht die wichtigsten biologischen Signalwege, die mit den untersuchten Krankheitskategorien assoziiert sind, wie sie durch die Analyse des Reaktomwegs bestimmt wurden. Alle Pathway-Analysen wurden mit p < 0,05 gefiltert. Die Heatmap-Werte stellen den durchschnittlichen Z-Score aller Proteine innerhalb des Signalwegs dar. (Nach oben) Signalwege unter allen Krankheiten: Insgesamt wurden 14 Proteine identifiziert, die für alle Krankheitskategorien relevant sind, und 12 konservierte Signalwege in allen Krankheitskategorien wurden aufgedeckt. Basierend auf der hierarchischen Struktur des Pfades wurde ein Dendrogramm erstellt, um die Pfade mit ähnlichen biologischen Funktionen zu verbinden. Die Dendrogrammhöhe stellt die relative Tiefe innerhalb der Pfadhierarchie dar. Breite biologische Funktionen haben längere Gliedmaßen, und spezifischere Bahnen haben kürzere Gliedmaßen. (Unten) Signalwege, die sich von einer Krankheitskategorie unterscheiden: Die Signalweganalyse wurde anhand von Proteinen durchgeführt, die bei jeder Krankheit einen signifikanten Z-Score erreichten. Die drei wichtigsten Signalwege mit den niedrigsten p-Werten, die mit jeder Krankheit assoziiert sind, sind dargestellt und mit Sternchen gekennzeichnet. Die Signalwege könnten bei mehreren Krankheiten unter den ersten drei liegen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen. Abbildung 7: Anwendung von Deep Learning für die Vervollständigung von Wissensgraphen. Ein Beispiel für die Anwendung von Deep Learning auf einen krankheitsspezifischen Wissensgraphen ist in dieser Abbildung dargestellt. Verborgene Zusammenhänge zwischen Proteinen und Krankheiten werden vorhergesagt, und diese sind blau dargestellt. Es werden berechnete Wahrscheinlichkeiten für beide Vorhersagen angezeigt, wobei Werte im Bereich von 0,0 bis 1,0 liegen und 1,0 eine starke Vorhersage angibt. Es sind mehrere Proteine mit bekannten Wechselwirkungen enthalten, die Protein-Protein-Interaktionen, die Abhängigkeit von Transkriptionsfaktoren und gemeinsame biologische Signalwege repräsentieren. Zur Veranschaulichung wird ein Teildiagramm mit einigen Knoten angezeigt, die für das hervorgehobene Beispiel relevant sind. Schlüssel: IHD = ischämische Herzkrankheit; R-HSA-1430728 = Stoffwechsel; O14949 = Untereinheit des Cytochrom-B-C1-Komplexes 8; P17568 = NADH-Dehydrogenase (Ubichinon) 1 Beta-Unterkomplex-Untereinheit 7; Q9NYF8 Bcl-2-assoziierter Transkriptionsfaktor 1, Punktzahl: 7,24 x 10−7; P49821 = NADH-Dehydrogenase (Ubichinon) Flavoprotein 1, mitochondrial, Score: 1,06 x 10−5; P31930 = Cytochrom-b-c1-Komplex-Untereinheit 1, mitochondrial, Score: 4,98 x 10−5; P99999 = Cytochrom c, Punktzahl: 0,399. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen. Tabelle 1: Workflow und ratenbegrenzende Schritte. Diese Tabelle enthält grobe Schätzungen der Rechenzeit für jede Phase des Workflows. Optionen zum Einbeziehen von Komponenten der Pipeline ändern die Gesamtlaufzeit, die zum Abschließen der Analyse erforderlich ist. Die geschätzte Gesamtzeit hängt von den verfügbaren Rechenressourcen ab, einschließlich der Hardwarespezifikationen und Softwareeinstellungen. Als grobe Schätzung dauerte die Ausführung des Protokolls auf unserem Rechenserver mit sechs Kernen, 32 GB RAM und 2 TB Speicher 36 Stunden aktive Laufzeit, aber dies kann auf anderen Geräten schneller oder langsamer sein. Bitte klicken Sie hier, um diese Tabelle herunterzuladen. Tabelle 2: Automatischer Zusammenbau der zellulären Komponentenproteine. Diese Tabelle zeigt die Anzahl der Proteine, die mit einer bestimmten zellulären Komponente (d. h. GO-Begriff) assoziiert sind, Proteine, die über Protein-Protein-Interaktionen (PPI), gemeinsame Signalwege (PW) und Transkriptionsfaktorabhängigkeit (TFD) funktionell mit ihnen verbunden sind. Die Anzahl der Gesamtproteine ist die Anzahl der Proteine aus allen vorherigen Kategorien zusammen. Alle funktionell verwandten Proteine wurden mit den Standardparametern von CaseOLAP LIFT erhalten. Bitte klicken Sie hier, um diese Tabelle herunterzuladen. Tabelle 3: MeSH-Label-Imputationsstatistiken. Diese Tabelle zeigt die Krankheitskategorien, die MeSH-Baumnummern, die als übergeordneter Begriff aller in der Kategorie enthaltenen Krankheiten verwendet werden, die Anzahl der PubMed-Artikel, die in jeder Kategorie von 2012 bis 2022 gefunden wurden, und die Anzahl der zusätzlichen Artikel, die auf der Grundlage des Label-Imputationsschritts enthalten sind. Bitte klicken Sie hier, um diese Tabelle herunterzuladen. Tabelle 4: Knowledge Graph Baustatistik. In dieser Tabelle werden die Statistiken für die Größe des erstellten Wissensgraphen beschrieben, einschließlich der verschiedenen Knoten und Kantentypen. Die CaseOLAP-Scores stellen die Beziehung zwischen einem Protein und einer Kategorie von Herz-Kreislauf-Erkrankungen (CVD) dar. Bitte klicken Sie hier, um diese Tabelle herunterzuladen. Tabelle 5: Vorhersagestatistiken und Validierungen von Wissensgraphen. Diese Tabelle zeigt die Auswertungsmetriken für die Vorhersage des Wissensgraphen-Links von neuartigen/versteckten Protein-Krankheits-Assoziationen. Die Ränder des Wissensgraphen wurden in 70/30-Trainings- und Testdatensätze partitioniert, und die Graphkonnektivität der Kanten wurde in beiden Datensätzen beibehalten. Die Genauigkeit gibt den Anteil der korrekt klassifizierten Vorhersagen an, während die ausgeglichene Genauigkeit das Klassenungleichgewicht korrigiert. Die Spezifität gibt den Anteil der negativen Vorhersagen an, die korrekt klassifiziert wurden. Die Genauigkeit gibt den Anteil der richtigen positiven Vorhersagen an allen positiven Vorhersagen an, während der Rückruf den Anteil der richtigen positiven Vorhersagen an allen positiven Kanten angibt (d. h. Protein-Krankheits-Assoziationen, die durch Text-Mining identifiziert wurden). Der F1-Score ist das harmonische Mittel der Präzision und des Abrufs. Der Bereich unter der Receiver Operating Characteristic Curve (AUROC) beschreibt, wie gut das Modell zwischen positiven und negativen Vorhersagen unterscheidet, wobei 1,0 einen perfekten Klassifikator anzeigt. Der Bereich unter der Precision-Recall-Kurve (AUPRC) misst den Kompromiss zwischen Präzision und Abruf bei unterschiedlichen Wahrscheinlichkeitsschwellenwerten, wobei höhere Werte eine bessere Leistung anzeigen. Bitte klicken Sie hier, um diese Tabelle herunterzuladen.

Discussion

CaseOLAP LIFT ermöglicht es Forschern, Zusammenhänge zwischen funktionellen Proteinen (z. B. Proteine, die mit einer zellulären Komponente, einem biologischen Prozess oder einer molekularen Funktion assoziiert sind) und biologischen Kategorien (z. B. Krankheiten) zu untersuchen. Das beschriebene Protokoll sollte in der angegebenen Reihenfolge ausgeführt werden, wobei Protokollabschnitt 2 und Protokollabschnitt 3 die kritischsten Schritte sind, da Protokollabschnitt 4 und Protokollabschnitt 5 von ihren Ergebnissen abhängen. Alternativ zu Protokollabschnitt 1 kann der CaseOLAP-LIFT-Code geklont und über das GitHub-Repository (https://github.com/CaseOLAP/caseolap_lift) aufgerufen werden. Es ist zu beachten, dass trotz Tests während der Softwareentwicklung Fehler auftreten können. Wenn dies der Fall ist, sollte der fehlgeschlagene Schritt wiederholt werden. Wenn das Problem weiterhin besteht, wird empfohlen, Protokollabschnitt 1 zu wiederholen, um sicherzustellen, dass die neueste Version des Docker-Containers verwendet wird. Weitere Unterstützung erhalten Sie, indem Sie ein Problem im GitHub-Repository erstellen, um zusätzliche Unterstützung zu erhalten.

Diese Methode unterstützt die Hypothesengenerierung, indem sie es den Forschern ermöglicht, interessante Entitäten zu identifizieren und die potenziellen Assoziationen zwischen ihnen aufzudecken, die in bestehenden biomedizinischen Ressourcen möglicherweise nicht ohne weiteres zugänglich sind. Die daraus resultierenden Protein-Krankheits-Assoziationen ermöglichen es den Forschern, neue Erkenntnisse über die interpretierbaren Metriken der Scores zu gewinnen: Die Popularitätswerte zeigen die am häufigsten untersuchten Proteine in Bezug auf eine Krankheit an, die Distinctiveness-Scores zeigen Krankheiten an, die für ein Protein am einzigartigsten sind, und der kombinierte CaseOLAP-Score ist eine Kombination aus beiden. Um falsch-positive Identifikationen (z. B. aufgrund von Homonymen) zu verhindern, verwenden einige Text-Mining-Tools eine Blacklist von Begriffen, um 9,11 zu vermeiden. Ebenso verwendet CaseOLAP LIFT ebenfalls eine Blacklist, ermöglicht es dem Benutzer jedoch, die Blacklist an seinen Anwendungsfall anzupassen. Bei der Untersuchung der koronaren Herzkrankheit (KHK) sollte beispielsweise “KHK” nicht als Bezeichnung für das Protein “Caspase-aktivierte Desoxyribonuklease” angesehen werden. Wenn Sie sich jedoch mit anderen Themen befassen, kann sich “CAD” in der Regel auf das Protein beziehen.

CaseOLAP LIFT passt sich der Datenmenge an, die für das Text-Mining zur Verfügung steht. Die Datumsbereichsfunktionalität verringert den Rechenaufwand und schafft Flexibilität bei der Hypothesenerstellung (z. B. um zu untersuchen, wie sich die wissenschaftlichen Erkenntnisse über eine Protein-Krankheits-Assoziation im Laufe der Zeit verändert haben). In der Zwischenzeit erweitern die Label-Imputation und die Volltextkomponenten den Umfang der Daten, die für das Text-Mining zur Verfügung stehen. Beide Komponenten sind standardmäßig deaktiviert, um die Rechenkosten zu reduzieren, aber der Benutzer kann sich entscheiden, eine der beiden Komponenten einzubeziehen. Die Label-Imputation ist konservativ und kategorisiert die meisten Publikationen korrekt (87 % Genauigkeit), übersieht aber andere Kategorie-Labels (2 % Recall). Diese Methode beruht derzeit auf einer regelbasierten Heuristik, die Krankheitsschlüsselwörter abgleicht, und es gibt Pläne, die Leistung durch den Einsatz von Techniken zur Modellierung von Dokumentthemen zu verbessern. Da es sich bei vielen nicht kategorisierten Berichten in der Regel um aktuelle Veröffentlichungen handelt, ist es für Studien, die einen aktuellen Zeitraum untersuchen (z. B. alle Veröffentlichungen innerhalb der letzten 3 Jahre), besser, wenn die Label-Imputation deaktiviert wird. Die Volltextkomponente erhöht den Laufzeit- und Speicherbedarf. Bemerkenswert ist, dass nur für eine Minderheit der Dokumente der Volltext verfügbar ist (~14% der Dokumente in unserer Studie). Unter der Annahme, dass die Proteinnamen, die im Methodenteil der Publikationen erwähnt werden, mit geringerer Wahrscheinlichkeit mit den Krankheitsthemen in Verbindung stehen, wird empfohlen, Volltextartikel ohne Methodenabschnitt abzufragen.

Die resultierenden Protein-Krankheits-Assoziationswerte sind nützlich für traditionelle Analysen wie Clustering, Dimensionalitätsreduktion oder Anreicherungsanalysen (z. B. GO, Signalwege), wobei einige Implementierungen in diesem Softwarepaket enthalten sind. Um diese Scores in den Kontext des vorhandenen biomedizinischen Wissens zu stellen, wird automatisch ein Wissensgraph erstellt, der mit Hilfe von Graphenvisualisierungswerkzeugen (z. B. Neo4j32, Cytoscape33) untersucht werden kann. Der Wissensgraph kann auch für prädiktive Analysen verwendet werden (z. B. Link-Vorhersage von nicht gemeldeten Protein-Krankheits-Beziehungen, Community-Erkennung von Proteinnetzwerken, preisgekrönte Path-Walking-Methoden).

Wir haben die Modellbewertungsmetriken für die vorhergesagten Protein-Krankheits-Assoziationen untersucht (Tabelle 5). Das Modell weist jeder Protein-Krankheits-Assoziation einen Wahrscheinlichkeitswert zwischen 0,0 und 1,0 zu, wobei Werte näher an 1,0 auf ein höheres Maß an Vertrauen in die Vorhersage hinweisen. Die interne Bewertung der Modellleistung, die auf verschiedenen Metriken wie AUROC, Genauigkeit, ausgewogener Genauigkeit, Spezifität und Erinnerungswert basierte, deutete auf eine hervorragende Gesamtleistung seiner Arbeit hin. Die Auswertung ergab jedoch auch eine eher schlechte Bewertung für die Genauigkeit (0,15) des Modells, was sowohl zu einem niedrigeren AUPRC- als auch zu einem F1-Wert führte. Zukünftige Studien zur Verbesserung dieser Metrik werden dazu beitragen, die Gesamtleistung des Modells zu erhöhen. Wir stellen uns vor, dass dies durch die Implementierung ausgefeilterer Einbettungs- und Graphvorhersagemodelle erreicht werden könnte. Basierend auf der Genauigkeit des Modells von 0,15 sollten die Ermittler mit etwa 15 % positiven Identifizierungen rechnen. Insbesondere von allen 12.688 Protein-Krankheits-Assoziationen, die vom Modell vorhergesagt werden, sind etwa 15 % richtig-positive Assoziationen. Dies kann gemildert werden, indem nur Protein-Krankheits-Assoziationen mit einem hohen Wahrscheinlichkeitswert (z. B. >0,90) berücksichtigt werden. In unserem Anwendungsfall führte die Filterung mit einem Wahrscheinlichkeitsschwellenwert von 0,90 zu Vorhersagen mit hoher Zuverlässigkeit von 1.583 Assoziationen. Für die Forscher kann es hilfreich sein, diese Vorhersagen auch manuell zu überprüfen, um eine hohe Validität zu gewährleisten (siehe Abbildung 7 als Beispiel). Eine externe Auswertung unserer Vorhersagen ergab, dass von den 310 Protein-Krankheits-Assoziationen aus einer umfangreichen kuratierten Datenbank DisGeNet19.103 in unserer Text-Mining-Studie identifiziert wurden und 88 weitere Assoziationen durch unsere Knowledge-Graph-Analyse mit einem Wahrscheinlichkeitswert >0,90 vorhergesagt wurden.

Insgesamt zeichnet sich CaseOLAP LIFT durch eine verbesserte Flexibilität und Benutzerfreundlichkeit bei der Gestaltung benutzerdefinierter Analysen der Assoziationen zwischen funktionellen Proteingruppen und mehreren Krankheitskategorien in großen Textkorpora aus. Dieses Paket wird in einer neuen benutzerfreundlichen Befehlszeilenschnittstelle optimiert und als Docker-Container veröffentlicht, wodurch die Probleme im Zusammenhang mit der Konfiguration der Programmierumgebungen und Softwareabhängigkeiten reduziert werden. Die CaseOLAP LIFT-Pipeline zur Untersuchung von mitochondrialen Proteinen bei Herz-Kreislauf-Erkrankungen kann leicht angepasst werden. Zukünftige Anwendungen dieser Technik könnten beispielsweise die Untersuchung der Assoziationen zwischen Proteinen umfassen, die mit GO-Begriffen und biomedizinischen Kategorien assoziiert sind. Darüber hinaus sind die von dieser Text-Mining-Plattform identifizierten Assoziationen zwischen Proteinen und Krankheiten wichtig für die Vorbereitung des Datensatzes für den Einsatz fortschrittlicher natürlicher Sprachtechniken. Der daraus resultierende Wissensgraph ermöglicht es den Forschern, diese Erkenntnisse in biologisch aussagekräftiges Wissen umzuwandeln und legt den Grundstein für weitere graphenbasierte Analysen.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde von den National Institutes of Health (NIH) R35 HL135772 an P.P., NIH T32 HL13945 an A.R.P. und D.S., NIH T32 EB016640 an A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 an A.R.P. und D.S., NIH R01 HL146739 für I.A., J.R., A.V., K.B. und die TC Laubisch Endowment an P.P. an der UCLA unterstützt.

Materials

Software – Docker Docker N/A docker.com

References

  1. The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
  2. Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
  3. Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
  4. Rehm, H. L., et al. ClinGen – The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
  5. Caulfield, M., et al. . The National Genomics Research and Healthcare Knowledgebase. , (2019).
  6. Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
  7. Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043 (2017).
  8. Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108 (2019).
  9. Yu, K. -. H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
  10. Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
  11. Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
  12. Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
  13. Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135 (2021).
  14. Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680 (2016).
  15. Wei, C. -. H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
  16. Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171 (2013).
  17. Wei, C. -. H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
  18. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
  19. Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
  20. Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
  21. Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
  22. Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
  23. Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
  24. Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96 (2021).
  25. Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304 (2022).
  26. Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726 (2017).
  27. Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
  28. Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118 (2021).
  29. Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
  30. Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
  31. Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
  32. . Neo4j Graph Data Platform Available from: https://neo4j.com/ (2022)
  33. Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Play Video

Cite This Article
Pelletier, A. R., Steinecke, D., Sigdel, D., Adam, I., Caufield, J. H., Guevara-Gonzalez, V., Ramirez, J., Verma, A., Bali, K., Downs, K., Wang, W., Bui, A., Ping, P. A Knowledge Graph Approach to Elucidate the Role of Organellar Pathways in Disease via Biomedical Reports. J. Vis. Exp. (200), e65084, doi:10.3791/65084 (2023).

View Video