Ein computergestütztes Protokoll, CaseOLAP LIFT, und ein Anwendungsfall zur Untersuchung von mitochondrialen Proteinen und ihren Assoziationen mit kardiovaskulären Erkrankungen, wie sie in biomedizinischen Berichten beschrieben sind, werden vorgestellt. Dieses Protokoll kann leicht angepasst werden, um vom Benutzer ausgewählte zelluläre Komponenten und Krankheiten zu untersuchen.
Die schnell wachsenden und riesigen Mengen an biomedizinischen Berichten, die jeweils zahlreiche Entitäten und reichhaltige Informationen enthalten, stellen eine reichhaltige Ressource für biomedizinische Text-Mining-Anwendungen dar. Diese Werkzeuge ermöglichen es Forschern, diese Entdeckungen zu integrieren, zu konzeptualisieren und zu übersetzen, um neue Erkenntnisse über die Krankheitspathologie und Therapeutika zu gewinnen. In diesem Protokoll stellen wir CaseOLAP LIFT vor, eine neue Rechenpipeline zur Untersuchung zellulärer Komponenten und ihrer Krankheitsassoziationen durch Extraktion von benutzerausgewählten Informationen aus Textdatensätzen (z. B. biomedizinischer Literatur). Die Software identifiziert subzelluläre Proteine und ihre funktionellen Partner in krankheitsrelevanten Dokumenten. Weitere krankheitsrelevante Dokumente werden über die Label-Imputationsmethode der Software identifiziert. Um die resultierenden Protein-Krankheits-Assoziationen zu kontextualisieren und Informationen aus mehreren relevanten biomedizinischen Ressourcen zu integrieren, wird automatisch ein Wissensgraph für weitere Analysen erstellt. Wir präsentieren einen Anwendungsfall mit einem Korpus von ~34 Millionen Textdokumenten, die online heruntergeladen wurden, um ein Beispiel für die Aufklärung der Rolle von mitochondrialen Proteinen bei verschiedenen Phänotypen von Herz-Kreislauf-Erkrankungen mit dieser Methode zu geben. Darüber hinaus wurde ein Deep-Learning-Modell auf den resultierenden Wissensgraphen angewendet, um bisher nicht berichtete Beziehungen zwischen Proteinen und Krankheiten vorherzusagen, was zu 1.583 Assoziationen mit vorhergesagten Wahrscheinlichkeiten >0,90 und mit einer Fläche unter der Receiver-Betriebskennlinie (AUROC) von 0,91 auf dem Testsatz führte. Diese Software verfügt über einen hochgradig anpassbaren und automatisierten Workflow mit einer breiten Palette von Rohdaten, die für die Analyse zur Verfügung stehen. Daher können mit dieser Methode Protein-Krankheits-Assoziationen mit erhöhter Zuverlässigkeit innerhalb eines Textkorpus identifiziert werden.
Die Untersuchung krankheitsrelevanter Proteine erweitert das wissenschaftliche Wissen über die Pathogenese und hilft, potenzielle Therapeutika zu identifizieren. Mehrere große Textkorpora biomedizinischer Publikationen, wie z. B. die 34 Millionen Artikel von PubMed, die Publikationstitel, Abstracts und Volltextdokumente enthalten, berichten über neue Erkenntnisse, die Proteine mit Krankheiten in Verbindung bringen. Diese Erkenntnisse sind jedoch über verschiedene Quellen hinweg fragmentiert und müssen integriert werden, um neue biomedizinische Erkenntnisse zu generieren. Es gibt mehrere biomedizinische Ressourcen, um Protein-Krankheits-Assoziationen zu integrieren 1,2,3,4,5,6,7. Diese kuratierten Ressourcen sind jedoch oft unvollständig und umfassen möglicherweise nicht die neuesten Forschungsergebnisse. Text-Mining-Ansätze sind unerlässlich, um Protein-Krankheits-Assoziationen in großen Textkorpora zu extrahieren und zu synthetisieren, was zu einem umfassenderen Verständnis dieser biomedizinischen Konzepte in der wissenschaftlichen Literatur führen würde.
Es gibt mehrere biomedizinische Text-Mining-Ansätze, um Protein-Krankheits-Beziehungen aufzudecken 8,9,10,11,12,13,14, und andere tragen teilweise zur Bestimmung dieser Beziehungen bei, indem sie die Proteine, Krankheiten oder andere biomedizinische Entitäten identifizieren, die in Text13,15,16,17 erwähnt werden. 18,19. Viele dieser Tools haben jedoch keinen Zugang zu der aktuellsten Literatur, mit Ausnahme einiger weniger, die regelmäßig aktualisiert werden 8,11,13,15. In ähnlicher Weise haben viele Instrumente auch einen begrenzten Untersuchungsumfang, da sie auf weit gefasste vordefinierte Krankheiten oder Proteine beschränkt sind 9,13. Mehrere Ansätze sind auch anfällig für die Identifizierung von falsch positiven Ergebnissen innerhalb des Textes. Andere haben diese Probleme mit einer interpretierbaren und globalen schwarzen Liste von Proteinnamen9,11 oder weniger interpretierbaren Techniken zur Erkennung von Namensentitäten15,20 angegangen. Während die meisten Ressourcen nur vorberechnete Ergebnisse präsentieren, bieten einige Tools Interaktivität über Web-Apps oder zugänglichen Softwarecode 8,9,11.
Um die oben genannten Einschränkungen zu adressieren, stellen wir das folgende Protokoll, CaseOLAP mit Label-Imputation und Volltext (CaseOLAP LIFT), als flexible und anpassbare Plattform vor, um Assoziationen zwischen Proteinen (z.B. Proteinen, die mit einer zellulären Komponente assoziiert sind) und Krankheiten aus Textdatensätzen zu untersuchen. Diese Plattform bietet die automatisierte Kuratierung von begriffsspezifischen Genontologie-Proteinen (z. B. organellenspezifische Proteine), die Imputation fehlender Themenbezeichnungen von Dokumenten, die Analyse von Volltextdokumenten sowie Analyse- und Vorhersagewerkzeuge (Abbildung 1, Abbildung 2 und Tabelle 1). CaseOLAP LIFT kuratiert organellenspezifische Proteine unter Verwendung von vom Benutzer bereitgestellten GO-Begriffen (z. B. Organellenkompartiment) und funktionell verwandte Proteine unter Verwendung von STRING21, Reactome 22 und GRNdb23. Dokumente zur Untersuchung von Krankheiten werden durch ihre PubMed-annotated Medical Subject Header (MeSH)-Etiketten identifiziert. Für die ~15,1% der unbeschrifteten Dokumente werden Bezeichnungen zugeschrieben, wenn mindestens ein MeSH-Begriffssynonym im Titel oder mindestens zwei im Abstract gefunden werden. Dadurch können bisher nicht kategorisierte Publikationen in der Text-Mining-Analyse berücksichtigt werden. CaseOLAP LIFT ermöglicht es dem Benutzer auch, Abschnitte von Publikationen (z. B. nur Titel und Abstracts, Volltext oder Volltext ohne Methoden) innerhalb eines bestimmten Zeitraums (z. B. 2012-2022) auszuwählen. Die Software kuratiert auch halbautomatisch eine anwendungsfallspezifische Blacklist mit Proteinnamen, wodurch die falsch-positiven Protein-Krankheits-Assoziationen, die bei anderen Ansätzen vorhanden sind, erheblich reduziert werden. Insgesamt ermöglichen diese Verbesserungen eine größere Anpassbarkeit und Automatisierung, erweitern die Menge der für die Analyse verfügbaren Daten und führen zu zuverlässigeren Protein-Krankheits-Assoziationen aus großen biomedizinischen Textkorpora.
CaseOLAP LIFT integriert biomedizinisches Wissen und stellt die Beziehung verschiedener biomedizinischer Konzepte mit Hilfe eines Wissensgraphen dar, der genutzt wird, um verborgene Beziehungen im Graphen vorherzusagen. In jüngster Zeit wurden graphenbasierte Berechnungsmethoden auf biologische Umgebungen angewendet, einschließlich der Integration und Organisation biomedizinischer Konzepte 24,25, der Umwidmung und Entwicklung von Medikamenten 26,27,28 und für die klinische Entscheidungsfindung aus Proteomikdaten 29.
Um den Nutzen von CaseOLAP LIFT bei der Erstellung eines Wissensgraphen zu demonstrieren, beleuchten wir einen Anwendungsfall zur Untersuchung der Assoziationen zwischen mitochondrialen Proteinen und acht Kategorien von Herz-Kreislauf-Erkrankungen. Die Evidenz aus ~362.000 krankheitsrelevanten Dokumenten wurde analysiert, um die wichtigsten mitochondrialen Proteine und Signalwege zu identifizieren, die mit den Krankheiten verbunden sind. Als nächstes wurden diese Proteine, ihre funktionell verwandten Proteine und ihre Text-Mining-Ergebnisse in einen Wissensgraphen integriert. Diese Grafik wurde in einer Deep-Learning-basierten Link-Prediction-Analyse genutzt, um Protein-Krankheits-Assoziationen vorherzusagen, über die in biomedizinischen Publikationen bisher nicht berichtet wurde.
In der Einleitung werden die Hintergrundinformationen und Ziele unseres Protokolls beschrieben. Im folgenden Abschnitt werden die Schritte des Berechnungsprotokolls beschrieben. Anschließend werden die repräsentativen Ergebnisse dieses Protokolls beschrieben. Abschließend gehen wir kurz auf die Anwendungsfälle, Vorteile, Nachteile und zukünftigen Anwendungen des Computerprotokolls ein.
CaseOLAP LIFT ermöglicht es Forschern, Zusammenhänge zwischen funktionellen Proteinen (z. B. Proteine, die mit einer zellulären Komponente, einem biologischen Prozess oder einer molekularen Funktion assoziiert sind) und biologischen Kategorien (z. B. Krankheiten) zu untersuchen. Das beschriebene Protokoll sollte in der angegebenen Reihenfolge ausgeführt werden, wobei Protokollabschnitt 2 und Protokollabschnitt 3 die kritischsten Schritte sind, da Protokollabschnitt 4 und Protokollabschnitt 5 von ihren Ergebnissen abhängen. Alternativ zu Protokollabschnitt 1 kann der CaseOLAP-LIFT-Code geklont und über das GitHub-Repository (https://github.com/CaseOLAP/caseolap_lift) aufgerufen werden. Es ist zu beachten, dass trotz Tests während der Softwareentwicklung Fehler auftreten können. Wenn dies der Fall ist, sollte der fehlgeschlagene Schritt wiederholt werden. Wenn das Problem weiterhin besteht, wird empfohlen, Protokollabschnitt 1 zu wiederholen, um sicherzustellen, dass die neueste Version des Docker-Containers verwendet wird. Weitere Unterstützung erhalten Sie, indem Sie ein Problem im GitHub-Repository erstellen, um zusätzliche Unterstützung zu erhalten.
Diese Methode unterstützt die Hypothesengenerierung, indem sie es den Forschern ermöglicht, interessante Entitäten zu identifizieren und die potenziellen Assoziationen zwischen ihnen aufzudecken, die in bestehenden biomedizinischen Ressourcen möglicherweise nicht ohne weiteres zugänglich sind. Die daraus resultierenden Protein-Krankheits-Assoziationen ermöglichen es den Forschern, neue Erkenntnisse über die interpretierbaren Metriken der Scores zu gewinnen: Die Popularitätswerte zeigen die am häufigsten untersuchten Proteine in Bezug auf eine Krankheit an, die Distinctiveness-Scores zeigen Krankheiten an, die für ein Protein am einzigartigsten sind, und der kombinierte CaseOLAP-Score ist eine Kombination aus beiden. Um falsch-positive Identifikationen (z. B. aufgrund von Homonymen) zu verhindern, verwenden einige Text-Mining-Tools eine Blacklist von Begriffen, um 9,11 zu vermeiden. Ebenso verwendet CaseOLAP LIFT ebenfalls eine Blacklist, ermöglicht es dem Benutzer jedoch, die Blacklist an seinen Anwendungsfall anzupassen. Bei der Untersuchung der koronaren Herzkrankheit (KHK) sollte beispielsweise “KHK” nicht als Bezeichnung für das Protein “Caspase-aktivierte Desoxyribonuklease” angesehen werden. Wenn Sie sich jedoch mit anderen Themen befassen, kann sich “CAD” in der Regel auf das Protein beziehen.
CaseOLAP LIFT passt sich der Datenmenge an, die für das Text-Mining zur Verfügung steht. Die Datumsbereichsfunktionalität verringert den Rechenaufwand und schafft Flexibilität bei der Hypothesenerstellung (z. B. um zu untersuchen, wie sich die wissenschaftlichen Erkenntnisse über eine Protein-Krankheits-Assoziation im Laufe der Zeit verändert haben). In der Zwischenzeit erweitern die Label-Imputation und die Volltextkomponenten den Umfang der Daten, die für das Text-Mining zur Verfügung stehen. Beide Komponenten sind standardmäßig deaktiviert, um die Rechenkosten zu reduzieren, aber der Benutzer kann sich entscheiden, eine der beiden Komponenten einzubeziehen. Die Label-Imputation ist konservativ und kategorisiert die meisten Publikationen korrekt (87 % Genauigkeit), übersieht aber andere Kategorie-Labels (2 % Recall). Diese Methode beruht derzeit auf einer regelbasierten Heuristik, die Krankheitsschlüsselwörter abgleicht, und es gibt Pläne, die Leistung durch den Einsatz von Techniken zur Modellierung von Dokumentthemen zu verbessern. Da es sich bei vielen nicht kategorisierten Berichten in der Regel um aktuelle Veröffentlichungen handelt, ist es für Studien, die einen aktuellen Zeitraum untersuchen (z. B. alle Veröffentlichungen innerhalb der letzten 3 Jahre), besser, wenn die Label-Imputation deaktiviert wird. Die Volltextkomponente erhöht den Laufzeit- und Speicherbedarf. Bemerkenswert ist, dass nur für eine Minderheit der Dokumente der Volltext verfügbar ist (~14% der Dokumente in unserer Studie). Unter der Annahme, dass die Proteinnamen, die im Methodenteil der Publikationen erwähnt werden, mit geringerer Wahrscheinlichkeit mit den Krankheitsthemen in Verbindung stehen, wird empfohlen, Volltextartikel ohne Methodenabschnitt abzufragen.
Die resultierenden Protein-Krankheits-Assoziationswerte sind nützlich für traditionelle Analysen wie Clustering, Dimensionalitätsreduktion oder Anreicherungsanalysen (z. B. GO, Signalwege), wobei einige Implementierungen in diesem Softwarepaket enthalten sind. Um diese Scores in den Kontext des vorhandenen biomedizinischen Wissens zu stellen, wird automatisch ein Wissensgraph erstellt, der mit Hilfe von Graphenvisualisierungswerkzeugen (z. B. Neo4j32, Cytoscape33) untersucht werden kann. Der Wissensgraph kann auch für prädiktive Analysen verwendet werden (z. B. Link-Vorhersage von nicht gemeldeten Protein-Krankheits-Beziehungen, Community-Erkennung von Proteinnetzwerken, preisgekrönte Path-Walking-Methoden).
Wir haben die Modellbewertungsmetriken für die vorhergesagten Protein-Krankheits-Assoziationen untersucht (Tabelle 5). Das Modell weist jeder Protein-Krankheits-Assoziation einen Wahrscheinlichkeitswert zwischen 0,0 und 1,0 zu, wobei Werte näher an 1,0 auf ein höheres Maß an Vertrauen in die Vorhersage hinweisen. Die interne Bewertung der Modellleistung, die auf verschiedenen Metriken wie AUROC, Genauigkeit, ausgewogener Genauigkeit, Spezifität und Erinnerungswert basierte, deutete auf eine hervorragende Gesamtleistung seiner Arbeit hin. Die Auswertung ergab jedoch auch eine eher schlechte Bewertung für die Genauigkeit (0,15) des Modells, was sowohl zu einem niedrigeren AUPRC- als auch zu einem F1-Wert führte. Zukünftige Studien zur Verbesserung dieser Metrik werden dazu beitragen, die Gesamtleistung des Modells zu erhöhen. Wir stellen uns vor, dass dies durch die Implementierung ausgefeilterer Einbettungs- und Graphvorhersagemodelle erreicht werden könnte. Basierend auf der Genauigkeit des Modells von 0,15 sollten die Ermittler mit etwa 15 % positiven Identifizierungen rechnen. Insbesondere von allen 12.688 Protein-Krankheits-Assoziationen, die vom Modell vorhergesagt werden, sind etwa 15 % richtig-positive Assoziationen. Dies kann gemildert werden, indem nur Protein-Krankheits-Assoziationen mit einem hohen Wahrscheinlichkeitswert (z. B. >0,90) berücksichtigt werden. In unserem Anwendungsfall führte die Filterung mit einem Wahrscheinlichkeitsschwellenwert von 0,90 zu Vorhersagen mit hoher Zuverlässigkeit von 1.583 Assoziationen. Für die Forscher kann es hilfreich sein, diese Vorhersagen auch manuell zu überprüfen, um eine hohe Validität zu gewährleisten (siehe Abbildung 7 als Beispiel). Eine externe Auswertung unserer Vorhersagen ergab, dass von den 310 Protein-Krankheits-Assoziationen aus einer umfangreichen kuratierten Datenbank DisGeNet19.103 in unserer Text-Mining-Studie identifiziert wurden und 88 weitere Assoziationen durch unsere Knowledge-Graph-Analyse mit einem Wahrscheinlichkeitswert >0,90 vorhergesagt wurden.
Insgesamt zeichnet sich CaseOLAP LIFT durch eine verbesserte Flexibilität und Benutzerfreundlichkeit bei der Gestaltung benutzerdefinierter Analysen der Assoziationen zwischen funktionellen Proteingruppen und mehreren Krankheitskategorien in großen Textkorpora aus. Dieses Paket wird in einer neuen benutzerfreundlichen Befehlszeilenschnittstelle optimiert und als Docker-Container veröffentlicht, wodurch die Probleme im Zusammenhang mit der Konfiguration der Programmierumgebungen und Softwareabhängigkeiten reduziert werden. Die CaseOLAP LIFT-Pipeline zur Untersuchung von mitochondrialen Proteinen bei Herz-Kreislauf-Erkrankungen kann leicht angepasst werden. Zukünftige Anwendungen dieser Technik könnten beispielsweise die Untersuchung der Assoziationen zwischen Proteinen umfassen, die mit GO-Begriffen und biomedizinischen Kategorien assoziiert sind. Darüber hinaus sind die von dieser Text-Mining-Plattform identifizierten Assoziationen zwischen Proteinen und Krankheiten wichtig für die Vorbereitung des Datensatzes für den Einsatz fortschrittlicher natürlicher Sprachtechniken. Der daraus resultierende Wissensgraph ermöglicht es den Forschern, diese Erkenntnisse in biologisch aussagekräftiges Wissen umzuwandeln und legt den Grundstein für weitere graphenbasierte Analysen.
The authors have nothing to disclose.
Diese Arbeit wurde von den National Institutes of Health (NIH) R35 HL135772 an P.P., NIH T32 HL13945 an A.R.P. und D.S., NIH T32 EB016640 an A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 an A.R.P. und D.S., NIH R01 HL146739 für I.A., J.R., A.V., K.B. und die TC Laubisch Endowment an P.P. an der UCLA unterstützt.