Vengono presentati un protocollo computazionale, CaseOLAP LIFT, e un caso d’uso per studiare le proteine mitocondriali e le loro associazioni con le malattie cardiovascolari come descritto nei rapporti biomedici. Questo protocollo può essere facilmente adattato per studiare i componenti cellulari e le malattie selezionate dall’utente.
Le grandi quantità di referti biomedici, in rapido aumento, ciascuno contenente numerose entità e ricche informazioni, rappresentano una ricca risorsa per le applicazioni di text-mining biomedico. Questi strumenti consentono ai ricercatori di integrare, concettualizzare e tradurre queste scoperte per scoprire nuove intuizioni sulla patologia e sulle terapie della malattia. In questo protocollo, presentiamo CaseOLAP LIFT, una nuova pipeline computazionale per studiare i componenti cellulari e le loro associazioni di malattie estraendo informazioni selezionate dall’utente da set di dati testuali (ad esempio, letteratura biomedica). Il software identifica le proteine subcellulari e i loro partner funzionali all’interno di documenti rilevanti per la malattia. Ulteriori documenti rilevanti per la malattia vengono identificati tramite il metodo di imputazione delle etichette del software. Per contestualizzare le associazioni proteina-malattia risultanti e per integrare le informazioni provenienti da più risorse biomediche rilevanti, viene costruito automaticamente un grafo di conoscenza per ulteriori analisi. Presentiamo un caso d’uso con un corpus di ~ 34 milioni di documenti di testo scaricati online per fornire un esempio di chiarimento del ruolo delle proteine mitocondriali in fenotipi distinti di malattie cardiovascolari utilizzando questo metodo. Inoltre, un modello di deep learning è stato applicato al grafo della conoscenza risultante per prevedere le relazioni precedentemente non riportate tra proteine e malattia, risultando in 1.583 associazioni con probabilità previste >0,90 e con un’area sotto la curva caratteristica operativa del ricevitore (AUROC) di 0,91 sul set di test. Questo software presenta un flusso di lavoro altamente personalizzabile e automatizzato, con un’ampia gamma di dati grezzi disponibili per l’analisi; Pertanto, utilizzando questo metodo, le associazioni proteina-malattia possono essere identificate con maggiore affidabilità all’interno di un corpus di testo.
Lo studio delle proteine correlate alla malattia migliora la conoscenza scientifica della patogenesi e aiuta a identificare potenziali terapie. Diversi grandi corpora testuali di pubblicazioni biomediche, come i 34 milioni di articoli di PubMed contenenti titoli di pubblicazioni, abstract e documenti full-text, riportano nuove scoperte che collegano le proteine alle malattie. Tuttavia, questi risultati sono frammentati in varie fonti e devono essere integrati per generare nuove intuizioni biomediche. Esistono diverse risorse biomediche per integrare le associazioni proteina-malattia 1,2,3,4,5,6,7. Tuttavia, queste risorse curate sono spesso incomplete e potrebbero non comprendere gli ultimi risultati della ricerca. Gli approcci di text-mining sono essenziali per estrarre e sintetizzare le associazioni proteina-malattia in corpora di testo di grandi dimensioni, il che si tradurrebbe in una comprensione più completa di questi concetti biomedici nella letteratura scientifica.
Esistono molteplici approcci biomedici di text-mining per scoprire le relazioni proteina-malattia 8,9,10,11,12,13,14, e altri contribuiscono in parte a determinare queste relazioni identificando le proteine, le malattie o altre entità biomediche menzionate nel testo 13,15,16,17, 18,19. Tuttavia, molti di questi strumenti non hanno accesso alla letteratura più aggiornata, ad eccezione di alcuni che vengono periodicamente aggiornati 8,11,13,15. Allo stesso modo, anche molti strumenti hanno un ambito di studio limitato, in quanto sono limitati a malattie o proteine predefinite 9,13. Diversi approcci sono anche inclini all’identificazione di falsi positivi all’interno del testo; Altri hanno affrontato questi problemi con una lista nera interpretabile e globale di nomi di proteine 9,11 o meno tecniche di riconoscimento delle entità dei nomi dei nomi15,20. Mentre la maggior parte delle risorse presenta solo risultati pre-calcolati, alcuni strumenti offrono interattività tramite app Web o codice software accessibile 8,9,11.
Per affrontare le limitazioni di cui sopra, presentiamo il seguente protocollo, CaseOLAP con imputazione dell’etichetta e full text (CaseOLAP LIFT), come piattaforma flessibile e personalizzabile per studiare le associazioni tra proteine (ad esempio, proteine associate a una componente cellulare) e malattie da set di dati di testo. Questa piattaforma offre la cura automatizzata di proteine specifiche per l’ontologia genica (GO) (ad esempio, proteine specifiche per organelli), l’imputazione delle etichette degli argomenti mancanti dei documenti, l’analisi di documenti full-text, nonché strumenti di analisi e strumenti predittivi (Figura 1, Figura 2 e Tabella 1). CaseOLAP LIFT cura le proteine organello-specifiche utilizzando termini GO forniti dall’utente (ad esempio, compartimento organello) e proteine funzionalmente correlate utilizzando STRING21, Reactome 22 e GRNdb23. I documenti relativi allo studio delle malattie sono identificati dalle etichette MeSH (Medical Subject Header) annotate da PubMed. Per il ~15,1% dei documenti non etichettati, le etichette sono imputate se almeno un sinonimo di termine MeSH si trova nel titolo o almeno due nell’abstract. In questo modo le pubblicazioni precedentemente non classificate possono essere prese in considerazione nell’analisi di text-mining. CaseOLAP LIFT consente inoltre all’utente di selezionare sezioni di pubblicazioni (ad esempio, solo titoli e abstract, testo completo o testo completo esclusi metodi) entro un determinato periodo di tempo (ad esempio, 2012-2022). Il software cura anche in modo semi-automatico una lista nera di nomi di proteine specifici per i casi d’uso, riducendo in modo vitale le associazioni di proteine false positive presenti in altri approcci. Nel complesso, questi miglioramenti consentono una maggiore personalizzazione e automazione, espandono la quantità di dati disponibili per l’analisi e producono associazioni proteine-malattie più sicure da grandi corpora di testo biomedico.
CaseOLAP LIFT incorpora le conoscenze biomediche e rappresenta la relazione di vari concetti biomedici utilizzando un grafo della conoscenza, che viene sfruttato per prevedere le relazioni nascoste nel grafo. Recentemente, metodi di calcolo basati su grafi sono stati applicati a contesti biologici, tra cui l’integrazione e l’organizzazione di concetti biomedici 24,25, il riposizionamento e lo sviluppo di farmaci 26,27,28 e per il processo decisionale clinico a partire da dati di proteomica 29.
Per dimostrare l’utilità di CaseOLAP LIFT nell’ambito della costruzione di un grafo della conoscenza, evidenziamo un caso d’uso sullo studio delle associazioni tra proteine mitocondriali e otto categorie di malattie cardiovascolari. Sono state analizzate le evidenze di ~362.000 documenti rilevanti per la malattia per identificare le principali proteine mitocondriali e i percorsi associati alle malattie. Successivamente, queste proteine, le loro proteine funzionalmente correlate e i loro risultati di text-mining sono stati incorporati in un grafo della conoscenza. Questo grafico è stato sfruttato in un’analisi predittiva dei collegamenti basata sul deep learning per prevedere le associazioni proteina-malattia finora non riportate all’interno delle pubblicazioni biomediche.
La sezione introduttiva descrive le informazioni di base e gli obiettivi del nostro protocollo. Nella sezione seguente vengono descritti i passaggi del protocollo computazionale. Di seguito, vengono descritti i risultati rappresentativi di questo protocollo. Infine, discutiamo brevemente i casi d’uso del protocollo computazionale, i vantaggi, gli svantaggi e le applicazioni future.
CaseOLAP LIFT consente ai ricercatori di studiare le associazioni tra proteine funzionali (ad esempio, proteine associate a un componente cellulare, a un processo biologico o a una funzione molecolare) e categorie biologiche (ad esempio, malattie). Il protocollo descritto deve essere eseguito nella sequenza specificata, con la sezione 2 e la sezione 3 del protocollo che sono i passaggi più critici, poiché la sezione 4 e la sezione 5 del protocollo dipendono dai risultati. In alternativa alla sezione 1 del protocollo, è possibile clonare il codice CaseOLAP LIFT e accedervi dal repository GitHub (https://github.com/CaseOLAP/caseolap_lift). Va notato che, nonostante i test durante lo sviluppo del software, possono verificarsi bug. In tal caso, il passaggio non riuscito deve essere ripetuto. Se il problema persiste, si consiglia di ripetere la sezione 1 del protocollo per assicurarsi che venga usata la versione più recente del contenitore Docker. È disponibile ulteriore assistenza creando un problema nel repository GitHub per ulteriore supporto.
Questo metodo supporta la generazione di ipotesi consentendo ai ricercatori di identificare le entità di interesse e rivelare le potenziali associazioni tra di loro, che potrebbero non essere facilmente accessibili nelle risorse biomediche esistenti. Le risultanti associazioni proteina-malattia consentono ai ricercatori di ottenere nuove informazioni attraverso le metriche interpretabili dei punteggi: i punteggi di popolarità indicano le proteine più studiate in relazione a una malattia, i punteggi di distintività indicano le malattie più uniche per una proteina e il punteggio CaseOLAP combinato è una combinazione dei due. Per prevenire le identificazioni di falsi positivi (ad esempio, a causa di omonimi), alcuni strumenti di text-mining utilizzano una lista nera di termini per evitare 9,11. Allo stesso modo, anche CaseOLAP LIFT utilizza una lista nera, ma consente all’utente di adattare la lista nera al proprio caso d’uso. Ad esempio, quando si studia la malattia coronarica (CAD), “CAD” non dovrebbe essere considerato un nome per la proteina “desossiribonucleasi attivata dalla caspasi”. Tuttavia, quando si studiano altri argomenti, “CAD” potrebbe di solito riferirsi alla proteina.
CaseOLAP LIFT si adatta alla quantità di dati disponibili per il text mining. La funzionalità dell’intervallo di date allevia il carico computazionale e crea flessibilità per la generazione di ipotesi (ad esempio, studiando come le conoscenze scientifiche su un’associazione proteina-malattia sono cambiate nel tempo). Nel frattempo, l’imputazione delle etichette e i componenti full-text migliorano l’ambito dei dati disponibili per il text-mining. Entrambi i componenti sono disabilitati per impostazione predefinita per ridurre i costi di calcolo, ma l’utente può decidere di includere uno dei due componenti. L’imputazione dell’etichetta è conservativa e categorizza correttamente la maggior parte delle pubblicazioni (precisione dell’87%) ma non tiene conto delle altre etichette di categoria (richiamo del 2%). Questo metodo attualmente si basa su un’euristica basata su regole che corrisponde alle parole chiave della malattia e ci sono piani per migliorare le prestazioni attraverso l’uso di tecniche di modellazione degli argomenti dei documenti. Poiché molti report non categorizzati tendono ad essere pubblicazioni recenti, gli studi che indagano su un intervallo di date recente (ad esempio, tutte le pubblicazioni negli ultimi 3 anni) sono meglio serviti disabilitando l’imputazione dell’etichetta. Il componente full-text aumenta i requisiti di runtime e di archiviazione. In particolare, solo una minoranza di documenti ha il testo completo disponibile (~14% dei documenti nel nostro studio). Supponendo che i nomi delle proteine menzionati nella sezione dei metodi delle pubblicazioni abbiano meno probabilità di essere correlati agli argomenti della malattia, si consiglia di interrogare gli articoli full-text escludendo la sezione dei metodi.
I punteggi di associazione proteina-malattia risultanti sono utili per le analisi tradizionali come il clustering, la riduzione della dimensionalità o le analisi di arricchimento (ad esempio, GO, percorsi), con alcune implementazioni incluse in questo pacchetto software. Per contestualizzare questi punteggi all’interno delle conoscenze biomediche esistenti, viene costruito automaticamente un grafo della conoscenza che può essere esplorato utilizzando strumenti di visualizzazione grafica (ad esempio, Neo4j32, Cytoscape33). Il grafo della conoscenza può essere utilizzato anche per analisi predittive (ad esempio, previsione di link di relazioni proteina-malattia non segnalate, rilevamento comunitario di reti proteiche, metodi di path-walking per la raccolta di premi).
Abbiamo esaminato le metriche di valutazione del modello per le associazioni proteina-malattia previste (Tabella 5). Il modello assegna un punteggio di probabilità compreso tra 0,0 e 1,0 a ciascuna associazione proteina-malattia, con punteggi più vicini a 1,0 che indicano un livello più elevato di confidenza nella previsione. La valutazione interna delle prestazioni del modello, che si basava su varie metriche tra cui l’AUROC, l’accuratezza, l’accuratezza bilanciata, la specificità e il richiamo, ha indicato eccellenti prestazioni complessive nel suo lavoro. Tuttavia, la valutazione ha anche evidenziato un punteggio piuttosto scarso per la precisione (0,15) del modello, con conseguente punteggio AUPRC e F1 più basso. Gli studi futuri per migliorare questa metrica contribuiranno a migliorare le prestazioni complessive del modello. Prevediamo che questo obiettivo potrebbe essere raggiunto implementando modelli più sofisticati di incorporamento del grafo della conoscenza e di previsione del grafo. Sulla base della precisione del modello di 0,15, i ricercatori dovrebbero prevedere circa il 15% di identificazioni positive; In particolare, di tutte le 12.688 associazioni proteina-malattia previste dal modello, circa il 15% sono associazioni vero-positive. Questo può essere mitigato considerando solo le associazioni proteina-malattia con un punteggio ad alta probabilità (ad esempio, >0,90); Nel nostro caso d’uso, il filtro con una soglia di probabilità di 0,90 ha portato a previsioni ad alta confidenza di 1.583 associazioni. Gli investigatori possono trovare utile ispezionare manualmente queste previsioni per garantire un’elevata validità (vedere la Figura 7 come esempio). Una valutazione esterna delle nostre previsioni ha determinato che delle 310 associazioni proteina-malattia da un ampio database curato, DisGeNet19, 103 sono state identificate nel nostro studio di text-mining e 88 associazioni aggiuntive sono state previste dalla nostra analisi del grafo della conoscenza con un punteggio di probabilità >0,90.
Nel complesso, CaseOLAP LIFT offre una maggiore flessibilità e usabilità nella progettazione di analisi personalizzate delle associazioni tra gruppi proteici funzionali e più categorie di malattie in corpora di testo di grandi dimensioni. Questo pacchetto è semplificato in una nuova interfaccia a riga di comando user-friendly e viene rilasciato come contenitore docker, riducendo così i problemi associati alla configurazione degli ambienti di programmazione e delle dipendenze software. La pipeline CaseOLAP LIFT per lo studio delle proteine mitocondriali nelle malattie cardiovascolari può essere facilmente adattata; ad esempio, le future applicazioni di questa tecnica potrebbero comportare lo studio delle associazioni tra qualsiasi proteina associata a qualsiasi termine OB e qualsiasi categoria biomedica. Inoltre, le associazioni classificate proteina-malattia identificate da questa piattaforma di text-mining sono importanti nella preparazione del set di dati per l’uso di tecniche avanzate di linguaggio naturale. Il grafo della conoscenza risultante consente ai ricercatori di convertire questi risultati in conoscenze biologicamente informative e getta le basi per analisi di follow-up basate su grafici.
The authors have nothing to disclose.
Questo lavoro è stato supportato dal National Institutes of Health (NIH) R35 HL135772 a P.P., NIH T32 HL13945 ad A.R.P. e DS, NIH T32 EB016640 ad A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 ad A.R.P. e DS, NIH R01 HL146739 per I.A., J.R., A.V., K.B. e il TC Laubisch Endowment a PP presso l’UCLA.