Introduciamo il portale web CorExplorer, una risorsa per l’esplorazione dei fattori di sequenziamento dell’RNA tumore trovati dall’algoritmo di apprendimento automatico CorEx (Spiegazione di correlazione), e mostriamo come i fattori possono essere analizzati rispetto alla sopravvivenza, alle annotazioni del database, proteine-proteine, e l’un l’altro per ottenere informazioni sulla biologia del tumore e gli interventi terapeutici.
L’analisi dell’espressione genica differenziale è una tecnica importante per comprendere gli stati della malattia. L’algoritmo di apprendimento automatico CorEx ha dimostrato utilità nell’analisi dell’espressione differenziale di gruppi di geni nel tumore RNA-seq in un modo che può essere utile per far progredire l’oncologia di precisione. Tuttavia, CorEx produce molti fattori che possono essere difficili da analizzare e connettersi alla comprensione esistente. Per facilitare tali connessioni, abbiamo costruito un sito web, CorExplorer, che consente agli utenti di esplorare in modo interattivo i dati e rispondere a domande comuni relative alla sua analisi. Abbiamo addestrato CorEx sui dati dell’espressione genica RNA-seq per quattro tipi di tumore: ovarico, polmone, melanoma e colorettale. Abbiamo quindi incorporato la sopravvivenza corrispondente, le interazioni proteina-proteina, l’ontologia genica (GO) e l’Enciclopedia Kyoto dei geni e dei genomi (KEGG) e le mappe di calore nel sito web per l’associazione con la visualizzazione del grafico dei fattori. Qui utilizziamo protocolli di esempio per illustrare l’uso del database per comprendere il significato dei fattori tumorali appresi nel contesto di questi dati esterni.
Dalla sua introduzione poco più di un decennio fa, RNA-seq è diventato uno strumento onnipresente per misurare l’espressione genica1. Questo perché consente una profilazione de novo rapida ed economica dell’intero trascrittoma di un campione. Tuttavia, i dati del tumore dell’RNA-seq riflettono una biologia sottostante intrinsecamente complessa e spesso sottocampionata, mentre i dati stessi sono ad alta dimensione e rumorosi. Questo rappresenta una sfida significativa per l’estrazione di segnali affidabili. L’algoritmo CorEx sfrutta le informazioni reciproche multivariate per trovare modelli sottili in tali situazioni2,3 . Questa tecnica è stata precedentemente adattata per analizzare campioni di RNA-seq del tumore ovarico dal The Cancer Genome Atlas (TCGA) e in questo contesto sembrava avere vantaggi significativi rispetto ai metodi di analisi più comunemente utilizzati4.
Anche se l’uso di RNA-seq è enormemente diffuso nelle applicazioni di ricerca, anche in oncologia, tali sforzi non hanno portato ad un ampio utilizzo ai fini degli interventi clinici5. Parte della ragione di questo è la mancanza di algoritmi user-friendly e software mirati a questi problemi specifici. Per contribuire a colmare questa lacuna, abbiamo progettato il portale web CorExplorer per consentire ai ricercatori provenienti da una varietà di background di studiare i fattori di espressione genica dei campioni tumorali di RNA-seq, come trovato dall’algoritmo di apprendimento automatico CorEx. Il portale CorExplorer supporta la visualizzazione interattiva e l’interrogazione di fattori provenienti da diversi tipi di tumore, tra cui polmone, colon, melanoma e ovarico6,7,8,9, 10, con l’intento di aiutare i ricercatori a vagliare le correlazioni dei dati e identificare i percorsi candidati per stratificare i pazienti a fini terapeutici.
Ci aspettiamo che il portale CorExplorer possa essere utile a diversi tipi di utenti. Il portale è stato progettato con l’utente in mente che desidera comprendere i grandi fattori che guidano le differenze di espressione genica tumorale nei database pubblici e possibilmente anche inserire profili di espressione genica individuali nel contesto di tumori con simili Caratteristiche. Oltre ai protocolli rappresentativi qui descritti, le indagini di CorExplorer possono servire come punto di partenza per suggerire ipotesi per ulteriori test, per confrontare e confrontare i risultati CorEx su set di dati al di fuori del CorExplorer e per collegare firme di espressione patologica di uno o pochi geni in un singolo tumore a gruppi più grandi che possono essere influenzati coordinamente. Infine, può servire come introduzione user-friendly all’applicazione dell’apprendimento automatico all’RNA-seq per coloro che hanno iniziato nel campo.
Abbiamo presentato il sito CorExplorer, un server web accessibile pubblicamente per l’esplorazione interattiva dei fattori di espressione genica maggiormente correlati appresi dal tumore RNA-seq dall’algoritmo CorEx. Abbiamo dimostrato come il sito web può essere utilizzato per stratificare i pazienti secondo l’espressione genica del tumore, e come tale stratificazione corrisponde alla funzione biologica e alla sopravvivenza.
Sono stati costruiti altri webserver per l’analisi RNA-seq. L’analisi differenziale e co-espressione per i tumori può essere esaminata e integrata con altri tipi di dati in cbioPortal19,20. I server GenePattern21, Mev22e Morpheus23incorporano tecniche di clustering consolidate, ad esempio l’analisi dei componenti principali (PCA), i kmeans o le mappe auto-organizzanti (SOM). Gli sforzi più innovativi includono CamurWeb24, basato su un classificatore automatico di generazione di regole, e TACCO25, che implementa classificatori e lazo casuali di foreste. L’algoritmo CorEx qui utilizzato ottimizza le informazioni multivariate per trovare una gerarchia di fattori che spiegano i modelli nei dati. L’apprendimento dei fattori non lineari e gerarchici sembra produrre una migliore interpretabilità rispetto ai fattori lineari globali riscontrati tramite PCA4. Inoltre, l’analisi a grana fine della tecnica dei segnali campione consente confronti precisi del tumore nei sottotipi ampi più comunemente utilizzati. Questa combinazione di analisi dei fattori sovrapposti e gerarchici distingue CorExplorer dalla maggior parte degli altri approcci e richiede nuovi strumenti per la visualizzazione e il riepilogo.
Una parte fondamentale dell’analisi dei fattori di CorExplorer è la capacità di esplorare non solo diversi, ma oltre 100 fattori con modelli genici informativi che vengono posizionati all’interno di una gerarchia sovrapposta. Il CorExplorer facilita l’estrazione di queste miriadi di fattori per le associazioni biologiche e cliniche e consente una caratterizzazione eccezionalmente dettagliata dei singoli tumori. L’apprendimento senza supervisione di un numero così elevato di fattori significa che non tutti saranno rilevanti per la biologia della malattia. In tal caso, è essenziale utilizzare annotazioni o geni noti per estrarre i fattori di interesse o cercare fattori associati a dati clinici come la sopravvivenza. Pertanto, il CorExplorer consente agli utenti di implementare questo passaggio di filtro molto importante. La presenza di modelli genici fattoriali in un tumore può anche suggerire un approccio al trattamento oncologico personalizzato. Inoltre, la molteplicità dei punteggi dei fattori per ogni tumore che consente la scoperta di combinazioni terapeutiche potenzialmente utili.
A volte accade che non vengano presenti annotazioni GO significative per fattori altamente correlati alla sopravvivenza. Anche se ciò può verificarsi a causa di dati rumorosi o sottoposti a campioni, ci sono altre possibili cause come una dimensione del cluster che è troppo piccola per registrare punteggi significativi di arricchimento o il gruppo è un “carrello” di singoli geni da percorsi diversi senza linee biologiche coerenti associazione. Inoltre, una categoria di annotazione diversa dal processo biologico KEGG e GO, ad esempio il compartimento cellulare, può essere appropriata. È possibile accedervi mediante il collegamento a StringDB come illustrato nel protocollo. L’analisi dell’arricchimento dell’ontologia genica sul sito di CorExplorer attualmente non tiene conto della ponderazione genica in un fattore, anche se questo sarà probabilmente recuperato nel prossimo futuro. Si noti che un’opzione di elenco dei geni è disponibile in “Aggiungi finestra” che consente di scaricare l’elenco completo dei geni del fattore per un’ulteriore analisi con strumenti esterni.
Ai fini del sito Web, CorEx è stata eseguita su ciascuno dei set di dati cinque volte e l’esecuzione che ha comportato la massima correlazione globale della total correlazione è stata mantenuta. Avere una rappresentazione statistica dei risultati di più esecuzioni può essere più informativo ed è un obiettivo per il lavoro futuro. Inoltre, l’insieme di tipi di tumore disponibili sul server è piuttosto piccolo, ma ci aspettiamo che questo si espanda nel tempo in base all’interesse dell’utente.
Come descritto in precedenza, CorExplorer visualizza le relazioni del fattore RNA-seq CorEx insieme alle informazioni cliniche e di database, consentendo così una varietà di diverse modalità di interrogatorio. Siamo fiduciosi che questo strumento porterà a ulteriori lavori per utilizzare la potenza dell’analisi RNA-seq per la scoperta e l’applicazione clinica in oncologia.
The authors have nothing to disclose.
GV è stato supportato dal premio DARPA W911NF-16-0575.
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |