We introduceren de CorExplorer Web Portal, een bron voor verkenning van tumor RNA sequencing factoren gevonden door de machine learning-algoritme CorEx (correlatie toelichting), en laten zien hoe factoren kunnen worden geanalyseerd ten opzichte van overleving, database annotaties, eiwit-eiwit interacties, en elkaar om inzicht te krijgen in de tumor biologie en therapeutische interventies.
Differentiële genexpressie analyse is een belangrijke techniek voor het begrijpen van ziektetoestanden. Het machine learning-algoritme CorEx toont nut bij het analyseren van differentiële expressie van groepen van genen in tumor RNA-SEQ op een manier die nuttig kan zijn voor het bevorderen van precisie-oncologie. CorEx produceert echter veel factoren die een uitdaging kunnen zijn om te analyseren en verbinding te maken met bestaand inzicht. Om dergelijke verbindingen te faciliteren, hebben we een website, CorExplorer, gebouwd die gebruikers in staat stelt om interactief de gegevens te verkennen en gemeenschappelijke vragen met betrekking tot de analyse te beantwoorden. We hebben CorEx getraind op RNA-SEQ-genexpressie gegevens voor vier tumortypen: ovariële, Long-, melanomen en colorectale. Vervolgens hebben we overeenkomstige overleving, eiwit-eiwit interacties, Genontologie (GO) en Kyoto encyclopedie van genen en Genomes (KEGG) pathway enrichments en Heatmaps in de website opgenomen voor koppeling met de visualisatie van de factor grafiek. Hier gebruiken we voorbeeld protocollen om het gebruik van de database te illustreren voor het begrijpen van de betekenis van de geleerde tumor factoren in de context van deze externe gegevens.
Sinds de introductie iets meer dan een decennium geleden, RNA-SEQ is uitgegroeid tot een alomtegenwoordige instrument voor het meten van genexpressie1. Dit is omdat het maakt snelle en goedkope de Novo profilering van de volledige transcriptome van een monster. Echter, RNA-SEQ tumor gegevens weerspiegelt een onderliggende biologie die intrinsiek complex en vaak onderbemonsterd, terwijl de gegevens zelf is hoog-dimensionale en luidruchtig. Dit vormt een belangrijke uitdaging voor het extraheren van betrouwbare signalen. Het COREX-algoritme maakt gebruik van multivariate wederzijdse informatie om subtiele patronen te vinden in dergelijke situaties2,3 . Deze techniek was eerder aangepast voor het analyseren van ovariële tumor RNA-SEQ monsters van de kanker genoom Atlas (TCGA) en in deze context leek het aanzienlijke voordelen te hebben ten opzichte van meer algemeen gebruikte analysemethoden4.
Hoewel het gebruik van RNA-SEQ enorm wijdverbreid is in onderzoekstoepassingen, waaronder in oncologie, hebben deze inspanningen niet geleid tot een breed gebruik ten behoeve van klinische interventies5. Een deel van de reden hiervoor is een gebrek aan gebruiksvriendelijke algoritmen en software die is gericht op deze specifieke problemen. Om deze kloof te overbruggen, hebben we het CorExplorer webportaal ontworpen om onderzoekers van verschillende achtergronden in staat te stellen genexpressie factoren van tumor RNA-SEQ-monsters te bestuderen, zoals gevonden door het CorEx machine learning-algoritme. De corexplorer Portal ondersteunt interactieve visualisatie en opvragen van factoren uit verschillende tumortypen, waaronder Long, Colon, melanoma en ovariële6,7,8,9, 10, met de bedoeling onderzoekers te helpen door de gegevens correlaties te sieren en kandidaattrajecten te identificeren om patiënten voor therapeutische doeleinden te stratificeren.
We verwachten dat de CorExplorer Portal nuttig kan zijn voor verschillende soorten gebruikers. Het portaal is ontworpen met de gebruiker in gedachten die de brede factoren die de tumorele genexpressie verschillen in openbare databases willen begrijpen, wil weten en mogelijk ook individuele genuitdrukkings profielen in de context van tumoren met vergelijkbare Kenmerken. Naast de representatieve protocollen die hier worden beschreven, kan CorExplorer-onderzoek dienen als uitgangspunt om hypotheses voor te stellen voor verdere tests, om CorEx-bevindingen op gegevenssets buiten de CorExplorer te vergelijken en te contrasteren, en om pathologische expressie handtekeningen van één of enkele genen in een individuele tumor aan grotere groepen die coördinoos kunnen worden aangetast. Ten slotte kan het fungeren als een gebruiksvriendelijke Inleiding tot de toepassing van machine learning op RNA-SEQ voor degenen die aan de slag in het veld.
We hebben de CorExplorer site, een publiek toegankelijke webserver voor interactieve verkenning van maximaal gecorreleerde genexpressie factoren geleerd van tumor RNA-SEQ door de CorEx algoritme gepresenteerd. We hebben laten zien hoe de website kan worden gebruikt om patiënten te stratificeren volgens tumor genexpressie, en hoe deze stratificatie correspondeert met biologische functie en overleving.
Andere webservers voor RNA-SEQ-analyse zijn gebouwd. Differentiële en co-expressie analyse voor tumoren kunnen worden onderzocht en geïntegreerd met andere gegevenstypen in cbioportal19,20. De servers GenePattern21, MeV22en Morpheus23, omvatten gevestigde clustering technieken zoals principal component Analysis (PCA), kmiddelen, of Self-organiserende kaarten (SOMs). Meer innovatieve inspanningen omvatten CamurWeb24, gebaseerd op een geautomatiseerde regelgenererende classificatie, en tacco25, die willekeurige forestclassificaties en lassos implementeert. Het algoritme CorEx dat hier wordt gebruikt, optimaliseert multivariate informatie om een hiërarchie van factoren te vinden die patronen in gegevens uitleggen. De niet-lineaire en hiërarchische factor leren lijkt te leveren verbeterde interpreteer baarheid ten opzichte van de lineaire mondiale factoren gevonden via PCA4. Bovendien maakt de techniek fijnkorrelig parseren van monster signalen nauwkeurige tumor vergelijkingen ten opzichte van meer algemeen gebruikte brede subtypen. Deze combinatie van overlappende en hiërarchische factor analyse onderscheidt de CorExplorer van de meeste andere benaderingen en vereist nieuwe hulpmiddelen voor visualisatie en samenvatting.
Een essentieel onderdeel van de CorExplorer factor analyse is de mogelijkheid om niet alleen verschillende te verkennen, maar meer dan 100 factoren met informatieve genpatronen die binnen een overlappende hiërarchie worden geplaatst. De CorExplorer vergemakkelijkt de winning van deze ontelbare factoren voor biologische en klinische associaties en zorgt voor een uitzonderlijk gedetailleerde karakterisering van individuele tumoren. Het niet-begeleide leren van zo’n groot aantal factoren betekent dat niet iedereen relevant zal zijn voor de biologie van de ziekte. In een dergelijk geval is het essentieel om annotaties of bekende genen te gebruiken om factoren van belang te achterhalen of te zoeken naar factoren die verband hebben met klinische gegevens zoals overleving. Dus, de CorExplorer stelt gebruikers in staat om deze zeer belangrijke filter stap te implementeren. De aanwezigheid van factor genpatronen in een tumor kan zelfs suggereren een benadering van gepersonaliseerde oncologie behandeling. Verder, de veelheid van factor scores voor elke tumor die het mogelijk maakt voor de ontdekking van potentieel nuttige therapeutische combinaties.
Het is soms zo dat er geen significante GO-annotaties verschijnen voor factoren die sterk gecorreleerd zijn met overleving. Hoewel dit kan optreden als gevolg van lawaaierige of onder bemonsterde gegevens, zijn er andere mogelijke oorzaken, zoals een clustergrootte die te klein is om significante verrijkings scores te registreren of de groep is een ‘ korf ‘ van enkelvoudige genen uit diverse trajecten zonder coherente biologische Association. Bovendien kan een andere categorie van annotatie dan het KEGG-en GO Biological-proces, bijvoorbeeld het mobiele compartiment, geschikt zijn. Deze kunnen worden benaderd door te koppelen aan StringDB zoals wordt gedemonstreerd in het protocol. De Genontologie verrijkings analyse op de CorExplorer-site houdt momenteel geen rekening met de genweging in een factor, hoewel dit in de nabije toekomst waarschijnlijk zal worden verholpen. Opmerking een genlijst optie is beschikbaar onder ‘ add Window ‘ die het mogelijk maakt om de volledige factor genlijst te downloaden voor verdere analyse met externe tools.
Voor de doeleinden van de website werd CorEx op elk van de gegevenssets vijf keer uitgevoerd en de uitvoering die resulteerde in de grootste totale correlatie werd gehandhaafd. Het hebben van een statistische representatie van de resultaten van meerdere runs kan meer informatief zijn en is een doel voor toekomstig werk. Bovendien, de set van tumortypen beschikbaar op de server is vrij klein, maar we verwachten dat dit na verloop van tijd uit te breiden volgens de interesse van de gebruiker.
Zoals hierboven uiteengezet, visualiseert de CorExplorer CorEx RNA-SEQ-factor relaties, samen met klinische en database-informatie, waardoor een verscheidenheid aan verschillende manieren van ondervraging mogelijk wordt. We zijn hoopvol dat deze tool zal leiden tot verdere werkzaamheden om de kracht van RNA-SEQ-analyse voor ontdekking en klinische toepassing in oncologie te benutten.
The authors have nothing to disclose.
GV werd ondersteund door DARPA Award W911NF-16-0575.
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |