Wir stellen das CorExplorer-Webportal vor, eine Ressource zur Erforschung von Tumor-RNA-Sequenzierungsfaktoren, die vom Machine Learning-Algorithmus CorEx (Correlation Explanation) gefunden wurden, und zeigen, wie Faktoren im Verhältnis zum Überleben, Datenbankanmerkungen, Protein-Protein-Wechselwirkungen und untereinander, um Einblicke in die Tumorbiologie und therapeutische Interventionen zu gewinnen.
Die Differentialgenexpressionsanalyse ist eine wichtige Technik zum Verständnis von Krankheitszuständen. Der Machine Learning Algorithmus CorEx hat bei der Analyse der differenziellen Expression von Gengruppen in Tumor-RNA-seq in einer Weise nützlich sein, um die Präzisionsonkologie voranzubringen. CorEx produziert jedoch viele Faktoren, die eine Herausforderung darstellen können, um bestehendes Verständnis zu analysieren und mit ihnen in Verbindung zu treten. Um solche Verbindungen zu erleichtern, haben wir eine Website, CorExplorer, erstellt, die es Benutzern ermöglicht, die Daten interaktiv zu untersuchen und häufig gestellte Fragen im Zusammenhang mit ihrer Analyse zu beantworten. Wir haben CorEx auf RNA-seq Genexpressionsdaten für vier Tumortypen trainiert: Eierstock, Lunge, Melanom und kolorektal. Anschließend haben wir entsprechende Überlebens-, Protein-Protein-Wechselwirkungen, Gene Ontology (GO) und Kyoto Encyclopedia of Genes and Genomes (KEGG) Signalanreicherungen und Heatmaps in die Website integriert, um sie mit der Faktorgraphenvisualisierung in Verbindung zu bringen. Hier verwenden wir Beispielprotokolle, um die Verwendung der Datenbank zu veranschaulichen, um die Bedeutung der erlernten Tumorfaktoren im Kontext dieser externen Daten zu verstehen.
Seit seiner Einführung vor etwas mehr als einem Jahrzehnt ist RNA-seq zu einem allgegenwärtigen Werkzeug zur Messung der Genexpression1geworden. Dies liegt daran, dass es eine schnelle und kostengünstige de novo Profilierung des gesamten Transkriptoms einer Probe ermöglicht. Die RNA-seq-Tumordaten spiegeln jedoch eine zugrunde liegende Biologie wider, die an sich komplex und oft unterbeprobt ist, während die Daten selbst hochdimensional und laut sind. Dies stellt eine große Herausforderung für die Extraktion zuverlässiger Signale dar. Der CorEx-Algorithmus nutzt multivariate gegenseitige Informationen, um subtile Muster in solchen Situationen zu finden2,3 . Diese Technik wurde zuvor angepasst, um Eierstocktumor-RNA-seq-Proben aus dem Krebsgenomatlas (TCGA) zu analysieren, und in diesem Zusammenhang schien sie signifikante Vorteile gegenüber häufiger verwendeten Analysemethoden zu haben4.
Obwohl die Verwendung von RNA-Seq in Forschungsanwendungen, auch in der Onkologie, enorm weit verbreitet ist, haben diese Bemühungen nicht zu einer breiten Nutzung für die Zwecke klinischer Interventionen geführt5. Ein Grund dafür ist ein Mangel an benutzerfreundlichen Algorithmen und Software, die auf diese spezifischen Probleme ausgerichtet sind. Um diese Lücke zu schließen, haben wir das CorExplorer-Webportal entwickelt, um Forschern aus einer Vielzahl von Hintergründen die Untersuchung von Genexpressionsfaktoren von Tumor-RNA-seq-Proben zu ermöglichen, wie sie im CorEx Machine Learning-Algorithmus gefunden wurden. Das CorExplorer-Portal unterstützt die interaktive Visualisierung und Abfrage von Faktoren verschiedener Tumortypen wie Lunge, Dickdarm, Melanom und Eierstock6,7,8,9, 10, mit der Absicht, Forschern zu helfen, die Datenkorrelationen zu durchforsten und Kandidatenwege zur Stratifizierung von Patienten zu therapeutischen Zwecken zu identifizieren.
Wir erwarten, dass das CorExplorer-Portal für verschiedene Benutzertypen nützlich sein kann. Das Portal wurde mit Blick auf den Anwender konzipiert, der die breiten Faktoren verstehen möchte, die Unterschiede bei der Tumorgenexpression in öffentlichen Datenbanken antreiben und möglicherweise auch individuelle Genexpressionsprofile in den Kontext von Tumoren mit ähnlichen Merkmale. Zusätzlich zu den hier beschriebenen repräsentativen Protokollen können CorExplorer-Untersuchungen als Ausgangspunkt dienen, um Hypothesen für weitere Tests vorzuschlagen, CorEx-Befunde in Datensätzen außerhalb des CorExplorer zu vergleichen und zu kontrastieren und eine Verbindung herzustellen. pathologische Expressionssignaturen eines oder mehrerer Gene in einem einzelnen Tumor an größere Gruppen, die koordiniert betroffen sein können. Schließlich kann es als benutzerfreundliche Einführung in die Anwendung des maschinellen Lernens auf RNA-seq für diejenigen dienen, die in diesem Bereich beginnen.
Wir haben die CorExplorer-Website vorgestellt, einen öffentlich zugänglichen Webserver zur interaktiven Erforschung von maximal korrelierten Genexpressionsfaktoren, die vom CorEx-Algorithmus aus Tumor-RNA-seq gelernt wurden. Wir haben gezeigt, wie die Website verwendet werden kann, um Patienten entsprechend der Tumorgenexpression zu schichten, und wie eine solche Schichtung der biologischen Funktion und dem Überleben entspricht.
Andere Webserver für die RNA-Seq-Analyse wurden gebaut. Differential- und Co-Expressionsanalyse für Tumoren kann untersucht und mit anderen Datentypen in cbioPortal19,20integriert werden. Die Server GenePattern21, Mev22und Morpheus23enthalten etablierte Clustering-Techniken wie PcA (Principal Component Analysis), kmeans oder self-organizing maps (SOMs). Zu den innovativeren Bemühungen gehören CamurWeb24, basierend auf einem automatisierten regelerzeugenden Klassifikatoren, und TACCO25, das zufällige Waldklassifikatoren und Lassos implementiert. Der hier verwendete CorEx-Algorithmus optimiert multivariate Informationen, um eine Hierarchie von Faktoren zu finden, die Muster in Daten erklären. Das nichtlineare und hierarchische Faktorlernen scheint eine verbesserte Interpretationsfähigkeit im Vergleich zu den linearen globalen Faktoren zu erzielen, die über PCA4gefunden werden. Darüber hinaus ermöglicht die feinkörnige Analyse von Probensignalen präzise Tumorvergleiche gegenüber häufiger verwendeten breiten Subtypen. Diese Kombination aus überlappender und hierarchischer Faktoranalyse unterscheidet den CorExplorer von den meisten anderen Ansätzen und erfordert neue Werkzeuge für die Visualisierung und Zusammenfassung.
Ein kritischer Teil der CorExplorer-Faktoranalyse ist die Fähigkeit, nicht nur mehrere, sondern auch über 100 Faktoren mit informativen Genmustern zu untersuchen, die innerhalb einer sich überlappenden Hierarchie platziert sind. Der CorExplorer erleichtert den Abbau dieser unzähligen Faktoren für biologische und klinische Assoziationen und ermöglicht eine außergewöhnlich detaillierte Charakterisierung einzelner Tumoren. Das unbeaufsichtigte Erlernen einer so großen Anzahl von Faktoren bedeutet, dass nicht alle für die Krankheitsbiologie relevant sein werden. In einem solchen Fall ist es wichtig, entweder Anmerkungen oder bekannte Gene zu verwenden, um Interessensfaktoren herauszuziehen oder nach Faktoren zu suchen, die mit klinischen Daten wie dem Überleben in Verbindung stehen. Somit ermöglicht der CorExplorer Benutzern, diesen sehr wichtigen Filterschritt zu implementieren. Das Vorhandensein von Faktor-Gen-Mustern in einem Tumor kann sogar einen Ansatz für eine personalisierte onkologische Behandlung nahelegen. Darüber hinaus die Vielzahl der Faktor-Scores für jeden Tumor, die für die Entdeckung von potenziell nützlichen therapeutischen Kombinationen ermöglicht.
Es ist manchmal der Fall, dass keine signifikanten GO-Anmerkungen für Faktoren erscheinen, die stark mit dem Überleben korrelieren. Während dies aufgrund von lauten oder unter Stichproben datenreichen Daten auftreten kann, gibt es andere mögliche Ursachen, wie z. B. eine Clustergröße, die zu klein ist, um signifikante Anreicherungswerte zu registrieren, oder die Gruppe, die ein “Korb” einzelner Gene aus verschiedenen Pfaden ohne kohärente biologische Verband. Darüber hinaus kann eine Kategorie von Anmerkungen, die sich vom biologischen Prozess KEGG und GO unterscheiden, z. B. Zellkompartimt, angemessen sein. Auf diese kann zugegriffen werden, indem sie mit StringDB verknüpft werden, wie im Protokoll gezeigt. Die Gene Ontology Anreicherungsanalyse auf der CorExplorer-Website berücksichtigt derzeit nicht die Gengewichtung in einem Faktor, obwohl dies wahrscheinlich in naher Zukunft behoben werden wird. Beachten Sie, dass unter “Fenster hinzufügen” eine Genlistenoption verfügbar ist, die den Download der vollständigen Faktor-Gen-Liste für die weitere Analyse mit externen Tools ermöglicht.
Für die Zwecke der Website wurde CorEx für jedes der Datasets fünfmal ausgeführt, und die Ausführung, die zu der größten Gesamtkorrelation führte, wurde beibehalten. Eine statistische Darstellung der Ergebnisse mehrerer Durchläufe kann informativer sein und ist ein Ziel für die zukünftige Arbeit. Darüber hinaus ist der Satz von Tumortypen, die auf dem Server verfügbar sind, eher klein, aber wir erwarten, dass sich dies im Laufe der Zeit entsprechend dem Benutzerinteresse ausdehnt.
Wie oben beschrieben, visualisiert der CorExplorer CorEx RNA-seq-Faktor-Beziehungen zusammen mit klinischen und Datenbankinformationen und ermöglicht so eine Vielzahl verschiedener Verhörmodi. Wir hoffen, dass dieses Tool zu weiteren Arbeiten führen wird, um die Leistungsfähigkeit der RNA-Seq-Analyse für die Entdeckung und klinische Anwendung in der Onkologie zu nutzen.
The authors have nothing to disclose.
GV wurde durch den DARPA Award W911NF-16-0575 unterstützt.
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |