Nous introduisons le portail Web CorExplorer, une ressource pour l’exploration des facteurs de séquençage de l’ARN tumoral trouvés par l’algorithme d’apprentissage automatique CorEx (Correlation Explication), et montrons comment les facteurs peuvent être analysés par rapport à la survie, les annotations de base de données, interactions protéines-protéines, et les uns les autres pour obtenir un aperçu de la biologie tumorale et des interventions thérapeutiques.
L’analyse différentielle d’expression de gène est une technique importante pour comprendre des états de la maladie. L’algorithme d’apprentissage automatique CorEx a montré l’utilité dans l’analyse de l’expression différentielle des groupes de gènes dans la tumeur RNA-seq d’une manière qui peut être utile pour faire progresser l’oncologie de précision. Cependant, CorEx produit de nombreux facteurs qui peuvent être difficiles à analyser et à se connecter à la compréhension existante. Pour faciliter de telles connexions, nous avons construit un site Web, CorExplorer, qui permet aux utilisateurs d’explorer les données de manière interactive et de répondre à des questions communes liées à son analyse. Nous avons formé CorEx sur les données d’expression de gène d’ARN-seq pour quatre types de tumeur : ovaire, poumon, mélanome, et côlorectal. Nous avons ensuite incorporé les éléments de survie correspondants, les interactions protéines-protéines, l’entologie génique (GO) et l’encyclopédie des gènes et des génomes de Kyoto (KEGG) et les cartes thermiques dans le site Web pour association avec la visualisation du graphique de facteur. Ici nous employons des protocoles d’exemple pour illustrer l’utilisation de la base de données pour comprendre l’importance des facteurs de tumeur appriss dans le contexte de ces données externes.
Depuis son introduction il y a un peu plus d’une décennie, l’ARN-seq est devenu un outil omniprésent pour mesurer l’expression des gènes1. C’est parce qu’il permet un profilage rapide et bon marché de novo de l’ensemble transcriptome d’un échantillon. Cependant, les données de tumeur d’ARN-seq reflètent une biologie fondamentale qui est intrinsèquement complexe et souvent sous-échantillonnée, alors que les données elles-mêmes sont de haute dimension et bruyantes. Cela présente un défi important pour l’extraction de signaux fiables. L’algorithme CorEx tire parti de l’information mutuelle multivariée pour trouver des modèles subtils dans de telles situations2,3 . Cette technique a été précédemment adaptée pour analyser des échantillons d’ARN-seq de tumeur ovarienne de l’Atlas de génome de cancer (TCGA) et dans ce contexte elle a semblé avoir des avantages significatifs au-dessus des méthodes plus couramment employées d’analyse4.
Bien que l’utilisation de l’ARN-seq soit extrêmement répandue dans les applications de recherche, y compris en oncologie, ces efforts n’ont pas conduit à une large utilisation aux fins des interventions cliniques5. Cela s’explique en partie par le manque d’algorithmes et de logiciels conviviaux ciblés sur ces problèmes spécifiques. Pour aider à combler cette lacune, nous avons conçu le portail Web CorExplorer pour permettre aux chercheurs de divers milieux d’étudier les facteurs d’expression génique des échantillons d’ARN-seq tumoraux tels que trouvés par l’algorithme d’apprentissage automatique CorEx. Le portail CorExplorer prend en charge la visualisation interactive et l’interrogation des facteurs de plusieurs types de tumeurs différentes, y compris le poumon, le côlon, le mélanome, et l’ovaire6,7,8,9, 10, dans le but d’aider les chercheurs à passer au crible les corrélations de données et à identifier les voies des candidats pour stratifier les patients à des fins thérapeutiques.
Nous nous attendons à ce que le portail CorExplorer soit utile à plusieurs types d’utilisateurs. Le portail a été conçu avec l’utilisateur à l’esprit qui souhaite comprendre les grands facteurs qui conduisent les différences d’expression des gènes tumoraux dans les bases de données publiques et peut-être aussi placer des profils individuels d’expression des gènes dans le contexte de tumeurs avec des Caractéristiques. En plus des protocoles représentatifs décrits ici, les enquêtes CorExplorer peuvent servir de point de départ pour suggérer des hypothèses pour d’autres tests, pour comparer et contraster les résultats de CorEx sur les ensembles de données à l’extérieur du CorExplorer, et pour se connecter signatures d’expression pathologique d’un ou quelques gènes dans une tumeur individuelle à de plus grands groupes qui peuvent être coordonnés affectés. Enfin, il peut servir d’introduction conviviale à l’application de l’apprentissage automatique à l’ARN-seq pour ceux qui commencent dans le domaine.
Nous avons présenté le site CorExplorer, un serveur Web accessible au public pour l’exploration interactive des facteurs d’expression génique au maximum corrélés appris de l’ARN-seq tumoral par l’algorithme CorEx. Nous avons montré comment le site Web peut être employé pour stratifier des patients selon l’expression de gène de tumeur, et comment une telle stratification correspond à la fonction et à la survie biologiques.
D’autres serveurs Web pour l’analyse RNA-seq ont été construits. L’analyse différentielle et de co-expression pour des tumeurs peut être examinée et intégrée avec d’autres types de données dans cbioPortal19,20. Les serveurs GenePattern21, Mev22, et Morpheus23, intègrent des techniques de clustering établies telles que l’analyse des composants principaux (PCA), kmeans, ou des cartes auto-organisées (SOMs). Les efforts plus novateurs incluent CamurWeb24, basé sur un classificateur automatisé génératrice de règles, et TACCO25, qui met en œuvre des classificateurs et des lassos aléatoires de forêt. L’algorithme CorEx utilisé ici optimise les informations multivariées afin de trouver une hiérarchie de facteurs qui expliquent les modèles dans les données. L’apprentissage des facteurs non linéaires et hiérarchiques semble permettre d’améliorer l’interprétabilité par rapport aux facteurs globaux linéaires trouvés par l’intermédiaire de PCA4. En outre, l’analyse fine de la technique des signaux d’échantillon permet des comparaisons précises de tumeur vis-à-vis des sous-types larges plus couramment utilisés. Cette combinaison d’analyse des chevauchements et des facteurs hiérarchiques distingue le CorExplorer de la plupart des autres approches et nécessite de nouveaux outils de visualisation et de synthèse.
Une partie essentielle de l’analyse des facteurs CorExplorer est la capacité d’explorer non seulement plusieurs, mais plus de 100 facteurs avec des modèles de gènes informatifs qui sont placés dans une hiérarchie qui se chevauche. Le CorExplorer facilite l’extraction de ces innombrables facteurs pour les associations biologiques et cliniques et permet une caractérisation exceptionnellement détaillée des tumeurs individuelles. L’apprentissage non supervisé d’un si grand nombre de facteurs signifie que tous ne seront pas pertinents pour la biologie des maladies. Dans un tel cas, il est essentiel d’utiliser des annotations ou des gènes connus pour éliminer les facteurs d’intérêt ou rechercher des facteurs associés à des données cliniques telles que la survie. Ainsi, le CorExplorer permet aux utilisateurs d’implémenter cette étape de filtrage très importante. La présence des modèles de gène de facteur dans une tumeur peut même suggérer une approche au traitement personnalisé d’oncologie. En outre, la multiplicité des scores de facteur pour chaque tumeur qui permet la découverte des combinaisons thérapeutiques potentiellement utiles.
Il arrive parfois qu’aucune annotation GO significative n’apparaisse pour des facteurs fortement corrélés avec la survie. Bien que cela puisse se produire en raison de données bruyantes ou sous échantillonnées, il existe d’autres causes possibles telles qu’une taille de grappe qui est trop petite pour enregistrer des scores d’enrichissement significatifs ou le groupe étant un « panier » de gènes uniques provenant de diverses voies sans association. En outre, une catégorie d’annotation différente du processus biologique KEGG et GO, par exemple compartiment cellulaire, peut être appropriée. Ceux-ci peuvent être consultés en liant à StringDB comme démontré dans le protocole. L’analyse de l’enrichissement en généologie sur le site de CorExplorer ne tient pas compte de la pondération génétique dans un facteur, bien que cela sera probablement corrigé dans un proche avenir. Notez qu’une option de liste de gènes est disponible sous ‘Add Window’ qui permet le téléchargement de la liste complète des gènes facteurs pour une analyse plus approfondie avec des outils externes.
Aux fins du site Web, CorEx a été exécuté sur chacun des jeux de données cinq fois et l’exécution qui a abouti à la plus grande corrélation totale totale a été conservée. Avoir une représentation statistique des résultats de plusieurs séries peut être plus instructif et est un objectif pour les travaux futurs. En outre, l’ensemble des types de tumeurs disponibles sur le serveur est plutôt faible, mais nous nous attendons à ce que cela se développe au fil du temps en fonction de l’intérêt des utilisateurs.
Comme indiqué ci-dessus, le CorExplorer visualise les relations corEx ARN-seq facteur avec des informations cliniques et de base de données, permettant ainsi une variété de différents modes d’interrogatoire. Nous espérons que cet outil mènera à d’autres travaux pour utiliser la puissance de l’analyse ARN-seq pour la découverte et l’application clinique en oncologie.
The authors have nothing to disclose.
GV a été soutenu par DARPA prix W911NF-16-0575.
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |