Apresentamos o portal Web CorExplorer, um recurso para a exploração de fatores de sequenciamento de RNA tumoral encontrados pelo algoritmo de aprendizado de máquina CorEx (explicação de correlação), e mostrar como os fatores podem ser analisados em relação à sobrevivência, anotações de banco de dados, interações proteína-proteína, e um outro para ganhar a introspecção na biologia do tumor e em intervenções terapêuticas.
A análise diferencial da expressão gênica é uma técnica importante para a compreensão dos Estados da doença. O algoritmo de aprendizado de máquina CorEx mostrou utilidade na análise da expressão diferencial de grupos de genes no tumor RNA-Seq de uma forma que pode ser útil para o avanço da Oncologia de precisão. No entanto, o CorEx produz muitos fatores que podem ser desafiadores para analisar e conectar-se à compreensão existente. Para facilitar tais conexões, construímos um site, CorExplorer, que permite aos usuários explorar interativamente os dados e responder a perguntas comuns relacionadas à sua análise. Nós treinamos CorEx em dados da expressão de gene do RNA-Seq para quatro tipos do tumor: ovariano, pulmão, melanoma, e colorectal. Nós incorporamos então a sobrevivência correspondente, interações da proteína-proteína, Ontology do gene (GO) e a enciclopédia de Kyoto de genes e genomas (KEGG) enriquments da via, e Heatmaps no Web site para a associação com a visualização do gráfico do fator. Aqui nós empregamos protocolos do exemplo para ilustrar o uso da base de dados para compreender o significado dos fatores de tumor aprendidos no contexto destes dados externos.
Desde sua introdução pouco mais de uma década atrás, RNA-Seq tornou-se uma ferramenta onipresente para medir a expressão gênica1. Isto é porque permite o perfilamento rápido e barato de de novo do transcriptoma inteiro de uma amostra. Entretanto, os dados do tumor de RNA-Seq refletem uma biologia subjacente que seja intrinsecamente complexa e frequentemente sob-amostrado, quando os dados próprios forem elevado-dimensionais e ruidosos. Isso representa um desafio significativo para a extração de sinais confiáveis. O algoritmo Corex aproveita as informações mútuas multivariadas para encontrar padrões sutis em tais situações2,3. Esta técnica foi previamente adaptada para analisar amostras de RNA-Seq do tumor ovariano do Atlas do genoma do cancro (TCGA) e neste contexto pareceu ter vantagens significativas sobre métodos de análise mais comumente usados4.
Embora o uso de RNA-Seq seja enormemente generalizado em aplicações de pesquisa, inclusive em Oncologia, esses esforços não levaram a uma ampla utilização para fins de intervenções clínicas5. Parte da razão para isso é a falta de algoritmos de fácil utilização e software direcionados a esses problemas específicos. Para ajudar a preencher essa lacuna, projetamos o portal da Web do CorExplorer para permitir que pesquisadores de uma variedade de origens estudem fatores de expressão gênica de amostras de RNA-Seq tumorais, conforme encontrado pelo algoritmo de aprendizado de máquina CorEx. O portal corexplorer suporta visualização interativa e consulta de fatores de vários tipos de tumores diferentes, incluindo pulmão, cólon, melanoma e ovariano6,7,8,9, 10, com a intenção de ajudar os pesquisadores a peneirar as correlações de dados e identificar as vias candidatas para estratificar os pacientes para fins terapêuticos.
Esperamos que o portal CorExplorer pode ser útil para vários tipos de usuários. O portal foi projetado com o usuário em mente que deseja compreender os fatores amplos que impulsionam as diferenças de expressão gênica tumoral em bases de dados públicas e possivelmente também colocam perfis individuais de expressão gênica no contexto de tumores com semelhante Características. Além dos protocolos representativos aqui descritos, as investigações do CorExplorer podem servir como ponto de partida para sugerir hipóteses para testes posteriores, comparar e contrastar os achados do CorEx em conjuntos de dados fora do CorExplorer e conectar assinaturas da expressão patológica de um ou de alguns genes em um tumor individual aos grupos maiores que podem ser afetados coordenadamente. Finalmente, pode servir como uma introdução fácil de usar para a aplicação do aprendizado de máquina ao RNA-Seq para aqueles que começ começados no campo.
Apresentamos o site do CorExplorer, um servidor Web acessível publicamente para exploração interativa de fatores de expressão gênica maximamente correlacionados, aprendidos a partir de RNA-Seq tumoral pelo algoritmo CorEx. Mostramos como o site pode ser usado para estratificar pacientes de acordo com a expressão gênica tumoral, e como tal estratificação corresponde à função biológica e à sobrevida.
Outros servidores Web para análise de RNA-Seq foram construídos. A análise diferencial e de coexpressão para tumores pode ser examinada e integrada com outros tipos de dados no cbioportal19,20. Os servidores GenePattern21, MEV22e Morpheus23, incorporam técnicas de clustering estabelecidas, como análise de componentes principais (PCA), KMeans ou mapas autoorganizantes (Soms). Esforços mais inovadores incluem CamurWeb24, com base em um classificador automatizado de geração de regras, e tacco25, que implementa classificadores de floresta aleatórios e lassos. O algoritmo CorEx usado aqui otimiza as informações multivariadas para encontrar uma hierarquia de fatores que explicam padrões em dados. A aprendizagem fatorial não linear e hierárquica parece produzir uma melhor interpretabilidade em relação aos fatores lineares globais encontrados via PCA4. Adicionalmente, a análise fine-grained da técnica de sinais da amostra permite comparações precisas do tumor vis-à-vis subtypes largos mais geralmente usados. Essa combinação de sobreposição e análise fatorial hierárquica distingue o CorExplorer da maioria das outras abordagens e necessita de novas ferramentas para visualização e compactação.
Uma parte crítica da análise fatorial CorExplorer é a capacidade de explorar não apenas vários, mas mais de 100 fatores com padrões de genes informativos que são colocados dentro de uma hierarquia sobreposta. O CorExplorer facilita a mineração destes fatores miríade para associações biológicas e clínicas e permite a caracterização excepcionalmente detalhada de tumores individuais. A aprendizagem não supervisionada de um número tão grande de factores significa que nem todos serão relevantes para a biologia da doença. Nesse caso, é essencial usar anotações ou genes conhecidos para retirar fatores de interesse ou procurar fatores associados a dados clínicos, como a sobrevida. Assim, o CorExplorer permite que os usuários implementem essa etapa de filtragem muito importante. A presença de testes padrões do gene do fator em um tumor pode mesmo sugerir uma aproximação ao tratamento personalizado da oncologia. Além disso, a multiplicidade de escores fatoriais para cada tumor que permite a descoberta de combinações terapêuticas potencialmente úteis.
Às vezes, é o caso de nenhuma anotação GO significativa aparecer para fatores altamente correlacionados com a sobrevivência. Embora isso possa ocorrer devido a ruídos ou em dados amostrados, há outras causas possíveis, como um tamanho de cluster que é muito pequeno para registrar pontuações de enriquecimento significativas ou o grupo sendo um “cesto” de genes únicos de diferentes vias sem coerência biológica Associação. Além disso, uma categoria de anotação diferente do processo biológico KEGG e GO, por exemplo, compartimento celular, pode ser apropriada. Estes podem ser acessados ligando para StringDB como demonstrado no protocolo. A análise de enriquecimento de ontologia genética no site do CorExplorer atualmente não conta para a ponderação do gene em um fator, embora isso provavelmente será remediado em um futuro próximo. Nota uma opção de lista de genes está disponível em ‘ Adicionar janela ‘ que permite o download da lista de genes do fator completo para análise posterior com ferramentas externas.
Para os propósitos do site, o CorEx foi executado em cada um dos conjuntos de dados cinco vezes e a execução que resultou na maior correlação total global foi mantida. Ter uma representação estatística dos resultados de várias execuções pode ser mais informativo e é um objetivo para o trabalho futuro. Além disso, o conjunto de tipos de tumores disponíveis no servidor é bastante pequeno, mas esperamos que isso se expanda ao longo do tempo de acordo com o interesse do usuário.
Conforme descrito acima, o CorExplorer visualiza as relações de fator CorEx RNA-Seq juntamente com informações clínicas e de banco de dados, permitindo assim uma variedade de diferentes modos de interrogação. Nós estamos esperançosos que esta ferramenta conduzirá a um trabalho mais adicional para utilizar o poder da análise do RNA-Seq para a descoberta e a aplicação clínica na oncologia.
The authors have nothing to disclose.
GV foi apoiado pelo prêmio DARPA W911NF-16-0575.
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |