Presentamos el portal web CorExplorer, un recurso para la exploración de los factores de secuenciación de ARN tumoral encontrado según el algoritmo de aprendizaje automático CorEx (Correlation Explanation), y mostramos cómo se pueden analizar los factores en relación con la supervivencia, las anotaciones de la base de datos, interacciones proteína-proteína, y entre sí para obtener información sobre la biología tumoral y las intervenciones terapéuticas.
El análisis diferencial de la expresión génica es una técnica importante para entender los estados de la enfermedad. El algoritmo de aprendizaje automático CorEx ha mostrado utilidad en el análisis de la expresión diferencial de grupos de genes en el ARN-seq tumoral de una manera que puede ser útil para avanzar en la oncología de precisión. Sin embargo, CorEx produce muchos factores que pueden ser difíciles de analizar y conectar con la comprensión existente. Para facilitar este tipo de conexiones, hemos creado un sitio web, CorExplorer, que permite a los usuarios explorar interactivamente los datos y responder a preguntas comunes relacionadas con su análisis. Capacitamos a CorEx en datos de expresión génica ARN-seq para cuatro tipos de tumores: ovario, pulmón, melanoma y colorrectal. A continuación, incorporamos los correspondientes enriquecimientos de vías de supervivencia, proteínas y proteínas, Gene Ontology (GO) y Kyoto Encyclopedia of Genes and Genomes (KEGG), y mapas de calor en el sitio web para su asociación con la visualización de gráficos de factores. Aquí empleamos protocolos de ejemplo para ilustrar el uso de la base de datos para comprender la importancia de los factores tumorales aprendidos en el contexto de estos datos externos.
Desde su introducción hace poco más de una década, el ARN-seq se ha convertido en una herramienta omnipresente para medir la expresión génica1. Esto se debe a que permite una elaboración rápida y barata de novo de todo el transcriptoma de una muestra. Sin embargo, los datos del tumor ARN-seq reflejan una biología subyacente que es intrínsecamente compleja y a menudo submuestreada, mientras que los datos en sí son altos dimensiones y ruidosos. Esto presenta un desafío significativo para extraer señales confiables. El algoritmo CorEx aprovecha la información mutua multivariada para encontrar patrones sutiles en tales situaciones2,3 . Esta técnica fue adaptada previamente para analizar muestras de ARN-seq tumoral de ovario del Atlas del Genoma del Cáncer (TCGA) y en este contexto parecía tener ventajas significativas sobre los métodos de análisis más utilizados4.
Aunque el uso de ARN-seq está enormemente extendido en aplicaciones de investigación, incluso en oncología, esos esfuerzos no han llevado a una amplia utilización a los efectos de las intervenciones clínicas5. Parte de la razón de esto es la falta de algoritmos fáciles de usar y software dirigido a estos problemas específicos. Para ayudar a salvar esta brecha, hemos diseñado el portal web CorExplorer para permitir a los investigadores de una variedad de orígenes estudiar los factores de expresión génica de las muestras de ARN-seq tumoral según lo encontrado por el algoritmo de aprendizaje automático De CorEx. El portal CorExplorer admite la visualización interactiva y la consulta de factores de varios tipos de tumores diferentes, incluyendo pulmón, colon, melanoma y ovario6,7,8,9, 10, con la intención de ayudar a los investigadores a tamificar las correlaciones de datos e identificar las vías candidatas para estratificar a los pacientes con fines terapéuticos.
Esperamos que el portal CorExplorer pueda ser útil para varios tipos de usuarios. El portal fue diseñado pensando en el usuario que desea comprender los amplios factores que impulsan las diferencias de expresión génica tumoral en las bases de datos públicas y posiblemente también colocar perfiles de expresión génica individuales en el contexto de tumores con similares Características. Además de los protocolos representativos descritos aquí, las investigaciones de CorExplorer pueden servir como punto de partida para sugerir hipótesis para pruebas adicionales, comparar y contrastar los hallazgos de CorEx en conjuntos de datos fuera de CorExplorer, y para conectarse firmas de expresión patológica de uno o algunos genes en un tumor individual a grupos más grandes que pueden verse afectados de forma coordinada. Por último, puede servir como una introducción fácil de usar a la aplicación de aprendizaje automático a RNA-seq para aquellos que comienzan en el campo.
Hemos presentado el sitio CorExplorer, un servidor web de acceso público para la exploración interactiva de factores de expresión génica correlacionados al máximo aprendidos del ARN-seq tumoral por el algoritmo CorEx. Hemos demostrado cómo el sitio web puede ser utilizado para estratificar a los pacientes de acuerdo con la expresión del gen tumoral, y cómo dicha estratificación corresponde a la función biológica y la supervivencia.
Se han creado otros servidores web para el análisis de ARN-seq. El análisis diferencial y de coexpresión de tumores puede ser examinado e integrado con otros tipos de datos en cbioPortal19,20. Los servidores GenePattern21, Mev22y Morpheus23,incorporan técnicas de agrupación en clústeres establecidas, como el análisis de componentes principales (PCA), kmeans o mapas autoorganizativos (SOM). Los esfuerzos más innovadores incluyen CamurWeb24,basado en un clasificador automatizado generador de reglas, y TACCO25, que implementa clasificadores y lazos forestales aleatorios. El algoritmo CorEx utilizado aquí optimiza la información multivariada para encontrar una jerarquía de factores que expliquen los patrones en los datos. El aprendizaje de factores no lineales y jerárquicos parece producir una mejor interpretabilidad en relación con los factores globales lineales encontrados a través de PCA4. Además, el análisis fino de las señales de muestra de la técnica permite comparaciones precisas de tumores con respecto a los subtipos anchos más utilizados. Esta combinación de análisis de factores jerárquicos y superpuestos distingue el CorExplorer de la mayoría de los otros enfoques y requiere nuevas herramientas para la visualización y el resumen.
Una parte crítica del análisis del factor CorExplorer es la capacidad de explorar no solo varios, sino más de 100 factores con patrones genéticos informativos que se colocan dentro de una jerarquía superpuesta. El CorExplorer facilita la minería de estos innumerables factores para las asociaciones biológicas y clínicas y permite una caracterización excepcionalmente detallada de tumores individuales. El aprendizaje no supervisado de un número tan grande de factores significa que no todos serán relevantes para la biología de la enfermedad. En tal caso, es esencial utilizar anotaciones o genes conocidos para extraer factores de interés o buscar factores asociados con datos clínicos como la supervivencia. Por lo tanto, el CorExplorer permite a los usuarios implementar este paso de filtrado muy importante. La presencia de patrones genéticos de factor en un tumor puede incluso sugerir un enfoque para el tratamiento oncológico personalizado. Además, la multiplicidad de puntuaciones de factores para cada tumor que permite el descubrimiento de combinaciones terapéuticas potencialmente útiles.
A veces es el caso de que no aparecen anotaciones GO significativas para factores altamente correlacionados con la supervivencia. Si bien esto puede ocurrir debido a datos ruidosos o bajo muestras, hay otras causas posibles, como un tamaño de racimo que es demasiado pequeño para registrar puntuaciones de enriquecimiento significativas o el grupo es una “cesta” de genes únicos de diversas vías sin vías biológicas coherentes Asociación. Además, una categoría de anotación diferente del proceso biológico KEGG y GO, por ejemplo, el compartimento celular, puede ser apropiada. Se puede tener acceso a ellos mediante la vinculación a StringDB como se muestra en el protocolo. El análisis de enriquecimiento de Gene Ontology en el sitio CorExplorer actualmente no tiene en cuenta la ponderación del gen en un factor, aunque esto probablemente se remediará en un futuro próximo. Tenga en cuenta que una opción de lista de genes está disponible en “Agregar ventana” que permite descargar la lista completa de genes de factores para su posterior análisis con herramientas externas.
Para los fines del sitio web, CorEx se ejecutó en cada uno de los conjuntos de datos cinco veces y se retuvo la ejecución que dio lugar a la mayor correlación total general. Tener una representación estadística de los resultados de múltiples corridas puede ser más informativo y es un objetivo para el trabajo futuro. Además, el conjunto de tipos de tumores disponibles en el servidor es bastante pequeño, pero esperamos que esto se expanda con el tiempo de acuerdo con el interés del usuario.
Como se describió anteriormente, el CorExplorer visualiza las relaciones entre el factor ARN-seq de CorEx junto con la información clínica y de la base de datos, lo que permite una variedad de diferentes modos de interrogación. Esperamos que esta herramienta conduzca a un mayor trabajo para utilizar el poder del análisis de ARN-seq para el descubrimiento y la aplicación clínica en oncología.
The authors have nothing to disclose.
GV fue apoyado por el premio DARPA W911NF-16-0575.
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |