Summary

Búsqueda basada en el patrón de datos epigenómica GeNemo

Published: October 08, 2017
doi:

Summary

A diferencia de los datos de la secuencia de ADN, epigenómica datos fácilmente no están sujetos a búsquedas basadas en texto. Aquí se presentan los procedimientos para utilizar una versión actualizada de GeNemo, una herramienta bioinformática basada en web, para realizar búsquedas basadas en el patrón de similitudes en la epigenómica datos comparando bases de datos online disponibles incluyendo la enciclopedia de elementos de ADN con datos del usuario.

Abstract

En comparación con las herramientas de búsqueda robusto basado en texto para genómico o ARN secuencia datos, las metodologías actuales para búsquedas basadas en el patrón de epigenómica y otros datos genómicas funcionales son muy limitadas. GeNemo es la primera herramienta de búsqueda online que logra este objetivo. Los usuarios sus datos genómicos funcionales en navegador Extensible datos (cama), picos y bigWig formatos de entrada y pueden buscar datos en cualquiera de los tres formatos. Los usuarios pueden especificar los tipos de conjuntos de datos de búsqueda, elegir de una variedad de conjuntos de datos en línea, con la enciclopedia de ADN elementos (ENCODE) representación epigenómicos diferentes marcas, sitios de unión del factor transcripcional y cromatina hipersensibilidad o accesibilidad en tipos celulares específicos y etapas de desarrollo o en especies (ratón o humano). GeNemo devuelve una lista de regiones genómicas con patrones en los datos de entrada, que pueden verse en el navegador, así como descargar en el formato de archivo de cama a juego. GeNemo actualizado ha mejorado la representación gráfica, tiene interfaz más robusto y no es propenso a errores debido a cambios en la Universidad de California, browser del genoma de Santa Cruz (UCSC). Pasos de solución de problemas problemas comunes se discuten. Como la cantidad de datos genómicas funcionales se expande exponencialmente, hay una necesidad crítica de desarrollar y perfeccionar nuevas herramientas bioinformáticas como GeNemo para análisis de datos e interpretación.

Introduction

Avances tecnológicos recientes han permitido una rápida expansión de epigenómica o depositarios de datos genomic funcionales, que han superado el desarrollo de herramientas analíticas pertinentes para extraer conocimientos biológicos. Una forma importante para analizar los datos de epigenómica es buscar datos generados por el usuario contra depósitos de datos y sobre todo las de los enciclopedia de elementos de ADN (ENCODE)1 proyectos para emparejar patrones que podrían conducir a nuevos conocimientos. Por ejemplo, identificar similitudes en los patrones de dos marcas diferentes epigenómicas en lugares geométricos definidos en el genoma puede indicar una acción coordinada por diferentes agentes moleculares en la conformación de la cromatina y regulación transcripcional2 ,3,4.

Motores de búsqueda convencionales basados en texto son ineficaces en este sentido porque, a diferencia de la secuencia de ADN, epigenómica predominante dispone de datos en el formato de intensidades o regiones genómicas funcionales. GeNemo, para Gene Nemo (como en buscando a Nemo), fue desarrollado para hacer frente a esta necesidad mediante búsquedas basadas en el patrón5. Su algoritmo utiliza una cadena de Markov Monte Carlo maximización proceso5. Los usuarios tomar sus propios datos o un conjunto de datos descargados de depósitos y la búsqueda de una matriz de datos en línea epigenómica identificar similitudes en los patrones.

La versión actual de GeNemo tiene una pantalla actualizada, interfaces más robusta con la Universidad de California, Santa Cruz (UCSC) genoma explorador6y es menos susceptible a problemas causados por cambios en el último. En particular, mientras que la página de resultados de GeNemo solía basarse en la interfaz de navegador de genoma UCSC, la versión actual de GeNemo apoya su propia página de resultados y por lo tanto es no afectada por cambios estructurales en el browser del genoma UCSC. GeNemo puede usar cualquier señal de genómica, incluyendo Unión de proteínas, modificación de histonas, accesibilidad de cromatina, dominios topológicos y así sucesivamente, como una consulta para encontrar segmentos colocalized similares entre conjuntos de datos conocidos de grandes consorcios. Por lo tanto, es una herramienta importante para estudiar la relación entre epigenómica diferentes datos de interés y datos conocidos generados en proyectos genómica a gran escala.

Protocol

Nota: el protocolo se puede pausarse en cualquier lugar. 1. configuración básica de formato obtener una cama, picos o pez gordo 7 archivo que contiene los datos a introducir en el genoma. El archivo debe tener extensión nombre " cama ", " broadpeaks " " narrowpeaks ", o " pez gordo " respectivamente. ​ Nota: comprimido las versiones de este tipo de archivos también funciona. Utilice un navegador de internet para ir a genemo.org. Cualquier sistema operativo capaz de correr los navegadores de internet más común debe ser capaz de usar GeNemo. Elegir que especies búsqueda utilizando el menú desplegable. En la actualidad especies disponibles incluyen humanas y ratón. Subir archivo de usuario utilizando una dirección url o una carga directa. BigWig archivos sólo trabajo con el método de carga de la url. Casa rural picos formato archivos con ambos métodos (mover archivos no subidos como los datos principales a partir de ahora). 2. Configuración opcional proporcione una dirección de correo electrónico en la casilla correspondiente con el fin de recibir los resultados de la búsqueda por correo electrónico cuando se realiza la búsqueda. ​ Nota: cuando se busca una gran parte del genoma o contra un gran número de pistas (vea abajo), se recomienda que el usuario proporcione su correo electrónico, ya que la búsqueda puede tomar mucho tiempo. Por ejemplo, una búsqueda de 100 megabase toma alrededor de 15 s. Un enlace a los resultados de la búsqueda se enviará a la dirección de correo electrónico que cuando se haya completado la búsqueda. El enlace caducará en 7 días después de la terminación de la búsqueda de una. Proporcionar un archivo de pez gordo o el archivo de pantalla meneo puede ser desde una dirección url. Este archivo de pantalla no afectará los resultados; sólo se mostrará junto a los resultados. Especificar un rango de búsqueda (incluyendo las posiciones de cromosoma y pares) en la casilla correspondiente. Lista del cromosoma, comenzar a pares y fin par. Uso ' chrN ' para el formato del cromosoma, donde ' N ' es la letra/número de cromosomas (1, 2, … X o Y). Para los pares de bases, solo escribe en los números de. Incluir espacios entre todas las entradas de tres, o incluir dos puntos (:) entre el número de cromosomas y el par de la primera base, o un guión entre los dos pares de bases. Por ejemplo: chr1:1000000-2000000, chr1 1000000 2000000, chr1 chr1:1000000 de 1000000-2000000, 2000000. Nota: Los pasos 2.1-2.3 son opcionales. figura 1 : GeNemo ' Página delantera con las áreas necesarias llenado. Un usuario necesita para el archivo de entrada la especie, búsqueda y rango de búsqueda y seleccione las pistas que desea buscar contra. Dirección de correo electrónico y mostrar el archivo son opcionales. haga clic aquí para ver una versión más grande de esta figura. 3. selección de datos figura 2 : ventana de selección de pista. Esto se trae para arriba haciendo clic en el " selección de datos " botón en la Página principal. Aquí, los usuarios seleccionar las pistas para buscar el archivo de entrada contra. Ya algunos de los temas son seleccionados por defecto. haga clic aquí para ver una versión más grande de esta figura. Después de hacer clic en el botón de selección de datos, elija los tipos de pistas de búsqueda (es decir, agregar a la consulta). La colección de pista incluye muchos diferentes conjuntos de datos de los laboratorios de todo el mundo. Como la lista de pistas es bastante larga, los usuarios puede utilizar el botón de filtro (en la parte superior) para facilitar la selección de pista. Las pistas pueden ser filtradas por experimento, tejido, células o laboratorio Hay cinco botones en la parte inferior para ayudar a ejecutar selección de pista: excluye agregue, filtro, seleccionar todo, seleccionar ninguno,. Seleccionar todo " y " seleccionar ninguno " son auto-explicatorias. El " agregar " botón agrega pistas seleccionadas actualmente a la consulta. Sirve como la puerta de la lógica " o ". Tenga en cuenta que seleccionando los filtros anteriormente (por ejemplo, ciertos experimentos, tejidos, líneas celulares o laboratorios) no agregar automáticamente las pistas correspondientes a la consulta de búsqueda. Los usuarios deben primero seleccionar pistas (por ejemplo, cerebro, hígado en tejido) y haga clic en el " Add " el botón para añadir a la consulta. Al seleccionar pistas, tenga en cuenta que sólo los filtros especificados en la pestaña abierta en la ventana de filtro se aplicará a la consulta de búsqueda. Selecciones en otras fichas serán guardadas en la ventana de filtro, pero no se aplica a la consulta de búsqueda. La " filtro " botón conserva sólo los tipos de pistas actualmente seleccionados en la ventana de filtro en la consulta y elimina todo tipo de pistas. Sirve como la puerta de la lógica " y ". Esencialmente, " filtro de " permite la selección de la interacción entre dos categorías de pistas (por ejemplo, ciertos tejidos con ciertos laboratorios). Tenga en cuenta que " filtro " no agrega los tipos seleccionados de pistas a la consulta si ya no está en la consulta. La " excluir " botón elimina todo tipo de pistas que están actualmente seleccionadas en la ventana de filtro de la consulta. Sirve como la puerta de la lógica " no ", en oposición a la " filtro " función. Otra vez, " excluir " no agrega cualquier pista no seleccionado en la ventana de filtro para la consulta. figura 3 : ventana de filtro . Esto se trae para arriba haciendo clic en el " filtro " botón en la ventana de selección de pista. Aquí, los usuarios pueden seleccionar muchas pistas a la vez, con relativa facilidad. haga clic aquí para ver una versión más grande de esta figura. figura 4 : Cómo utilizar la función de filtro. haga clic aquí para ver una versión más grande de esta figura. después de agregar las pistas deseadas en la consulta, haga clic en la " actualización " el botón en la parte inferior derecha. Esto es necesario para dar cabida a dos formas de seleccionar datos: selección de pistas de datos individuales o filtrado/exclusión. La " restablecer vista " botón restablece la consulta a las pistas de predeterminados relacionados con la regulación de la expresión del gene en células madre embrionarias de ratón humanos. Nota: Seleccionar pistas a contra vía " selección de datos " es opcional pero se recomienda sercausa que las vías de búsqueda por defecto no suelen adecuada para el usuario ' s necesidades. 4. Búsqueda y resultados haga clic en el " búsqueda " botón después de selección de datos. La búsqueda puede tardar algún tiempo. Una vez completada la búsqueda, los usuarios verán varias cajas en la página de resultados. Cada caja representa una sección del genoma donde un usuario ' archivo de datos de s tiene un patrón estrechamente emparejado con uno o más de las pistas que el usuario ha consultado. Si no hay ninguna prueba visible, cajas buscando más tipos de pistas o hacer más grande con el mismo archivo de entrada el rango de búsqueda. Una manera fácil de hacer esto sin hacer de nuevo todo es hacer clic en el " ☰ " botón al lado del logo. Esto abrirá una barra lateral que permite al usuario modificar la búsqueda. Los resultados se pueden exportar como un archivo de cama haciendo clic en el " archivo cama " botón en la parte inferior de la página de resultados. Haga clic en el botón Visualize en la parte superior derecha de cada caja para visualizar los resultados. Panel en la visualización en la derecha, varias cosas se muestran como los datos, que incorpora el archivo de entrada de usuario, el archivo de pantalla si uno fue introducido, juego de pistas, y algunos por defecto las pistas. De los resultados, el usuario puede comparar conjuntos ENCODE conocido contra el conjunto de datos proporcionado para la posterior investigación. El usuario también puede referirse a los genes de la UCSC a ver el contexto de los resultados de la consulta. Si se seleccionan temas de múltiples líneas de células/tejidos, el usuario puede utilizar estos resultados para obtener ideas sobre la especificidad de tejido de las similitudes entre el conjunto de datos determinado y codificar datos. Página en los resultados, el usuario puede arrastrar en cualquier pista hacia aguas arriba o aguas abajo del genoma; cuando el cursor del ratón está en las coordenadas, el usuario puede utilizar la rueda del ratón o acercar y alejar. figura 5 : Página de resultados. Esta búsqueda particular volvió 363 regiones coincidentes. Visualización de la primera región que se puede hacer haciendo clic en el " SHOW " botón en la parte inferior izquierda de cada cuadro resultante de la región. En la parte izquierda de la ventana de visualización se puede observar que los archivos de dos datos (entrada y seleccionada la pista) son similares en fuerza de señal patrón. haga clic aquí para ver una versión más grande de esta figura.

Representative Results

Se muestra a continuación en la figura 5 es una búsqueda simulada. La especie humana fue seleccionada, y el correspondiente archivo se utilizó como el archivo de datos de entrada. Además, los temas por defecto, como se ve en la figura 3, fueron seleccionados. Había un total de 363 coincidencia de regiones, y la primera región se muestra en la página de visualización. Se puede ver que el patrón de intensidad de base 17036000 para 17038000 en el cromosoma 1 para el archivo de entrada y uno de los temas seleccionados es muy similar.

Discussion

Una comprensión del epigenoma es necesaria para alcanzar el máximo potencial de secuenciación del genoma humano en la prestación de nuevas ideas biológicas8. Actualmente son sólo formas de buscar conjuntos epigenómicas en línea por su descripción de datos y el título (es decir, metadatos)1. Esto limita severamente el tipo de búsqueda se puede hacer con datos epigenómica. Herramientas de búsqueda basada en patrones para epigenómica datos son esenciales para explorar la relación entre epigenómicos diferentes marcas, que pueden llevar a nuevas perspectivas biológicas. GeNemo, que busca por el contenido de los datos y metadatos no, es el primer servicio de este tipo para comparar patrones en datos epigenómicos de depositarios publicados como la base de datos de codificar con un generado por el usuario o descargado del conjunto de datos5. Esto marca el comienzo de la disponibilidad de una herramienta de búsqueda epigenómicas que es ampliamente accesible a investigadores de todo el mundo sólo como herramienta de búsqueda basada en texto de la secuencia se convirtió en la década de 1990. Actualmente, no hay ninguna alternativa para herramientas de búsqueda en Internet basada en patrones para epigenómica datos distintos de GeNemo.

Un ejemplo potencial de la utilización de GeNemo es buscar las co que aparecen modificaciones de las histonas y otras marcas epigenéticas con el factor de transcripción E2F6 en células madre embrionarias humanas (un archivo de ejemplo E2F6 enlace señal está disponible en portal de datos de codificar o en https://SysBio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.Bed). Utilizando este archivo como consulta de búsqueda en conjuntos de datos de la codificación en H1-hESC, GeNemo mostrará que señal de atascamiento de E2F6 fuertemente enriquecido con H3K4me1, H3K4me2, H3K4me3 y H3K27me3, que está de acuerdo con la investigación existente muestra que E2F6 regula algunos genes a través de metilación de H3K279. Por otra parte, parece ser la colocalización de E2F6 y CtBP2 sitios de Unión, que es conocido por interactuar con un factor en la misma familia, E2F710. Estos resultados para la totalidad del genoma contra un gran número de marcas epigenéticas, factor transcripcional enlace señales y otras señales en ENCODE pueden obtenerse fácilmente con GeNemo, que puede proporcionar todos los objetivos posibles para su posterior análisis.

Desde la primera publicación5 de GeNemo como una herramienta de búsqueda de datos epigenómica basada en web, se ha actualizado la sección de resultados de GeNemo para tener un aspecto coincidente con portada de GeNemo. La vieja sección de resultados estrechamente reflejado en la sección de resultados del navegador de genoma UCSC y era en gran parte dependiente en el servidor remoto de la UCSC para la exhibición. Con la nueva interfaz, GeNemo es más fácil de usar y ya no depende del servidor del genoma UCSC (aunque los datos todavía se obtienen remotamente). Esto hace GeNemo más sólida y menos susceptible a problemas debido a los cambios de código en el servidor de la UCSC. Además, la interfaz de polímero nuevo, más rápido de GeNemo proporciona al usuario más herramientas para visualizar y analizar los patrones en los datos.

Pasos críticos incluyen proporcionar el archivo de entrada adecuado y la selección de pistas de datos búsqueda. Los usuarios se recomienda experimentar con varias funciones de selección de pista se familiarice con el proceso de selección y cómo diferentes comandos pueden combinarse para lograr el resultado previsto. En particular, tenga en cuenta que es necesaria la función “Add” para añadir las pistas deseadas seleccionadas para la consulta, mientras que el “Filtro” o “Excluir” puede ser utilizado como comandos de puerta lógica “AND” y “O”, respectivamente. La función de “Actualización” es necesaria para afectar a todas las selecciones antes de implementar la búsqueda. Cuando se devuelve ningún resultado, un usuario puede comprobar el archivo de datos de entrada, buscar más pistas o aumentar el rango de búsqueda. Cada vez que hay un error, habrá una ventana apareciendo definir qué es exactamente el error. No obstante hay algunos errores ambiguos. Por ejemplo, cuando la ventana dice que ‘el archivo no fue subido’, o el archivo no fue subido, o el archivo subido no era de un formato aceptable y, en consecuencia, el programa no era capaz de leer correctamente. Formatos aceptables para upload de archivos incluyen cama y picos archivo de formato para los métodos de carga y bigWig para subir de link en línea solamente. Las versiones con cremallera de estos formatos de archivo son también aceptables.

Las limitaciones actuales de este enfoque incluyen los algoritmos pero optimizado y funciones empleadas en GeNemo. GeNemo todavía no puede proporcionar ninguna orientación sobre la interpretación de cualquier conjuntos de datos devueltos. Esta tarea depende de los usuarios, que requiere conocimientos importantes y conocimientos en la biología del genoma y epigenoma. Además, otra limitación actual es que los usuarios no pueden cambiar el nivel de sensibilidad y el ruido de las búsquedas. Esperamos seguir mejorar y ampliar GeNemo en su patrón de búsqueda de capacidades y colección de datos en el futuro.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue financiado por los NIH concede incluyendo DP1HD087990 de NICHD, R01HG008135 del NHGRI. Agradecemos a los miembros del laboratorio de Zhong de valiosos comentarios.

Contribuciones del autor:
XC y A.T.Z. actualizan GeNemo por codificación nueva interfaz y características; A.T.Z. produjo el video de casa muestra; A.T.Z., X.C y S.Z. escribieron el libro.

Materials

GENEMO https://www.genemo.org Comparative Epigenome Browser

References

  1. The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489, 57-74 (2012).
  2. Barski, A., et al. High-Resolution Profiling of Histone Methylations in the Human Genome. Cell. 129 (4), 823-837 (2007).
  3. Meaney, M. J., Ferguson-Smith, A. C. Epigenetic regulation of the neural transcriptome: the meaning of the marks. Nature Neuroscience. 13, 1313-1318 (2010).
  4. Roh, T. -. Y., Cuddapah, S., Cui, K., Zhao, K. The genomic landscape of histone modifications in human T cells. PNAS. 103 (43), 15782-15787 (2006).
  5. Zhang, Y., Cao, X., Zhong, S. GeNemo: a search engine for web-based functional genomic data. Nucleic Acids Res. 44, W122-W127 (2016).
  6. Fujita, P. A., Rhead, B., Zweig, A. S., Hinrichs, A. S., Karolchik, D., Cline, M. S., Goldman, M., Barber, G. P., Clawson, H., Coelho, A., et al. The UCSC Genome Browser database: update 2011. Nucleic Acids Res. 39, 876-882 (2011).
  7. Neph, S., Vierstra, J., Stergachis, A. B., Reynolds, A. P., Haugen, E., Vernot, B., Thurman, R. E., John, S., Sandstrom, R., Johnson, A. K., et al. An expansive human regulatory lexicon encoded in transcription factor footprints. Nature. 489, 83-90 (2012).
  8. Sarda, S., Hannenhalli, S. Next-generation sequencing and epigenomics research: a hammer in search of nails. Genomics Inform. 12 (1), 2-11 (2014).
  9. Storre, J., et al. Silencing of the Meiotic Genes SMC1β and STAG3 in Somatic Cells by E2F6. J Biol Chem. 280, 41380-41386 (2005).
  10. Liu, B., Shats, I., Angus, S. P., Gatza, M. L., Nevins, J. R. Interaction of E2F7 Transcription Factor with E2F1 and C-terminal-binding Protein (CtBP) Provides a Mechanism for E2F7-dependent Transcription Repression. J Biol Chem. 288, 24581-24589 (2013).

Play Video

Cite This Article
Zheng, A., Cao, X., Zhong, S. Pattern-based Search of Epigenomic Data Using GeNemo. J. Vis. Exp. (128), e56136, doi:10.3791/56136 (2017).

View Video