A diferencia de los datos de la secuencia de ADN, epigenómica datos fácilmente no están sujetos a búsquedas basadas en texto. Aquí se presentan los procedimientos para utilizar una versión actualizada de GeNemo, una herramienta bioinformática basada en web, para realizar búsquedas basadas en el patrón de similitudes en la epigenómica datos comparando bases de datos online disponibles incluyendo la enciclopedia de elementos de ADN con datos del usuario.
En comparación con las herramientas de búsqueda robusto basado en texto para genómico o ARN secuencia datos, las metodologías actuales para búsquedas basadas en el patrón de epigenómica y otros datos genómicas funcionales son muy limitadas. GeNemo es la primera herramienta de búsqueda online que logra este objetivo. Los usuarios sus datos genómicos funcionales en navegador Extensible datos (cama), picos y bigWig formatos de entrada y pueden buscar datos en cualquiera de los tres formatos. Los usuarios pueden especificar los tipos de conjuntos de datos de búsqueda, elegir de una variedad de conjuntos de datos en línea, con la enciclopedia de ADN elementos (ENCODE) representación epigenómicos diferentes marcas, sitios de unión del factor transcripcional y cromatina hipersensibilidad o accesibilidad en tipos celulares específicos y etapas de desarrollo o en especies (ratón o humano). GeNemo devuelve una lista de regiones genómicas con patrones en los datos de entrada, que pueden verse en el navegador, así como descargar en el formato de archivo de cama a juego. GeNemo actualizado ha mejorado la representación gráfica, tiene interfaz más robusto y no es propenso a errores debido a cambios en la Universidad de California, browser del genoma de Santa Cruz (UCSC). Pasos de solución de problemas problemas comunes se discuten. Como la cantidad de datos genómicas funcionales se expande exponencialmente, hay una necesidad crítica de desarrollar y perfeccionar nuevas herramientas bioinformáticas como GeNemo para análisis de datos e interpretación.
Avances tecnológicos recientes han permitido una rápida expansión de epigenómica o depositarios de datos genomic funcionales, que han superado el desarrollo de herramientas analíticas pertinentes para extraer conocimientos biológicos. Una forma importante para analizar los datos de epigenómica es buscar datos generados por el usuario contra depósitos de datos y sobre todo las de los enciclopedia de elementos de ADN (ENCODE)1 proyectos para emparejar patrones que podrían conducir a nuevos conocimientos. Por ejemplo, identificar similitudes en los patrones de dos marcas diferentes epigenómicas en lugares geométricos definidos en el genoma puede indicar una acción coordinada por diferentes agentes moleculares en la conformación de la cromatina y regulación transcripcional2 ,3,4.
Motores de búsqueda convencionales basados en texto son ineficaces en este sentido porque, a diferencia de la secuencia de ADN, epigenómica predominante dispone de datos en el formato de intensidades o regiones genómicas funcionales. GeNemo, para Gene Nemo (como en buscando a Nemo), fue desarrollado para hacer frente a esta necesidad mediante búsquedas basadas en el patrón5. Su algoritmo utiliza una cadena de Markov Monte Carlo maximización proceso5. Los usuarios tomar sus propios datos o un conjunto de datos descargados de depósitos y la búsqueda de una matriz de datos en línea epigenómica identificar similitudes en los patrones.
La versión actual de GeNemo tiene una pantalla actualizada, interfaces más robusta con la Universidad de California, Santa Cruz (UCSC) genoma explorador6y es menos susceptible a problemas causados por cambios en el último. En particular, mientras que la página de resultados de GeNemo solía basarse en la interfaz de navegador de genoma UCSC, la versión actual de GeNemo apoya su propia página de resultados y por lo tanto es no afectada por cambios estructurales en el browser del genoma UCSC. GeNemo puede usar cualquier señal de genómica, incluyendo Unión de proteínas, modificación de histonas, accesibilidad de cromatina, dominios topológicos y así sucesivamente, como una consulta para encontrar segmentos colocalized similares entre conjuntos de datos conocidos de grandes consorcios. Por lo tanto, es una herramienta importante para estudiar la relación entre epigenómica diferentes datos de interés y datos conocidos generados en proyectos genómica a gran escala.
Una comprensión del epigenoma es necesaria para alcanzar el máximo potencial de secuenciación del genoma humano en la prestación de nuevas ideas biológicas8. Actualmente son sólo formas de buscar conjuntos epigenómicas en línea por su descripción de datos y el título (es decir, metadatos)1. Esto limita severamente el tipo de búsqueda se puede hacer con datos epigenómica. Herramientas de búsqueda basada en patrones para epigenómica datos son esenciales para explorar la relación entre epigenómicos diferentes marcas, que pueden llevar a nuevas perspectivas biológicas. GeNemo, que busca por el contenido de los datos y metadatos no, es el primer servicio de este tipo para comparar patrones en datos epigenómicos de depositarios publicados como la base de datos de codificar con un generado por el usuario o descargado del conjunto de datos5. Esto marca el comienzo de la disponibilidad de una herramienta de búsqueda epigenómicas que es ampliamente accesible a investigadores de todo el mundo sólo como herramienta de búsqueda basada en texto de la secuencia se convirtió en la década de 1990. Actualmente, no hay ninguna alternativa para herramientas de búsqueda en Internet basada en patrones para epigenómica datos distintos de GeNemo.
Un ejemplo potencial de la utilización de GeNemo es buscar las co que aparecen modificaciones de las histonas y otras marcas epigenéticas con el factor de transcripción E2F6 en células madre embrionarias humanas (un archivo de ejemplo E2F6 enlace señal está disponible en portal de datos de codificar o en https://SysBio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.Bed). Utilizando este archivo como consulta de búsqueda en conjuntos de datos de la codificación en H1-hESC, GeNemo mostrará que señal de atascamiento de E2F6 fuertemente enriquecido con H3K4me1, H3K4me2, H3K4me3 y H3K27me3, que está de acuerdo con la investigación existente muestra que E2F6 regula algunos genes a través de metilación de H3K279. Por otra parte, parece ser la colocalización de E2F6 y CtBP2 sitios de Unión, que es conocido por interactuar con un factor en la misma familia, E2F710. Estos resultados para la totalidad del genoma contra un gran número de marcas epigenéticas, factor transcripcional enlace señales y otras señales en ENCODE pueden obtenerse fácilmente con GeNemo, que puede proporcionar todos los objetivos posibles para su posterior análisis.
Desde la primera publicación5 de GeNemo como una herramienta de búsqueda de datos epigenómica basada en web, se ha actualizado la sección de resultados de GeNemo para tener un aspecto coincidente con portada de GeNemo. La vieja sección de resultados estrechamente reflejado en la sección de resultados del navegador de genoma UCSC y era en gran parte dependiente en el servidor remoto de la UCSC para la exhibición. Con la nueva interfaz, GeNemo es más fácil de usar y ya no depende del servidor del genoma UCSC (aunque los datos todavía se obtienen remotamente). Esto hace GeNemo más sólida y menos susceptible a problemas debido a los cambios de código en el servidor de la UCSC. Además, la interfaz de polímero nuevo, más rápido de GeNemo proporciona al usuario más herramientas para visualizar y analizar los patrones en los datos.
Pasos críticos incluyen proporcionar el archivo de entrada adecuado y la selección de pistas de datos búsqueda. Los usuarios se recomienda experimentar con varias funciones de selección de pista se familiarice con el proceso de selección y cómo diferentes comandos pueden combinarse para lograr el resultado previsto. En particular, tenga en cuenta que es necesaria la función “Add” para añadir las pistas deseadas seleccionadas para la consulta, mientras que el “Filtro” o “Excluir” puede ser utilizado como comandos de puerta lógica “AND” y “O”, respectivamente. La función de “Actualización” es necesaria para afectar a todas las selecciones antes de implementar la búsqueda. Cuando se devuelve ningún resultado, un usuario puede comprobar el archivo de datos de entrada, buscar más pistas o aumentar el rango de búsqueda. Cada vez que hay un error, habrá una ventana apareciendo definir qué es exactamente el error. No obstante hay algunos errores ambiguos. Por ejemplo, cuando la ventana dice que ‘el archivo no fue subido’, o el archivo no fue subido, o el archivo subido no era de un formato aceptable y, en consecuencia, el programa no era capaz de leer correctamente. Formatos aceptables para upload de archivos incluyen cama y picos archivo de formato para los métodos de carga y bigWig para subir de link en línea solamente. Las versiones con cremallera de estos formatos de archivo son también aceptables.
Las limitaciones actuales de este enfoque incluyen los algoritmos pero optimizado y funciones empleadas en GeNemo. GeNemo todavía no puede proporcionar ninguna orientación sobre la interpretación de cualquier conjuntos de datos devueltos. Esta tarea depende de los usuarios, que requiere conocimientos importantes y conocimientos en la biología del genoma y epigenoma. Además, otra limitación actual es que los usuarios no pueden cambiar el nivel de sensibilidad y el ruido de las búsquedas. Esperamos seguir mejorar y ampliar GeNemo en su patrón de búsqueda de capacidades y colección de datos en el futuro.
The authors have nothing to disclose.
Este trabajo fue financiado por los NIH concede incluyendo DP1HD087990 de NICHD, R01HG008135 del NHGRI. Agradecemos a los miembros del laboratorio de Zhong de valiosos comentarios.
Contribuciones del autor:
XC y A.T.Z. actualizan GeNemo por codificación nueva interfaz y características; A.T.Z. produjo el video de casa muestra; A.T.Z., X.C y S.Z. escribieron el libro.