Summary

Usando alcance para identificar posibles motivos de reglamentación en los genes coregulated

Published: May 31, 2011
doi:

Summary

Un método sencillo y robusto para identificar los posibles motivos de reglamentación en la co-genes regulados se presenta. Ámbito de aplicación no requiere ningún parámetro de usuario y vuelve motivos que representan excelentes candidatos para las señales de regulación. La identificación de tales señales reguladoras ayuda a entender la biología subyacente.

Abstract

SCOPE es un buscador de motivos conjunto que utiliza tres algoritmos de componentes en paralelo para identificar los posibles motivos de reglamentación por la sobre-representación y la preferencia motivo de la posición 1. Cada algoritmo componente se ha optimizado para encontrar otro tipo de motivo. Al tomar lo mejor de estos tres enfoques, alcance un mejor rendimiento que cualquier algoritmo único, incluso en la presencia de datos ruidosos 1. En este artículo, utilizamos una versión web de SCOPE 2 a examinar los genes que están involucrados en el mantenimiento de los telómeros. ALCANCE se ha incorporado en al menos dos motivos para encontrar otros programas de 3,4 y se ha utilizado en otros estudios 5-8.

Los tres algoritmos que conforman alcance son HAZ 9, que se encuentra no degenerados motivos (ACCGGT), PRISM 10, que se encuentra degenerada motivos (ASCGWT) y el espaciador 11, que se encuentra más motivos bipartito (ACCnnnnnnnnGGT). Estos tres algoritmos se han optimizado para encontrar su correspondiente tipo de motivo. En conjunto, permiten llevar a cabo ALCANCE muy bien.

Una vez que un conjunto de genes se ha analizado e identificado los motivos candidato, ámbito de aplicación puede buscar otros genes que contienen el motivo de que, cuando se añade a la serie original, será motivo de mejorar la puntuación. Esto puede ocurrir por sobre-representación o la preferencia de posición motivo. Trabajar con conjuntos de genes parciales que se han verificado biológicamente factor de transcripción sitios de unión, ámbito de aplicación es capaz de identificar la mayor parte del resto de los genes también está regulada por el factor de transcripción dada.

La producción de ALCANCE muestra motivos candidato, su significado, y otra información tanto en forma de tabla y como un mapa motivo gráfico. Preguntas frecuentes y tutoriales en vídeo están disponibles en el sitio web de alcance que también incluye un "ejemplo de búsqueda" botón que permite al usuario realizar una prueba.

Ámbito de aplicación tiene una interfaz de usuario muy amigable que permite a los usuarios novatos a acceder a la energía total del algoritmo sin tener que convertirse en un experto en el tema de bioinformática de la búsqueda. Como entrada, SCOPE puede tomar una lista de genes o secuencias FASTA. Estos se pueden introducir en los campos de texto del navegador, o leer de un archivo. La salida del ámbito contiene una lista de todos los motivos identificados con sus resultados, el número de ocurrencias, fracción de los genes que contiene el motivo, y el algoritmo utilizado para identificar el motivo. Para cada tema, detalles de los resultados incluyen una representación de consenso del motivo, una secuencia logo, una matriz de la posición de peso, y una lista de casos por cada ocurrencia motivo (con posiciones exactas y "cadena", indicó). Los resultados se devuelven en una ventana del navegador y, opcionalmente, también por correo electrónico. Trabajos anteriores describen los algoritmos de SCOPE en detalle 1,2,9-11.

Protocol

<p class="jove_title"> 1. Prepare una lista de nombres de genes que se cree que son co-regulados para su análisis por el ámbito.</p><p class="jove_content"> Guardar la lista como un archivo de texto o copiarlo en el portapapeles para pegar en ámbito en el paso 3. El archivo debe contener un gen nombre por línea, sin información adicional. Alternativamente, usted puede preparar la lista como un archivo FASTA que contiene las secuencias reales para ser analizados.</p><p class="jove_title"> 2. Inicie el navegador Web y conéctese a la dirección:<a href="http://genie.dartmouth.edu/SCOPE/"> Http://genie.dartmouth.edu/SCOPE/</a</p><p class="jove_title"> 3. Introduzca la información de que el alcance de las necesidades para realizar el análisis.</p><p class="jove_content"> La página de alcance inicial se muestra en la Figura 1. Las distintas secciones se abordan en este paso.</p><ol><li> Utilice el menú de la "especie" emergente para elegir las especies que se examina. Es importante elegir la especie correcta, porque ámbito hace referencia al genoma para calcular las frecuencias de ocurrencia de fondo para cualquier motivo candidato que está examinando.</li><li> Utilice "upstream secuencia de" botones de radio para elegir intergénicas o de longitud fija. Intergénicas analizará toda la secuencia del gen entre los que está viendo y el gen de la anterior (aguas arriba). Esto significa que las longitudes de diferentes aguas arriba se utilizará para cada gen. Selección de longitud fija se verá exactamente ese número de nucleótidos río arriba desde el comienzo del gen de la actual. En este caso, ámbito de aplicación analizará la misma longitud de la secuencia de arriba de cada gen, aunque que se extiende en el gen de la anterior (o no). Por lo general, 800 noches es el mejor para elegir la longitud, pero esto puede variar según la especie.</li><liSiguiente> decir lo ALCANCE conjunto de genes a analizar, ya sea por pegar en su lista de genes en el cuadro de texto de la lista de genes, o pulsando el botón "Seleccionar archivo" para seleccionar el archivo que contiene la lista de genes que creó anteriormente. Es posible que, en su defecto, pegarlo en un archivo de secuencias FASTA en el mismo cuadro de texto.</li><li> En la siguiente sección de la página contiene una casilla para "examinar el genoma de otros genes que contienen motivos encontrado (s)? Esta opción se puede añadir el análisis en tiempo considerable desde ALCANCE tiene que evaluar todos los genes en el genoma. Sin embargo, esto puede ser muy útil en la identificación de otros genes que son buenos candidatos para ser co-regulados los genes en el conjunto de genes de partida. Dado que los análisis ALCANCE son relativamente rápidos, se recomienda que deje esta opción en su análisis inicial. Siempre se puede activar desde la página de resultados para volver a ejecutar el análisis, como se explica en la sección de resultados.</li><li> La 'Los resultados deben incluir "la sección puede ser utilizado para entrar en un motivo que desea alcance para incluir en su análisis. Es posible que desee hacer esto si usted está buscando un motivo específico.</li><li> La última sección de la página se puede utilizar para introducir su dirección de correo electrónico y un comentario que se guarda con el análisis. Si esto se llena, ÁMBITO DE APLICACIÓN enviará un correo electrónico con un enlace a la página web que contiene los resultados, y también se incluyen dos anexos. Uno de ellos es un archivo de texto que tiene todos los resultados del análisis en formato legible por humanos. El segundo anexo contiene un archivo XML que contiene todos los resultados de ese ámbito ha encontrado en un formato legible por ordenador. Si desea hacer un análisis adicional sobre los resultados, el archivo XML es muy útil. Ambos archivos son "cremallera", antes de ser enviado con el correo electrónico.</li><li> Para esta demostración, vamos a comenzar con la misma información. Esto se puede conseguir fácilmente pulsando el botón "Buscar la muestra 'botón que se complete la información necesaria. Pulse este botón ahora. Tres genes se introducirá por usted y las decisiones adecuadas hecho para los otros campos. Deje estos, ya que se establecen. Los tres genes están involucrados en el mantenimiento de los telómeros en<em> Saccharomyces cerevisiae</em>. El formulario lleno se muestra en la Figura 2. Pulse el botón «ÁMBITO DE APLICACIÓN Run 'en la parte inferior de la página para iniciar el análisis.</li></ol><p class="jove_title"> 4. Los resultados representativos:</p><p class="jove_content"> Los principales resultados del análisis se muestran en la Figura 3. La parte superior de la página contiene una tabla de información acerca de los motivos que se encontraron por el ámbito. La primera columna contiene una lista de motivos que se encontraron y pequeños cuadrados de colores sirven como una leyenda para el mapa motivo gráfico se muestra a continuación. La aparición de cualquier tema dado pueden activar o desactivar haciendo clic en el cuadro de color (o en la caja de colores sería). Esto puede ser muy útil para ocultar los motivos muy repetidos que pueden hacer que sea difícil ver los patrones motivo menos frecuente.</p><p class="jove_content"Columnas> Otros datos de recuento (el número de ocurrencias de ese motivo en todo el conjunto de genes), el valor de Sig (una indicación de la importancia de ese tema), la cobertura (el porcentaje de los genes presentados que contengan al menos un caso de ese motivo), y el algoritmo (que de los tres algoritmos componente se utiliza para detectar el motivo).</p><p class="jove_content"> Al hacer clic en cualquiera de los motivos mencionados llevará al usuario a una página que contiene información detallada para ese motivo. Los detalles se muestran los resultados del motivo de cian (atgnnnnttg) en la Figura 4. En esta página, el motivo está representado en tres formas: una secuencia logo, una matriz de la posición de peso, y una lista de todos los casos motivo de sus posiciones, hilos y los genes.</p><p class="jove_content"> Un poco más abajo de la página son algunos detalles adicionales sobre los resultados de la búsqueda de otros genes que contienen este motivo. Como puede verse, en este caso hubo 1344 otros genes que contiene el motivo, todos los que en realidad mejora el valor de Sig cuando se añade al conjunto de genes original. Pulsando el botón "Añadir genes comprobado para buscar" volverá a la página de configuración SCOPE con estos genes añadidos al conjunto original de genes y de los parámetros establecidos como estaban anteriormente. En este caso, 10 genes adicionales se añaden a los tres originales.</p><p class="jove_content"> Figura 5 muestra los resultados de los análisis que contiene el material genético de este motivo. El original de tres genes se encuentran en la parte inferior de los resultados (en minúsculas). Observando el patrón de motivos en la región aguas arriba de estos genes extra demuestra claramente que son similares. De hecho, muchos de estos genes están involucrados en el mantenimiento de los telómeros al igual que el original de tres genes. Tenga en cuenta también que el motivo original es ahora el motivo con mayor puntuación en este conjunto.</p><p class="jove_content"> Otro conjunto de resultados ALCANCE se muestra en la Figura 6. En este caso, el conjunto de genes son los que están involucrados en la biogénesis de los ribosomas en Saccharomyces cerevisiae. Estos genes no son en realidad parte de los ribosomas, pero son responsables de montaje de los ribosomas e incluyen una serie de enzimas de modificación. Lo que está claro en la figura es que los motivos en rojo y verde forman un patrón fiable que pueda participar en la regulación de los genes en este conjunto. Estamos investigando este patrón de "módulos" con más detalle y se informe al respecto en una publicación posterior.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig1.jpg" alt="Figure 1"/<br /><strong> Figura 1</strong>. ALCANCE página principal de entrada. Esta página se utiliza para introducir los genes a analizar y definir la especie y la longitud de la región río arriba para ser examinado. Opcionalmente, el usuario puede solicitar los resultados por correo electrónico o restringir la búsqueda a cualquier motivo especificado. Help también está disponible.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig2.jpg" alt="Figure 2"/<br /><strong> Figura 2</strong>. Página principal de entrada del osciloscopio con los valores de llenado para la realización de una búsqueda. Estos parámetros son el resultado de pulsar el botón "Búsqueda de muestra. En este caso, la casilla de verificación para encontrar otros genes que contienen los motivos encontrados por SCOPE está marcada. Esta opción toma más tiempo para calcular (todos los genes en el genoma ha de ser examinada), pero puede dar una idea interesante.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig3.jpg" alt="Figure 3"/<br /><strong> Figura 3</strong>. Resultados ALCANCE página principal. Esta página se resumen los resultados de la búsqueda de SCOPE. Una lista de todos los motivos de puntuación alta y se proporciona un código de colores del mapa motivo muestra el posicionamiento de los temas identificados en el conjunto de los genes analizados. Al hacer clic en un cuadro de color junto a un motivo, se activará la pantalla de ese tema o desactivar en el mapa motivo. Además de una veintena de significación (valor SIG), la fracción de los genes que contiene el motivo (de cobertura), y el algoritmo utilizado para encontrar ese motivo también se proporcionan.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig4_1.jpg" alt="Figure 4 top"/<br /><img src="/files/ftp_upload/2703/2703fig4_2.jpg" alt="Figure 4 bottom"/<br /<strong> Figura 4</strong>. Esta página de detalles de los resultados es elevada cuando un motivo específico que se hace clic en la página de resultados principales. Que muestra los detalles del motivo individual. El logotipo de la secuencia, la matriz de la posición de peso, y la secuencia de consenso cada uno representa un tipo diferente de resumen de la lista de instancias motivo también en la página. Ya que "encontrar los genes extra" se verificó en la configuración original de la búsqueda, también hay información en esta página los otros genes en el genoma que contienen este motivo. Desde esta página también es posible iniciar otra carrera ALCANCE incluyendo el material genético identificado en esta página.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig5.jpg" alt="Figure 5"/<br /<strong> Figura 5</strong>. Esta figura muestra los resultados de la búsqueda de genes extra para 'atgnnnnttg "el motivo de la Figura 4. El original de tres genes están en minúsculas en la parte inferior de la hoja de adorno. Los genes adicionales se muestran en mayúsculas. No hay un patrón claro de los motivos en las regiones aguas arriba de estos genes. Nótese también que el motivo especificado muestra un algoritmo de "BUSCAR", porque así es como fue identificado. En realidad, coincide con el 5<sup> °</supMotivo> encontrado por SPACER en este análisis.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig6.jpg" alt="Figure 6"/<br /<strong> Figura 6</strong>. ALCANCE salida de genes implicados en la biogénesis de los ribosomas en Saccharomyces cerevisiae. Tenga en cuenta el patrón conservado de los módulos consta de 'aaawtttbh "los motivos (rojo) y' abctcatcd '(verde), separadas por unos 10-30 noches y presente en 100 a 200 nucleótidos antes del inicio de la transcripción del gen.</p

Discussion

ALCANCE proporciona al investigador una herramienta poderosa para usar para la identificación de los posibles motivos de reglamentación en conjuntos de genes regulados coordinadamente. El usuario no está obligado a adivinar el tamaño del motivo o el número de ocurrencias del motivo como motivo la búsqueda de muchos otros sitios requieren. Estos parámetros son básicamente desconocido hasta que el motivo se identifica. La interfaz es muy sencilla, tanto para entrar en las secuencias de genes o los nombres y para ver la salida.

ALCANCE salida proporciona información detallada sobre todos los motivos que se identifican, utilizando tres diferentes formas de representación motivo. Cada instancia del motivo en todos los genes está en la lista con información de posición y "cadena". Los resultados gráficos en forma de mapas motivo de ofrecer una pantalla de visualización que es fácil de entender y proporciona una manera intuitiva de ver patrones en los motivos que están presentes.

SCOPE es muy robusto a la presencia de ruido en los datos. Normalmente, esto toma la forma de genes extra que está presente en el conjunto de partida que en realidad no puede ser co-regulado con el resto de los genes. Esto sucede a menudo cuando se comienza con los genes que son co-expresados ​​en los experimentos de microarrays. A veces, el experimento es ruidoso, o puede haber varios factores de transcripción activados en las condiciones experimentales utilizadas para el experimento de microarrays. Estos diferentes factores de transcripción es probable que hayan diferentes lugares de destino en el ADN. Incluso en la presencia de cuatro veces los genes extraños (ruido: relación señal es 4:1), el alcance es todavía mantiene el 50% de su exactitud en la predicción de los sitios 1.

Aunque ámbito contiene más de 2 millones de sinónimos de nombres de genes, a veces no logra identificar algunos nombres de genes. Estamos constantemente actualizando nuestras listas de sinónimos, pero a veces encontramos que los sinónimos se refieren a diferentes del mismo gen. En esos casos, no incluyen los sinónimos debido a la ambigüedad. si usted tiene un nombre de genes que no se encuentra en alcance, es recomendable que consulte el sitio específico del genoma para encontrar el nombre de un gen alternativo para el uso en su alcance. Algunos ejemplos de nombres de genes apropiados para cada especie se proporcionan por el ámbito.

ALCANCE actualmente contiene 72 especies con nuevas especies que se añade todo el tiempo. El sitio web contiene video de ayuda, así como preguntas frecuentes. El código fuente está disponible gratuitamente para los usuarios académicos por escrito a GD.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Esta investigación fue financiada por una subvención a GHR de la Fundación Nacional de Ciencia, DBI-0445967.

References

  1. Chakravarty, A., Carlson, J. M., Khetani, R. S., Gross, R. H. A novel ensemble learning method for de novo computational identification of DNA binding sites. BMC Bioinformatics. 8, 249-249 (2007).
  2. Carlson, J. M., Chakravarty, A., DeZiel, C. E., Gross, R. H. SCOPE: a web server for practical de novo motif discovery. Nucleic Acids Res. 35, 259-264 (2007).
  3. Blom, E. J., Roerdink, J. B., Kuipers, O. P., Hijum, S. A. v. a. n. MOTIFATOR: detection and characterization of regulatory motifs using prokaryote transcriptome data. Bioinformatics. 25, 550-551 (2009).
  4. Blom, E. J. DISCLOSE : DISsection of CLusters Obtained by SEries of transcriptome data using functional annotations and putative transcription factor binding sites. BMC Bioinformatics. 9, 535-535 (2008).
  5. Bushey, A. M., Ramos, E., Corces, V. G. Three subclasses of a Drosophila insulator show distinct and cell type-specific genomic distributions. Genes Dev. 23, 1338-1350 (2009).
  6. Znaidi, S. Identification of the Candida albicans Cap1p regulon. Eukaryot Cell. 8, 806-820 (2009).
  7. Sharma, D., Mohanty, D., Surolia, A. RegAnalyst: a web interface for the analysis of regulatory motifs, networks and pathways. Nucleic Acids Res. 37, W193-W201 (2009).
  8. Znaidi, S. Genomewide location analysis of Candida albicans Upc2p, a regulator of sterol metabolism and azole drug resistance. Eukaryot Cell. 7, 836-847 (2008).
  9. Carlson, J., Chakravarty, A., Gross, R. B. E. A. M. A beam search algorithm for the identification of cis-regulatory elements in groups of genes. J Comput Biol. 13, 686-701 (2006).
  10. Carlson, J., Chakravarty, A., Khetani, R., Gross, R. Bounded search for de novo identification of degenerate cis-regulatory elements. BMC Bioinformatics. 7, 254-254 (2006).
  11. Chakravarty, A., Carlson, J. M., Khetani, R. S., DeZiel, C. E., Gross, R. H. SPACER: identification of cis-regulatory elements with non-contiguous critical residues. Bioinformatics. 23, 1029-1031 (2007).

Play Video

Cite This Article
Martyanov, V., Gross, R. H. Using SCOPE to Identify Potential Regulatory Motifs in Coregulated Genes. J. Vis. Exp. (51), e2703, doi:10.3791/2703 (2011).

View Video