Summary

Aide de la portée d'identifier le potentiel Motifs de la réglementation dans les gènes co-régulés

Published: May 31, 2011
doi:

Summary

Une méthode de l'amortissement avant et robustes afin d'identifier le potentiel des motifs réglementaires en gènes co-régulés est présenté. Champ d'application ne nécessite pas de paramètres d'utilisateur et retourne motifs qui représentent d'excellents candidats pour des signaux de régulation. L'identification de ces signaux de régulation permet de comprendre la biologie sous-jacente.

Abstract

SCOPE est un viseur motif d'ensemble qui utilise trois algorithmes composante en parallèle pour identifier les éventuels motifs de régulation par la sur-représentation et de préférence de positionnement motifs 1. Chaque algorithme composant est optimisée pour trouver un autre type de motif. En prenant le meilleur de ces trois approches, SCOPE est plus performant que n'importe quel algorithme unique, même en présence de données bruitées 1. Dans cet article, nous utilisons une version web de SCOPE 2 pour examiner les gènes qui sont impliqués dans le maintien des télomères. SCOPE a été incorporé dans au moins deux motifs d'autres programmes de recherche et de 3,4 a été utilisé dans d'autres études 5-8.

Les trois algorithmes qui comprennent la portée sont poutre 9, qui trouve des motifs non dégénérée (ACCGGT), Prisme 10, qui trouve dégénèrent motifs (ASCGWT), et l'entretoise 11, qui trouve des motifs plus bipartite (ACCnnnnnnnnGGT). Ces trois algorithmes ont été optimisés pour trouver leur type correspondant de motif. Ensemble, ils permettent d'effectuer CHAMP extrêmement bien.

Une fois un ensemble de gènes a été analysée et des motifs candidats identifiés, SCOPE peut chercher d'autres gènes qui contiennent le motif qui, ajoutée à l'ensemble original, permettra d'améliorer le score motif. Cela peut se produire grâce à la sur-représentation ou la préférence de positionnement motif. Travailler avec des ensembles de gènes partielles qui ont vérifié les sites biologiquement facteur de transcription liant, SCOPE a été capable d'identifier la plupart du reste des gènes également régulée par le facteur de transcription donné.

Sortie du champ d'application montre des motifs candidat, leur signification, et d'autres informations à la fois comme un tableau et comme une carte graphique de motif. FAQ et tutoriels vidéo sont disponibles sur le site web de SCOPE, qui comprend également un «Exemple de recherche" bouton qui permet à l'utilisateur d'effectuer un essai.

Portée a une interface utilisateur très conviviale qui permet aux utilisateurs novices d'accéder à la pleine puissance de l'algorithme sans avoir à devenir un expert dans le bio-informatique des motifs trouver. Comme entrée, SCOPE peut prendre une liste de gènes ou séquences FASTA. Ceux-ci peuvent être entrés dans les champs de texte du navigateur, ou lire un fichier. La sortie du champ d'application contient une liste de tous les motifs identifiés avec leurs scores, le nombre d'occurrences, la fraction de gènes contenant le motif, et l'algorithme utilisé pour identifier le motif. Pour chaque motif, les détails de résultats incluent une représentation de consensus du motif, un logo séquence, une matrice de poids position, et une liste d'instances pour chaque événement motif (avec des positions exactes et "brin" est indiqué). Les résultats sont renvoyés dans une fenêtre de navigateur et éventuellement aussi par email. Articles précédents décrivent les algorithmes CHAMP en détail 1,2,9-11.

Protocol

<p class="jove_title"> 1. Préparez une liste de noms pour les gènes que vous croyez sont co-régulés pour l'analyse par SCOPE.</p><p class="jove_content"> Enregistrer la liste dans un fichier texte ou le copier dans le presse-papiers pour coller dans la portée de l'étape 3. Le fichier devrait contenir un nom de gène par ligne avec aucune information supplémentaire. Alternativement, vous pouvez préparer la liste dans un fichier FASTA contenant les séquences réelles d'être analysés.</p><p class="jove_title"> 2. Démarrez votre navigateur Web et se connecter à l'URL:<a href="http://genie.dartmouth.edu/SCOPE/"> Http://genie.dartmouth.edu/SCOPE/</a</p><p class="jove_title"> 3. Entrez les informations que le champ a besoin pour effectuer l'analyse.</p><p class="jove_content"> La page est portée initiale de la figure 1. Différentes sections sont abordées dans cette étape.</p><ol><li> Utiliser le menu "Espèces" popup pour choisir les espèces que vous allez examiner. Il est important de choisir la bonne espèce, car portée fait référence au génome de calculer les fréquences de fond d'occurrence pour n'importe quel motif, il est candidat à l'examen.</li><li> Utilisez le 'amont boutons de la séquence radio "pour choisir soit intergéniques ou de longueur fixe. Intergéniques va analyser toutes les séquences du gène entre vous regardez et la précédente (en amont) des gènes. Cela signifie que différentes longueurs amont sera utilisé pour chaque gène. Choix de longueur fixe sera de regarder exactement ce nombre de nucléotides en amont du début du gène actuel. Dans ce cas, le SCOPE examinera la même longueur de la séquence en amont de chaque gène, même si cela se prolonge dans le gène précédente (ou non). Typiquement, 800 nts est la durée idéale de choisir, mais cela peut varier selon les espèces.</li><li> Prochain dire CHAMP quel gène mis à analyser, soit en le collant dans votre liste de gène dans la zone de texte du gène liste, ou en appuyant sur le bouton "choisir le fichier 'pour sélectionner le fichier contenant la liste des gènes que vous avez créé plus tôt. Vous pouvez, alternativement, la coller dans un fichier de séquence FASTA dans la même zone de texte.</li><li> La prochaine section de la page contient une case à cocher pour "Examiner génome pour des gènes d'autres motifs contenant trouvée (s)? Cette option peut ajouter du temps d'analyse considérable depuis SCOPE doit évaluer tous les autres gènes dans le génome. Toutefois, cela peut être très utile dans l'identification d'autres gènes qui sont de bons candidats pour être co-régulés avec les gènes de l'ensemble des gènes de départ. Puisque les analyses SCOPE sont relativement rapides, il est suggéré que vous quittez cette fonction dans votre analyse initiale. Il peut toujours être activé depuis la page de résultats à relancer l'analyse, comme expliqué dans la section des résultats.</li><li> Les «résultats doivent inclure« section peut être utilisée pour entrer un motif que vous voulez portée pour inclure dans son analyse. Vous pourriez vouloir faire cela si vous êtes à la recherche d'un motif précis.</li><li> La dernière section sur la page peut être utilisé pour entrer votre adresse email et un commentaire d'être sauvé par l'analyse. Si ce n'est remplie, SCOPE envoyer un email avec un lien vers la page web contenant les résultats, et il comprendra également deux pièces jointes. L'un est un simple fichier texte qui a tous les résultats d'analyse dans un format lisible. La deuxième pièce jointe contient un fichier XML qui a toutes les raison que la portée a trouvé dans un format lisible par ordinateur. Si vous voulez faire une analyse complémentaire sur les résultats, le fichier XML est très utile. Les deux fichiers sont "zippés" avant d'être envoyée avec le courriel.</li><li> Pour cette démo, nous allons commencer avec les mêmes informations. Ceci peut être facilement atteint en appuyant sur le «Exemple de recherche" bouton qui va remplir les informations nécessaires. Appuyez sur ce bouton maintenant. Trois gènes seront entrés pour vous et faites des choix appropriés pour les autres champs. Laissez ces car ils sont réglés. Les trois gènes sont impliqués dans le maintien des télomères dans les<em> Saccharomyces cerevisiae</em>. Le formulaire rempli est présenté dans la Figure 2. Appuyer sur le bouton "Exécuter CHAMP 'au bas de la page pour commencer l'analyse.</li></ol><p class="jove_title"> 4. Les résultats représentatifs:</p><p class="jove_content"> Les principaux résultats de l'analyse sont présentés dans la figure 3. Le haut de la page contient un tableau d'informations sur les motifs qui ont été trouvés par SCOPE. La première colonne contient une liste de motifs qui ont été trouvés et petits carrés de couleurs servent de légende de la carte graphique de motif indiqué ci-dessous. L'affichage de tout motif donné peuvent être activés ou désactivés en cliquant dans la case de couleur (ou lorsque la boîte de couleur serait). Cela peut être très utile pour masquer l'affichage de motifs hautement répétées qui pourraient rendre difficile de voir les schémas motifs moins fréquents.</p><p class="jove_content"Colonnes> Autres données sont Count (le nombre d'occurrences de ce motif dans l'ensemble des gènes entiers), la valeur de Sig (une indication de l'importance de ce motif), la couverture (le pourcentage des gènes soumis qui contiennent au moins une instance de ce motif), et l'algorithme (qui des trois algorithmes composant a été utilisé pour détecter le motif).</p><p class="jove_content"> En cliquant sur l'un des motifs énumérés prendra l'utilisateur vers une page contenant des informations détaillées pour ce motif. Les détails des résultats sont présentés pour le motif cyan (atgnnnnttg) dans la figure 4. Sur cette page, le motif est représenté de trois façons: un logo séquence, une matrice de poids de position, et une liste de toutes les instances motif avec leurs positions, les brins et les gènes.</p><p class="jove_content"> Un peu plus bas de la page sont quelques détails supplémentaires sur les résultats de la recherche d'autres gènes contenant ce motif. Comme on peut le voir, dans ce cas, il y avait 1344 autres gènes contenant le motif, qui effectivement amélioré la valeur ajoutée à Sig l'ensemble des gènes d'origine. En appuyant sur 'Ajouter gènes contrôlés pour rechercher "va revenir à la page de configuration portée avec ces gènes ajoutés à l'ensemble des gènes d'origine et les paramètres établis comme ils l'étaient auparavant. Dans ce cas, 10 gènes supplémentaires sont ajoutés aux trois originaux.</p><p class="jove_content"> Figure 5 montre les résultats de l'analyse contenant les gènes supplémentaires pour ce motif. Les trois gènes sont d'origine sur le bas des résultats (en minuscules). En regardant le schéma de motifs dans la région en amont de ces gènes supplémentaires montre clairement qu'ils sont similaires. En fait, plusieurs de ces gènes sont impliqués dans le maintien des télomères comme l'étaient les trois gènes d'origine. Notez également que le motif original est maintenant le motif le plus haut score dans cette série.</p><p class="jove_content"> Une autre série de résultats SCOPE est montré dans la figure 6. Dans ce cas, l'ensemble des gènes sont ceux qui sont impliqués dans la biogenèse des ribosomes chez Saccharomyces cerevisiae. Ces gènes ne sont pas réellement partie du ribosome, mais sont responsables de l'assemblage des ribosomes et comprennent un certain nombre d'enzymes de modification. Ce qui est clair dans la figure est que les motifs rouges et vertes forment un motif fiable qui est susceptible d'être impliqué dans la régulation des gènes dans cette série. Nous étudions ce modèle de «modules» plus en détail et fera rapport sur les TI dans une publication ultérieure.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig1.jpg" alt="Figure 1"/<br /><strong> Figure 1</strong>. Page d'entrée de l'oscilloscope. Cette page est utilisée pour entrer dans les gènes à analyser et à définir les espèces et la longueur de la région en amont pour être examinés. En option, l'utilisateur peut demander les résultats par e-mail ou limiter la recherche à n'importe quel motif spécifié. Aide vidéo est également disponible.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig2.jpg" alt="Figure 2"/<br /><strong> Figure 2</strong>. Page d'entrée de l'oscilloscope avec des valeurs rempli pour effectuer une recherche. Ces paramètres sont le résultat d'appuyer sur le bouton «Rechercher échantillon. Dans ce cas, la case à cocher de trouver d'autres gènes contenant les motifs trouvés par SCOPE est cochée. Cette option prend plus de temps à calculer (chaque gène dans le génome doit être examiné), mais peut fournir des indications intéressantes.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig3.jpg" alt="Figure 3"/<br /><strong> Figure 3</strong>. Principales CHAMP page de résultats. Cette page résume les résultats de la recherche SCOPE. Une liste de tous les motifs notation élevée est fournie et une carte motif de code de couleur indique le positionnement des motifs identifiés dans l'ensemble des gènes analysés. En cliquant sur une case de couleur à côté d'un motif de se basculer l'affichage de ce motif ou désactiver la carte motif. En plus d'une vingtaine de signification (valeur de Sig), la fraction de gènes contenant le motif (couverture), et l'algorithme utilisé pour trouver ce motif sont également fournis.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig4_1.jpg" alt="Figure 4 top"/<br /><img src="/files/ftp_upload/2703/2703fig4_2.jpg" alt="Figure 4 bottom"/<br /<strong> Figure 4</strong>. Cette page de détail des résultats est mis en place lors d'un motif spécifique est cliqué dans la page principale des résultats. Il montre les détails du motif individuel. Le logo de séquences, la matrice de poids position, et la séquence consensus représentent chacun un type différent de résumé de la liste des instances de motifs aussi sur la page. Depuis «trouver des gènes supplémentaires» a été cochée dans la configuration de recherche d'origine, il ya aussi des informations sur cette page sur tout autre gène dans le génome qui contiennent ce motif. Depuis cette page, il est également possible de démarrer une autre course de gamme, notamment les gènes supplémentaires identifiés sur cette page.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig5.jpg" alt="Figure 5"/<br /<strong> Figure 5</strong>. Cette figure montre les résultats de la recherche de gènes supplémentaires pour 'atgnnnnttg «le motif de la figure 4. Les trois gènes d'origine sont en minuscules au bas de la carte motif. Les gènes supplémentaires sont indiquées en majuscules. Il ya une tendance claire à motifs dans les régions en amont de ces gènes. Notez également que le motif indiqué représente un algorithme de «LOOKUP« parce que c'est la façon dont il a été identifié. Il correspond en fait le 5<sup> E</sup> Motif trouvé par ENTRETOISE dans cette analyse.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig6.jpg" alt="Figure 6"/<br /<strong> Figure 6</strong>. Sortie SCOPE de gènes impliqués dans la biogenèse des ribosomes chez Saccharomyces cerevisiae. Notez le modèle conservé des modules constitués de «aaawtttbh« les motifs (rouge) et «abctcatcd» (vert) séparées par environ 10-30 nts et de présenter à 100-200 nucléotides en amont du démarrage de la transcription du gène.</p

Discussion

SCOPE offre au chercheur un outil puissant à utiliser pour l'identification du potentiel des motifs réglementaires dans des ensembles de gènes de façon coordonnée réglementé. L'utilisateur n'est pas obligé de deviner la taille du motif ou le nombre d'occurrences du motif comme motif de beaucoup d'autres nécessitent de trouver des sites. Ces paramètres sont fondamentalement inconnaissable jusqu'à ce que le motif est identifié. L'interface est très simple à la fois pour entrer dans des séquences de gènes ou de noms et pour la visualisation de la sortie.

Sortie portée fournit des informations détaillées sur l'ensemble des motifs qui sont identifiés, à l'aide de trois façons différentes de la représentation motif. Chaque instance du motif dans l'ensemble des gènes est répertorié avec la position et "brin" de l'information. Résultats graphiques sous la forme de cartes motif de fournir un affichage visuel qui est facile à comprendre et offre un moyen intuitif de voir des modèles dans les motifs qui sont présents.

SCOPE est très robuste à la présence de bruit dans les données. Généralement, cela prend la forme de gènes supplémentaires étant présent dans l'ensemble de départ qui pourrait ne pas réellement être co-régulés avec le reste des gènes. Cela arrive souvent lors du démarrage avec des gènes qui sont co-exprimés dans les expériences de biopuces. Parfois, l'expérience est bruyant, ou il peut y avoir plusieurs facteurs de transcription activés dans les conditions expérimentales utilisées pour l'expérience de biopuces. Ces différents facteurs de transcription aura probablement des sites cibles différentes sur l'ADN. Même en présence de 4-fold gènes étrangers (bruit: rapport signal est de 4:1), SCOPE est conserve encore 50% de sa précision dans la prédiction de sites 1.

Bien que la portée contient plus de 2 millions synonymes pour les noms de gènes, elle oublie parfois d'identifier certains gènes noms. Nous mettons constamment à jour nos listes de synonymes, mais parfois à trouver que les différents synonymes référer à la même gène. Dans ces cas, nous n'incluons pas les synonymes raison de l'ambiguïté. si vous avez un nom de gène qui n'est pas trouvé par portée, il est recommandé que vous consultez le site du génome spécifique à trouver un nom de gène alternative à l'utilisation dans leur portée. Exemples de noms de gènes appropriés pour chaque espèce sont fournis par SCOPE.

CHAMP contient actuellement 72 espèces avec de nouvelles espèces étant ajoutées tous les temps. Le site Web contient de la vidéo ainsi que l'aide FAQ. Le code source est librement disponible pour les utilisateurs académiques en écrivant à GHR.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Cette recherche a été financée par une subvention au GHR de la National Science Foundation, DBI-0445967.

References

  1. Chakravarty, A., Carlson, J. M., Khetani, R. S., Gross, R. H. A novel ensemble learning method for de novo computational identification of DNA binding sites. BMC Bioinformatics. 8, 249-249 (2007).
  2. Carlson, J. M., Chakravarty, A., DeZiel, C. E., Gross, R. H. SCOPE: a web server for practical de novo motif discovery. Nucleic Acids Res. 35, 259-264 (2007).
  3. Blom, E. J., Roerdink, J. B., Kuipers, O. P., Hijum, S. A. v. a. n. MOTIFATOR: detection and characterization of regulatory motifs using prokaryote transcriptome data. Bioinformatics. 25, 550-551 (2009).
  4. Blom, E. J. DISCLOSE : DISsection of CLusters Obtained by SEries of transcriptome data using functional annotations and putative transcription factor binding sites. BMC Bioinformatics. 9, 535-535 (2008).
  5. Bushey, A. M., Ramos, E., Corces, V. G. Three subclasses of a Drosophila insulator show distinct and cell type-specific genomic distributions. Genes Dev. 23, 1338-1350 (2009).
  6. Znaidi, S. Identification of the Candida albicans Cap1p regulon. Eukaryot Cell. 8, 806-820 (2009).
  7. Sharma, D., Mohanty, D., Surolia, A. RegAnalyst: a web interface for the analysis of regulatory motifs, networks and pathways. Nucleic Acids Res. 37, W193-W201 (2009).
  8. Znaidi, S. Genomewide location analysis of Candida albicans Upc2p, a regulator of sterol metabolism and azole drug resistance. Eukaryot Cell. 7, 836-847 (2008).
  9. Carlson, J., Chakravarty, A., Gross, R. B. E. A. M. A beam search algorithm for the identification of cis-regulatory elements in groups of genes. J Comput Biol. 13, 686-701 (2006).
  10. Carlson, J., Chakravarty, A., Khetani, R., Gross, R. Bounded search for de novo identification of degenerate cis-regulatory elements. BMC Bioinformatics. 7, 254-254 (2006).
  11. Chakravarty, A., Carlson, J. M., Khetani, R. S., DeZiel, C. E., Gross, R. H. SPACER: identification of cis-regulatory elements with non-contiguous critical residues. Bioinformatics. 23, 1029-1031 (2007).

Play Video

Cite This Article
Martyanov, V., Gross, R. H. Using SCOPE to Identify Potential Regulatory Motifs in Coregulated Genes. J. Vis. Exp. (51), e2703, doi:10.3791/2703 (2011).

View Video