Summary

Mit SCOPE potenzieller regulatorischer Motive in Coregulated Gene zu identifizieren

Published: May 31, 2011
doi:

Summary

Eine geradlinige und robuste Methode, um potenzielle regulatorische Motive in Zusammenarbeit regulierten Gene zu identifizieren wird vorgestellt. SCOPE erfordert keine User-Parameter und liefert Motive, die ausgezeichnete Kandidaten stellen für regulatorische Signale. Die Identifikation solcher Regulationssignale hilft, die zugrunde liegenden Biologie zu verstehen.

Abstract

SCOPE ist ein Ensemble Motiv finder, dass Drei-Komponenten-Algorithmen verwendet, die parallel zu potenzieller regulatorischer Motive von Überrepräsentation und Motiv Position bevorzugt 1 zu identifizieren. Jede Komponente Algorithmus ist optimiert, um eine andere Art von Motiv zu finden. Indem man die besten dieser drei Ansätze, führt SCOPE besser als jede einzigen Algorithmus, auch in Gegenwart von verrauschten Daten 1. In diesem Artikel nutzen wir eine Web-Version von SCOPE 2, um Gene, die in Telomererhaltung mitwirken. SCOPE hat sich in mindestens zwei anderen Motiv Auffinden von Programmen 3,4 aufgenommen und hat in anderen Studien 5-8 verwendet worden.

Die drei Algorithmen, die SCOPE enthalten, sind BEAM 9, die nicht entartet Motive (ACCGGT) findet, PRISM 10, die entartete Motive (ASCGWT) findet, und Abstandshalter 11, die länger bipartite Motive (ACCnnnnnnnnGGT) findet. Diese drei Algorithmen wurden optimiert, um die entsprechenden Art von Motiv zu finden. Zusammen ermöglichen sie SCOPE extrem gute Leistung.

Sobald ein Gen gesetzt analysiert wurde und Kandidaten Motive identifiziert haben, können SCOPE für andere Gene, die das Motiv, das, wenn sie auf den ursprünglichen Satz hinzugefügt, das Motiv Score zu verbessern enthalten aussehen. Dies kann durch übermäßige Präsenz oder Motiv Positionsgebote auftreten. Arbeiten mit partiellen Gen-Sets, die biologisch Transkriptionsfaktorbindungsstellen überprüft haben, war SCOPE in der Lage, die meisten der Rest der Gene auch durch die gegebene Transkriptionsfaktor reguliert werden.

Die Ausgabe von SCOPE stellt Kandidaten Motive, ihre Bedeutung, und andere Informationen sowohl als Tisch als auch als grafische Motiv Karte. FAQs und Video-Tutorials sind bei der SCOPE-Website, die auch ein "Sample Search"-Taste, die dem Benutzer einen Probelauf durchführen können zur Verfügung.

Scope hat eine sehr benutzerfreundliche Oberfläche, die unerfahrene Anwender ermöglicht, den Algorithmus die volle Leistung, ohne dass ein Experte in der Bioinformatik von Motiv zu finden geworden zugreifen. Als Eingang kann SCOPE, eine Liste von Genen, oder FASTA-Sequenzen. Diese können im Browser Textfelder eingegeben werden, oder aus einer Datei gelesen. Die Ausgabe von SCOPE enthält eine Liste aller identifizierten Motive mit ihren Noten, Anzahl der Vorkommen, Anteil von Genen, die das Motiv, und der Algorithmus verwendet, um das Motiv zu erkennen. Für jedes Motiv, sind Ergebnis eines Konsenses Darstellung des Motivs, eine Sequenz-Logo, eine Position, Gewicht Matrix, und eine Liste der Instanzen für jedes Motiv Auftreten (mit genauen Positionen und "Strang" bezeichnet). Die Ergebnisse werden in einem Browser-Fenster und wahlweise auch per E-Mail zurück. Vorherige Arbeiten beschreiben die SCOPE-Algorithmen im Detail 1,2,9-11.

Protocol

<p class="jove_title"> 1 ist. Bereiten Sie eine Liste von Namen für Gene, die Ihrer Meinung nach für die Analyse von SCOPE Zusammenarbeit geregelt.</p><p class="jove_content"> Speichern Sie die Liste als Text-Datei oder kopieren Sie ihn in die Zwischenablage zu SCOPE in Schritt 3 einfügen. Die Datei sollte ein Gen pro Zeile ohne zusätzliche Informationen. Alternativ können Sie die Liste als FASTA-Datei mit den tatsächlichen Abläufe zu analysieren vorzubereiten.</p><p class="jove_title"> 2. Starten Sie Ihren Web-Browser und eine Verbindung mit dem URL:<a href="http://genie.dartmouth.edu/SCOPE/"> Http://genie.dartmouth.edu/SCOPE/</a</p><p class="jove_title"> 3. Geben Sie die Informationen, die SCOPE muss die Analyse durchzuführen.</p><p class="jove_content"> Das erste SCOPE-Seite ist in Abbildung 1 dargestellt. Verschiedene Abschnitte sind in diesem Schritt gerichtet.</p><ol><li> Verwenden Sie "Species" Popup-Menü auf die Arten, die Sie werden untersucht werden wählen. Es ist wichtig, die richtige Art zu wählen, weil SCOPE bezieht sich auf das Genom in den Hintergrund Häufigkeiten für jeden Kandidaten Motiv ist die Prüfung zu berechnen.</li><li> Verwenden Sie "Upstream-Sequenz" Radio-Buttons, um entweder intergenischen oder fester Länge wählen. Intergenischen alle die Sequenz zwischen der Gen sind Sie bei uns und das vorherige (upstream)-Gen zu analysieren. Dies bedeutet, dass unterschiedliche Upstream-Längen für verwendet werden jedes Gen. Auswahl fester Länge wird auf genau die Anzahl der Nukleotide stromaufwärts vom Beginn des aktuellen Gen-Look. In diesem Fall SCOPE wird die gleiche Länge von Upstream-Sequenz für jedes Gen zu untersuchen, auch wenn es erstreckt sich in den letzten Gen (oder nicht). Typischerweise ist 800 nts die beste Länge zu wählen, aber dies kann mit Arten variieren.</li><li> Weiter sagen SCOPE, was Gen gesetzt, um entweder zu analysieren durch Einfügen in Ihre Gen-Liste in das Gen Liste Textfeld oder durch Drücken der "choose file", um die Datei mit der Liste von Genen, die Sie zuvor erstellt haben wählen. Sie können alternativ in einer FASTA-Sequenz-Datei in demselben Textfeld einfügen.</li><li> Der nächste Abschnitt der Seite enthält eine Checkbox für "Untersuchen Genoms für andere Gene enthalten, gefunden Motiv (e)?" Diese Option kann add erhebliche Analyse Mal seit SCOPE hat zu jedem anderen Gens im Genom zu bewerten. Dies kann jedoch sehr nützlich sein, in dem andere Gene, die gute Kandidaten für die Gene in der Startelf Gen gesetzt co-reguliert werden. Da SCOPE Analysen relativ schnell sind, wird vorgeschlagen, dass Sie diese Funktion deaktivieren lassen in Ihrem ersten Analyse. Es kann immer auf der Seite der Ergebnisliste gedreht werden, um die Analyse erneut, wie bereits im Abschnitt der Ergebnisse.</li><li> Die "Ergebnisse müssen" Abschnitt kann verwendet werden, um ein Motiv, das Sie SCOPE in ihre Analyse einbeziehen einzugeben. Vielleicht möchten Sie dies tun, wenn Sie ein bestimmtes Motiv suchen.</li><li> Der letzte Abschnitt auf der Seite können Sie Ihre E-Mail-Adresse und einen Kommentar mit der Analyse gespeichert werden einzugeben. Wenn diese ausgefüllt ist, wird SCOPE eine E-Mail mit einem Link auf die Webseite mit den Ergebnissen zu senden, und es wird auch zwei Anhänge. One ist eine einfache Textdatei, die alle Analyse-Ergebnisse in für Menschen lesbaren Format hat. Die zweite Anlage enthält eine XML-Datei, dass jedes Ergebnis, dass SCOPE wurde in einem Computer lesbaren Format gefunden hat. Wenn Sie einige zusätzliche Analyse der Ergebnisse wollen, ist der XML-Datei sehr nützlich. Beide Dateien sind "gezippt", bevor sie mit der E-Mail zugeschickt.</li><li> Für diese Demo, werden wir mit den gleichen Informationen starten. Dies kann leicht durch Drücken der 'Sample Search "-Taste, die in die notwendigen Informationen zu füllen erreicht werden. Drücken Sie diese Taste nun. Drei Gene für Sie und die richtigen Entscheidungen für die anderen Felder aus eingegeben werden. Lassen Sie diese, wie sie gesetzt sind. Die drei Gene sind in Telomererhaltung beteiligt<em> Saccharomyces cerevisiae</em>. Das ausgefüllte Formular ist in Abbildung 2 dargestellt. Drücken Sie die 'Run SCOPE "-Button am unteren Rand der Seite, um die Analyse zu starten.</li></ol><p class="jove_title"> 4. Repräsentative Ergebnisse:</p><p class="jove_content"> Die wichtigsten Ergebnisse der Analyse sind in Abbildung 3 dargestellt. Der obere Teil der Seite enthält eine Tabelle mit Informationen über die Motive, die von SCOPE gefunden wurden. Die erste Spalte enthält eine Liste der Motive, die nachgewiesen wurden und die kleinen farbigen Quadraten dienen als eine Legende für die grafische Motiv Karte unten gezeigt. Die Anzeige eines beliebigen Motivs kann ein-oder ausschalten, indem Sie in das Farbfeld (oder wo die farbigen Kästchen wäre) umgeschaltet werden. Dies kann sehr nützlich sein, um die Anzeige von hoch wiederholte Motive, die es schwierig machen, die weniger verbreitet Motivvorlagen sehen könnte verstecken.</p><p class="jove_content"> Andere Spalten mit Daten sind Count (Anzahl der Vorkommen dieses Motiv in die gesamte Gen-Set), Sig-Wert (ein Hinweis auf die Bedeutung dieses Motivs), Coverage (der Prozentsatz der eingereichten Gene, die mindestens eine Instanz des enthalten dieses Motiv) und Algorithm (welches der drei Komponenten Algorithmen verwendet wurde, um das Motiv zu erkennen).</p><p class="jove_content"> Klick auf eines der aufgeführten Motive wird der Benutzer auf eine Seite mit detaillierten Informationen zu diesem Motiv zu nehmen. Die Ergebnisse Details sind für die Cyan-Motiv (atgnnnnttg) in Abbildung 4 dargestellt. Eine Sequenz-Logo, eine Position, Gewicht Matrix und eine Liste aller Motiv-Instanzen mit ihren Positionen, Litzen und Gene: Auf dieser Seite wird das Motiv in drei Arten vertreten.</p><p class="jove_content"> Ein wenig weiter unten auf der Seite sind einige zusätzliche Details über die Ergebnisse der Suche nach weiteren Genen mit diesem Motiv. Wie man sehen kann, in diesem Fall gab es 1344 andere Gene, die das Motiv, die alle tatsächlich verbessert die Sig-Wert, wenn der ursprüngliche Gen hinzugefügt. Durch Drücken von 'Add überprüft Genen zu suchen "wird die SCOPE Setup-Seite mit diesen Genen wieder hinzugefügt, um das ursprüngliche Gen gesetzt und die Parameter eingestellt, wie sie vorher waren. In diesem Fall werden 10 zusätzliche Gene in die ursprünglichen drei aufgenommen.</p><p class="jove_content"> Abbildung 5 zeigt die Ergebnisse der Analyse mit den zusätzlichen Genen für dieses Motiv. Die ursprünglichen drei Gene sind an der Unterseite der Ergebnisse (in Kleinbuchstaben). Mit Blick auf das Muster der Motive in den vorgelagerten Bereich dieser zusätzlichen Gene zeigt deutlich, dass sie ähnlich sind. In der Tat sind viele dieser Gene in Telomererhaltung beteiligt, wie waren die ursprünglichen drei Gene. Beachten Sie auch, dass das ursprüngliche Motiv ist jetzt mit den höchsten Punktzahlen Motiv in diesem Set.</p><p class="jove_content"> Ein weiterer Satz von SCOPE Ergebnisse ist in Abbildung 6 dargestellt. In diesem Fall sind die Menge der Gene diejenigen, die in Ribosomenbiogenese in Saccharomyces cerevisiae beteiligt sind. Diese Gene sind nicht wirklich Teil des Ribosoms, sind aber verantwortlich für die Zusammenstellung Ribosomen und beinhalten eine Reihe von Änderungen Enzyme. Klar ist in der Abbildung ist, dass die roten und grünen Motive eine zuverlässige Muster, die wahrscheinlich in Regulation der Gene in diesem Set beteiligt ist Form. Wir untersuchen dieses Muster von "Modulen" im Detail und wird auf sie in einer späteren Veröffentlichung berichten.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig1.jpg" alt="Figure 1"><strong> Abbildung 1</strong>. Main-SCOPE-Eingang zu sehen. Diese Seite wird verwendet, um die Gene analysiert werden zu betreten und die Arten zu definieren und die Länge der Upstream-Bereich untersucht werden. Optional kann der Anwender die Ergebnisse per E-Mail anfordern oder beschränken Sie die Suche auf einem festgelegten Motiv. Video-Hilfe ist ebenfalls verfügbar.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig2.jpg" alt="Figure 2"><strong> Abbildung 2</strong>. Main-SCOPE-Eingang Seite mit den Werten in für eine Suche durchführen gefüllt. Diese Parameter sind das Ergebnis einer Betätigung der 'Sample Suche "klicken. In diesem Fall ist das Kontrollkästchen, um andere Gene, die die Motive von SCOPE gefunden finden überprüft. Diese Option dauert länger zu berechnen (jedes Gen in das Genom zu prüfen ist), kann aber interessante Einblicke bieten.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig3.jpg" alt="Figure 3"><strong> Abbildung 3</strong>. Main-SCOPE Ergebnisseite. Diese Seite fasst die Ergebnisse der SCOPE suchen. Eine Liste aller high scoring Motive vorgesehen ist und eine farbkodierte Motiv Karte zeigt die Positionierung der identifizierten Motive im Set von Genen analysiert. Mit einem Klick auf einen farbigen Kästchen neben einem Motiv wird die Anzeige des Motivs ein-oder ausschalten in dem Motiv Karte. Neben einer Bedeutung Score (Sig-Wert), der Anteil der Gene, die das Motiv (Abdeckung), und der Algorithmus verwendet, um das Motiv zu finden sind ebenfalls vorhanden.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig4_1.jpg" alt="Figure 4 top"><img src="/files/ftp_upload/2703/2703fig4_2.jpg" alt="Figure 4 bottom"> Abbildung 4</strong>. Dies führt Detail Seite ist, wenn ein bestimmtes Motiv in die wichtigsten Ergebnisse Seite geklickt wird gebracht. Es zeigt Details der einzelnen Motiv. Die Sequenz-Logo, die Position Gewichtsmatrix und der Konsensus-Sequenz repräsentieren jeweils eine andere Art von Zusammenfassung der Liste der Motiv-Instanzen auch auf der Seite. Da 'finden zusätzliche Gene "in der ursprünglichen Suche Setup überprüft wurde, gibt es auch Informationen auf dieser Seite über alle anderen Gene im Genom, die dieses Motiv enthalten. Von dieser Seite aus ist es auch möglich, einen anderen Bereich laufen auch die zusätzlichen Gene auf dieser Seite identifiziert zu starten.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig5.jpg" alt="Figure 5"> Abbildung 5</strong>. Diese Abbildung zeigt die Ergebnisse der Suche nach zusätzlichen Gene für das Motiv "atgnnnnttg" in Abbildung 4 dargestellt. Die ursprünglichen drei Gene sind in Kleinbuchstaben an der Unterseite des Motivs Karte. Die zusätzlichen Gene sind in Großbuchstaben dargestellt. Es ist ein klares Muster der Motive in den vorgelagerten Regionen dieser Gene. Beachten Sie auch, dass das angegebene Motiv eines Algorithmus als "LOOKUP 'zeigt, denn das ist, wie es identifiziert wurde. Tatsächlich entspricht die 5<sup> Th</sup> Motiv von SPACER in dieser Analyse gefunden.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig6.jpg" alt="Figure 6"> Abbildung 6</strong>. SCOPE-Ausgang für Gene in Ribosomenbiogenese in Saccharomyces cerevisiae beteiligt. Beachten Sie die konservierten Muster der Module, bestehend aus den Motiven "aaawtttbh '(rot) und' abctcatcd '(grün), getrennt durch etwa 10-30 nts und Gegenwart bei 100-200 Nukleotide stromaufwärts der Transkription beginnen für das Gen.</p>

Discussion

SCOPE stellt der Forscher mit einem leistungsfähigen Werkzeug für die Identifizierung von möglichen regulatorischen Motive in Mengen von koordinativ regulierten Gene zu verwenden. Der Anwender ist nicht erforderlich, um die Größe des Motivs oder die Anzahl der Vorkommen des Motivs wie viele andere Motive finden Sites erfordern erraten. Diese Parameter sind grundsätzlich unerkennbar, bis das Motiv erkannt wird. Das Interface ist sehr einfach sowohl für die Eingabe-Sequenzen oder Gen-Namen und für die Anzeige der Ausgabe.

SCOPE-Ausgang liefert detaillierte Informationen über alle Motive, die identifiziert werden, mit drei verschiedenen Arten von Motiv-Darstellung. Jede Instanz des Motivs in alle Gene mit Position und "Strang" aufgeführten Informationen. Grafische Ergebnisdarstellung in Form von Motiv-Karten bieten eine optische Anzeige, die einfach zu verstehen ist, und bietet eine intuitive Art und Weise, um Muster in den Motiven, die vorhanden sind zu sehen.

SCOPE ist sehr robust, um die Anwesenheit von Rauschen in den Daten. Typischerweise geschieht dies in Form von zusätzlichen Gene in der Startaufstellung, die nicht vielleicht tatsächlich mit dem Rest der Gene co-reguliert werden. Dies geschieht häufig, wenn beginnend mit Genen, die in Microarray-Experimenten co-exprimiert. Manchmal ist das Experiment ist laut, oder es können verschiedene Transkriptionsfaktoren in den experimentellen Bedingungen für die Microarray-Experiment verwendeten aktiviert werden. Diese verschiedenen Transkriptionsfaktoren wird wahrscheinlich je nach Zielort auf der DNA. Selbst in Gegenwart von 4-fach-fremde Gene (Lärm: Signal-Verhältnis ist 4:1), ist SCOPE noch hält 50% der Genauigkeit in der Vorhersage Seiten 1.

Obwohl SCOPE enthält über 2 Millionen Synonyme für Gen-Namen, es geht manchmal nicht, um einige Gene Namen zu identifizieren. Wir aktualisieren ständig unsere Synonym-Listen, aber manchmal feststellen, dass verschiedene Synonyme für das gleiche Gen verweisen. In diesen Fällen haben wir nicht die Synonyme wegen der Mehrdeutigkeit. Wenn Sie ein Gen Namen, die nicht von SCOPE gefunden haben, ist es empfehlenswert, dass Sie das Genom spezifischen Ort beziehen sich auf eine alternative Gen Namen in SCOPE Verwendung finden. Beispiele für entsprechende Gen-Namen für jede Art von SCOPE zur Verfügung gestellt.

SCOPE umfasst derzeit 72 Arten mit neuen Arten die ganze Zeit aufgenommen. Die Website enthält Video sowie FAQs helfen. Der Quellcode ist frei verfügbar für akademische Nutzer, indem er an RHG.

Divulgaciones

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde durch ein Stipendium der National Science Foundation, DBI-0445967 RHG unterstützt.

Referencias

  1. Chakravarty, A., Carlson, J. M., Khetani, R. S., Gross, R. H. A novel ensemble learning method for de novo computational identification of DNA binding sites. BMC Bioinformatics. 8, 249-249 (2007).
  2. Carlson, J. M., Chakravarty, A., DeZiel, C. E., Gross, R. H. SCOPE: a web server for practical de novo motif discovery. Nucleic Acids Res. 35, 259-264 (2007).
  3. Blom, E. J., Roerdink, J. B., Kuipers, O. P., Hijum, S. A. v. a. n. MOTIFATOR: detection and characterization of regulatory motifs using prokaryote transcriptome data. Bioinformatics. 25, 550-551 (2009).
  4. Blom, E. J. DISCLOSE : DISsection of CLusters Obtained by SEries of transcriptome data using functional annotations and putative transcription factor binding sites. BMC Bioinformatics. 9, 535-535 (2008).
  5. Bushey, A. M., Ramos, E., Corces, V. G. Three subclasses of a Drosophila insulator show distinct and cell type-specific genomic distributions. Genes Dev. 23, 1338-1350 (2009).
  6. Znaidi, S. Identification of the Candida albicans Cap1p regulon. Eukaryot Cell. 8, 806-820 (2009).
  7. Sharma, D., Mohanty, D., Surolia, A. RegAnalyst: a web interface for the analysis of regulatory motifs, networks and pathways. Nucleic Acids Res. 37, W193-W201 (2009).
  8. Znaidi, S. Genomewide location analysis of Candida albicans Upc2p, a regulator of sterol metabolism and azole drug resistance. Eukaryot Cell. 7, 836-847 (2008).
  9. Carlson, J., Chakravarty, A., Gross, R. B. E. A. M. A beam search algorithm for the identification of cis-regulatory elements in groups of genes. J Comput Biol. 13, 686-701 (2006).
  10. Carlson, J., Chakravarty, A., Khetani, R., Gross, R. Bounded search for de novo identification of degenerate cis-regulatory elements. BMC Bioinformatics. 7, 254-254 (2006).
  11. Chakravarty, A., Carlson, J. M., Khetani, R. S., DeZiel, C. E., Gross, R. H. SPACER: identification of cis-regulatory elements with non-contiguous critical residues. Bioinformatics. 23, 1029-1031 (2007).

Play Video

Citar este artículo
Martyanov, V., Gross, R. H. Using SCOPE to Identify Potential Regulatory Motifs in Coregulated Genes. J. Vis. Exp. (51), e2703, doi:10.3791/2703 (2011).

View Video