Summary

Utilizzando SCOPE per identificare potenziali Motivi regolamentari in geni Coregulated

Published: May 31, 2011
doi:

Summary

Un metodo straight-forward e robusto per identificare potenziali motivi di regolamentazione geni co-regolati è presentato. SCOPE non richiede alcun parametro utente e motivi ritorni che rappresentano ottimi candidati per i segnali regolamentari. L'identificazione di tali segnali regolatori aiuta a comprendere la biologia di base.

Abstract

SCOPE è un mirino motivo ensemble che utilizza tre algoritmi di componenti in parallelo per identificare i potenziali motivi di regolamentazione da parte sovra-rappresentazione e la posizione preferenza motivo 1. Ogni componente algoritmo è ottimizzato per trovare un diverso tipo di motivo. Prendendo il meglio di questi tre approcci, ambito di applicazione si comporta meglio di qualsiasi algoritmo unico, anche in presenza di dati rumorosi 1. In questo articolo, utilizziamo una versione web di SCOPE 2 per esaminare i geni che sono coinvolti nella conservazione dei telomeri. SCOPE è stata incorporata in almeno due altro motivo trovare programmi 3,4 ed è stato utilizzato in altri studi 5-8.

I tre algoritmi che compongono SCOPE BEAM sono 9, che trova non degeneri motivi (ACCGGT), PRISM 10, che trova degenerare motivi (ASCGWT), e DISTANZIALE 11, che trova motivi più bipartito (ACCnnnnnnnnGGT). Questi tre algoritmi sono stati ottimizzati per trovare la loro corrispondente tipo di motivo. Insieme, essi permettono SCOPE per svolgere molto bene.

Una volta che un set di geni è stata analizzata e motivi candidato individuato, CAMPO DI APPLICAZIONE possono cercare altri geni che contengono il motivo che, se aggiunto al set originale, migliorerà il punteggio motivo. Questo può avvenire attraverso sovra-rappresentazione o la posizione preferenza motivo. Lavorare con i set di geni parziali che sono biologicamente verificato siti di legame fattore di trascrizione, ambito di applicazione è stata in grado di identificare la maggior parte del resto dei geni regolati anche dal fattore di trascrizione dato.

Uscita dal campo di applicazione mostra motivi candidato, il loro significato, e altre informazioni, sia come una tabella e una mappa come motivo grafico. Domande e tutorial video sono disponibili sul sito web SCOPE che comprende anche un "Cerca di esempio" pulsante che permette all'utente di effettuare un giro di prova.

Ambito di applicazione è un'interfaccia utente molto amichevole che consente agli utenti inesperti di accedere piena potenza dell'algoritmo senza dover diventare un esperto in bioinformatica di trovare motivo. Come input, ambito di applicazione può richiedere un elenco di geni o le sequenze FASTA. Questi possono essere inseriti in campi di testo del browser, o leggere da un file. L'uscita dal campo di applicazione contiene un elenco di tutti i motivi identificati con i loro punteggi, il numero di occorrenze, frazione di geni contenenti il ​​motivo, e l'algoritmo utilizzato per identificare il motivo. Per ogni motivo, i dettagli risultato comprende una rappresentazione consenso del motivo, un logo sequenza, una matrice di peso posizione, e un elenco di istanze per ogni occorrenza motivo (con posizioni esatte e "filone" indicato). I risultati sono restituiti in una finestra del browser e anche opzionalmente via email. Precedenti lavori descrivere gli algoritmi in dettaglio 1,2,9-11 SCOPE.

Protocol

<p class="jove_title"> 1. Preparare un elenco di nomi di geni che si ritiene siano co-regolati per l'analisi di SCOPE.</p><p class="jove_content"> Salva l'elenco come un file di testo o copiarlo negli appunti per incollarlo in SCOPE al punto 3. Il file deve contenere un nome gene per riga senza informazioni aggiuntive. In alternativa, è possibile preparare la lista in formato FASTA contenente le sequenze reali da analizzare.</p><p class="jove_title"> 2. Avviare il browser Web e connettersi alla URL:<a href="http://genie.dartmouth.edu/SCOPE/"> Http://genie.dartmouth.edu/SCOPE/</a</p><p class="jove_title"> 3. Immettere le informazioni che SCOPE deve eseguire l'analisi.</p><p class="jove_content"> La pagina iniziale SCOPE è mostrata in Figura 1. Diverse sezioni sono affrontati in questo passaggio.</p><ol><li> Utilizza il menu a comparsa 'specie' di scegliere la specie si esaminerà. E 'importante scegliere la specie giusta perché SCOPE si riferisce al genoma di calcolare le frequenze di fondo di occorrenza per qualsiasi motivo candidato si sta esaminando.</li><li> Utilizzare il 'monte sequenza "pulsanti radio per scegliere intergeniche o lunghezza fissa. Intergeniche analizzerà tutta la sequenza del gene tra che stai cercando e il precedente (a monte) del gene. Ciò significa che diverse lunghezze a monte saranno utilizzati per ogni gene. Scegliendo lunghezza fissa sarà esattamente lo stesso numero di nucleotidi a monte dall'inizio del gene in corso. In questo caso, SCOPE esaminerà la stessa lunghezza della sequenza a monte di ogni gene, anche se che si estende nel gene precedente (o non). Tipicamente, 800 nti è la miglior lunghezza di scegliere, ma questo può variare con la specie.</li><li> Avanti dire ENTITÀ cosa gene impostato per analizzare sia da incollare nella tua lista gene nella casella di testo gene lista, o premendo il pulsante 'scegliere file' per selezionare il file contenente l'elenco dei geni creato in precedenza. Si può, in alternativa, incollare in un file sequenza FASTA nella casella di testo stesso.</li><li> La sezione successiva della pagina contiene una casella di controllo per 'Esaminare genoma di altri geni contenenti motivo trovato (s)?' Questa opzione può aggiungere molto tempo da quando l'analisi ambito di applicazione deve valutare ogni altro gene nel genoma. Tuttavia, questo può essere molto utile per identificare altri geni che sono buoni candidati per essere co-regolati con i geni nel set di geni di partenza. Dal momento che le analisi SCOPE sono relativamente veloce, si consiglia di lasciare questa via per l'analisi iniziale. Si può sempre essere attivata dalla pagina dei risultati per eseguire nuovamente l'analisi, come spiegato nella sezione risultati.</li><li> Il 'I risultati devono comprendere' sezione può essere utilizzata per inserire un motivo che si desidera SCOPE per includere nella sua analisi. Si potrebbe desiderare di fare questo se siete alla ricerca di un motivo specifico.</li><li> L'ultima sezione della pagina può essere utilizzato per inserire il tuo indirizzo email e un commento da salvare con l'analisi. Se questo è compilato, CAMPO DI APPLICAZIONE invierà una e-mail con un link alla pagina web contenente i risultati, e comprenderà anche due allegati. Uno è un file di testo che contiene tutti i risultati dell'analisi in formato leggibile. Il secondo allegato contiene un file XML che ha ogni risultato che SCOPE ha trovato in un formato su supporto informatico. Se si vuole fare un po 'ulteriori analisi sui risultati, il file XML è molto utile. Entrambi i file sono "zippati" prima di essere inviato con la posta elettronica.</li><li> Per questa demo, si inizierà con le stesse informazioni. Questo può essere facilmente raggiunto premendo il tasto 'Cerca Sample' pulsante che riempirà le informazioni necessarie. Premendo questo pulsante ora. Tre geni verranno inseriti per voi e scelte appropriate fatte per gli altri campi. Lasciare come sono impostati. I tre geni sono coinvolti nella conservazione dei telomeri in<em> Saccharomyces cerevisiae</em>. Il modulo compilato è illustrato nella figura 2. Premere il pulsante 'SCOPE Run' in fondo alla pagina per avviare l'analisi.</li></ol><p class="jove_title"> 4. Rappresentante dei risultati:</p><p class="jove_content"> I principali risultati dell'analisi sono mostrati in Figura 3. La parte superiore della pagina contiene una tabella di informazioni sui motivi che sono stati trovati da SCOPE. La prima colonna contiene un elenco di motivi che sono stati trovati e piccoli quadrati colorati servono come una leggenda per la mappa motivo grafico riportato di seguito. La visualizzazione di qualsiasi motivo, può essere attivata o disattivata, cliccando nella casella colorata (o dove la casella colorata sarebbe). Questo può essere molto utile per nascondere la visualizzazione di motivi altamente ripetuto, che potrebbe rendere difficile vedere i modelli motivo meno diffuso.</p><p class="jove_content"Colonne> Altri dati sono conte (il numero di occorrenze di quel motivo nella intero set di geni), il valore di Sig (l'indicazione del significato di tale motivo), copertura (la percentuale dei geni ha sostenuto che contengono almeno una istanza di che motivo), e Algoritmo (quale dei tre algoritmi componente è stato utilizzato per rilevare il motivo).</p><p class="jove_content"> Cliccando su uno qualsiasi dei motivi elencati si terrà l'utente a una pagina contenente le informazioni dettagliate per questo motivo. I dettagli sono riportati i risultati per il motivo ciano (atgnnnnttg) in Figura 4. In questa pagina, il motivo è rappresentato in tre modi: un logo sequenza, una matrice di peso posizione, e un elenco di tutte le istanze motivo con le loro posizioni, trefoli e geni.</p><p class="jove_content"> Un po 'più in basso nella pagina sono alcuni dettagli aggiuntivi sui risultati della ricerca di altri geni contenenti questo motivo. Come si può vedere, in questo caso ci sono stati 1344 altri geni contenenti il ​​motivo, che effettivamente ha migliorato il valore Sig. quando aggiunto alla serie gene originale. Premendo 'Aggiungi geni controllati per cercare' tornerà alla pagina di configurazione SCOPE con questi geni aggiunti al set gene originale e i parametri impostati come erano in precedenza. In questo caso, 10 geni aggiuntiva a quella originale tre.</p><p class="jove_content"Figura> 5 mostra i risultati delle analisi che contiene i geni extra per questo motivo. L'originale tre geni si trovano sul fondo dei risultati (in minuscolo). Guardando il modello di motivi nella regione a monte di questi geni in più mostra chiaramente che essi sono simili. In realtà, molti di questi geni sono coinvolti nella conservazione dei telomeri così come le originali tre geni. Si noti inoltre che il motivo originale è ora il motivo punteggio più alto in questo set.</p><p class="jove_content"> Un'altra serie di risultati SCOPE è mostrata in Figura 6. In questo caso, l'insieme di geni sono quelli che sono coinvolti nella biogenesi dei ribosomi in Saccharomyces cerevisiae. Questi geni non sono in realtà parte del ribosoma, ma sono responsabili per l'assemblaggio ribosomi e comprendono un certo numero di enzimi modifica. Ciò che è chiaro nella figura è che i motivi rossi e verdi formano un modello affidabile che possa essere coinvolto nella regolazione dei geni in questo set. Stiamo indagando questo modello di "moduli" in modo più dettagliato e riferirà su di essa in una pubblicazione successiva.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig1.jpg" alt="Figure 1"/<br /><strong> Figura 1</strong>. SCOPE pagina principale di ingresso. Questa pagina è utilizzata per inserire i geni da analizzare e definire le specie e la lunghezza della regione a monte da esaminare. Opzionalmente, l'utente può richiedere i risultati via e-mail o limitare la ricerca a qualsiasi motivo specificato. Guida di Video è inoltre disponibile.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig2.jpg" alt="Figure 2"/<br /><strong> Figura 2</strong>. Pagina principale di ingresso SCOPE con valori compilato per eseguire una ricerca. Questi parametri sono il risultato di premere il pulsante 'Ricerca campione'. In questo caso, la casella di controllo per trovare altri geni che contiene i motivi trovato da SCOPE è verificata. Questa opzione richiede più tempo di calcolo (ogni gene nel genoma deve essere esaminato), ma può fornire spunti interessanti.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig3.jpg" alt="Figure 3"/<br /><strong> Figura 3</strong>. Scopo principale pagina dei risultati. Questa pagina riassume i risultati della ricerca SCOPE. Un elenco di tutti i motivi punteggio alto è fornito e una Mappa del motivo del colore mostra il posizionamento dei motivi individuati nel set di geni analizzati. Cliccando su una casella colorata accanto a un motivo per alternare la visualizzazione di tale motivo di acceso o spento nella mappa motivo. Oltre ad un punteggio significato (valore Sig), la frazione di geni contenenti il ​​motivo (copertura), e l'algoritmo utilizzato per trovare quel motivo sono anche previste.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig4_1.jpg" alt="Figure 4 top"/<br /><img src="/files/ftp_upload/2703/2703fig4_2.jpg" alt="Figure 4 bottom"/<br /<strong> Figura 4</strong>. Questo dettaglio i risultati pagina è cresciuto quando un motivo specifico si fa clic nella pagina principale dei risultati. Essa mostra i dettagli del motivo individuale. Il logo sequenza, la matrice dei pesi posizione, e la sequenza consenso rappresentano ciascuno un diverso tipo di sintesi l'elenco delle istanze motivo anche sulla pagina. Dal momento che 'trovare i geni in più' è stato controllato nel setup di ricerca originale, c'è anche informazioni su questa pagina su qualsiasi altri geni del genoma che contengono questo motivo. Da questa pagina è anche possibile iniziare un altro run SCOPE tra cui i geni supplementari identificate in questa pagina.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig5.jpg" alt="Figure 5"/<br /<strong> Figura 5</strong>. Questa figura mostra i risultati di ricerca di geni in più per 'atgnnnnttg' il motivo indicato in Figura 4. L'originale tre geni sono in minuscolo alla base della mappa motivo. I geni aggiuntivi sono riportati in maiuscolo. Vi è un chiaro modello per i motivi nelle regioni a monte di questi geni. Si noti anche che il motivo indicato mostra un algoritmo come 'CERCA' perché è così che è stato identificato. Corrisponda effettivamente a 5<sup> °</supMotivo> trovato da DISTANZIALE in questa analisi.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig6.jpg" alt="Figure 6"/<br /<strong> Figura 6</strong>. Uscita SCOPE per geni coinvolti nella biogenesi dei ribosomi in Saccharomyces cerevisiae. Notare il modello conservato di moduli costituiti da 'aaawtttbh' i motivi (rosso) e 'abctcatcd' (verde) separati da circa 10-30 nti e presente a 100-200 nucleotidi a monte di inizio della trascrizione per il gene.</p

Discussion

SCOPE offre al ricercatore un potente strumento da utilizzare per l'identificazione di potenziali motivi regolamentari in set di geni regolati coordinatamente. L'utente non è tenuto a indovinare le dimensioni del motivo o il numero di occorrenze del motivo ben altro motivo trovare siti richiedono. Questi parametri sono sostanzialmente inconoscibile fino a quando il motivo è identificato. L'interfaccia è molto semplice, sia per l'inserimento di sequenze di geni o di nomi e per vedere l'uscita.

Uscita SCOPE fornisce informazioni dettagliate su tutti i motivi che sono identificate, utilizzando tre diversi modi di rappresentazione motivo. Ogni istanza del motivo in tutti i geni è presente con la posizione e le informazioni "filone". Risultati grafici sotto forma di mappe motivo a fornire una rappresentazione visiva che è facile da capire e fornisce un modo intuitivo per vedere i modelli nei motivi che sono presenti.

SCOPE è molto robusto per la presenza di rumore nei dati. In genere, questa assume la forma di geni in più essere presente nel set di partenza che non potrebbe in realtà essere co-regolati con il resto dei geni. Questo accade spesso quando si inizia con i geni che sono co-espressi in esperimenti di microarray. A volte l'esperimento è rumoroso, o ci possono essere numerosi fattori di trascrizione attivati ​​nelle condizioni sperimentali utilizzati per l'esperimento microarray. Questi diversi fattori di trascrizione dovrà probabilmente diversi siti bersaglio sul DNA. Anche in presenza di geni estranei di 4 volte (rumore: rapporto segnale è 4:1), SCOPE è conserva ancora il 50% della sua accuratezza nel predire siti 1.

Sebbene ambito contiene oltre 2 milioni di sinonimi per i nomi dei geni, non riesce a volte a identificare alcuni nomi di geni. Stiamo aggiornando costantemente le nostre liste sinonimo, ma a volte trovare sinonimi che si riferiscono a diversi dello stesso gene. In questi casi, non includono i sinonimi causa dell'ambiguità. se hai un nome del gene che non si trova da portata, si consiglia di consultare il sito specifico del genoma per trovare un nome alternativo da utilizzare in gene SCOPE. Esempi di nomi gene appropriate per ogni specie sono forniti da SCOPE.

Ambito contiene attualmente 72 specie con nuove specie che viene aggiunto per tutto il tempo. Il sito web contiene video di aiutare così come FAQ. Il codice sorgente è liberamente disponibile per gli utenti accademica scrivendo a RHG.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Questa ricerca è stata sostenuta da una sovvenzione per RHG dalla National Science Foundation, DBI-0445967.

References

  1. Chakravarty, A., Carlson, J. M., Khetani, R. S., Gross, R. H. A novel ensemble learning method for de novo computational identification of DNA binding sites. BMC Bioinformatics. 8, 249-249 (2007).
  2. Carlson, J. M., Chakravarty, A., DeZiel, C. E., Gross, R. H. SCOPE: a web server for practical de novo motif discovery. Nucleic Acids Res. 35, 259-264 (2007).
  3. Blom, E. J., Roerdink, J. B., Kuipers, O. P., Hijum, S. A. v. a. n. MOTIFATOR: detection and characterization of regulatory motifs using prokaryote transcriptome data. Bioinformatics. 25, 550-551 (2009).
  4. Blom, E. J. DISCLOSE : DISsection of CLusters Obtained by SEries of transcriptome data using functional annotations and putative transcription factor binding sites. BMC Bioinformatics. 9, 535-535 (2008).
  5. Bushey, A. M., Ramos, E., Corces, V. G. Three subclasses of a Drosophila insulator show distinct and cell type-specific genomic distributions. Genes Dev. 23, 1338-1350 (2009).
  6. Znaidi, S. Identification of the Candida albicans Cap1p regulon. Eukaryot Cell. 8, 806-820 (2009).
  7. Sharma, D., Mohanty, D., Surolia, A. RegAnalyst: a web interface for the analysis of regulatory motifs, networks and pathways. Nucleic Acids Res. 37, W193-W201 (2009).
  8. Znaidi, S. Genomewide location analysis of Candida albicans Upc2p, a regulator of sterol metabolism and azole drug resistance. Eukaryot Cell. 7, 836-847 (2008).
  9. Carlson, J., Chakravarty, A., Gross, R. B. E. A. M. A beam search algorithm for the identification of cis-regulatory elements in groups of genes. J Comput Biol. 13, 686-701 (2006).
  10. Carlson, J., Chakravarty, A., Khetani, R., Gross, R. Bounded search for de novo identification of degenerate cis-regulatory elements. BMC Bioinformatics. 7, 254-254 (2006).
  11. Chakravarty, A., Carlson, J. M., Khetani, R. S., DeZiel, C. E., Gross, R. H. SPACER: identification of cis-regulatory elements with non-contiguous critical residues. Bioinformatics. 23, 1029-1031 (2007).

Play Video

Cite This Article
Martyanov, V., Gross, R. H. Using SCOPE to Identify Potential Regulatory Motifs in Coregulated Genes. J. Vis. Exp. (51), e2703, doi:10.3791/2703 (2011).

View Video