Summary

Met behulp van SCOPE om potentiële regulatorische motieven in Coregulated genen te identificeren

Published: May 31, 2011
doi:

Summary

Een straight-forward en robuuste methode om potentiële regulatorische motieven in co-gereguleerde genen te identificeren is gepresenteerd. SCOPE vereist geen gebruiker parameters en keert terug motieven die uitstekende kandidaten vertegenwoordigen voor de regelgeving signalen. De identificatie van dergelijke regulerende signalen helpt bij het begrijpen van de onderliggende biologie.

Abstract

SCOPE is een ensemble motief finder dat drie component algoritmes gebruikt in parallel met potentiële regulatorische motieven te identificeren door over-vertegenwoordiging en motief positie voorkeur 1. Elke component algoritme is geoptimaliseerd om een ​​ander soort motief te vinden. Door het nemen van de beste van deze drie benaderingen, SCOPE beter presteert dan een enkel algoritme, zelfs in de aanwezigheid van lawaaiige gegevens 1. In dit artikel maken we gebruik van een web-versie van SCOPE 2 tot en met genen die betrokken zijn bij telomeren onderhoud te onderzoeken. SCOPE is opgenomen in ten minste twee andere motief vinden van programma's 3,4 en is gebruikt in andere studies 5-8.

De drie algoritmen die SCOPE bevat zijn BEAM 9, waarbij niet-ontaarde motieven (ACCGGT) vindt, PRISM 10, die vindt ontaarden motieven (ASCGWT), en SPACER 11, die langere bilaterale motieven (ACCnnnnnnnnGGT) vindt. Deze drie algoritmen zijn geoptimaliseerd om de bijbehorende type motief te vinden. Samen laten ze SCOPE tot zeer goed te presteren.

Zodra een gen set is geanalyseerd en de kandidaat-motieven geïdentificeerd, kan SCOPE op zoek naar andere genen die het motief dat, wanneer toegevoegd aan het origineel, zal het motief score te verbeteren bevatten. Dit kan gebeuren door middel van over-vertegenwoordiging of motief positie voorkeur. Werken met een gedeeltelijke genen sets die biologisch hebt gecontroleerd transcriptiefactor bindingsplaatsen, was SCOPE staat om de meeste van de rest van de genen die ook geregeld door de gegeven transcriptiefactor te identificeren.

Uitvoer van SCOPE toont de kandidaat-motieven, hun betekenis en andere informatie zowel als tafel en als een grafische motief kaart. FAQ's en video-tutorials zijn beschikbaar op de SCOPE website die ook een "Sample Search"-knop waarmee de gebruiker het uitvoeren van een proef.

Scope heeft een zeer gebruiksvriendelijke interface die beginnende gebruikers in staat stelt om het algoritme de volledige kracht toegang zonder een expert in de bio-informatica van het motief te vinden te worden. Als input, kan SCOPE nemen een lijst van genen, of FASTA sequenties. Deze kunnen worden ingevoerd in de browser tekstvelden, of lezen van een bestand. De output van SCOPE bevat een lijst van alle geïdentificeerde motieven met hun scores, het aantal voorvallen, fractie van de genen die het motief, en het algoritme gebruikt om het motief te identificeren. Voor elk motief, resultaat gegevens omvatten een consensus representatie van het motief, een sequence-logo, een positie gewicht matrix, en een lijst van instanties van elke motief gebeurtenis (met de exacte posities en "streng" aangegeven). Resultaten worden weergegeven in een browservenster en optioneel ook per e-mail. Vorige papers beschrijven de SCOPE algoritmes in detail 1,2,9-11.

Protocol

<p class="jove_title"> 1. Maak een lijst van namen voor genen waarvan u denkt dat mede-gereguleerd voor analyse door SCOPE.</p><p class="jove_content"> Sla de lijst als een tekstbestand of kopiëren naar het klembord om in SCOPE te plakken in stap 3. Het bestand moet bevatten een gen naam per regel zonder extra informatie. Als alternatief kunt u de lijst voor te bereiden als een FASTA bestand met de werkelijke sequenties te analyseren.</p><p class="jove_title"> 2. Start uw webbrowser en maak verbinding met de URL:<a href="http://genie.dartmouth.edu/SCOPE/"> Http://genie.dartmouth.edu/SCOPE/</a</p><p class="jove_title"> 3. Voer de gegevens in dat kader moet het uitvoeren van de analyse.</p><p class="jove_content"> De eerste SCOPE pagina wordt weergegeven in figuur 1. Verschillende onderdelen komen aan bod in deze stap.</p><ol><li> Gebruik de 'soort' pop-up menu om de soorten die je zal het onderzoek kiezen. Het is belangrijk om de juiste soort te kiezen, want SCOPE verwijst naar het genoom op de achtergrond de frequentie van de gebeurtenis te berekenen voor een kandidaat motief is het onderzoekt.</li><li> Gebruik de 'upstream sequentie "radio buttons om ofwel intergenische of vaste lengte te kiezen. Intergenische zullen alle de volgorde te analyseren tussen van het gen u zoekt op en de vorige (upstream) gen. Dit betekent dat verschillende lengtes stroomopwaarts zal worden gebruikt voor elk gen. kiezen van een vaste lengte zal kijken naar precies dat aantal nucleotiden stroomopwaarts van het begin van de huidige gen. In dit geval SCOPE zal dezelfde lengte van de upstream-reeks voor elk gen te onderzoeken, zelfs als dat zich uitstrekt tot de vorige gen (of niet). Typisch, 800 gen is de beste lengte te kiezen, maar dit kan variëren met de soorten.</li><li> Volgende vertellen wat SCOPE-gen ingesteld op te analyseren door het te plakken in uw lijst met gen in het gen lijst tekstvak, of door op de 'zoek het bestand' om het bestand met de lijst van genen die u eerder hebt gemaakt. U mag, als alternatief, plakken in een volgorde FASTA bestand in hetzelfde tekstvak.</li><li> De volgende sectie van de pagina bevat een checkbox voor 'genoom te onderzoeken voor andere genen die gevonden motief (s)?' Deze optie kan een grote toegevoegde analyse tijd sinds SCOPE is te evalueren elke andere genen in het genoom. Dit kan echter zeer nuttig zijn bij het identificeren van andere genen die zijn goede kandidaten voor zijn co-geregeld met de genen in de start-gen in te stellen. Omdat SCOPE analyses zijn relatief snel, wordt voorgesteld dat u deze af achterlaten in uw eerste analyse. Het kan altijd worden ingeschakeld van de resultaten pagina om de analyse opnieuw uit te voeren, zoals uitgelegd in de resultaten sectie.</li><li> De 'Resultaten moeten zijn' sectie kan worden gebruikt om een ​​motief dat u wilt SCOPE opnemen in haar analyse in te voeren. Je zou dit willen doen als u op zoek bent naar een specifiek motief.</li><li> De laatste sectie op de pagina kan worden gebruikt om uw e-mailadres en een commentaar op te slaan met de analyse in te voeren. Als deze is ingevuld, SCOPE zal een e-mail met een link naar de webpagina met resultaten, en het zal ook twee bijlagen. Een daarvan is een gewoon tekstbestand dat alle resultaten van de analyse in het menselijk leesbaar formaat heeft. De tweede bijlage bevat een XML-bestand dat elk resultaat dat SCOPE heeft gevonden in een computer leesbare indeling heeft. Als u wilt wat aanvullende analyse van de resultaten te doen, het XML-bestand is zeer nuttig. Beide bestanden zijn "gezipt" voordat ze worden verzonden met de e-mail.</li><li> Voor deze demo zullen we beginnen met dezelfde informatie. Dit kan gemakkelijk worden bereikt door het indrukken van de 'Sample Zoeken' knop die zal invullen van de nodige informatie. Nu op deze knop. Drie genen wordt aangegaan voor u en juiste keuzes gemaakt voor de andere velden. Laat deze zoals ze zijn ingesteld. De drie genen zijn betrokken bij de telomeren onderhoud in<em> Saccharomyces cerevisiae</em>. Het ingevulde formulier wordt weergegeven in figuur 2. Druk op de knop 'Run SCOPE' knop aan de onderkant van de pagina om de analyse te starten.</li></ol><p class="jove_title"> 4. Representatieve resultaten:</p><p class="jove_content"> De belangrijkste resultaten van de analyse zijn weergegeven in figuur 3. De bovenkant van de pagina bevat een tabel met informatie over de motieven die werden gevonden door SCOPE. De eerste kolom bevat een lijst van motieven die werden gevonden en kleine gekleurde vierkantjes dienen als een legende voor de grafische motief onderstaande kaart weergegeven. De weergave van een bepaalde motief kan worden geschakeld in-of uitschakelen door te klikken op in de gekleurde doos (of waar het gekleurde doos zou zijn). Dit kan zeer nuttig zijn om de weergave van zeer herhaalde motieven die kunnen het moeilijk maken om de minder voorkomende motief patronen te zien te verbergen.</p><p class="jove_content"> Andere kolommen met gegevens de Graaf (het aantal voorkomens van dat motief in de hele set genen), Sig waarde (een indicatie van de betekenis van dat motief), dekking (het percentage van de ingediende genen die ten minste een instantie van bevatten dat motief), en het algoritme (welke van de drie componenten algoritmes werd gebruikt om het motief te detecteren).</p><p class="jove_content"> Door te klikken op een van de genoemde motieven zal de gebruiker naar een pagina met gedetailleerde informatie voor dat motief. De resultaten details zijn weergegeven voor de cyaan motief (atgnnnnttg) in figuur 4. Op deze pagina is het motief vertegenwoordigd op drie manieren: een opeenvolging logo, een positie gewicht matrix, en een lijst van alle motief gevallen met hun posities, strengen en genen.</p><p class="jove_content"> Iets verderop in de pagina staan ​​enkele aanvullende gegevens over de resultaten van het zoeken naar andere genen die deze motief. Zoals te zien is, in dit geval waren er 1344 andere genen met het motief, die allemaal in feite een verbetering van de Sig waarde wanneer toegevoegd aan de oorspronkelijke gen in te stellen. Als u op 'Toevoegen gecontroleerd genen om te zoeken' zal naar de SCOPE setup pagina terug te keren met deze genen toegevoegd aan het oorspronkelijke gen te stellen en de parameters in te stellen zoals ze waren voorheen. In dit geval worden 10 extra genen toegevoegd aan de oorspronkelijke drie.</p><p class="jove_content"> Figuur 5 toont de resultaten van de analyse die de extra genen voor dit motief. De oorspronkelijke drie genen zijn aan de onderkant van de resultaten (in kleine letters). Als we kijken naar het patroon van motieven in het stroomopwaartse gebied van deze extra genen toont duidelijk aan dat ze gelijksoortig zijn. In feite zijn veel van deze genen die betrokken zijn bij telomeren onderhoud waren de oorspronkelijke drie genen. Merk ook op dat het oorspronkelijke motief is nu de hoogst scorende motief in deze set.</p><p class="jove_content"> Een andere reeks SCOPE resultaten is weergegeven in figuur 6. In dit geval is de set van genen die betrokken zijn bij ribosoom biogenese in Saccharomyces cerevisiae. Deze genen zijn niet echt deel uit van het ribosoom, maar zijn verantwoordelijk voor het samenvoegen ribosomen en omvatten een aantal van modificatie enzymen. Wel is duidelijk in de figuur is dat de rode en groene motieven een betrouwbaar patroon dat is waarschijnlijk betrokken bij de regulatie van de genen in deze set vorm. We onderzoeken dit patroon van "modules" in meer detail en zal hierover verslag uitbrengen in een latere publicatie.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig1.jpg" alt="Figure 1"><strong> Figuur 1</strong>. Hoofd SCOPE ingang pagina. Deze pagina wordt gebruikt om de genen te analyseren in te voeren en om de soort te definiëren en de lengte van het stroomopwaarts gelegen gebied te worden onderzocht. Optioneel kan de gebruiker het verzoek van de resultaten per e-mail of de zoekopdracht beperken tot een opgegeven motief. Video hulp is ook beschikbaar.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig2.jpg" alt="Figure 2"><strong> Figuur 2</strong>. Belangrijkste toepassingsgebied ingang pagina met waarden ingevuld voor het uitvoeren van een zoekopdracht. Deze parameters zijn het gevolg van het indrukken van de 'Sample Zoeken' button. In dit geval, is het selectievakje om andere genen die de motieven gevonden door SCOPE vinden gecontroleerd. Deze optie duurt langer om te berekenen (elk gen in het genoom moet worden onderzocht), maar kan interessante inzichten bieden.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig3.jpg" alt="Figure 3"><strong> Figuur 3</strong>. Hoofd SCOPE pagina met resultaten. Op deze pagina een samenvatting van de resultaten van de SCOPE zoeken. Een lijst van alle hoog scorende motieven is voorzien en een kleurcode motief kaart toont de positionering van de geïdentificeerde motieven in de set van geanalyseerde genen. Te klikken op een gekleurd vakje naast een motief schakelt de weergave van dat motief in-of uitschakelen in het motief kaart. Naast een betekenis score (Sig waarde), de fractie van de genen die het motief (dekking), en het algoritme gebruikt om dat motief vinden zijn ook aanwezig.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig4_1.jpg" alt="Figure 4 top"><img src="/files/ftp_upload/2703/2703fig4_2.jpg" alt="Figure 4 bottom"> Figuur 4</strong>. Dit resulteert detail pagina wordt gebracht wanneer een bepaald motief wordt geklikt in de belangrijkste resultaten pagina. Het toont details van de individuele motief. De volgorde logo, de positie gewicht matrix, en de consensus sequentie vertegenwoordigen elk een ander soort van samenvatting van de lijst van motief gevallen ook op de pagina. Aangezien de 'vinden extra genen' werd gecontroleerd in de oorspronkelijke zoekopdracht setup, is er ook informatie op deze pagina over een andere genen in het genoom, dat dit motief bevatten. Vanaf deze pagina is het ook mogelijk om te beginnen met een andere SCOPE lopen inclusief de extra genen geïdentificeerd op deze pagina.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig5.jpg" alt="Figure 5"> Figuur 5</strong>. Deze figuur toont de resultaten van het zoeken naar extra genen voor 'atgnnnnttg' het motief weergegeven in figuur 4. De oorspronkelijke drie genen zijn in kleine letters aan de onderkant van het motief kaart. De extra genen worden weergegeven in hoofdletters. Er is een duidelijk patroon naar de motieven in de stroomopwaartse regio's van deze genen. Merk ook op dat de opgegeven motief een algoritme als 'ZOEKEN' toont want dat is hoe het was geïdentificeerd. Het past eigenlijk de 5<sup> E</sup> Motief gevonden door SPACER in deze analyse.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig6.jpg" alt="Figure 6"> Figuur 6</strong>. SCOPE uitgang voor genen betrokken bij ribosoom biogenese in Saccharomyces cerevisiae. Let op de geconserveerde patroon van de modules, bestaande uit de motieven 'aaawtttbh' (rood) en 'abctcatcd' (groen), gescheiden door ongeveer 10-30 gen en aanwezig zijn op 100 tot 200 nucleotiden stroomopwaarts van de transcriptie start van het gen.</p>

Discussion

SCOPE biedt de onderzoeker met een krachtige tool om te gebruiken voor de identificatie van potentiële regelgevende motieven in sets van coördinerend gereguleerde genen. De gebruiker is niet verplicht om gissen naar de grootte van het motief of het aantal voorkomens van het motief als vele andere motief vinden van websites nodig is. Deze parameters zijn in principe onkenbaar is totdat het motief is geïdentificeerd. De interface is zeer eenvoudig zowel voor het invoeren van sequenties of genen namen en voor het bekijken van de output.

SCOPE-uitgang geeft gedetailleerde informatie over alle van de motieven die worden geïdentificeerd met behulp van drie verschillende manieren van motief vertegenwoordiging. Elk exemplaar van het motief in alle van de genen is genoteerd met de plaats en "streng" informatie. Grafische resultaten in de vorm van een motief kaarten geven een visuele weergave die is eenvoudig te begrijpen en zorgt voor een intuïtieve manier om patronen te zien in de motieven die aanwezig zijn.

SCOPE is zeer robuust om de aanwezigheid van ruis in de data. Meestal is dit in de vorm van extra genen aanwezig zijn in het begin set die eigenlijk niet zou kunnen worden co-geregeld met de rest van de genen. Dit gebeurt vaak wanneer te beginnen met genen die co-uitgedrukt in microarray experimenten. Soms is het experiment is luidruchtig, of er kunnen verschillende transcriptiefactoren geactiveerd in de experimentele omstandigheden die voor de microarray experiment. Deze verschillende transcriptiefactoren zullen waarschijnlijk verschillende doelgroepen plaatsen op het DNA. Zelfs in de aanwezigheid van 4-voudige vreemde genen (ruis: signaal-ratio is 4:1), is SCOPE heeft nog steeds 50% van de nauwkeurigheid bij het ​​voorspellen van locaties 1.

Hoewel SCOPE bevat meer dan 2 miljoen synoniemen voor gen-namen, het soms niet te identificeren sommige genen namen. We zijn constant bezig onze synoniem lijsten, maar soms vinden dat verschillende synoniemen verwijzen naar dezelfde gen. In die gevallen hebben we niet de synoniemen als gevolg van de dubbelzinnigheid. als je een gen naam die niet wordt gevonden door SCOPE, is het raadzaam dat u verwijzen naar het genoom specifieke locatie om een ​​alternatief gen naam om te gebruiken in SCOPE te vinden. Voorbeelden van geschikte gen namen voor elke soort worden verzorgd door SCOPE.

SCOPE bevat momenteel 72 soorten met nieuwe soorten worden toegevoegd de hele tijd. De website bevat video te helpen als FAQs. De broncode is vrij beschikbaar voor academische gebruikers door te schrijven naar RHG.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit onderzoek werd ondersteund door een subsidie ​​aan RHG van de National Science Foundation, DBI-0445967.

References

  1. Chakravarty, A., Carlson, J. M., Khetani, R. S., Gross, R. H. A novel ensemble learning method for de novo computational identification of DNA binding sites. BMC Bioinformatics. 8, 249-249 (2007).
  2. Carlson, J. M., Chakravarty, A., DeZiel, C. E., Gross, R. H. SCOPE: a web server for practical de novo motif discovery. Nucleic Acids Res. 35, 259-264 (2007).
  3. Blom, E. J., Roerdink, J. B., Kuipers, O. P., Hijum, S. A. v. a. n. MOTIFATOR: detection and characterization of regulatory motifs using prokaryote transcriptome data. Bioinformatics. 25, 550-551 (2009).
  4. Blom, E. J. DISCLOSE : DISsection of CLusters Obtained by SEries of transcriptome data using functional annotations and putative transcription factor binding sites. BMC Bioinformatics. 9, 535-535 (2008).
  5. Bushey, A. M., Ramos, E., Corces, V. G. Three subclasses of a Drosophila insulator show distinct and cell type-specific genomic distributions. Genes Dev. 23, 1338-1350 (2009).
  6. Znaidi, S. Identification of the Candida albicans Cap1p regulon. Eukaryot Cell. 8, 806-820 (2009).
  7. Sharma, D., Mohanty, D., Surolia, A. RegAnalyst: a web interface for the analysis of regulatory motifs, networks and pathways. Nucleic Acids Res. 37, W193-W201 (2009).
  8. Znaidi, S. Genomewide location analysis of Candida albicans Upc2p, a regulator of sterol metabolism and azole drug resistance. Eukaryot Cell. 7, 836-847 (2008).
  9. Carlson, J., Chakravarty, A., Gross, R. B. E. A. M. A beam search algorithm for the identification of cis-regulatory elements in groups of genes. J Comput Biol. 13, 686-701 (2006).
  10. Carlson, J., Chakravarty, A., Khetani, R., Gross, R. Bounded search for de novo identification of degenerate cis-regulatory elements. BMC Bioinformatics. 7, 254-254 (2006).
  11. Chakravarty, A., Carlson, J. M., Khetani, R. S., DeZiel, C. E., Gross, R. H. SPACER: identification of cis-regulatory elements with non-contiguous critical residues. Bioinformatics. 23, 1029-1031 (2007).

Play Video

Cite This Article
Martyanov, V., Gross, R. H. Using SCOPE to Identify Potential Regulatory Motifs in Coregulated Genes. J. Vis. Exp. (51), e2703, doi:10.3791/2703 (2011).

View Video