Een straight-forward en robuuste methode om potentiële regulatorische motieven in co-gereguleerde genen te identificeren is gepresenteerd. SCOPE vereist geen gebruiker parameters en keert terug motieven die uitstekende kandidaten vertegenwoordigen voor de regelgeving signalen. De identificatie van dergelijke regulerende signalen helpt bij het begrijpen van de onderliggende biologie.
SCOPE is een ensemble motief finder dat drie component algoritmes gebruikt in parallel met potentiële regulatorische motieven te identificeren door over-vertegenwoordiging en motief positie voorkeur 1. Elke component algoritme is geoptimaliseerd om een ander soort motief te vinden. Door het nemen van de beste van deze drie benaderingen, SCOPE beter presteert dan een enkel algoritme, zelfs in de aanwezigheid van lawaaiige gegevens 1. In dit artikel maken we gebruik van een web-versie van SCOPE 2 tot en met genen die betrokken zijn bij telomeren onderhoud te onderzoeken. SCOPE is opgenomen in ten minste twee andere motief vinden van programma's 3,4 en is gebruikt in andere studies 5-8.
De drie algoritmen die SCOPE bevat zijn BEAM 9, waarbij niet-ontaarde motieven (ACCGGT) vindt, PRISM 10, die vindt ontaarden motieven (ASCGWT), en SPACER 11, die langere bilaterale motieven (ACCnnnnnnnnGGT) vindt. Deze drie algoritmen zijn geoptimaliseerd om de bijbehorende type motief te vinden. Samen laten ze SCOPE tot zeer goed te presteren.
Zodra een gen set is geanalyseerd en de kandidaat-motieven geïdentificeerd, kan SCOPE op zoek naar andere genen die het motief dat, wanneer toegevoegd aan het origineel, zal het motief score te verbeteren bevatten. Dit kan gebeuren door middel van over-vertegenwoordiging of motief positie voorkeur. Werken met een gedeeltelijke genen sets die biologisch hebt gecontroleerd transcriptiefactor bindingsplaatsen, was SCOPE staat om de meeste van de rest van de genen die ook geregeld door de gegeven transcriptiefactor te identificeren.
Uitvoer van SCOPE toont de kandidaat-motieven, hun betekenis en andere informatie zowel als tafel en als een grafische motief kaart. FAQ's en video-tutorials zijn beschikbaar op de SCOPE website die ook een "Sample Search"-knop waarmee de gebruiker het uitvoeren van een proef.
Scope heeft een zeer gebruiksvriendelijke interface die beginnende gebruikers in staat stelt om het algoritme de volledige kracht toegang zonder een expert in de bio-informatica van het motief te vinden te worden. Als input, kan SCOPE nemen een lijst van genen, of FASTA sequenties. Deze kunnen worden ingevoerd in de browser tekstvelden, of lezen van een bestand. De output van SCOPE bevat een lijst van alle geïdentificeerde motieven met hun scores, het aantal voorvallen, fractie van de genen die het motief, en het algoritme gebruikt om het motief te identificeren. Voor elk motief, resultaat gegevens omvatten een consensus representatie van het motief, een sequence-logo, een positie gewicht matrix, en een lijst van instanties van elke motief gebeurtenis (met de exacte posities en "streng" aangegeven). Resultaten worden weergegeven in een browservenster en optioneel ook per e-mail. Vorige papers beschrijven de SCOPE algoritmes in detail 1,2,9-11.
SCOPE biedt de onderzoeker met een krachtige tool om te gebruiken voor de identificatie van potentiële regelgevende motieven in sets van coördinerend gereguleerde genen. De gebruiker is niet verplicht om gissen naar de grootte van het motief of het aantal voorkomens van het motief als vele andere motief vinden van websites nodig is. Deze parameters zijn in principe onkenbaar is totdat het motief is geïdentificeerd. De interface is zeer eenvoudig zowel voor het invoeren van sequenties of genen namen en voor het bekijken van de output.
SCOPE-uitgang geeft gedetailleerde informatie over alle van de motieven die worden geïdentificeerd met behulp van drie verschillende manieren van motief vertegenwoordiging. Elk exemplaar van het motief in alle van de genen is genoteerd met de plaats en "streng" informatie. Grafische resultaten in de vorm van een motief kaarten geven een visuele weergave die is eenvoudig te begrijpen en zorgt voor een intuïtieve manier om patronen te zien in de motieven die aanwezig zijn.
SCOPE is zeer robuust om de aanwezigheid van ruis in de data. Meestal is dit in de vorm van extra genen aanwezig zijn in het begin set die eigenlijk niet zou kunnen worden co-geregeld met de rest van de genen. Dit gebeurt vaak wanneer te beginnen met genen die co-uitgedrukt in microarray experimenten. Soms is het experiment is luidruchtig, of er kunnen verschillende transcriptiefactoren geactiveerd in de experimentele omstandigheden die voor de microarray experiment. Deze verschillende transcriptiefactoren zullen waarschijnlijk verschillende doelgroepen plaatsen op het DNA. Zelfs in de aanwezigheid van 4-voudige vreemde genen (ruis: signaal-ratio is 4:1), is SCOPE heeft nog steeds 50% van de nauwkeurigheid bij het voorspellen van locaties 1.
Hoewel SCOPE bevat meer dan 2 miljoen synoniemen voor gen-namen, het soms niet te identificeren sommige genen namen. We zijn constant bezig onze synoniem lijsten, maar soms vinden dat verschillende synoniemen verwijzen naar dezelfde gen. In die gevallen hebben we niet de synoniemen als gevolg van de dubbelzinnigheid. als je een gen naam die niet wordt gevonden door SCOPE, is het raadzaam dat u verwijzen naar het genoom specifieke locatie om een alternatief gen naam om te gebruiken in SCOPE te vinden. Voorbeelden van geschikte gen namen voor elke soort worden verzorgd door SCOPE.
SCOPE bevat momenteel 72 soorten met nieuwe soorten worden toegevoegd de hele tijd. De website bevat video te helpen als FAQs. De broncode is vrij beschikbaar voor academische gebruikers door te schrijven naar RHG.
The authors have nothing to disclose.
Dit onderzoek werd ondersteund door een subsidie aan RHG van de National Science Foundation, DBI-0445967.