Une méthode de l'amortissement avant et robustes afin d'identifier le potentiel des motifs réglementaires en gènes co-régulés est présenté. Champ d'application ne nécessite pas de paramètres d'utilisateur et retourne motifs qui représentent d'excellents candidats pour des signaux de régulation. L'identification de ces signaux de régulation permet de comprendre la biologie sous-jacente.
SCOPE est un viseur motif d'ensemble qui utilise trois algorithmes composante en parallèle pour identifier les éventuels motifs de régulation par la sur-représentation et de préférence de positionnement motifs 1. Chaque algorithme composant est optimisée pour trouver un autre type de motif. En prenant le meilleur de ces trois approches, SCOPE est plus performant que n'importe quel algorithme unique, même en présence de données bruitées 1. Dans cet article, nous utilisons une version web de SCOPE 2 pour examiner les gènes qui sont impliqués dans le maintien des télomères. SCOPE a été incorporé dans au moins deux motifs d'autres programmes de recherche et de 3,4 a été utilisé dans d'autres études 5-8.
Les trois algorithmes qui comprennent la portée sont poutre 9, qui trouve des motifs non dégénérée (ACCGGT), Prisme 10, qui trouve dégénèrent motifs (ASCGWT), et l'entretoise 11, qui trouve des motifs plus bipartite (ACCnnnnnnnnGGT). Ces trois algorithmes ont été optimisés pour trouver leur type correspondant de motif. Ensemble, ils permettent d'effectuer CHAMP extrêmement bien.
Une fois un ensemble de gènes a été analysée et des motifs candidats identifiés, SCOPE peut chercher d'autres gènes qui contiennent le motif qui, ajoutée à l'ensemble original, permettra d'améliorer le score motif. Cela peut se produire grâce à la sur-représentation ou la préférence de positionnement motif. Travailler avec des ensembles de gènes partielles qui ont vérifié les sites biologiquement facteur de transcription liant, SCOPE a été capable d'identifier la plupart du reste des gènes également régulée par le facteur de transcription donné.
Sortie du champ d'application montre des motifs candidat, leur signification, et d'autres informations à la fois comme un tableau et comme une carte graphique de motif. FAQ et tutoriels vidéo sont disponibles sur le site web de SCOPE, qui comprend également un «Exemple de recherche" bouton qui permet à l'utilisateur d'effectuer un essai.
Portée a une interface utilisateur très conviviale qui permet aux utilisateurs novices d'accéder à la pleine puissance de l'algorithme sans avoir à devenir un expert dans le bio-informatique des motifs trouver. Comme entrée, SCOPE peut prendre une liste de gènes ou séquences FASTA. Ceux-ci peuvent être entrés dans les champs de texte du navigateur, ou lire un fichier. La sortie du champ d'application contient une liste de tous les motifs identifiés avec leurs scores, le nombre d'occurrences, la fraction de gènes contenant le motif, et l'algorithme utilisé pour identifier le motif. Pour chaque motif, les détails de résultats incluent une représentation de consensus du motif, un logo séquence, une matrice de poids position, et une liste d'instances pour chaque événement motif (avec des positions exactes et "brin" est indiqué). Les résultats sont renvoyés dans une fenêtre de navigateur et éventuellement aussi par email. Articles précédents décrivent les algorithmes CHAMP en détail 1,2,9-11.
SCOPE offre au chercheur un outil puissant à utiliser pour l'identification du potentiel des motifs réglementaires dans des ensembles de gènes de façon coordonnée réglementé. L'utilisateur n'est pas obligé de deviner la taille du motif ou le nombre d'occurrences du motif comme motif de beaucoup d'autres nécessitent de trouver des sites. Ces paramètres sont fondamentalement inconnaissable jusqu'à ce que le motif est identifié. L'interface est très simple à la fois pour entrer dans des séquences de gènes ou de noms et pour la visualisation de la sortie.
Sortie portée fournit des informations détaillées sur l'ensemble des motifs qui sont identifiés, à l'aide de trois façons différentes de la représentation motif. Chaque instance du motif dans l'ensemble des gènes est répertorié avec la position et "brin" de l'information. Résultats graphiques sous la forme de cartes motif de fournir un affichage visuel qui est facile à comprendre et offre un moyen intuitif de voir des modèles dans les motifs qui sont présents.
SCOPE est très robuste à la présence de bruit dans les données. Généralement, cela prend la forme de gènes supplémentaires étant présent dans l'ensemble de départ qui pourrait ne pas réellement être co-régulés avec le reste des gènes. Cela arrive souvent lors du démarrage avec des gènes qui sont co-exprimés dans les expériences de biopuces. Parfois, l'expérience est bruyant, ou il peut y avoir plusieurs facteurs de transcription activés dans les conditions expérimentales utilisées pour l'expérience de biopuces. Ces différents facteurs de transcription aura probablement des sites cibles différentes sur l'ADN. Même en présence de 4-fold gènes étrangers (bruit: rapport signal est de 4:1), SCOPE est conserve encore 50% de sa précision dans la prédiction de sites 1.
Bien que la portée contient plus de 2 millions synonymes pour les noms de gènes, elle oublie parfois d'identifier certains gènes noms. Nous mettons constamment à jour nos listes de synonymes, mais parfois à trouver que les différents synonymes référer à la même gène. Dans ces cas, nous n'incluons pas les synonymes raison de l'ambiguïté. si vous avez un nom de gène qui n'est pas trouvé par portée, il est recommandé que vous consultez le site du génome spécifique à trouver un nom de gène alternative à l'utilisation dans leur portée. Exemples de noms de gènes appropriés pour chaque espèce sont fournis par SCOPE.
CHAMP contient actuellement 72 espèces avec de nouvelles espèces étant ajoutées tous les temps. Le site Web contient de la vidéo ainsi que l'aide FAQ. Le code source est librement disponible pour les utilisateurs académiques en écrivant à GHR.
The authors have nothing to disclose.
Cette recherche a été financée par une subvention au GHR de la National Science Foundation, DBI-0445967.