Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
les alignements de protéines sont couramment utilisés pour évaluer la similarité de résidus de protéines, et la séquence consensus dérivée utilisés pour identifier des unités fonctionnelles (par exemple, domaines). Les modèles traditionnels de construction de consensus ne parviennent pas à tenir compte des dépendances d'interposition – fonctionnellement covariation nécessaire de résidus qui ont tendance à apparaître simultanément à travers l'évolution et à travers l'arbre phylogénétique. Ces relations peuvent révéler des indices importants sur les processus de repliement des protéines, la stabilité thermique, et la formation de sites fonctionnels, qui peuvent à leur tour être utilisés pour informer l'ingénierie des protéines synthétiques. Malheureusement, ces relations font essentiellement sous-motifs qui ne peut être prédit par simple «règle de la majorité" ou des modèles de consensus basé HMM-même, et le résultat peut être un "consensus" biologiquement invalide qui est non seulement jamais vu dans la nature, mais est moins viable que toute protéine existante. Nous avons développé un un visuelalytics outil, StickWRLD, ce qui crée une représentation en 3D interactif d'un alignement de la protéine et affiche clairement covarying résidus. L'utilisateur a la possibilité de panoramique et de zoom, ainsi que de changer dynamiquement le seuil statistique qui sous-tend l'identification des covariants. StickWRLD a déjà été utilisé avec succès pour identifier des résidus d'covarying fonctionnellement nécessaires dans des protéines telles que adénylate kinase et dans des séquences d'ADN telles que les sites cibles d'endonucléase.
les alignements de protéines ont longtemps été utilisés pour évaluer la similarité de résidus dans une famille de protéines. Foire caractéristiques les plus intéressantes d'une protéine (par exemple, les sites catalytiques ou d'autres liants) sont le résultat de repliement des protéines rapprocher les régions distales de la séquence linéaire en contact, et par conséquent ces régions apparemment indépendants dans l'alignement ont tendance à évoluer et changer en d'une manière coordonnée. Dans d'autres cas, la fonction d'une protéine peut dépendre de sa signature électrostatique, et des mutations qui affectent le dipôle électronique est compensée par une modification de résidus chargés éloignés. Effets allostériques peuvent également induire à long terme dépendances séquentielles et spatiales entre les identités de résidus. Indépendamment de leur origine, ces covariations fonctionnellement nécessaires de résidus – dépendances inter-position (JVP) – peuvent ne pas être évident avec l'examen visuel de l'alignement (Figure 1). Identification des JVP – ainsi que desdont des résidus spécifiques au sein de ces positions ont tendance à covarier comme une unité – peut révéler des indices importants sur les processus de repliement des protéines et la formation de sites fonctionnels. Cette information peut ensuite être utilisée pour optimiser les protéines synthétiques (ingénierie) en termes de stabilité thermique et de l'activité. Il est connu depuis longtemps que toutes les mutations ponctuelles vers consensus fournissent pas une meilleure stabilité ou l'activité. Plus récemment, les protéines conçus pour tirer parti des JVP connus dans leur séquence ont été montrés pour aboutir à une plus grande activité de la même protéine conçu strictement consensus 1,2 (manuscrit en préparation), semblable à l'idée de stabiliser mutations ponctuelles 3.
Malheureusement, les modèles traditionnels de construction de consensus (par exemple, la règle de la majorité) ne reflètent que les JVP par accident. méthodes de consensus et de la position de notation spécifique matricielles sont ignorants du JVP et seulement «correctement» les inclure dans les modèles, lorsque les résidus dépendantessont également des résidus les plus populaires pour ces postes dans la famille. Modèles de chaîne de Markov peut capturer JVP quand ils sont séquentiellement proximale, mais leur mise en œuvre typique ignore tout sauf voisins séquentielles immédiats, et même à leur meilleur, les calculs modèles de Markov cachés (voir Figure 2) deviennent insolubles quand dépendances sont séparés dans la séquence de plus de une douzaine de positions 4. Depuis ces JVP forment essentiellement «sous-motifs" qui ne peut être prédit par simple «règle de la majorité" ou des modèles de consensus basé HMM-même 5,6 le résultat peut être un "consensus" biologiquement invalide qui est non seulement jamais vu dans la nature, mais est moins viables que toute protéine existant. Les systèmes basés sur champs de Markov, comme GREMLIN 7, tentent de surmonter ces problèmes. De plus alors que des techniques biologiques / biochimiques sophistiquées telles que la recombinaison non contigu à 3,8 peuvent être utilisés pour ideéléments de protéines essentielles ntifier par région, ils nécessitent beaucoup de temps et de travail de banc pour une seule paire de bases de précision à atteindre.
StickWRLD 9 est un programme Python qui crée une représentation 3D interactive d'un alignement de protéine qui JVP claire et facile à comprendre. Chaque position dans l'alignement est représenté comme une colonne dans l'afficheur, où chaque colonne est constituée d'un empilement de sphères, une pour chacun des 20 acides aminés qui pourraient être présents dans cette position à l'intérieur de l'alignement. La taille de la sphère dépend de la fréquence d'occurrence de l'acide aminé, de telle sorte que l'utilisateur peut glaner immédiatement le résidu consensus ou la distribution relative des acides aminés à l'intérieur de cette position en regardant simplement la taille des sphères. Les colonnes représentant chaque position sont enveloppés autour d'un cylindre. Cela donne tous les domaines représentant un acide aminé possible à chaque position dans l'alignement, une «ligne de mire» clairpour toutes les autres possibilités d'acides aminés à toutes les autres positions. Avant de visualisation, StickWRLD calcule la force de la corrélation entre toutes les combinaisons possibles de résidus pour identifier le JVP 9. Pour représenter JVP, les lignes sont tracées entre les résidus qui sont coévoluant à un niveau supérieur ou inférieur que prévu si les résidus présents dans les positions étaient indépendants (JVP).
Non seulement cette visualisation spectacle qui positions de séquence interagissent évolutif, mais comme les lignes de bord IPD sont établis entre les sphères d'acides aminés dans chaque colonne, l'utilisateur peut rapidement déterminer quels acides aminés spécifiques ont tendance à être coévoluant à chaque position. L'utilisateur a la possibilité de faire pivoter et d'explorer la structure IPD visualisées, ainsi que de modifier dynamiquement les seuils statistiques qui contrôlent l'affichage des corrélations, faisant StickWRLD un puissant outil de découverte pour JVP.
Des applications telles que GREMLIN 7 autafficher Arly informations relationnelles complexes entre les résidus – mais ces relations sont calculées au moyen de modèles de Markov plus traditionnels, qui ne sont pas conçus pour déterminer les relations conditionnelles. En tant que tels, ils sont capables d'être affichées comme des projections 2D. En revanche, StickWRLD peut calculer et afficher multi-nœuds dépendances conditionnelles, qui peut être masquée si elles sont rendues comme un graphique 2D (un phénomène connu sous le bord occlusion).
3D de vue de StickWRLD a également plusieurs autres avantages. En permettant aux utilisateurs de manipuler les visuels – des caractéristiques qui peuvent être brouillées ou intuitives dans une représentation 2D peuvent être plus facilement vu dans le cylindre 3D de StickWRLD – panoramique, rotation et zoom. StickWRLD est essentiellement un outil d'analyse visuelle, exploitant la puissance de la capacité de reconnaissance de forme du cerveau humain à voir des tendances et des tendances, et la possibilité d'explorer les données à partir de divers points de vue se prête à cela.
StickWRLD a été utilisé avec succès pour identifier ces JVP dans le domaine du couvercle adénylate kinase 16, ainsi que des bases de l'ADN associées à Rho-dépendante terminaisons 9, et un roman spécificité site d'épissage dans Archaeal ARNt intron endonucléase 6 sites cibles. Ces distributeurs indépendants ne sont pas détectables par un examen direct des alignements.
StickWRLD affiche chaque position d'un alignement comme une colonne de 20 "sphères", où chaque sphère représente l'un des 20 résidus d'acides aminés et la taille de la sphère indique la fréquence d'apparition de ce résidu particulier à l'intérieur de la colonne (figure 4). Les colonnes sont disposées dans un cylindre, avec des lignes de bordure reliant les résidus présents dans des colonnes différentes (indiquant un IPD). Ces lignes de bord ne sont tirées si les résidus correspondants sont covarying à une fréquence dépassant à la fois la valeur de p (signification) et résiduelles (attendus) – observés seuils.
Détection des résidus concomitants interdépendants, ou IPDS, dans les régions distales de l'alignement d'une séquence d'ADN ou de protéine est difficile en utilisant séquence standard outils d'alignement 6. Bien que ces outils génèrent un consensus, ou un motif, la séquence, ce consensus est dans de nombreux cas, une simple moyenne majorité règle et ne donne pas les relations de covariation qui peuvent former un ou plusieurs sous-motifs – groupes de résidus qui ont tendance à co-évoluer. Même les modèles HMM, qui sont capables de détecter les dépendances voisines, ne peut pas modéliser avec précision des motifs de séquence avec IPD distales 5. Le résultat est que le consensus calculée peut en fait être une séquence "synthétique" non trouvé dans la nature – et des protéines modifiées sur la base de ce consensus de calcul peuvent ne pas, en fait, être optimale. En fait, le HMM Pfam pour ADK suggère que la protéine chimère contenant de la moitié de motif tétracystéine, et la moitié de H, S, D, T motif, est fonctionnellement tout aussi acceptablecomme tout ADK réellement existant. Cela ne veut pas le cas, que ces chimères (et beaucoup d'autres assemblages de ces motifs) sont-ils morts catalytique 4,19.
Lorsque vous cherchez des corrélations, il est essentiel que le seuil résiduelle être réglée pour permettre la découverte de corrélations pertinentes en définissant le seuil au-dessus du niveau auquel les bords sont vus, puis montée en puissance progressivement le seuil vers le bas. Cela garantit que seuls les bords les plus significatifs sont considérés initialement.
Une autre approche est de commencer avec le seuil fixé résiduelle extrêmement faible. Cela se traduit par l'affichage de tous les bords importants. De là, le seuil résiduel peut être augmenté lentement, permettant bords à abandonner jusqu'à ce que des tendances émergent. Bien que cette approche est moins utile lorsque vous cherchez pour l'inclusion des nœuds spécifiques (par exemple, l'application des connaissances de domaine), il permet la découverte de relations inattendues utilisant StickWRLD comme une visuel outil analytique pour découvrir les nouvelles tendances dans la visualisation de données.
StickWRLD est limitée principalement par la quantité de mémoire disponible du système sur lequel il est exécuté ainsi que la résolution du dispositif d'affichage. Bien qu'il n'y ait pas de limite théorique au nombre de points de données StickWRLD peut examiner et séquences jusqu'à 20.000 postes ont été testés, dans la pratique StickWRLD fonctionne mieux avec des séquences jusqu'à près de 1000 positions.
Le principal avantage de StickWRLD réside dans sa capacité à identifier des groupes de résidus qui covarier un avec l'autre. Ceci est un avantage significatif sur l'approche traditionnelle de la séquence consensus statistique, qui est une moyenne statistique simple et ne prend pas en compte la coévolution. Alors que dans certains cas, les résidus covarying peuvent simplement être un artefact de la phylogénie, même ces résidus ont résisté le «test de sélection», et en tant que tels ne sont pas susceptibles de nuire à la functionalité de toute protéine conçu pour les inclure.
Tout en utilisant StickWRLD pour identifier JVP dans une séquence d'ADN ou de protéines canonique consensus / motif avant variantes synthétiques d'ingénierie permettra de réduire le risque d'erreur et de soutenir l'optimisation rapide de la fonction, il faut noter que StickWRLD peut être utilisé comme un outil d'identification de corrélation généralisée et ne se limite pas exclusivement à des données de protéines. StickWRLD peut être utilisée pour découvrir visuellement la co-occurrence de toutes les variables dans un ensemble de données correctement codé.
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |