Summary

Optimisation des protéines synthétiques: Identification des dépendances interposition indicatrice constructivement et / ou les résidus fonctionnellement liées

Published: July 14, 2015
doi:

Summary

Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.

Abstract

les alignements de protéines sont couramment utilisés pour évaluer la similarité de résidus de protéines, et la séquence consensus dérivée utilisés pour identifier des unités fonctionnelles (par exemple, domaines). Les modèles traditionnels de construction de consensus ne parviennent pas à tenir compte des dépendances d'interposition – fonctionnellement covariation nécessaire de résidus qui ont tendance à apparaître simultanément à travers l'évolution et à travers l'arbre phylogénétique. Ces relations peuvent révéler des indices importants sur les processus de repliement des protéines, la stabilité thermique, et la formation de sites fonctionnels, qui peuvent à leur tour être utilisés pour informer l'ingénierie des protéines synthétiques. Malheureusement, ces relations font essentiellement sous-motifs qui ne peut être prédit par simple «règle de la majorité" ou des modèles de consensus basé HMM-même, et le résultat peut être un "consensus" biologiquement invalide qui est non seulement jamais vu dans la nature, mais est moins viable que toute protéine existante. Nous avons développé un un visuelalytics outil, StickWRLD, ce qui crée une représentation en 3D interactif d'un alignement de la protéine et affiche clairement covarying résidus. L'utilisateur a la possibilité de panoramique et de zoom, ainsi que de changer dynamiquement le seuil statistique qui sous-tend l'identification des covariants. StickWRLD a déjà été utilisé avec succès pour identifier des résidus d'covarying fonctionnellement nécessaires dans des protéines telles que adénylate kinase et dans des séquences d'ADN telles que les sites cibles d'endonucléase.

Introduction

les alignements de protéines ont longtemps été utilisés pour évaluer la similarité de résidus dans une famille de protéines. Foire caractéristiques les plus intéressantes d'une protéine (par exemple, les sites catalytiques ou d'autres liants) sont le résultat de repliement des protéines rapprocher les régions distales de la séquence linéaire en contact, et par conséquent ces régions apparemment indépendants dans l'alignement ont tendance à évoluer et changer en d'une manière coordonnée. Dans d'autres cas, la fonction d'une protéine peut dépendre de sa signature électrostatique, et des mutations qui affectent le dipôle électronique est compensée par une modification de résidus chargés éloignés. Effets allostériques peuvent également induire à long terme dépendances séquentielles et spatiales entre les identités de résidus. Indépendamment de leur origine, ces covariations fonctionnellement nécessaires de résidus – dépendances inter-position (JVP) – peuvent ne pas être évident avec l'examen visuel de l'alignement (Figure 1). Identification des JVP – ainsi que desdont des résidus spécifiques au sein de ces positions ont tendance à covarier comme une unité – peut révéler des indices importants sur les processus de repliement des protéines et la formation de sites fonctionnels. Cette information peut ensuite être utilisée pour optimiser les protéines synthétiques (ingénierie) en termes de stabilité thermique et de l'activité. Il est connu depuis longtemps que toutes les mutations ponctuelles vers consensus fournissent pas une meilleure stabilité ou l'activité. Plus récemment, les protéines conçus pour tirer parti des JVP connus dans leur séquence ont été montrés pour aboutir à une plus grande activité de la même protéine conçu strictement consensus 1,2 (manuscrit en préparation), semblable à l'idée de stabiliser mutations ponctuelles 3.

Malheureusement, les modèles traditionnels de construction de consensus (par exemple, la règle de la majorité) ne reflètent que les JVP par accident. méthodes de consensus et de la position de notation spécifique matricielles sont ignorants du JVP et seulement «correctement» les inclure dans les modèles, lorsque les résidus dépendantessont également des résidus les plus populaires pour ces postes dans la famille. Modèles de chaîne de Markov peut capturer JVP quand ils sont séquentiellement proximale, mais leur mise en œuvre typique ignore tout sauf voisins séquentielles immédiats, et même à leur meilleur, les calculs modèles de Markov cachés (voir Figure 2) deviennent insolubles quand dépendances sont séparés dans la séquence de plus de une douzaine de positions 4. Depuis ces JVP forment essentiellement «sous-motifs" qui ne peut être prédit par simple «règle de la majorité" ou des modèles de consensus basé HMM-même 5,6 le résultat peut être un "consensus" biologiquement invalide qui est non seulement jamais vu dans la nature, mais est moins viables que toute protéine existant. Les systèmes basés sur champs de Markov, comme GREMLIN 7, tentent de surmonter ces problèmes. De plus alors que des techniques biologiques / biochimiques sophistiquées telles que la recombinaison non contigu à 3,8 peuvent être utilisés pour ideéléments de protéines essentielles ntifier par région, ils nécessitent beaucoup de temps et de travail de banc pour une seule paire de bases de précision à atteindre.

StickWRLD 9 est un programme Python qui crée une représentation 3D interactive d'un alignement de protéine qui JVP claire et facile à comprendre. Chaque position dans l'alignement est représenté comme une colonne dans l'afficheur, où chaque colonne est constituée d'un empilement de sphères, une pour chacun des 20 acides aminés qui pourraient être présents dans cette position à l'intérieur de l'alignement. La taille de la sphère dépend de la fréquence d'occurrence de l'acide aminé, de telle sorte que l'utilisateur peut glaner immédiatement le résidu consensus ou la distribution relative des acides aminés à l'intérieur de cette position en regardant simplement la taille des sphères. Les colonnes représentant chaque position sont enveloppés autour d'un cylindre. Cela donne tous les domaines représentant un acide aminé possible à chaque position dans l'alignement, une «ligne de mire» clairpour toutes les autres possibilités d'acides aminés à toutes les autres positions. Avant de visualisation, StickWRLD calcule la force de la corrélation entre toutes les combinaisons possibles de résidus pour identifier le JVP 9. Pour représenter JVP, les lignes sont tracées entre les résidus qui sont coévoluant à un niveau supérieur ou inférieur que prévu si les résidus présents dans les positions étaient indépendants (JVP).

Non seulement cette visualisation spectacle qui positions de séquence interagissent évolutif, mais comme les lignes de bord IPD sont établis entre les sphères d'acides aminés dans chaque colonne, l'utilisateur peut rapidement déterminer quels acides aminés spécifiques ont tendance à être coévoluant à chaque position. L'utilisateur a la possibilité de faire pivoter et d'explorer la structure IPD visualisées, ainsi que de modifier dynamiquement les seuils statistiques qui contrôlent l'affichage des corrélations, faisant StickWRLD un puissant outil de découverte pour JVP.

Des applications telles que GREMLIN 7 autafficher Arly informations relationnelles complexes entre les résidus – mais ces relations sont calculées au moyen de modèles de Markov plus traditionnels, qui ne sont pas conçus pour déterminer les relations conditionnelles. En tant que tels, ils sont capables d'être affichées comme des projections 2D. En revanche, StickWRLD peut calculer et afficher multi-nœuds dépendances conditionnelles, qui peut être masquée si elles sont rendues comme un graphique 2D (un phénomène connu sous le bord occlusion).

3D de vue de StickWRLD a également plusieurs autres avantages. En permettant aux utilisateurs de manipuler les visuels – des caractéristiques qui peuvent être brouillées ou intuitives dans une représentation 2D peuvent être plus facilement vu dans le cylindre 3D de StickWRLD – panoramique, rotation et zoom. StickWRLD est essentiellement un outil d'analyse visuelle, exploitant la puissance de la capacité de reconnaissance de forme du cerveau humain à voir des tendances et des tendances, et la possibilité d'explorer les données à partir de divers points de vue se prête à cela.

Protocol

1. Télécharger le logiciel et installation Utiliser un ordinateur dispose d'un Intel i5 ou meilleur processeur avec au moins 4 Go de RAM, et est en cours d'exécution Mac OS X ou GNU / Linux (par exemple, Ubuntu) OS. En outre, Python 2.7.6 10 et le 11 wxPython 2.8, SciPy 12 et 13 PyOpenGL bibliothèques python sont nécessaires – télécharger et installer chaque de leurs dépôts respectifs. Télécharger StickWRLD forme d'une archive zip contenant tous les scripts Python pertinents. Télécharger le "fasta2stick.sh" script pour convertir des alignements de séquences / protéine standards FASTA ADN au format StickWRLD. Extraire l'archive et placez le dossier StickWRLD résultant sur votre bureau. Placez le "fasta2stick.sh" script sur l'ordinateur de bureau ainsi. 2. Préparer l'Alignement Créer un alignement des séquences de protéines en utilisant n'importe quel stanlogiciels d'alignement de dard (par exemple, ClustalX 14). Enregistrer l'alignement sur le bureau en format FASTA. Ouvrez l'application Terminal sur l'ordinateur Mac ou GNU / Linux et de naviguer sur le bureau (l'emplacement du script shell "de fasta2stick.sh") en tapant cd ~ / Desktop et en appuyant sur ​​le retour. Exécutez le "fasta2stick.sh" script en tapant ./fasta2stick.sh dans le terminal. Si le script ne l'exécute pas, vérifiez qu'il est exécutable – dans le type chmod + x borne fasta2stick.sh pour rendre le script exécutable. Suivez les instructions à l'écran fournies par le script pour spécifier le nom du fichier d'entrée (le fichier créé en 1.2 ci-dessus) et le nom de sortie désirée. Enregistrez le fichier de sortie (qui est maintenant dans le format correct pour StickWRLD) sur le bureau. 3. Lancement StickWRLD Naviguez dans les exécutables StickWRLD dossier en utilisant le terminal de application de l'ordinateur Mac ou GNU / Linux. Par exemple, si le dossier StickWRLD est sur ​​le bureau, tapez cd ~ / Desktop / StickWRLD / exec dans le terminal. Lancez StickWRLD en tapant python-32 stickwrld_demo.py dans le terminal. Vérifiez que le panneau StickWRLD Data Loader est visible à l'écran (Figure 3). 4. Le chargement des données Chargez l'alignement de la séquence de la protéine convertie en appuyant sur la "protéine de charge …" bouton. Sélectionnez le fichier créé à l'étape 3 ci-dessus et appuyez sur «Ouvrir». StickWRLD va ouvrir plusieurs nouvelles fenêtres, y compris "Contrôle StickWRLD" (figure 4) et "StickWRLD – OpenGL" (Figure 5). Sélectionnez le – fenêtre "StickWRLD OpenGL". Choisissez "Reset Affichage" dans le menu "OpenGL" pour afficher la visualisation de StickWRLD par défaut dans un "top-down"Vue à travers le cylindre représentant les données dans les fenêtres redimensionnables OpenGL .. 5. Options d'affichage Cochez les cases pour "Étiquettes de colonne" et "Labels Ball" dans le volet "StickWRLD Control" (figure 4) pour afficher les valeurs pour les colonnes et les balles. Décochez la case pour "Bords colonne" dans le volet "contrôle StickWRLD" pour cacher les lignes de bord de la colonne. Réglez le "Epaisseur colonne" à 0,1 dans le volet "contrôle StickWRLD" pour dessiner une fine ligne à travers les colonnes, ce qui rend plus facile à naviguer la vue 3D. Appuyez sur Entrée pour accepter le changement. Changer la vue dans le "StickWRLD – OpenGL" fenêtre comme dans l'étape 5.3 ci-dessus, puis appuyez sur le bouton "plein écran" pour maximiser la vue. 6. Navigation Faire pivoter l'affichage 3D StickWRLD en maintenant le bouton gauche de la souris WHIle déplacement de la souris dans une direction quelconque. Agrandir l'affichage 3D StickWRLD en maintenant enfoncé le bouton droit de la souris tout en déplaçant la souris vers le haut ou vers le bas. 7. Trouver interposition dépendances (JVP) Parcourir la vue en panoramique et de zoom, comme décrit à l'étape 6. résidus de coévoluant dépassant les exigences minimales de p et résiduelle sont connectés via des lignes de bord comme on le voit sur ​​la figure 6. Si il ya trop ou trop peu d'arêtes reliant les résidus, changer le résiduel seuil (sur le volet "contrôle StickWRLD") pour montrer moins, ou plus, bords. Augmenter le seuil résiduelle sur le contrôle Pane StickWRLD jusqu'à ce qu'aucune des lignes de bord IPD sont présentés et la rampe lentement jusqu'à ce que les relations apparaissent. Continuez à augmenter la valeur résiduelle jusqu'à ce que vous avez un nombre suffisant de relations à examiner. Identifier les relations qui impliquent soit des résidus d'intérêt connu (par exemple, dans un motif ou une liaison / funSite ctionnel) ou des résidus qui sont distale par rapport à une autre au sein de l'alignement (ce qui suggère qu'ils se trouvent à proximité de la protéine repliée) 8. Sélection et conclusions Enregistrement Utilisation de la commande + clic gauche sur les bords d'intérêt. Le volet contrôle StickWRLD indiquera les colonnes et connectez résidus spécifiques, par exemple, "(124 | G) (136 | H)" (Figure 7). Les lignes continues représentent des associations positives; lignes pointillées représentent des associations négatives. Appuyez sur le bouton "Bords de sortie" sur le panneau "StickWRLD Control" pour enregistrer un fichier au format texte brut (edge_residual.csv) de tous les bords visibles, y compris les résidus jointes et leurs valeurs résiduelles réelles, dans la / StickWRLD / exec / répertoire.

Representative Results

StickWRLD a déjà été utilisé pour détecter les dépendances d'interposition (JVP) entre les résidus dans les deux ADN 3 et en protéines 15-17 alignements. Ces résidus co-évolution, tandis que souvent distale par rapport à l'autre dans l'alignement de séquences, sont souvent proximale par rapport à l'autre dans la protéine repliée. StickWRLD permet la découverte rapide des résidus spécifiques de co-occurrence de tels sites, par exemple., Une alanine à la position "X" est fortement corrélée à une thréonine en position "y". Ces corrélations peuvent être le signe de relations structurelles prouvables, et typiquement des sites qui, par nécessité, co-évoluent. StickWRLD est capable de détecter ces relations même quand plus «traditionnelle» des approches utilisant des HMM pour décrire motifs échouent. Par exemple, l'analyse de l'alignement de PFAM du domaine de couvercle de ADK utilisant StickWRLD révèle une forte corrélation positive entre cystéines (C) aux positions 4 et 8 et une coordonnéepaire de C à des positions 35 et 38. Dans le même temps, StickWRLD a montré une forte relation positive similaire entre histidine (H) et la sérine (S) à 4 et 8, avec une forte relation négative entre ces derniers et le quatuor à C 4, 8, 35, et 38, et une forte relation positive avec de l'acide aspartique (D) et la thréonine (T) à des positions 35 et 38 respectivement. JVP supplémentaires existent entre le H, S, D, T et un motif T et G à la position **** 10 et 29 en B subtilis **** soulignant le caractère conditionnel de ces JVP – le motif tétracystéine ne «soins» sur les identités à ces deux positions, tandis que le H hydrophile, S, D, T triade exige que les résidus spécifiques dans ces positions presque absolument. Ces deux motifs de résidus d'dépendants de la position complètement différents peuvent remplir le même rôle le couvercle ADK. Comme on peut le voir sur la figure 6, un groupe important de IPDS, comprenant une association entre le noeud 3-G (glycine) à la position 132, Y (tyrosine) à la position 135, et un P (proliNE) à la position 141, est visible au premier plan (figure 6A). Dans la figure 6B, la vue a été biaisé pour positionner l'utilisateur légèrement au-dessus du cylindre, révélant une IPD entre un H (histidine) à la position 136 et une M (méthionine) en position 29, 107 résidus lointain. Un motif PFAM HMM dérivé du même domaine (Figure 2), quant à lui, non seulement ne détecte pas ces derniers comme spécifiquement variantes de motifs co-survenant, mais définit également les groupes globaux dans un système biologiquement non pris en charge 16. Figure 1. »Subway Map" représentation de la B. subtilis adénosine kinase structure de domaine (ADK) du couvercle. Les flèches indiquent JVP identifiés dans l'alignement de PFAM d'ADK domaine Couvercle par StickWRLD. StickWRLD est en mesure d'identifier correctement JVP sein d'un cluster of résidus qui sont à proximité étroite de la protéine repliée. D'intérêt particulier sont la paire T et G aux positions 9 et 29, qui ne font IPD lorsque la tétrade de résidus à 4, 7, 24 et 27 ne sont pas C, C, C, C). numéros de résidus affichée représente B. subtilis positions d'alignement position et pas PFAM. S'il vous plaît, cliquez ici pour voir une version plus grande de cette figure. Figure 2. Skylign 18 modèles de Markov cachés (HMM) Logo de séquence pour le domaine du couvercle de ADK. Alors que HMM sont des outils puissants pour déterminer les probabilités à chaque position ainsi que la contribution de chaque site pour le modèle global, l'indépendance de position de HMM les rend inadapté pour détecter JVP. Ce modèle ne suggère pas l'un desdépendances observées dans les représentations de StickWRLD (figure 6). S'il vous plaît, cliquez ici pour voir une version plus grande de cette figure. Figure 3. Le Data Loader StickWRLD. Les utilisateurs peuvent choisir à partir de données de démonstration existants ou charger leurs propres données sous la forme de séquence d'ADN ou de protéines alignements. Figure 4. La fenêtre de contrôle StickWRLD. Le volet de contrôle permet à l'utilisateur de modifier diverses propriétés de la vue ainsi que régler les seuils de contrôle de l'affichage des lignes de bord indiquant les relations entre les résidus (JVP). Entourées en rouge sont les valeurs par défaut qui doivent généralement t o être ajustée pour un meilleur affichage de tout ensemble de données. La valeur résiduelle fixe le seuil de (observé prévu) pour lesquels les lignes connecteur / d'association sont dessinés. Les commandes pour les étiquettes de colonnes et de contrôle de la balle ou non la position de la colonne et les valeurs de résidus (par exemple, "A" pour l'arginine) sont affichés. La colonne bordure bascule de contrôle de ligne sur et hors de l'affichage des lignes de bord reliant colonnes – pour les ensembles de données denses ce qui est mieux éteints. Les contrôles Colonne Epaisseur si la colonne elle-même ou non est affiché -. Cette option à une valeur très faible (par exemple, 0,1) sera tracer une ligne à travers les sphères de la colonne, ce qui rend facile de distinguer les colonnes d'un autre S'il vous plaît cliquez ici pour voir une version plus grande de cette figure. ghres.jpg "width =" 600 "/> Figure 5. Vue initiale de la fenêtre StickWRLD OpenGL avec le domaine de couvercle ensemble de données de la protéine Kinase Adenylate chargé. Le point de vue initial semble "bas" à travers le cylindre constitué des positions d'alignement de séquence. L'utilisateur peut faire tourner le cylindre à l'aide gauche de la souris un cliquer-glisser, et zoom in / out en utilisant droit de la souris un cliquer-glisser. Le point de vue initial est assez dense parce que l'affichage par défaut montre faibles taux même de co-évolution. Pour de nombreuses protéines, à ce paramètre, modules distincts peuvent être détectés, mais même dans densément co-évolution des protéines de l'affichage peut être rapidement et de manière interactive simplifiée pour trouver JVP les plus importantes en utilisant l'interface StickWRLD. S'il vous plaît, cliquez ici pour voir une version plus grande de ce chiffre. ghres.jpg "width =" 700 "/> Figure 6. Vue Gros plan d'une visualisation StickWRLD de la protéine de domaine couvercle adénylate kinase. Ici, nous avons changé le défaut résiduel à 0,2. Cela augmente le seuil d'affichage des arêtes inter-résidus, montrant moins d'arêtes. Les bords qui restent indiquent JVP fortement associés. En outre, le point de vue a été tourné et zoomée pour permettre de faciliter la visualisation des bords. (A) Un grand groupe de JVP est visible au premier plan, y compris une association 3-noeud entre G (glycine) à la position 132, Y (tyrosine) à la position 135, et un P (proline) à la position 141. (B) Le point de vue a été biaisé pour positionner l'utilisateur légèrement au-dessus du cylindre, révélant une IPD entre un H (histidine) à la position 136 et une M (méthionine) à la position 29, 107 résidus lointain. S'il vous plaît cliquez ici pour voir une version plus grande de cette figure. Figure 7. fenêtre Contrôle StickWRLD inférieur droit de vue de l'information. CTRL + clic gauche sur un objet (par exemple, une sphère ou bord) dans la fenêtre OpenGL affiche les informations de l'objet dans le coin inférieur droit de la fenêtre de contrôle StickWLRD. Ici, nous voyons les informations d'un bord IPD entre une méthionine en position 29 et une histidine en position 136.

Discussion

StickWRLD a été utilisé avec succès pour identifier ces JVP dans le domaine du couvercle adénylate kinase 16, ainsi que des bases de l'ADN associées à Rho-dépendante terminaisons 9, et un roman spécificité site d'épissage dans Archaeal ARNt intron endonucléase 6 sites cibles. Ces distributeurs indépendants ne sont pas détectables par un examen direct des alignements.

StickWRLD affiche chaque position d'un alignement comme une colonne de 20 "sphères", où chaque sphère représente l'un des 20 résidus d'acides aminés et la taille de la sphère indique la fréquence d'apparition de ce résidu particulier à l'intérieur de la colonne (figure 4). Les colonnes sont disposées dans un cylindre, avec des lignes de bordure reliant les résidus présents dans des colonnes différentes (indiquant un IPD). Ces lignes de bord ne sont tirées si les résidus correspondants sont covarying à une fréquence dépassant à la fois la valeur de p (signification) et résiduelles (attendus) – observés seuils.

Détection des résidus concomitants interdépendants, ou IPDS, dans les régions distales de l'alignement d'une séquence d'ADN ou de protéine est difficile en utilisant séquence standard outils d'alignement 6. Bien que ces outils génèrent un consensus, ou un motif, la séquence, ce consensus est dans de nombreux cas, une simple moyenne majorité règle et ne donne pas les relations de covariation qui peuvent former un ou plusieurs sous-motifs – groupes de résidus qui ont tendance à co-évoluer. Même les modèles HMM, qui sont capables de détecter les dépendances voisines, ne peut pas modéliser avec précision des motifs de séquence avec IPD distales 5. Le résultat est que le consensus calculée peut en fait être une séquence "synthétique" non trouvé dans la nature – et des protéines modifiées sur la base de ce consensus de calcul peuvent ne pas, en fait, être optimale. En fait, le HMM Pfam pour ADK suggère que la protéine chimère contenant de la moitié de motif tétracystéine, et la moitié de H, S, D, T motif, est fonctionnellement tout aussi acceptablecomme tout ADK réellement existant. Cela ne veut pas le cas, que ces chimères (et beaucoup d'autres assemblages de ces motifs) sont-ils morts catalytique 4,19.

Lorsque vous cherchez des corrélations, il est essentiel que le seuil résiduelle être réglée pour permettre la découverte de corrélations pertinentes en définissant le seuil au-dessus du niveau auquel les bords sont vus, puis montée en puissance progressivement le seuil vers le bas. Cela garantit que seuls les bords les plus significatifs sont considérés initialement.

Une autre approche est de commencer avec le seuil fixé résiduelle extrêmement faible. Cela se traduit par l'affichage de tous les bords importants. De là, le seuil résiduel peut être augmenté lentement, permettant bords à abandonner jusqu'à ce que des tendances émergent. Bien que cette approche est moins utile lorsque vous cherchez pour l'inclusion des nœuds spécifiques (par exemple, l'application des connaissances de domaine), il permet la découverte de relations inattendues utilisant StickWRLD comme une visuel outil analytique pour découvrir les nouvelles tendances dans la visualisation de données.

StickWRLD est limitée principalement par la quantité de mémoire disponible du système sur lequel il est exécuté ainsi que la résolution du dispositif d'affichage. Bien qu'il n'y ait pas de limite théorique au nombre de points de données StickWRLD peut examiner et séquences jusqu'à 20.000 postes ont été testés, dans la pratique StickWRLD fonctionne mieux avec des séquences jusqu'à près de 1000 positions.

Le principal avantage de StickWRLD réside dans sa capacité à identifier des groupes de résidus qui covarier un avec l'autre. Ceci est un avantage significatif sur l'approche traditionnelle de la séquence consensus statistique, qui est une moyenne statistique simple et ne prend pas en compte la coévolution. Alors que dans certains cas, les résidus covarying peuvent simplement être un artefact de la phylogénie, même ces résidus ont résisté le «test de sélection», et en tant que tels ne sont pas susceptibles de nuire à la functionalité de toute protéine conçu pour les inclure.

Tout en utilisant StickWRLD pour identifier JVP dans une séquence d'ADN ou de protéines canonique consensus / motif avant variantes synthétiques d'ingénierie permettra de réduire le risque d'erreur et de soutenir l'optimisation rapide de la fonction, il faut noter que StickWRLD peut être utilisé comme un outil d'identification de corrélation généralisée et ne se limite pas exclusivement à des données de protéines. StickWRLD peut être utilisée pour découvrir visuellement la co-occurrence de toutes les variables dans un ensemble de données correctement codé.

Divulgaciones

The authors have nothing to disclose.

Acknowledgements

StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.

Materials

Mac or Ubuntu OS computer Various NA Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts
Python programming language python.org NA Python version 2.7.6 or greater recommended
wxPython library wxpython.org NA Latest version recommended
SciPy library scipy.org NA Latest version recommended
PyOpenGL library pyopengl.sourceforge.net NA Latest version recommended
StickWRLD Python scripts NCH BCCM NA Available from http://www.stickwrld.org
fasta2stick.sh file converter NCH BCCM NA Available from http://www.stickwrld.org
Protein and/or DNA sequence data NA NA Samples available at http://www.stickwrld.org

Referencias

  1. Ray, W. C. Addressing the unmet need for visualizing conditional random fields in biological data. BMC. 15, 202 (2014).
  2. Sullivan, B. J., Durani, V., Magliery, T. J. Triosephosphate isomerase by consensus design: dramatic differences in physical properties and activity of related variants. Journal of molecular biology. 413, 195-208 (2011).
  3. Smith, M. A., Bedbrook, C. N., Wu, T., Arnold, F. H. Hypocrea jecorina cellobiohydrolase I stabilizing mutations identified using noncontiguous recombination. ACS synthetic biology. 2, 690-696 (2013).
  4. Ray, W. C. Understanding the sequence requirements of protein families: insights from the BioVis 2013 contests. BMC proceedings. 8, S1 (2014).
  5. Eddy, S. R. What is a hidden Markov model?. Nature biotechnology. 22, 1315-1316 (2004).
  6. Ray, W. C., Ozer, H. G., Armbruster, D. W., Daniels, C. J. Beyond identity – when classical homology searching fails, why, and what you can do about it. Proceedings of the 4th Ohio Collaborative Conference on Bioinformatics. , 51-56 (2009).
  7. Ovchinnikov, S., Kamisetty, H., Baker, D. Robust and accurate prediction of residue-residue interactions across protein interfaces using evolutionary information. eLife. 3, e02030 (2014).
  8. Trudeau, D. L., Lee, T. M., Arnold, F. H. Engineered thermostable fungal cellulases exhibit efficient synergistic cellulose hydrolysis at elevated temperatures. Biotechnology and bioengineering. 111, 2390-2397 (2014).
  9. Ray, W. C. MAVL and StickWRLD: visually exploring relationships in nucleic acid sequence alignments. Nucleic acids research. 32, W59-W63 (2004).
  10. . Python Language Reference v.2.7.6 Available from: https://www.python.org/download/releases/2.7.6/ (2014)
  11. . . PyOpenGL The Python OpenGL Binding. , (2014).
  12. Larkin, M. A. Clustal W and Clustal X version 2.0. Bioinformatics. 23, 2947-2948 (2007).
  13. Ozer, H. G., Ray, W. C. MAVL/StickWRLD: analyzing structural constraints using interpositional dependencies in biomolecular sequence alignments. Nucleic acids research. 34, W133-W136 (2006).
  14. Ray, W. C. MAVL/StickWRLD for protein: visualizing protein sequence families to detect non-consensus features. Nucleic acids research. 33, W315-W319 (2005).
  15. Ray, W. C. A Visual Analytics approach to identifying protein structural constraints. IEEE. , 249-250 (2010).
  16. Wheeler, T. J., Clements, J., Finn, R. D. Skylign: a tool for creating informative, interactive logos representing sequence alignments and profile hidden Markov models. BMC bioinformatics. 15, 7 (2014).
  17. Perrier, V., Burlacu-Miron, S., Bourgeois, S., Surewicz, W. K., Gilles, A. M. Genetically engineered zinc-chelating adenylate kinase from Escherichia coli with enhanced thermal stability. The Journal of biological chemistry. 273, 19097-19101 (1998).

Play Video

Citar este artículo
Rumpf, R. W., Ray, W. C. Optimization of Synthetic Proteins: Identification of Interpositional Dependencies Indicating Structurally and/or Functionally Linked Residues. J. Vis. Exp. (101), e52878, doi:10.3791/52878 (2015).

View Video