Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
Protein Ausrichtungen werden häufig verwendet, um die Ähnlichkeit der Proteinrückstände zu bewerten und die abgeleitete Konsensus-Sequenz zur Identifizierung funktioneller Einheiten (zB Domänen) verwendet. Traditionelle Konsensmodelle nicht zu für interpositional Abhängigkeiten berücksichtigen – funktionell erforderlich Kovariation von Resten, die gleichzeitig während der Evolution und über die phylogenetischen Baum erscheinen neigen. Wichtige Hinweise über die Prozesse der Proteinfaltung, Thermostabilität, und die Bildung von funktionellen Stellen, die wiederum verwendet werden, um die Konstruktion von synthetischen Proteinen informieren können diese Beziehungen aufzudecken. Leider bilden diese Beziehungen im Wesentlichen Unter Motive, die nicht durch einfache "Mehrheitsregel" oder sogar HMM basierenden Konsens Modellen vorhergesagt werden kann, und das Ergebnis kann ein biologisch ungültig "Konsens", der nicht nur nie gesehen in der Natur, ist aber weniger lebensfähig sein als jedes vorhandenen Proteins. Wir haben eine visuelle entwickelt einalytics Werkzeug, StickWRLD, die ein interaktives 3D-Darstellung eines Proteins Ausrichtung erstellt und zeigt deutlich covarying Rückstände. Der Benutzer hat die Möglichkeit, Schwenken und Zoomen sowie dynamisch ändern die statistische Schwelle die Identifizierung von Kovarianten zugrunde. StickWRLD zuvor erfolgreich eingesetzt, um funktionell erforderlich covarying Resten in Proteinen wie Adenylatkinase und DNA-Sequenzen, wie Endonuclease-Zielstellen zu identifizieren.
Protein Ausrichtungen seit langem verwendet, um die Ähnlichkeit der Rückstände in einer Proteinfamilie zu bewerten. Häufig sind die interessantesten Eigenschaften eines Proteins (zB katalytische oder andere Bindungsstellen) sind das Ergebnis der Proteinfaltung bringen distalen Regionen der linearen Abfolge in Kontakt, und als Ergebnis diese scheinbar nicht verwandten Regionen in der Ausrichtung neigen, sich zu entwickeln und zu ändern in koordiniert. In anderen Fällen kann die Funktion eines Proteins hängt von dessen elektro Unterschrift, und Mutationen, die die elektronische Dipol beeinflussen, werden durch Änderungen der entfernten geladenen Resten kompensiert. Allosterische Effekte können auch induzieren Langstrecken sequenzielle und räumliche Abhängigkeiten zwischen Rest Identitäten. Unabhängig von ihrer Herkunft, diese funktionell erforderlich Kovariationen von Rückständen – inter-Positionsabhängigkeiten (IPDS) – nicht mit visuellen Prüfung der Ausrichtung (Abbildung 1) offensichtlich. Bezeichnung des IPDs – sowie derwelche spezifische Reste in diesen Positionen sind in der Regel als eine Einheit kovariieren – wichtige Hinweise über die Prozesse der Proteinfaltung und der Bildung von funktionellen Stellen zu offenbaren. Diese Informationen können dann verwendet werden, um synthetische (engineered) Proteinen im Hinblick auf Thermostabilität und Aktivität zu optimieren. Es ist seit langem bekannt, dass nicht alle Punktmutationen in Richtung Konsens eine verbesserte Stabilität oder Aktivität. In jüngerer Proteine nutzt die bekannte IPDs in ihrer Sequenz wurde gezeigt, dass eine grössere Aktivität als die gleiche Protein strikt Konsensus 1,2 (Manuskript in Vorbereitung) ausgebildet ist, nach einem ähnlichen Prinzip der Stabilisierung von Punktmutationen 3 führen zu nehmen.
Leider traditionellen Konsensmodelle (zB Mehrheitsregel) nur erfassen IPDs durch Zufall. Konsens und Position Spezifische Scoring Matrix Methoden sind unwissend IPDS und nur 'richtig' sind sie in Modellen, wenn die abhängigen Rückständesind auch die beliebtesten Reste für diese Positionen in der Familie. Markov-Ketten-Modelle können IPDs zu erfassen, wenn sie der Reihe nach proximal, aber ihre typischen Implementierung ignoriert alles außer sofortige sequentielle Nachbarn und sogar von ihrer besten Seite, Hidden Markov Model-Berechnungen (siehe Abbildung 2) werden hartnäckige, wenn Abhängigkeiten werden in der Folge um mehr als getrennt ein Dutzend Positionen 4. Da diese IPDs bilden im Wesentlichen "sub-Motive", die nicht durch einfache "Mehrheitsregel" oder sogar HMM basierenden Konsens Modellen vorhergesagt werden kann, 5,6 das Ergebnis kann ein biologisch ungültig "Konsens", der nicht nur in der Natur nie gesehen, aber sein weniger lebensfähig als jeder noch vorhandenen Proteins. Systeme auf Basis von Markov Zufallsfeldern, wie GREMLIN 7, versuchen, diese Probleme zu überwinden. Darüber hinaus, während anspruchsvolle biologische / biochemische Techniken wie nicht zusammenhängende Rekombination 3,8 verwendet werden, um ide werdenntify essentielles Protein Elemente nach Region, benötigen sie viel Zeit und Arbeitsbank für die Einzelbasenpaar-Genauigkeit erreicht werden soll.
StickWRLD 9 ist ein Python-basiertes Programm, das eine interaktive 3D-Darstellung eines Proteins, die Ausrichtung IPDs klar und einfach zu verstehen, macht erstellt. Jede Position in der Ausrichtung wird als eine Spalte in der Anzeige, wobei jede Spalte einen Stapel von Kugeln, eine für jede der 20 Aminosäuren, die in dieser Position in der Ausrichtung vorhanden sein umfasste dargestellt. Die Kugelgröße hängt von der Häufigkeit des Auftretens der Aminosäure, so dass der Anwender sofort aufzulesen die Konsensus-Rest oder die relative Verteilung der Aminosäuren in dieser Position, indem sie einfach auf die Größe der Kugeln. Die Spalten, die jede Position sind um einen Zylinder gewickelt. Dies gibt alle Bereiche, die eine mögliche Aminosäure an jeder Position in der Ausrichtung, ein klares "Sichtlinie"zu jeder anderen Aminosäure Möglichkeit an jeder zweiten Position. Vor der Visualisierung berechnet StickWRLD die die Korrelation Festigkeit zwischen allen möglichen Kombinationen von Resten, die IPDs 9 zu identifizieren. IPDS darstellen, werden Linien zwischen den Resten, die bei coevolving gezeichnet ein höherer oder niedriger als zu erwarten wäre, wenn die in den Positionen vorhanden Reste unabhängig waren (IPD).
Nicht der einzige dieser Visualisierung Show, die Sequenzpositionen interagieren evolutionär, sondern als die IPD Kantenlinien zwischen den Aminosäure Kugeln in jeder Spalte gezogen, kann der Benutzer schnell feststellen, welche spezifischen Aminosäuren sind in der Regel an jeder Position coevolving werden. Der Benutzer hat die Möglichkeit, sich zu drehen und erkunden Sie die visualisiert IPD Struktur sowie dynamisch ändern Sie die statistischen Schwellen Steuerung der Anzeige von Korrelationen, so StickWRLD ein leistungsfähiges Werkzeug für die Entdeckung IPDs.
Anwendungen wie GREMLIN 7 similarly anzuzeigen komplexen relationalen Informationen zwischen den Resten – aber diese Beziehungen über traditionelle Markov-Modelle, die nicht dazu bestimmt sind, keine bedingte Beziehungen bestimmen, berechnet. Als solche sind diese in der Lage ist als 2D-Projektionen dargestellt. Im Gegensatz dazu kann StickWRLD berechnen und anzeigen Multi-Node-bedingte Abhängigkeiten, die verschleierten kann, wenn sie als 2D-Diagramm (ein Phänomen, das als Kanten Okklusion bekannt) wiedergegeben werden.
StickWRLD 3D-Ansicht hat auch einige andere Vorteile. Indem Benutzer auf die visuelle Manipulation – Schwenken, Drehen und Zoomen – Features, die verschleiert werden kann oder nicht intuitiv in einer 2D-Darstellung können leichter in der 3D-Zylinder StickWRLD sehen. StickWRLD ist im Wesentlichen eine visuelle Analyse-Tool, die Nutzung der Kraft der Mustererkennung Fähigkeit des menschlichen Gehirns, um Muster und Trends zu sehen, und die Möglichkeit, die Daten aus verschiedenen Perspektiven zu erkunden bietet sich für diese.
StickWRLD wurde erfolgreich eingesetzt, um solche IPDs in der Adenylatkinase Lid Domäne 16, sowie die damit verbundenen DNA-Basen in rho-abhängige Terminatoren 9 zu identifizieren, und eine neuartige splice-site Spezifität in Archaeal tRNA Intron Endonuklease 6 Zielstellen. Diese IPDs nicht über eine direkte Auseinandersetzung mit den Ausrichtungen nachweisbar.
StickWRLD zeigt jede Position einer Ausrichtung wie eine Säule von 20 "Kugeln", wobei jede Kugel stellt einen der 20 Aminosäurereste, und die Größe der Kugel zeigt die Häufigkeit des Auftretens des bestimmten Rest innerhalb dieser Kolonne (4). Säulen werden in einem Zylinder angeordnet ist, wobei Kantenlinien Verbindungsreste in verschiedenen Spalten (was einen IPD). Diese Randlinien nur gezogen, wenn die entsprechenden Reste bei einer Frequenz übertrifft sowohl die p-Wert (Bedeutung) und Rest (erwartete – beobachtet) covarying Schwellenwerte.
Detektion von CO vorkommenden interdependente Reste, oder IPDS in distale Regionen eines DNA- oder Proteinsequenzausrichtung schwierig mit Standardsequenzausrichtung Werkzeuge 6. Während solche Werkzeuge zu erzeugen, einen Konsens, oder ein Motiv, Sequenz, das ist Konsens in vielen Fällen eine einfache Mehrheitsregel Mittelwertbildung und vermittelt nicht Kovariation Beziehungen, die einen oder mehrere Unter Motive bilden können – Gruppen von Rückständen, die zur Zusammenarbeit evolve neigen. Auch HMM-Modelle, die zum Aufspüren von Nachbar Abhängigkeiten sind, können nicht präzise Modell Sequenzmotive mit distalen IPDs 5. Das Ergebnis ist, dass die berechnete Konsens kann in der Tat ein "synthetisches" Sequenz in der Natur nicht gefunden – und erzeugte Proteine auf der Basis solcher Rechen Konsensus nicht tatsächlich optimal. In der Tat wäre das HMM Pfam ADK legen nahe, dass ein chimäres Protein, welches die Hälfte des Tetracysteinmotiv Motiv, und die Hälfte der H, S, D, T-Motiv ist funktionell ebenso akzeptabelwie alle real existierenden ADK. Dies ist nicht der Fall, da solche Chimären (und vielen anderen blendings dieser Motive) katalytisch toten 4,19.
Bei der Suche nach Zusammenhängen, ist es entscheidend, dass die Restschwelle eingestellt werden, um für die Entdeckung der relevanten Zusammenhänge durch Setzen der Schwelle über dem Niveau, auf dem alle Kanten zu sehen sind und dann nach und nach Hochfahren der Schwelle wieder nach unten zu ermöglichen. Dies stellt sicher, daß nur die höchstwertigen Kanten werden zunächst betrachtet.
Ein alternativer Ansatz besteht darin, mit dem Restschwelle extrem niedrig zu starten. Dies führt zu der Anzeige aller signifikanten Kanten. Von hier aus der Restschwelle kann langsam erhöht werden, so dass Kanten herausfallen, bis Muster entstehen. Dieser Ansatz ist zwar weniger nützlich, wenn man für die Aufnahme von bestimmten Knoten (zB Anwendung von Fachwissen), ermöglicht es die Entdeckung unerwarteter Beziehungen mittels StickWRLD als visual analytisches Werkzeug in Schwellenmuster in der Datenvisualisierung zu entdecken.
StickWRLD wird hauptsächlich durch den verfügbaren Speicher des Systems, auf dem sie laufen auch die Auflösung der Anzeigevorrichtung beschränkt. Während es keine theoretische Grenze für die Anzahl von Datenpunkten StickWRLD untersuchen kann, und Sequenzen bis zu 20.000 Positionen getestet wurden, in der Praxis StickWRLD beste Leistung mit Sequenzen von bis zu etwa 1.000 Positionen.
Der primäre Vorteil StickWRLD liegt in seiner Fähigkeit, um Gruppen von Resten, die untereinander kovariieren identifizieren. Dies ist ein wesentlicher Vorteil gegenüber dem traditionellen Ansatz der statistischen Konsensus-Sequenz, die eine einfache statistische Mittelung ist und nicht zu berücksichtigen Koevolution. Während in einigen Fällen covarying Reste können einfach ein Artefakt der Stammesgeschichte zu sein, haben auch diese Rückstände den "Test der Auswahl" überstanden, und als solche wahrscheinlich vom functiona beeinträchtigt sindkeit eines beliebigen Proteins entwickelt, um sie aufzunehmen.
Während mit StickWRLD IPDS in kanonischer DNA oder Proteinsequenz Konsensus / Motiv vor Technik synthetische Varianten identifiziert das Fehlerpotential reduzieren und unterstützt eine schnelle Optimierung der Funktion ist anzumerken, dass StickWRLD als generaliKorrelationsIdentifizierungsInstrument verwendet werden kann, und ist nicht ausschließlich auf Proteindaten beschränkt. StickWRLD kann verwendet werden, um visuell entdecken Sie die Co-Auftreten einer Variablen in jeder richtig kodierten Datensatz.
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |