Summary

Optimierung der synthetische Proteine: Bezeichnung interpositional Abhängigkeiten Anzeige- strukturell und / oder funktionell verknüpft Rückstände

Published: July 14, 2015
doi:

Summary

Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.

Abstract

Protein Ausrichtungen werden häufig verwendet, um die Ähnlichkeit der Proteinrückstände zu bewerten und die abgeleitete Konsensus-Sequenz zur Identifizierung funktioneller Einheiten (zB Domänen) verwendet. Traditionelle Konsensmodelle nicht zu für interpositional Abhängigkeiten berücksichtigen – funktionell erforderlich Kovariation von Resten, die gleichzeitig während der Evolution und über die phylogenetischen Baum erscheinen neigen. Wichtige Hinweise über die Prozesse der Proteinfaltung, Thermostabilität, und die Bildung von funktionellen Stellen, die wiederum verwendet werden, um die Konstruktion von synthetischen Proteinen informieren können diese Beziehungen aufzudecken. Leider bilden diese Beziehungen im Wesentlichen Unter Motive, die nicht durch einfache "Mehrheitsregel" oder sogar HMM basierenden Konsens Modellen vorhergesagt werden kann, und das Ergebnis kann ein biologisch ungültig "Konsens", der nicht nur nie gesehen in der Natur, ist aber weniger lebensfähig sein als jedes vorhandenen Proteins. Wir haben eine visuelle entwickelt einalytics Werkzeug, StickWRLD, die ein interaktives 3D-Darstellung eines Proteins Ausrichtung erstellt und zeigt deutlich covarying Rückstände. Der Benutzer hat die Möglichkeit, Schwenken und Zoomen sowie dynamisch ändern die statistische Schwelle die Identifizierung von Kovarianten zugrunde. StickWRLD zuvor erfolgreich eingesetzt, um funktionell erforderlich covarying Resten in Proteinen wie Adenylatkinase und DNA-Sequenzen, wie Endonuclease-Zielstellen zu identifizieren.

Introduction

Protein Ausrichtungen seit langem verwendet, um die Ähnlichkeit der Rückstände in einer Proteinfamilie zu bewerten. Häufig sind die interessantesten Eigenschaften eines Proteins (zB katalytische oder andere Bindungsstellen) sind das Ergebnis der Proteinfaltung bringen distalen Regionen der linearen Abfolge in Kontakt, und als Ergebnis diese scheinbar nicht verwandten Regionen in der Ausrichtung neigen, sich zu entwickeln und zu ändern in koordiniert. In anderen Fällen kann die Funktion eines Proteins hängt von dessen elektro Unterschrift, und Mutationen, die die elektronische Dipol beeinflussen, werden durch Änderungen der entfernten geladenen Resten kompensiert. Allosterische Effekte können auch induzieren Langstrecken sequenzielle und räumliche Abhängigkeiten zwischen Rest Identitäten. Unabhängig von ihrer Herkunft, diese funktionell erforderlich Kovariationen von Rückständen – inter-Positionsabhängigkeiten (IPDS) – nicht mit visuellen Prüfung der Ausrichtung (Abbildung 1) offensichtlich. Bezeichnung des IPDs – sowie derwelche spezifische Reste in diesen Positionen sind in der Regel als eine Einheit kovariieren – wichtige Hinweise über die Prozesse der Proteinfaltung und der Bildung von funktionellen Stellen zu offenbaren. Diese Informationen können dann verwendet werden, um synthetische (engineered) Proteinen im Hinblick auf Thermostabilität und Aktivität zu optimieren. Es ist seit langem bekannt, dass nicht alle Punktmutationen in Richtung Konsens eine verbesserte Stabilität oder Aktivität. In jüngerer Proteine ​​nutzt die bekannte IPDs in ihrer Sequenz wurde gezeigt, dass eine grössere Aktivität als die gleiche Protein strikt Konsensus 1,2 (Manuskript in Vorbereitung) ausgebildet ist, nach einem ähnlichen Prinzip der Stabilisierung von Punktmutationen 3 führen zu nehmen.

Leider traditionellen Konsensmodelle (zB Mehrheitsregel) nur erfassen IPDs durch Zufall. Konsens und Position Spezifische Scoring Matrix Methoden sind unwissend IPDS und nur 'richtig' sind sie in Modellen, wenn die abhängigen Rückständesind auch die beliebtesten Reste für diese Positionen in der Familie. Markov-Ketten-Modelle können IPDs zu erfassen, wenn sie der Reihe nach proximal, aber ihre typischen Implementierung ignoriert alles außer sofortige sequentielle Nachbarn und sogar von ihrer besten Seite, Hidden Markov Model-Berechnungen (siehe Abbildung 2) werden hartnäckige, wenn Abhängigkeiten werden in der Folge um mehr als getrennt ein Dutzend Positionen 4. Da diese IPDs bilden im Wesentlichen "sub-Motive", die nicht durch einfache "Mehrheitsregel" oder sogar HMM basierenden Konsens Modellen vorhergesagt werden kann, 5,6 das Ergebnis kann ein biologisch ungültig "Konsens", der nicht nur in der Natur nie gesehen, aber sein weniger lebensfähig als jeder noch vorhandenen Proteins. Systeme auf Basis von Markov Zufallsfeldern, wie GREMLIN 7, versuchen, diese Probleme zu überwinden. Darüber hinaus, während anspruchsvolle biologische / biochemische Techniken wie nicht zusammenhängende Rekombination 3,8 verwendet werden, um ide werdenntify essentielles Protein Elemente nach Region, benötigen sie viel Zeit und Arbeitsbank für die Einzelbasenpaar-Genauigkeit erreicht werden soll.

StickWRLD 9 ist ein Python-basiertes Programm, das eine interaktive 3D-Darstellung eines Proteins, die Ausrichtung IPDs klar und einfach zu verstehen, macht erstellt. Jede Position in der Ausrichtung wird als eine Spalte in der Anzeige, wobei jede Spalte einen Stapel von Kugeln, eine für jede der 20 Aminosäuren, die in dieser Position in der Ausrichtung vorhanden sein umfasste dargestellt. Die Kugelgröße hängt von der Häufigkeit des Auftretens der Aminosäure, so dass der Anwender sofort aufzulesen die Konsensus-Rest oder die relative Verteilung der Aminosäuren in dieser Position, indem sie einfach auf die Größe der Kugeln. Die Spalten, die jede Position sind um einen Zylinder gewickelt. Dies gibt alle Bereiche, die eine mögliche Aminosäure an jeder Position in der Ausrichtung, ein klares "Sichtlinie"zu jeder anderen Aminosäure Möglichkeit an jeder zweiten Position. Vor der Visualisierung berechnet StickWRLD die die Korrelation Festigkeit zwischen allen möglichen Kombinationen von Resten, die IPDs 9 zu identifizieren. IPDS darstellen, werden Linien zwischen den Resten, die bei coevolving gezeichnet ein höherer oder niedriger als zu erwarten wäre, wenn die in den Positionen vorhanden Reste unabhängig waren (IPD).

Nicht der einzige dieser Visualisierung Show, die Sequenzpositionen interagieren evolutionär, sondern als die IPD Kantenlinien zwischen den Aminosäure Kugeln in jeder Spalte gezogen, kann der Benutzer schnell feststellen, welche spezifischen Aminosäuren sind in der Regel an jeder Position coevolving werden. Der Benutzer hat die Möglichkeit, sich zu drehen und erkunden Sie die visualisiert IPD Struktur sowie dynamisch ändern Sie die statistischen Schwellen Steuerung der Anzeige von Korrelationen, so StickWRLD ein leistungsfähiges Werkzeug für die Entdeckung IPDs.

Anwendungen wie GREMLIN 7 similarly anzuzeigen komplexen relationalen Informationen zwischen den Resten – aber diese Beziehungen über traditionelle Markov-Modelle, die nicht dazu bestimmt sind, keine bedingte Beziehungen bestimmen, berechnet. Als solche sind diese in der Lage ist als 2D-Projektionen dargestellt. Im Gegensatz dazu kann StickWRLD berechnen und anzeigen Multi-Node-bedingte Abhängigkeiten, die verschleierten kann, wenn sie als 2D-Diagramm (ein Phänomen, das als Kanten Okklusion bekannt) wiedergegeben werden.

StickWRLD 3D-Ansicht hat auch einige andere Vorteile. Indem Benutzer auf die visuelle Manipulation – Schwenken, Drehen und Zoomen – Features, die verschleiert werden kann oder nicht intuitiv in einer 2D-Darstellung können leichter in der 3D-Zylinder StickWRLD sehen. StickWRLD ist im Wesentlichen eine visuelle Analyse-Tool, die Nutzung der Kraft der Mustererkennung Fähigkeit des menschlichen Gehirns, um Muster und Trends zu sehen, und die Möglichkeit, die Daten aus verschiedenen Perspektiven zu erkunden bietet sich für diese.

Protocol

1. Software Download & Installation Verwenden Sie einen Computer verfügt über einen Intel i5 Prozessor oder besser mit mindestens 4 GB RAM und ist mit Mac OS X oder GNU / Linux (zB Ubuntu) OS. Darüber hinaus werden Python 2.7.6 10 und die wxPython 2.8 11, SciPy 12 und 13 PyOpenGL Python-Bibliotheken erforderlich – herunterladen und installieren jeder von ihren jeweiligen Repositories. Laden Sie StickWRLD als Zip-Archiv, das alle relevanten Python-Skripte. Laden Sie die "fasta2stick.sh" Skript für die Umwandlung von Standard-FASTA DNA / Protein-Sequenz-Alignments zu StickWRLD Format. Entpacken Sie das Archiv und setzen Sie den resultierenden Ordner StickWRLD auf Ihrem Desktop. Legen Sie die "fasta2stick.sh" Skript auf dem Desktop als auch. 2. Bereiten Sie die Ausrichtung Erzeugen eine Ausrichtung der Proteinsequenzen mit jeder standard Ausrichtung Software (zB ClustalX 14). Speichern Sie die Ausrichtung auf dem Desktop in FASTA-Format. Öffnen Sie die Terminal-Anwendung auf dem Mac oder GNU / Linux-Computer und navigieren Sie zu dem Desktop (der Ort des "fasta2stick.sh" Shell-Skript), indem Sie cd ~ / Desktop und drücken Sie Return. Führen Sie den "fasta2stick.sh" Skript, indem Sie ./fasta2stick.sh im Terminal. Wenn das Script nicht ausgeführt, sicherzustellen, dass es ausführbar ist – in der Terminal-Typ chmod + x fasta2stick.sh, um das Skript ausführbar zu machen. Folgen Sie den Anweisungen von dem Skript zur Verfügung gestellt, um das Eingangsdateinamen (die Datei in 1.2 oben erstellt) und die gewünschte Ausgangsnamen angeben. Speichern Sie die Ausgabedatei (die jetzt in das richtige Format für StickWRLD) auf dem Desktop. 3. Starten StickWRLD Navigieren Sie in die StickWRLD ausführbaren Ordner mit dem Terminal application des Mac oder GNU / Linux-Computer. Zum Beispiel, wenn die StickWRLD Ordner auf dem Desktop, geben Sie cd ~ / Desktop / StickWRLD / exec im Terminal. Starten StickWRLD indem Sie python-32 stickwrld_demo.py im Terminal. Stellen Sie sicher, dass die StickWRLD Data Loader-Panel auf dem Bildschirm (Abbildung 3) sichtbar ist. 4. Laden der Daten Laden Sie die konvertierten Proteinsequenz Ausrichtung durch Drücken der "Load Protein …" klicken. Wählen Sie die Datei in Schritt 3 oben, und drücken Sie auf "Öffnen" erstellt. StickWRLD mehrere neue Fenster zu öffnen, darunter "StickWRLD Control" (Abbildung 4) und "StickWRLD – OpenGL" (Abbildung 5). Wählen Sie das – Fenster "StickWRLD OpenGL". Wählen Sie "Ansicht zurücksetzen" aus dem Menü "OpenGL", um den Standard StickWRLD Visualisierung in einem "top-down anzuzeigen"Blick durch den Zylinder, die die Daten in der Größe veränderbar OpenGL Fenster .. 5. Optionen anzeigen Wählen Sie die Kontrollkästchen für "Spaltenbeschriftungen" und "Ball-Labels" im "StickWRLD Control" Fenster (Abbildung 4), um Werte für Spalten und Bälle an. Deaktivieren Sie das Kontrollkästchen für "Column Edges" im Fensterbereich "StickWRLD Control", um die Spaltenkantenlinien zu verbergen. Stellen Sie den "Column Dicke" auf 0,1 im Fensterbereich "StickWRLD Control", um eine dünne Linie durch die Säulen zu ziehen, so dass es einfacher ist, die 3D-Ansicht zu navigieren. Drücken Sie zurückkehren, um die Änderung zu übernehmen. Setzen Sie die Ansicht in der "StickWRLD – OpenGL" Fenster wie in Schritt 5.3 oben und drücken Sie die "Vollbild", um die Ansicht zu maximieren. 6. Navigation Drehen Sie das 3D-StickWRLD Display, indem Sie die linke Maustaste while Bewegen der Maus in eine beliebige Richtung. Vergrössern des 3D StickWRLD Display, indem Sie die rechte Maustaste, während Sie die Maus nach oben oder unten. 7. Findet interpositional Abhängigkeiten (IPDS) Durchsuchen Sie die Ansicht durch Schwenken und Zoomen wie in Schritt 6 Coevolving Rückstände Überschreiten der Schwelle Anforderungen sowohl p und Rest werden über Randlinien verbunden sind, wie in 6 zu sehen beschrieben. Wenn es zu viele oder zu wenige Kanten Verbindungsreste, ändern Sie die Rest Schwelle (auf der "StickWRLD Control" Bereich), weniger oder mehr Kanten zeigen. Erhöhen Sie die Restschwelle auf der StickWRLD Kontrollfenster, bis keine IPD Randlinien angezeigt und langsam Rampe ab, bis Beziehungen angezeigt. Weiterhin die Erhöhung der Rest bis eine ausreichende Anzahl von Beziehungen zu prüfen haben. Identifizieren Sie Beziehungen, die entweder Rückstände bekannt Interesse (zB beinhalten, innerhalb eines Motivs oder Bindung / funfiktiven site) oder Reste, die innerhalb des Ausrichtungs distal zueinander sind (was darauf hindeutet, dass sie proximal in dem gefalteten Protein) 8. Auswahl und Speicherung Findings Mit dem Befehl + Linksklick auf allen Kanten von Interesse. Die StickWRLD Steuerfensterbereich werden die Spalten geben und schließen spezifische Reste, zum Beispiel "(124 | G) (136 | H)" (Abbildung 7). Gezogenen Linien positive Assoziationen; gestrichelten Linien negative Assoziationen. Drücken Sie die Taste "Output Edges" auf der "StickWRLD Control" Bedienfeld, um eine Nur-Text-formatierten Datei (edge_residual.csv) aller sichtbaren Kanten, einschließlich der verbundenen Reste und deren tatsächliche Restwerte, in der / StickWRLD / exec / Verzeichnis.

Representative Results

StickWRLD bereits verwendet wurde, um interpositional Abhängigkeiten (IPDS) zwischen den Resten in beiden DNA 3 und Eiweiß 15-17 Ausrichtungen zu erkennen. Diese Co-entwickelnden Rückstände, während oft distal voneinander in dem Sequenz-Alignment, sind oft proximal zueinander in der gefalteten Proteins. StickWRLD ermöglicht eine schnelle Entdeckung der Rest spezifische Co-Auftritts an solchen Stellen, z. B. ein Alanin an Position "x" ist eng mit einem Threonin an Position korreliert "y". Solche Korrelationen anzeigt nachweisbaren strukturellen Beziehungen sein, und in der Regel sind Websites, die, durch die Notwendigkeit, gemeinsam zu entwickeln. StickWRLD ist in der Lage, diese Zusammenhänge zu erkennen, auch wenn mehr "traditionellen" Ansätze mit HMMs beschreiben Motive scheitern. B. Analyse der PFAM Ausrichtung des ADK Deckel Domäne mit StickWRLD zeigt eine starke positive Korrelation zwischen den Cysteinen (C) an den Positionen 4 und 8 und einer koordiniertenPaar C an den Positionen 35 und 38. Zur gleichen Zeit zeigte StickWRLD eine ähnliche starke positive Korrelation zwischen den Histidin (H) und Serin (S) bei 4 und 8, mit einer starken negativen Beziehungen zwischen diesen und dem Quartett bei 4 C, 8, 35 und 38, und eine starke positive Beziehung zu Asparaginsäure (D) und Threonin (T) an den Positionen 35 und 38 jeweils. Zusätzliche IPDs existieren zwischen der H, S, D, T-Motiv und einer T und G an Position **** 10 und 29 in b subtilis **** Hervorhebung der Bedingtheit dieser IPDs – der Tetracysteinmotiv Motiv nicht "Pflege" über die Identitäten in diesen beiden Positionen, während die hydrophilen H, S, D, T Triade erfordert spezifische Reste in diesen Positionen fast absolut. Diese zwei völlig unterschiedliche positionsabhängige Rückstand Motive können die gleiche Rolle erfüllen die ADK Deckel. Wie in Figur 6, einer großen Ansammlung von IPDs, einschließlich eines 3-Knoten-Zuordnung zwischen G (Glycin) an Position 132, Y (Tyrosin) an Position 135 und eine P (proli ersichtlichne) an Position 141 im Vordergrund (6A sichtbar). In 6B ist die Ansicht eine Schieflage geraten, um den Benutzer leicht über dem Zylinder zu positionieren, enthüllt eine IPD zwischen einem H (Histidin) an Position 136 und einem M (Methionin) an Position 29, 107 Reste distanziert. A PFAM HMM-abgeleitete Motiv der gleichen Domäne (Abbildung 2), inzwischen nicht nur nicht diese Co-vorkommende Motiv Varianten zu erkennen, wie gesagt, sondern auch definiert die Gesamt Gruppierungen in einer biologisch nicht unterstütztes Schema 16. Abbildung 1. "Subway Map" Darstellung des B. subtilis Adenosinkinase (ADK) Lid Domänenstruktur. Die Pfeile zeigen IPDs im PFAM Ausrichtung der ADK Lid Domäne StickWRLD identifiziert. StickWRLD ist in der Lage, richtig zu identifizieren IPDs innerhalb eines Clusters of Reste, welche in der Nähe des gefalteten Proteins sind. Von besonderem Interesse sind die T- und G Paar an den Positionen 9 und 29, die sich nur bilden, wenn die IPD eine Tetrade Resten an 4, 7, 24 und 27 nicht C, C, C, C). Restenummern angezeigt repräsentiert B. subtilis Position und nicht PFAM Ausrichtpositionen. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen. Abbildung 2. Skylign 18 Hidden Markov Model (HMM) Sequence Logo für die ADK Deckel Domäne. Während HMMs sind leistungsfähige Werkzeuge für die Bestimmung Wahrscheinlichkeiten an jeder Position sowie den Beitrag von jedem Standort auf das Gesamtmodell, die Positions Unabhängigkeit der HMMs macht sie nicht geeignet zur Erfassung IPDs. Dieses Modell unterstützt nicht vorschlagen, eine derAbhängigkeiten in den StickWRLD Darstellungen (Abbildung 6) zu sehen. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen. Abbildung 3. Die StickWRLD Data Loader. Die Benutzer können aus vorhandenen Demo-Daten wählen oder ihre eigenen Daten zu laden in Form von DNA oder Proteinsequenz-Alignments. Abbildung 4. Das StickWRLD Kontrollfenster. Die Steuerscheibe ermöglicht dem Benutzer, verschiedene Ansichtseigenschaften ändern sowie die Regulierung der Schwellenwerte Steuerung der Anzeige von Randlinien welche Beziehungen zwischen den Resten (IPDS). Rot eingekreist sind die Standardwerte, die in der Regel brauchen t o für die beste Wiedergabe jedes beliebigen Datenmenge angepasst werden. Der Restwert setzt die Schwelle von (beobachtete erwartet), für die Stecker / Assoziationslinien gezeichnet werden. Die Bedienelemente für Column and Ball Etiketten kontrollieren, ob die Spaltenposition und Werte Rückstand (zB "A" für Arginin) werden angezeigt. Die Spalte Kantenlinie Steuer Ein- und ausschalten der Anzeige von Randlinien Verbindungssäulen – für dichte Datensätzen wird dies besser ausgeschaltet. Die Säule Stärke steuert, ob die Säule selbst oder nicht angezeigt wird -. Diese Einstellung auf einen sehr kleinen Wert (zB 0,1) wird eine Linie durch die Sphären in der Spalte, macht es einfach, um die Spalten voneinander zu unterscheiden Bitte klicken Sie hier um eine größere Version dieser Figur zu sehen. ghres.jpg "width =" 600 "/> Abbildung 5. Erste Ansicht des StickWRLD OpenGL-Fenster mit der Adenylatkinase Deckel Domänenprotein-Datensatz geladen. Die ursprüngliche Perspektive sieht "unten" durch den Zylinder der Sequenz-Alignment-Positionen besteht. Der Benutzer kann den Zylinder rotieren mit der linken Maustaste klicken und vergrößern / verkleinern mit der rechten Maustaste auf-Ziehen. Die erste Ansicht ist ziemlich dicht, da der Standardanzeige zeigt auch kleine Raten der Ko-Evolution. Für viele Proteine, bei dieser Einstellung verschiedene Module können, aber selbst in dicht Zusammenarbeit entwickelt Proteine ​​das Display schnell und interaktiv vereinfacht werden, um die wichtigsten IPDs mit der StickWRLD Schnittstelle zu finden. Nachgewiesen werden Bitte klicken Sie hier, um eine größere Version zu sehen diese Zahl. ghres.jpg "width =" 700 "/> Abbildung 6. Nahaufnahmeansicht eines StickWRLD Visualisierung der Adenylatkinase Deckel Domänenprotein. Hier haben wir die Standard-Rest auf 0,2 geändert. Dies erhöht die Schwelle für die Anzeige zwischen Rückstand Kanten zeigt weniger Kanten. Die Kanten, die bleiben, deuten stark verbundenen IPDs. Darüber hinaus die Ansicht gedreht wurde und herausgezoomt, um die für die bessere Wiedergabe von den Rändern zu ermöglichen. (A) Eine große Gruppe von IPDs sichtbar in den Vordergrund, die eine 3-Knoten-Zuordnung zwischen G (Glycin) an Position 132, Y (Tyrosin) an Position 135 und eine P (Prolin) in Position 141 (B) Die Aussicht war verzerrt, um den Benutzer leicht über dem Zylinder positionieren und enthüllt einen IPD zwischen einem H (Histidin) auf Position 136 und einem M (Methionin) an Position 29, 107 Rückstände entfernt. Bitte klicken Sie hier, um eine größere Version davon zu sehen Abbildung. Abbildung 7. StickWRLD Control-Fenster unten rechts Informationsansicht. STRG + Linksklick auf ein Objekt (zB Kugel oder Flanke) in der OpenGL-Fenster zeigt die Informationen für das Objekt in der unteren rechten Ecke des StickWLRD Steuerungsfenster. Hier sehen wir die Informationen für einen IPD Kante zwischen einem Methionin an Position 29 und ein Histidin an Position 136.

Discussion

StickWRLD wurde erfolgreich eingesetzt, um solche IPDs in der Adenylatkinase Lid Domäne 16, sowie die damit verbundenen DNA-Basen in rho-abhängige Terminatoren 9 zu identifizieren, und eine neuartige splice-site Spezifität in Archaeal tRNA Intron Endonuklease 6 Zielstellen. Diese IPDs nicht über eine direkte Auseinandersetzung mit den Ausrichtungen nachweisbar.

StickWRLD zeigt jede Position einer Ausrichtung wie eine Säule von 20 "Kugeln", wobei jede Kugel stellt einen der 20 Aminosäurereste, und die Größe der Kugel zeigt die Häufigkeit des Auftretens des bestimmten Rest innerhalb dieser Kolonne (4). Säulen werden in einem Zylinder angeordnet ist, wobei Kantenlinien Verbindungsreste in verschiedenen Spalten (was einen IPD). Diese Randlinien nur gezogen, wenn die entsprechenden Reste bei einer Frequenz übertrifft sowohl die p-Wert (Bedeutung) und Rest (erwartete – beobachtet) covarying Schwellenwerte.

Detektion von CO vorkommenden interdependente Reste, oder IPDS in distale Regionen eines DNA- oder Proteinsequenzausrichtung schwierig mit Standardsequenzausrichtung Werkzeuge 6. Während solche Werkzeuge zu erzeugen, einen Konsens, oder ein Motiv, Sequenz, das ist Konsens in vielen Fällen eine einfache Mehrheitsregel Mittelwertbildung und vermittelt nicht Kovariation Beziehungen, die einen oder mehrere Unter Motive bilden können – Gruppen von Rückständen, die zur Zusammenarbeit evolve neigen. Auch HMM-Modelle, die zum Aufspüren von Nachbar Abhängigkeiten sind, können nicht präzise Modell Sequenzmotive mit distalen IPDs 5. Das Ergebnis ist, dass die berechnete Konsens kann in der Tat ein "synthetisches" Sequenz in der Natur nicht gefunden – und erzeugte Proteine ​​auf der Basis solcher Rechen Konsensus nicht tatsächlich optimal. In der Tat wäre das HMM Pfam ADK legen nahe, dass ein chimäres Protein, welches die Hälfte des Tetracysteinmotiv Motiv, und die Hälfte der H, S, D, T-Motiv ist funktionell ebenso akzeptabelwie alle real existierenden ADK. Dies ist nicht der Fall, da solche Chimären (und vielen anderen blendings dieser Motive) katalytisch toten 4,19.

Bei der Suche nach Zusammenhängen, ist es entscheidend, dass die Restschwelle eingestellt werden, um für die Entdeckung der relevanten Zusammenhänge durch Setzen der Schwelle über dem Niveau, auf dem alle Kanten zu sehen sind und dann nach und nach Hochfahren der Schwelle wieder nach unten zu ermöglichen. Dies stellt sicher, daß nur die höchstwertigen Kanten werden zunächst betrachtet.

Ein alternativer Ansatz besteht darin, mit dem Restschwelle extrem niedrig zu starten. Dies führt zu der Anzeige aller signifikanten Kanten. Von hier aus der Restschwelle kann langsam erhöht werden, so dass Kanten herausfallen, bis Muster entstehen. Dieser Ansatz ist zwar weniger nützlich, wenn man für die Aufnahme von bestimmten Knoten (zB Anwendung von Fachwissen), ermöglicht es die Entdeckung unerwarteter Beziehungen mittels StickWRLD als visual analytisches Werkzeug in Schwellenmuster in der Datenvisualisierung zu entdecken.

StickWRLD wird hauptsächlich durch den verfügbaren Speicher des Systems, auf dem sie laufen auch die Auflösung der Anzeigevorrichtung beschränkt. Während es keine theoretische Grenze für die Anzahl von Datenpunkten StickWRLD untersuchen kann, und Sequenzen bis zu 20.000 Positionen getestet wurden, in der Praxis StickWRLD beste Leistung mit Sequenzen von bis zu etwa 1.000 Positionen.

Der primäre Vorteil StickWRLD liegt in seiner Fähigkeit, um Gruppen von Resten, die untereinander kovariieren identifizieren. Dies ist ein wesentlicher Vorteil gegenüber dem traditionellen Ansatz der statistischen Konsensus-Sequenz, die eine einfache statistische Mittelung ist und nicht zu berücksichtigen Koevolution. Während in einigen Fällen covarying Reste können einfach ein Artefakt der Stammesgeschichte zu sein, haben auch diese Rückstände den "Test der Auswahl" überstanden, und als solche wahrscheinlich vom functiona beeinträchtigt sindkeit eines beliebigen Proteins entwickelt, um sie aufzunehmen.

Während mit StickWRLD IPDS in kanonischer DNA oder Proteinsequenz Konsensus / Motiv vor Technik synthetische Varianten identifiziert das Fehlerpotential reduzieren und unterstützt eine schnelle Optimierung der Funktion ist anzumerken, dass StickWRLD als generaliKorrelationsIdentifizierungsInstrument verwendet werden kann, und ist nicht ausschließlich auf Proteindaten beschränkt. StickWRLD kann verwendet werden, um visuell entdecken Sie die Co-Auftreten einer Variablen in jeder richtig kodierten Datensatz.

Divulgations

The authors have nothing to disclose.

Acknowledgements

StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.

Materials

Mac or Ubuntu OS computer Various NA Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts
Python programming language python.org NA Python version 2.7.6 or greater recommended
wxPython library wxpython.org NA Latest version recommended
SciPy library scipy.org NA Latest version recommended
PyOpenGL library pyopengl.sourceforge.net NA Latest version recommended
StickWRLD Python scripts NCH BCCM NA Available from http://www.stickwrld.org
fasta2stick.sh file converter NCH BCCM NA Available from http://www.stickwrld.org
Protein and/or DNA sequence data NA NA Samples available at http://www.stickwrld.org

References

  1. Ray, W. C. Addressing the unmet need for visualizing conditional random fields in biological data. BMC. 15, 202 (2014).
  2. Sullivan, B. J., Durani, V., Magliery, T. J. Triosephosphate isomerase by consensus design: dramatic differences in physical properties and activity of related variants. Journal of molecular biology. 413, 195-208 (2011).
  3. Smith, M. A., Bedbrook, C. N., Wu, T., Arnold, F. H. Hypocrea jecorina cellobiohydrolase I stabilizing mutations identified using noncontiguous recombination. ACS synthetic biology. 2, 690-696 (2013).
  4. Ray, W. C. Understanding the sequence requirements of protein families: insights from the BioVis 2013 contests. BMC proceedings. 8, S1 (2014).
  5. Eddy, S. R. What is a hidden Markov model?. Nature biotechnology. 22, 1315-1316 (2004).
  6. Ray, W. C., Ozer, H. G., Armbruster, D. W., Daniels, C. J. Beyond identity – when classical homology searching fails, why, and what you can do about it. Proceedings of the 4th Ohio Collaborative Conference on Bioinformatics. , 51-56 (2009).
  7. Ovchinnikov, S., Kamisetty, H., Baker, D. Robust and accurate prediction of residue-residue interactions across protein interfaces using evolutionary information. eLife. 3, e02030 (2014).
  8. Trudeau, D. L., Lee, T. M., Arnold, F. H. Engineered thermostable fungal cellulases exhibit efficient synergistic cellulose hydrolysis at elevated temperatures. Biotechnology and bioengineering. 111, 2390-2397 (2014).
  9. Ray, W. C. MAVL and StickWRLD: visually exploring relationships in nucleic acid sequence alignments. Nucleic acids research. 32, W59-W63 (2004).
  10. . Python Language Reference v.2.7.6 Available from: https://www.python.org/download/releases/2.7.6/ (2014)
  11. . . PyOpenGL The Python OpenGL Binding. , (2014).
  12. Larkin, M. A. Clustal W and Clustal X version 2.0. Bioinformatics. 23, 2947-2948 (2007).
  13. Ozer, H. G., Ray, W. C. MAVL/StickWRLD: analyzing structural constraints using interpositional dependencies in biomolecular sequence alignments. Nucleic acids research. 34, W133-W136 (2006).
  14. Ray, W. C. MAVL/StickWRLD for protein: visualizing protein sequence families to detect non-consensus features. Nucleic acids research. 33, W315-W319 (2005).
  15. Ray, W. C. A Visual Analytics approach to identifying protein structural constraints. IEEE. , 249-250 (2010).
  16. Wheeler, T. J., Clements, J., Finn, R. D. Skylign: a tool for creating informative, interactive logos representing sequence alignments and profile hidden Markov models. BMC bioinformatics. 15, 7 (2014).
  17. Perrier, V., Burlacu-Miron, S., Bourgeois, S., Surewicz, W. K., Gilles, A. M. Genetically engineered zinc-chelating adenylate kinase from Escherichia coli with enhanced thermal stability. The Journal of biological chemistry. 273, 19097-19101 (1998).

Play Video

Citer Cet Article
Rumpf, R. W., Ray, W. C. Optimization of Synthetic Proteins: Identification of Interpositional Dependencies Indicating Structurally and/or Functionally Linked Residues. J. Vis. Exp. (101), e52878, doi:10.3791/52878 (2015).

View Video