Summary

Optimalisatie van synthetische eiwitten: Identificatie van interpositioneel afhankelijkheden Indicating structureel en / of functioneel verbonden Residuen

Published: July 14, 2015
doi:

Summary

Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.

Abstract

Protein positioneringen worden vaak gebruikt om de gelijkenis van eiwitresiduen evalueren en de afgeleide consensussequentie gebruikt ter identificatie functionele eenheden (bijvoorbeeld domeinen). Traditionele consensusvorming modellen niet om rekening te houden interpositioneel afhankelijkheden – functioneel vereiste covariatie van residuen die de neiging hebben om de hele evolutie en over de phylogentic boom tegelijkertijd verschijnen. Deze relaties kunnen belangrijke aanwijzingen over de processen van eiwitvouwing, thermostabiliteit, en de vorming van functionele plaatsen, die op hun beurt kunnen worden gebruikt voor de engineering van synthetische eiwitten hoogte onthullen. Helaas zijn deze verhoudingen wezen vormen sub-motieven die niet kan worden voorspeld door eenvoudige "meerderheidsregel" of HMM-gebaseerde consensus modellen, en het resultaat kan een biologisch ongeldige "consensus" die niet alleen nooit in de natuur, maar minder levensvatbaar dan bestaande eiwitten. We hebben een visueel een ontwikkeldalytics tool, StickWRLD, die een interactief 3D-weergave van een eiwit alignment creëert en duidelijk weergeeft covarying residuen. De gebruiker heeft de mogelijkheid om te pannen en zoomen, evenals dynamisch de statistische drempel die ten grondslag liggen aan de identificatie van co-varianten te veranderen. StickWRLD eerder met succes gebruikt om functioneel vereiste covarying residuen in eiwitten zoals adenylaatkinase en met DNA-sequenties zoals endonuclease-doelwitplaatsen te identificeren.

Introduction

Eiwit uitlijningen zijn lange tijd gebruikt om de gelijkenis van residuen evalueren een eiwitfamilie. Vaak wordt de meest interessante eigenschappen van een eiwit (bijvoorbeeld katalytisch of andere bindingsplaatsen) zijn het gevolg van eiwitvouwing brengen distale gebieden van de lineaire sequentie in contact, met als gevolg dat deze ogenschijnlijk niet verwante gebieden in de lijn de neiging te evolueren en veranderen gecoördineerd. In andere gevallen kan de functie van een eiwit afhankelijk van de elektrostatische handtekening, en mutaties die de elektronische dipool invloed worden gecompenseerd door veranderingen op afstand geladen residuen. Allostere effecten kunnen ook veroorzaken lange afstand sequentiële en ruimtelijke afhankelijkheden tussen residu identiteiten. Ongeacht hun herkomst, deze functioneel-vereiste covariations van residuen – inter-positionele afhankelijkheden (IPDS) – misschien niet voor de hand liggende met visueel onderzoek van de uitlijning (Figuur 1). Identificatie van IPDS – alsmedewaarin specifieke residuen binnen deze posities meestal covariatie als eenheid – u belangrijke aanwijzingen over de processen van eiwitvouwing en de vorming van functionele plaatsen openbaren. Deze informatie kan vervolgens worden gebruikt om synthetische (gemodificeerde) proteïnen optimaliseren in termen van thermostabiliteit en activiteit. Het is al lang bekend dat niet alle puntmutaties richting consensus een verbeterde stabiliteit of activiteit. Recenter eiwitten ontworpen om te profiteren van bekende IPDS in hun sequentie is aangetoond dat tot een grotere activiteit dan hetzelfde eiwit gemaakt strengste consensus 1,2 (manuscript in voorbereiding), vergelijkbaar met het idee van stabiliserende puntmutaties 3.

Helaas, traditioneel consensusvorming modellen (bijv meerderheidsregel) alleen vast te leggen IPDS per ongeluk. Consensus en Position Specifieke Scoring Matrix methoden zijn onwetend van IPDS en alleen 'correct' opnemen in modellen, wanneer de afhankelijke residuenOok de meest populaire residuen die posities in de familie. Markov Chain modellen kan vangen IPDS wanneer ze opeenvolgend proximale, maar hun typische uitvoering negeert alles behalve directe buren sequentieel, en zelfs op zijn best, Hidden Markov Model berekeningen (zie figuur 2) wordt bij hardnekkige afhankelijkheden in de reeks worden gescheiden door meer dan een tiental posities 4. Aangezien deze IPDS wezen vormen "sub-motieven" die niet kunnen worden voorspeld door eenvoudige "meerderheidsregel" of HMM-gebaseerde consensus modellen 5,6 gevolg een biologisch ongeldige "consensus" die niet alleen nooit in de natuur maar is minder rendabel dan een bestaand eiwit. Systemen gebaseerd op Markov Random Fields, zoals Gremlin 7, trachten deze problemen te overwinnen. Bovendien terwijl geavanceerde biologische / biochemische technieken zoals noncontiguous 3,8 recómbinatie kan worden gebruikt identify essentieel eiwit elementen per regio, ze vereisen veel tijd en bank werken voor single-base-pair precisie te bereiken.

StickWRLD 9 is een Python gebaseerd programma dat een interactieve 3D-weergave van een eiwit alignment dat IPDS duidelijk en gemakkelijk te begrijpen maakt creëert. Elke positie in de uitlijning wordt weergegeven als een kolom in het scherm, waarbij elke kolom bestaat uit een stapel van bollen, één voor elk van de 20 aminozuren die aanwezig zijn in die positie in de uitlijning zijn. De dimensie hoogte afhankelijk is van de frequentie van het aminozuur, zodat de gebruiker onmiddellijk het consensus residu of de relatieve verdeling van de aminozuren in die positie door simpelweg te kijken naar de grootte van de bolletjes kan verzamelen. De kolommen die elke positie worden gewikkeld rond een cilinder. Dit geeft elk gebied vertegenwoordigt een mogelijke aminozuur op elke positie in de uitlijning, een duidelijke 'zichtlijn'met elk ander aminozuur mogelijkheid bij elke andere stand. Vóór visualisatie berekent de correlatie StickWRLD de kracht tussen alle mogelijke combinaties van residuen aan de IPDS 9 identificeren. IPDS vertegenwoordigen, worden lijnen getrokken tussen residuen die worden coevolving op een hoger of lager dan zou worden verwacht wanneer deze in de positie residuen onafhankelijk waren (IPDS).

Niet alleen heeft deze visualisatie toon die reeksposities interageren evolutionair, maar de IPD randlijnen worden gemaakt tussen het aminozuur bollen in elke kolom, kan de gebruiker snel bepalen welke specifieke aminozuren worden vaak coevolving op elke positie. De gebruiker heeft de mogelijkheid om te draaien en onderzoeken de gevisualiseerde IPD structuur en dynamisch wijzigen de statistische drempels besturen van de weergave van de correlatie, waardoor StickWRLD een krachtig discovery tool IPDS.

Toepassingen zoals gremlin 7 similarly tonen complex relationele gegevens tussen resten – maar deze relaties worden berekend via traditionelere Markov modellen, die niet zijn bedoeld om eventuele voorwaardelijke relaties bepaald. Als zodanig zijn deze vatbaar zijn weergegeven 2D projecties. Daarentegen kan StickWRLD berekenen en weergeven meerdere knooppunten conditionele afhankelijkheden die kunnen worden versluierd indien weergegeven als een 2D grafiek (depressiviteit en edge occlusie).

StickWRLD's 3D-weergave heeft ook een aantal andere voordelen. Doordat gebruikers de visuele manipuleren – panning, roteren en zoomen – functies die kunnen worden versluierd of unintuitive in een 2D representatie gemakkelijker worden gezien in de 3D cilinder StickWRLD. StickWRLD wezen een visuele analyses instrument, de kracht van patroonherkenning vermogen van de menselijke hersenen om patronen en trends, en de mogelijkheid om de data vanuit verschillende invalshoeken staand zich toe leent.

Protocol

1. Software Download & Installatie Gebruik een computer heeft een Intel i5-processor of beter met minstens 4 GB RAM-geheugen en draait Mac OS X of GNU / Linux (bijvoorbeeld Ubuntu) OS. Daarnaast worden Python 2.7.6 10 en de wxPython 2,8 11, scipy 12 en PyOpenGL 13 python bibliotheken nodig – te downloaden en te installeren elk vanuit hun eigen repositories. Download StickWRLD als een zip-archief met alle relevante Python scripts. Download de "fasta2stick.sh" script voor het omzetten van standaard FASTA DNA / eiwitsequentie uitlijningen te StickWRLD formaat. Pak het archief en zet het resulterende StickWRLD map op uw bureaublad. Plaats de "fasta2stick.sh" script op het bureaublad ook. 2. Bereid de Alignment Een alignment van de eiwitsequenties met elke standaard alignment software (bijv ClustalX 14). Sla de uitlijning op het bureaublad in FASTA formaat. Open de terminal applicatie op de Mac of GNU / Linux computer en navigeer naar het bureaublad (de locatie van de "fasta2stick.sh" shell script) door te typen cd ~ / Desktop en op terugkeer. Voer het "fasta2stick.sh" script door te typen ./fasta2stick.sh in de terminal. Als het script niet uit te voeren, zorgen ervoor dat het uitvoerbaar is – in de terminal soort chmod + x fasta2stick.sh om het script uitvoerbaar te maken. Volg de instructies op het scherm door het script om de naam input-bestand (het bestand gemaakt in 1.2) en de gewenste output opgeven. Sla de output file (die nu in het juiste formaat voor StickWRLD) op het bureaublad. 3. Lancering StickWRLD Navigeren in de StickWRLD executables map met behulp van de terminal applicatie van de Mac of GNU / Linux computer. Bijvoorbeeld, als de map StickWRLD is op het bureaublad, het type cd ~ / Desktop / StickWRLD / exec in de terminal. Launch StickWRLD door te typen python-32 stickwrld_demo.py in de terminal. Controleer dat het paneel StickWRLD gegevens Loader is zichtbaar op het scherm (figuur 3). 4. Laden van de Data Laad de geconverteerde eiwitsequentie uitlijning door op de "Load Protein …" knop. Selecteer het bestand gemaakt in stap 3 hierboven en druk op "Open". StickWRLD opent verscheidene nieuwe vensters, zoals "StickWRLD Control" (Figuur 4) en "StickWRLD – OpenGL" (Figuur 5). Selecteer de – venster "StickWRLD OpenGL". Kies "Reset View" in het menu "OpenGL" om de standaard StickWRLD visualisatie weer te geven in een 'top-down"View door de cilinder die de data in het schaalbare OpenGL ramen .. 5. Bekijk Opties Selecteer de vakjes "Kolomlabels" en "bal labels" in het "StickWRLD Control" venster (Figuur 4) om waarden voor kolommen en ballen tonen. Schakel het vakje voor "Column Edges" in de "StickWRLD Control" venster naar de kolom rand lijnen verbergen. Stel de "Column Thickness" naar 0,1 in de "StickWRLD Control" venster om een ​​dunne lijn door de kolom te trekken, waardoor het makkelijker om de 3D navigeren. Druk op terug te gaan naar de wijziging te accepteren. Reset het uitzicht in de "StickWRLD – OpenGL" venster zoals in stap 5.3 hierboven, druk op de knop "full screen" om de weergave te maximaliseren. 6. Navigatie Draai de 3D StickWRLD weergave door het ingedrukt houden van de linker muisknop while bewegen van de muis in elke richting. Zoomen de 3D StickWRLD weergave door de rechter muisknop ingedrukt te houden terwijl omhoog of omlaag bewegen van de muis. 7. Finding interpositioneel afhankelijkheden (IPDS) Blader door de mening van pannen en zoomen zoals beschreven in stap 6. Coevolving residuen boven de drempel eisen van zowel p en achtergebleven zijn via edge lijnen zoals te zien in figuur 6. Als er te veel of te weinig randen aansluiten resten, verander de Overblijvende drempel (de "StickWRLD Control" paneel) om minder of meer, randen tonen. Verhoog de resterende drempel op de StickWRLD controle Pane totdat geen IPD rand lijnen worden getoond en langzaam uitloop tot relaties verschijnen. Ga door het verhogen van de resterende tot je een voldoende aantal relaties te onderzoeken. Identificeer relaties die beide residuen van bekende belang (bijvoorbeeld te betrekken, binnen een motief of bindend / functional site) of residuen die distaal van elkaar in de uitlijning (hetgeen suggereert dat zij proximaal in het gevouwen eiwit) 8. Selecteren en Bevindingen opslaan Met behulp van command + klik links op elke randen van belang. Het deelvenster StickWRLD Control de kolommen geven en sluit specifieke residuen, bijvoorbeeld "(124 | G) (136 | H)" (Figuur 7). Solid lijnen geven positieve associaties; stippellijnen vertegenwoordigen negatieve associaties. Druk op de "Output Edges" knop op het paneel "StickWRLD Control" naar een platte tekst opgemaakt bestand op te slaan (edge_residual.csv) van al het zichtbare randen, inclusief de aangesloten residuen en hun daadwerkelijke restwaarde, in de / StickWRLD / exec / directory.

Representative Results

StickWRLD is eerder gebruikt om interpositioneel afhankelijkheden (IPDS) tussen residuen te detecteren in zowel DNA 3 en eiwitten 15-17 afstemmingen. Deze co-ontwikkelende residuen, terwijl vaak distaal van elkaar in de sequentie-alignment, vaak proximaal elkaar in het gevouwen eiwit. StickWRLD maakt een snelle ontdekking van residu-specifieke co-optreden op deze sites, bv., Een alanine op positie "x" is sterk gecorreleerd met een threonine op positie "y". Dergelijke correlaties indicatief aantoonbaar structurele relaties en typisch plaatsen dat noodzakelijkerwijs co-evolueren. StickWRLD kan deze relaties nog detecteren wanneer meer "traditionele" benadering en de HMM's beschrijven motieven ontbreken. Bijvoorbeeld, de analyse van het PFAM aanpassing van de ADK deksel domein behulp StickWRLD laat een sterke positieve correlatie tussen cysteïnen (C) op posities 4 en 8 en een gecoördineerdepaar C op posities 35 en 38. Tegelijkertijd, StickWRLD vertoonde een soortgelijke sterke positieve relatie tussen histidine (H) en serine (S) op 4 en 8, met een sterke negatieve relatie tussen deze en de C kwartet bij 4, 8, 35 en 38, en een sterke positieve relatie met asparaginezuur (D) en threonine (T) op posities 35 en 38 respectievelijk. Aanvullende IPDS bestaan ​​tussen de H, S, D, T motief en T en G op positie **** 10 en 29 in b subtilis **** gewezen op de voorwaardelijkheid van deze IPDS – de tetracysteine ​​motief niet 'care' de identiteit van deze twee posities, terwijl de hydrofiele H, S, D, T triade vereist specifieke resten in deze posities bijna geheel. Deze twee totaal verschillende positie-afhankelijke residu motieven kan dezelfde rol vervullen de ADK deksel. Zoals te zien is in figuur 6, een grote cluster van IPDS, waaronder een 3-knooppunt verband tussen G (glycine) op positie 132, Y (tyrosine) op positie 135, en een P (prolinene) op positie 141, is zichtbaar in de voorgrond (figuur 6A). In figuur 6B is de weergave scheef naar gebruiker net boven de middelste cilinder is, waaruit een IPD tussen de H (histidine) op positie 136 en een M (methionine) op positie 29, 107 residuen afstand. Een PFAM HMM-afgeleide motief van hetzelfde domein (Figuur 2), ondertussen niet alleen niet te vertellen dat deze specifiek co-voorkomende varianten motief, doch ook de algemene groeperingen in een biologisch ondersteunde regeling 16. Figuur 1. "Subway Map" voorstelling van de B. subtilis Adenosine Kinase (ADK) Deksel domeinstructuur. Pijlen geven IPDS die in de PFAM uitlijning van ADK Deksel domein StickWRLD. StickWRLD is in staat om IPDS correct te identificeren binnen een cluster of residuen die in de nabijheid van het gevouwen eiwit. Van bijzonder belang zijn de T en G pair op posities 9 en 29, die slechts vormen een IPD bij tetrad van residuen bij 4, 7, 24 en 27 is C, C, C, C). Residu nummers weergegeven vertegenwoordigt B. subtilis positie en niet PFAM uitlijning posities. Klik hier om een grotere versie van deze figuur te bekijken. Figuur 2. Skylign 18 Hidden Markov Model (HMM) Sequentie Logo voor ADK deksel domein. Terwijl HMM zijn krachtige hulpmiddelen voor het bepalen van waarschijnlijkheden iedere positie en de bijdrage van elk gebied tot de algemene model, de positionele onafhankelijkheid van HMMs maakt ze ongeschikt voor het opsporen van IPDS. Dit model biedt geen van de suggererenafhankelijkheden gezien in de StickWRLD voorstellingen (Figuur 6). Klik hier om een grotere versie van deze figuur te bekijken. Figuur 3. De StickWRLD gegevens Loader. Gebruikers kunnen kiezen uit bestaande demo gegevens of hun eigen data te laden in de vorm van DNA of eiwit sequentievergelijkingen. Figuur 4. Het venster StickWRLD controle. Het paneel controle kan de gebruiker verschillende weergave-eigenschappen wijzigen en regelen de drempels besturen van de weergave van randlijnen aangeven verhoudingen tussen residuen (IPDS). Omcirkeld in het rood zijn de standaardinstellingen die typisch nodig t o worden aangepast voor de beste weergave van elke dataset. De restwaarde wordt de drempel van (waargenomen verwachte) waarvoor connector / vereniging lijnen worden getrokken. De bedieningsorganen voor Column en Ball etiketten controleren of de kolom positie en residu-waarden (bijvoorbeeld "A" voor arginine) worden weergegeven. De Column Edge Line controle schakelt aan en uit het display van de rand lijnen verbinden kolommen – voor dichte datasets dit is beter uitgeschakeld. De Column Dikte bepaalt of de kolom zelf wordt weergegeven -. Instellen van deze op een zeer kleine waarde (bijvoorbeeld 0,1) een lijn door de bollen in de kolom te trekken, waardoor het gemakkelijk is om de kolommen van elkaar te onderscheiden Klik hier voor een grotere versie van deze figuur te bekijken. ghres.jpg "width =" 600 "/> Figuur 5. Eerste mening van de StickWRLD OpenGL venster met de adenylaatkinase deksel domein eiwit dataset geladen. De eerste perspectief ziet er "down" door de cilinder bestaat uit de sequentiealignering posities. De gebruiker kan de cilinder draaien met behulp van linker-muis-klik-slepen, en zoom in / out met de rechtermuisknop-klik-slepen. De eerste uitzicht is vrij dicht, omdat de standaard display zelfs kleine percentages van co-evolutie. Voor veel eiwitten, bij deze instelling, verschillende modules kan worden gedetecteerd, maar zelfs in dichtbevolkte co-evoluerende proteïnen het display kan snel en interactief worden vereenvoudigd om de belangrijkste IPDS via de StickWRLD-interface te vinden. Klik hier om een grotere versie te bekijken dit cijfer. ghres.jpg "width =" 700 "/> Figuur 6. Close-up beeld van een StickWRLD visualisatie van de adenylaatkinase deksel domein eiwit. Hier hebben we de standaard resterende 0,2 veranderd. Dit verhoogt de drempel voor de weergave van inter-residu randen, met minder randen. De randen die blijven wijzen sterk geassocieerd IPDS. Naast het uitzicht is gedraaid en ingezoomd mogelijk te maken voor een betere weergave van de randen. (A) Een grote cluster van IPDS is zichtbaar in de voorgrond, zoals een 3-knooppunt verband tussen G (glycine) op positie 132, Y (tyrosine) op positie 135, en een P (proline) op positie 141. (B) Het uitzicht is scheef op de gebruiker op zijn plaats net boven de cilinder geweest, onthullen een IPD tussen een H (histidine) op positie 136 en een M (methionine) op positie 29, 107 residuen afstandelijk. Klik hier om een grotere versie van deze foto figuur. Figuur 7. StickWRLD venster rechtsonder informatieweergave. CTRL + links klikken op een object (bijvoorbeeld, bol of rand) in het venster OpenGL toont de informatie voor het object in de rechterbenedenhoek van het venster StickWLRD controle. Hier zien we de informatie voor een IPD rand tussen een methionine op positie 29 en een histidine op positie 136.

Discussion

StickWRLD is met succes gebruikt om dergelijke IPDS in de adenylaatkinase domein deksel 16, alsmede geassocieerde DNA basen rho-afhankelijke terminators 9 identificeren en een nieuwe splice-plaats-specificiteit bij archaea tRNA intron endonuclease 6 doelwitplaatsen. Deze IPDS waren niet detecteerbaar via een rechtstreeks onderzoek van de uitlijning.

StickWRLD geeft elke positie van een uitlijning als kolom 20 "bolletjes", waarbij elke bol is een van de 20 aminozuurresten en de grootte van de bol geeft de frequentie van dat residu in die kolom (figuur 4). Kolommen zijn aangebracht in een cilinder met randlijnen verbinden residuen in verschillende kolommen (hetgeen wijst op een IPD). De snijkanten worden alleen getekend als de overeenkomstige resten worden covarying met een frequentie overtreft zowel de p-waarde (significantie) en overblijvende (verwachte – waargenomen) drempelwaarden.

Detectie van co-voorkomende residuen van elkaar afhankelijk, of IPDS, in de distale gebieden van een DNA of eiwitsequentie uitlijning is moeilijk met behulp van standaard sequentiealignering gereedschappen 6. Hoewel dergelijke instrumenten genereren een consensus of motief, sequentie, deze consensus in veel gevallen een eenvoudige meerderheid-regel middelen en niet covariantie relaties die één of meer sub-motieven kunnen vormen overbrengen – groepen residuen die de neiging hebben samen te evolueren. Zelfs HMM modellen, die voor het opsporen van de aangrenzende afhankelijkheden zijn, kan niet nauwkeurig model sequentiemotieven met distale IPDS 5. Het resultaat is dat de berekende consensus kan in feite een "synthetisch" sequentie die niet in de natuur – en gemanipuleerde eiwitten op basis van dergelijke rekenkundige consensus mag in feite optimaal. In feite zou de Pfam HMM ADK suggereren dat een chimeer eiwit dat de helft van de tetracysteine ​​motief en de helft van de H, S, D, T motif, functioneel net aanvaardbaarals elke werkelijk bestaande ADK. Dit is niet het geval als zodanig chimeren (en vele andere blendings van deze motieven) katalytisch dood 4,19.

Bij het zoeken naar correlaties, is het essentieel dat de residuele drempel worden gecorrigeerd voor het ontdekken van relevante correlaties door de drempel boven het niveau waarop geen randen worden gezien en vervolgens geleidelijk opvoeren drempel terug. Dit verzekert dat alleen de meest significante randen aanvankelijk beschouwd.

Een alternatieve benadering is om te beginnen met de resterende drempel extreem laag. Dit resulteert in de weergave van alle belangrijke randen. Vanaf hier de resterende drempel langzaam kan worden verhoogd, waardoor de randen uit te vallen tot patronen ontstaan. Hoewel deze aanpak is minder nuttig bij het ​​zoeken naar de opname van specifieke knooppunten (bijvoorbeeld de toepassing van domeinkennis), het zorgt voor de ontdekking van onverwachte relaties met StickWRLD als een visUAL analytische tool om opkomende patronen in de data visualisatie te ontdekken.

StickWRLD wordt voornamelijk beperkt door het beschikbare geheugen van het systeem waarop het ook is uitgevoerd als de resolutie van de weergeefinrichting. Hoewel er geen theoretische grens aan het aantal gegevenspunten StickWRLD kan onderzoeken en sequenties tot 20.000 posities getest in de praktijk StickWRLD uitstekend voldoet sequenties tot ongeveer 1000 posities.

Het belangrijkste voordeel van StickWRLD ligt in de mogelijkheid om groepen van residuen die covariatie elkaar identificeren. Dit is een belangrijk voordeel boven de traditionele benadering van de statistische consensussequentie, die een eenvoudige statistische middeling en coevolution houdt geen rekening. Terwijl in sommige gevallen covarying residuen eenvoudigweg een artefact van fylogenie zijn, zelfs deze residuen de "test van selectie" doorstaan, en als zodanig zijn waarschijnlijk afbreuk doen aan de functionabaarheid van een eiwit ontworpen om hen.

Tijdens het gebruik StickWRLD IPDS in een canonieke DNA of eiwitsequentie consensus / motief vóór techniek synthetische varianten identificeren vermindert het risico op fouten en ondersteunen snelle optimalisering van de functie, moet worden opgemerkt dat StickWRLD kan worden gebruikt als een algemene correlatie identificatie programma en niet uitsluitend beperkt tot eiwitten data. StickWRLD kan worden gebruikt om visueel te ontdekken de co-voorkomen van alle variabelen in elk goed gecodeerde data set.

Divulgations

The authors have nothing to disclose.

Acknowledgements

StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.

Materials

Mac or Ubuntu OS computer Various NA Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts
Python programming language python.org NA Python version 2.7.6 or greater recommended
wxPython library wxpython.org NA Latest version recommended
SciPy library scipy.org NA Latest version recommended
PyOpenGL library pyopengl.sourceforge.net NA Latest version recommended
StickWRLD Python scripts NCH BCCM NA Available from http://www.stickwrld.org
fasta2stick.sh file converter NCH BCCM NA Available from http://www.stickwrld.org
Protein and/or DNA sequence data NA NA Samples available at http://www.stickwrld.org

References

  1. Ray, W. C. Addressing the unmet need for visualizing conditional random fields in biological data. BMC. 15, 202 (2014).
  2. Sullivan, B. J., Durani, V., Magliery, T. J. Triosephosphate isomerase by consensus design: dramatic differences in physical properties and activity of related variants. Journal of molecular biology. 413, 195-208 (2011).
  3. Smith, M. A., Bedbrook, C. N., Wu, T., Arnold, F. H. Hypocrea jecorina cellobiohydrolase I stabilizing mutations identified using noncontiguous recombination. ACS synthetic biology. 2, 690-696 (2013).
  4. Ray, W. C. Understanding the sequence requirements of protein families: insights from the BioVis 2013 contests. BMC proceedings. 8, S1 (2014).
  5. Eddy, S. R. What is a hidden Markov model?. Nature biotechnology. 22, 1315-1316 (2004).
  6. Ray, W. C., Ozer, H. G., Armbruster, D. W., Daniels, C. J. Beyond identity – when classical homology searching fails, why, and what you can do about it. Proceedings of the 4th Ohio Collaborative Conference on Bioinformatics. , 51-56 (2009).
  7. Ovchinnikov, S., Kamisetty, H., Baker, D. Robust and accurate prediction of residue-residue interactions across protein interfaces using evolutionary information. eLife. 3, e02030 (2014).
  8. Trudeau, D. L., Lee, T. M., Arnold, F. H. Engineered thermostable fungal cellulases exhibit efficient synergistic cellulose hydrolysis at elevated temperatures. Biotechnology and bioengineering. 111, 2390-2397 (2014).
  9. Ray, W. C. MAVL and StickWRLD: visually exploring relationships in nucleic acid sequence alignments. Nucleic acids research. 32, W59-W63 (2004).
  10. . Python Language Reference v.2.7.6 Available from: https://www.python.org/download/releases/2.7.6/ (2014)
  11. . . PyOpenGL The Python OpenGL Binding. , (2014).
  12. Larkin, M. A. Clustal W and Clustal X version 2.0. Bioinformatics. 23, 2947-2948 (2007).
  13. Ozer, H. G., Ray, W. C. MAVL/StickWRLD: analyzing structural constraints using interpositional dependencies in biomolecular sequence alignments. Nucleic acids research. 34, W133-W136 (2006).
  14. Ray, W. C. MAVL/StickWRLD for protein: visualizing protein sequence families to detect non-consensus features. Nucleic acids research. 33, W315-W319 (2005).
  15. Ray, W. C. A Visual Analytics approach to identifying protein structural constraints. IEEE. , 249-250 (2010).
  16. Wheeler, T. J., Clements, J., Finn, R. D. Skylign: a tool for creating informative, interactive logos representing sequence alignments and profile hidden Markov models. BMC bioinformatics. 15, 7 (2014).
  17. Perrier, V., Burlacu-Miron, S., Bourgeois, S., Surewicz, W. K., Gilles, A. M. Genetically engineered zinc-chelating adenylate kinase from Escherichia coli with enhanced thermal stability. The Journal of biological chemistry. 273, 19097-19101 (1998).

Play Video

Citer Cet Article
Rumpf, R. W., Ray, W. C. Optimization of Synthetic Proteins: Identification of Interpositional Dependencies Indicating Structurally and/or Functionally Linked Residues. J. Vis. Exp. (101), e52878, doi:10.3791/52878 (2015).

View Video