Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
Protein positioneringen worden vaak gebruikt om de gelijkenis van eiwitresiduen evalueren en de afgeleide consensussequentie gebruikt ter identificatie functionele eenheden (bijvoorbeeld domeinen). Traditionele consensusvorming modellen niet om rekening te houden interpositioneel afhankelijkheden – functioneel vereiste covariatie van residuen die de neiging hebben om de hele evolutie en over de phylogentic boom tegelijkertijd verschijnen. Deze relaties kunnen belangrijke aanwijzingen over de processen van eiwitvouwing, thermostabiliteit, en de vorming van functionele plaatsen, die op hun beurt kunnen worden gebruikt voor de engineering van synthetische eiwitten hoogte onthullen. Helaas zijn deze verhoudingen wezen vormen sub-motieven die niet kan worden voorspeld door eenvoudige "meerderheidsregel" of HMM-gebaseerde consensus modellen, en het resultaat kan een biologisch ongeldige "consensus" die niet alleen nooit in de natuur, maar minder levensvatbaar dan bestaande eiwitten. We hebben een visueel een ontwikkeldalytics tool, StickWRLD, die een interactief 3D-weergave van een eiwit alignment creëert en duidelijk weergeeft covarying residuen. De gebruiker heeft de mogelijkheid om te pannen en zoomen, evenals dynamisch de statistische drempel die ten grondslag liggen aan de identificatie van co-varianten te veranderen. StickWRLD eerder met succes gebruikt om functioneel vereiste covarying residuen in eiwitten zoals adenylaatkinase en met DNA-sequenties zoals endonuclease-doelwitplaatsen te identificeren.
Eiwit uitlijningen zijn lange tijd gebruikt om de gelijkenis van residuen evalueren een eiwitfamilie. Vaak wordt de meest interessante eigenschappen van een eiwit (bijvoorbeeld katalytisch of andere bindingsplaatsen) zijn het gevolg van eiwitvouwing brengen distale gebieden van de lineaire sequentie in contact, met als gevolg dat deze ogenschijnlijk niet verwante gebieden in de lijn de neiging te evolueren en veranderen gecoördineerd. In andere gevallen kan de functie van een eiwit afhankelijk van de elektrostatische handtekening, en mutaties die de elektronische dipool invloed worden gecompenseerd door veranderingen op afstand geladen residuen. Allostere effecten kunnen ook veroorzaken lange afstand sequentiële en ruimtelijke afhankelijkheden tussen residu identiteiten. Ongeacht hun herkomst, deze functioneel-vereiste covariations van residuen – inter-positionele afhankelijkheden (IPDS) – misschien niet voor de hand liggende met visueel onderzoek van de uitlijning (Figuur 1). Identificatie van IPDS – alsmedewaarin specifieke residuen binnen deze posities meestal covariatie als eenheid – u belangrijke aanwijzingen over de processen van eiwitvouwing en de vorming van functionele plaatsen openbaren. Deze informatie kan vervolgens worden gebruikt om synthetische (gemodificeerde) proteïnen optimaliseren in termen van thermostabiliteit en activiteit. Het is al lang bekend dat niet alle puntmutaties richting consensus een verbeterde stabiliteit of activiteit. Recenter eiwitten ontworpen om te profiteren van bekende IPDS in hun sequentie is aangetoond dat tot een grotere activiteit dan hetzelfde eiwit gemaakt strengste consensus 1,2 (manuscript in voorbereiding), vergelijkbaar met het idee van stabiliserende puntmutaties 3.
Helaas, traditioneel consensusvorming modellen (bijv meerderheidsregel) alleen vast te leggen IPDS per ongeluk. Consensus en Position Specifieke Scoring Matrix methoden zijn onwetend van IPDS en alleen 'correct' opnemen in modellen, wanneer de afhankelijke residuenOok de meest populaire residuen die posities in de familie. Markov Chain modellen kan vangen IPDS wanneer ze opeenvolgend proximale, maar hun typische uitvoering negeert alles behalve directe buren sequentieel, en zelfs op zijn best, Hidden Markov Model berekeningen (zie figuur 2) wordt bij hardnekkige afhankelijkheden in de reeks worden gescheiden door meer dan een tiental posities 4. Aangezien deze IPDS wezen vormen "sub-motieven" die niet kunnen worden voorspeld door eenvoudige "meerderheidsregel" of HMM-gebaseerde consensus modellen 5,6 gevolg een biologisch ongeldige "consensus" die niet alleen nooit in de natuur maar is minder rendabel dan een bestaand eiwit. Systemen gebaseerd op Markov Random Fields, zoals Gremlin 7, trachten deze problemen te overwinnen. Bovendien terwijl geavanceerde biologische / biochemische technieken zoals noncontiguous 3,8 recómbinatie kan worden gebruikt identify essentieel eiwit elementen per regio, ze vereisen veel tijd en bank werken voor single-base-pair precisie te bereiken.
StickWRLD 9 is een Python gebaseerd programma dat een interactieve 3D-weergave van een eiwit alignment dat IPDS duidelijk en gemakkelijk te begrijpen maakt creëert. Elke positie in de uitlijning wordt weergegeven als een kolom in het scherm, waarbij elke kolom bestaat uit een stapel van bollen, één voor elk van de 20 aminozuren die aanwezig zijn in die positie in de uitlijning zijn. De dimensie hoogte afhankelijk is van de frequentie van het aminozuur, zodat de gebruiker onmiddellijk het consensus residu of de relatieve verdeling van de aminozuren in die positie door simpelweg te kijken naar de grootte van de bolletjes kan verzamelen. De kolommen die elke positie worden gewikkeld rond een cilinder. Dit geeft elk gebied vertegenwoordigt een mogelijke aminozuur op elke positie in de uitlijning, een duidelijke 'zichtlijn'met elk ander aminozuur mogelijkheid bij elke andere stand. Vóór visualisatie berekent de correlatie StickWRLD de kracht tussen alle mogelijke combinaties van residuen aan de IPDS 9 identificeren. IPDS vertegenwoordigen, worden lijnen getrokken tussen residuen die worden coevolving op een hoger of lager dan zou worden verwacht wanneer deze in de positie residuen onafhankelijk waren (IPDS).
Niet alleen heeft deze visualisatie toon die reeksposities interageren evolutionair, maar de IPD randlijnen worden gemaakt tussen het aminozuur bollen in elke kolom, kan de gebruiker snel bepalen welke specifieke aminozuren worden vaak coevolving op elke positie. De gebruiker heeft de mogelijkheid om te draaien en onderzoeken de gevisualiseerde IPD structuur en dynamisch wijzigen de statistische drempels besturen van de weergave van de correlatie, waardoor StickWRLD een krachtig discovery tool IPDS.
Toepassingen zoals gremlin 7 similarly tonen complex relationele gegevens tussen resten – maar deze relaties worden berekend via traditionelere Markov modellen, die niet zijn bedoeld om eventuele voorwaardelijke relaties bepaald. Als zodanig zijn deze vatbaar zijn weergegeven 2D projecties. Daarentegen kan StickWRLD berekenen en weergeven meerdere knooppunten conditionele afhankelijkheden die kunnen worden versluierd indien weergegeven als een 2D grafiek (depressiviteit en edge occlusie).
StickWRLD's 3D-weergave heeft ook een aantal andere voordelen. Doordat gebruikers de visuele manipuleren – panning, roteren en zoomen – functies die kunnen worden versluierd of unintuitive in een 2D representatie gemakkelijker worden gezien in de 3D cilinder StickWRLD. StickWRLD wezen een visuele analyses instrument, de kracht van patroonherkenning vermogen van de menselijke hersenen om patronen en trends, en de mogelijkheid om de data vanuit verschillende invalshoeken staand zich toe leent.
StickWRLD is met succes gebruikt om dergelijke IPDS in de adenylaatkinase domein deksel 16, alsmede geassocieerde DNA basen rho-afhankelijke terminators 9 identificeren en een nieuwe splice-plaats-specificiteit bij archaea tRNA intron endonuclease 6 doelwitplaatsen. Deze IPDS waren niet detecteerbaar via een rechtstreeks onderzoek van de uitlijning.
StickWRLD geeft elke positie van een uitlijning als kolom 20 "bolletjes", waarbij elke bol is een van de 20 aminozuurresten en de grootte van de bol geeft de frequentie van dat residu in die kolom (figuur 4). Kolommen zijn aangebracht in een cilinder met randlijnen verbinden residuen in verschillende kolommen (hetgeen wijst op een IPD). De snijkanten worden alleen getekend als de overeenkomstige resten worden covarying met een frequentie overtreft zowel de p-waarde (significantie) en overblijvende (verwachte – waargenomen) drempelwaarden.
Detectie van co-voorkomende residuen van elkaar afhankelijk, of IPDS, in de distale gebieden van een DNA of eiwitsequentie uitlijning is moeilijk met behulp van standaard sequentiealignering gereedschappen 6. Hoewel dergelijke instrumenten genereren een consensus of motief, sequentie, deze consensus in veel gevallen een eenvoudige meerderheid-regel middelen en niet covariantie relaties die één of meer sub-motieven kunnen vormen overbrengen – groepen residuen die de neiging hebben samen te evolueren. Zelfs HMM modellen, die voor het opsporen van de aangrenzende afhankelijkheden zijn, kan niet nauwkeurig model sequentiemotieven met distale IPDS 5. Het resultaat is dat de berekende consensus kan in feite een "synthetisch" sequentie die niet in de natuur – en gemanipuleerde eiwitten op basis van dergelijke rekenkundige consensus mag in feite optimaal. In feite zou de Pfam HMM ADK suggereren dat een chimeer eiwit dat de helft van de tetracysteine motief en de helft van de H, S, D, T motif, functioneel net aanvaardbaarals elke werkelijk bestaande ADK. Dit is niet het geval als zodanig chimeren (en vele andere blendings van deze motieven) katalytisch dood 4,19.
Bij het zoeken naar correlaties, is het essentieel dat de residuele drempel worden gecorrigeerd voor het ontdekken van relevante correlaties door de drempel boven het niveau waarop geen randen worden gezien en vervolgens geleidelijk opvoeren drempel terug. Dit verzekert dat alleen de meest significante randen aanvankelijk beschouwd.
Een alternatieve benadering is om te beginnen met de resterende drempel extreem laag. Dit resulteert in de weergave van alle belangrijke randen. Vanaf hier de resterende drempel langzaam kan worden verhoogd, waardoor de randen uit te vallen tot patronen ontstaan. Hoewel deze aanpak is minder nuttig bij het zoeken naar de opname van specifieke knooppunten (bijvoorbeeld de toepassing van domeinkennis), het zorgt voor de ontdekking van onverwachte relaties met StickWRLD als een visUAL analytische tool om opkomende patronen in de data visualisatie te ontdekken.
StickWRLD wordt voornamelijk beperkt door het beschikbare geheugen van het systeem waarop het ook is uitgevoerd als de resolutie van de weergeefinrichting. Hoewel er geen theoretische grens aan het aantal gegevenspunten StickWRLD kan onderzoeken en sequenties tot 20.000 posities getest in de praktijk StickWRLD uitstekend voldoet sequenties tot ongeveer 1000 posities.
Het belangrijkste voordeel van StickWRLD ligt in de mogelijkheid om groepen van residuen die covariatie elkaar identificeren. Dit is een belangrijk voordeel boven de traditionele benadering van de statistische consensussequentie, die een eenvoudige statistische middeling en coevolution houdt geen rekening. Terwijl in sommige gevallen covarying residuen eenvoudigweg een artefact van fylogenie zijn, zelfs deze residuen de "test van selectie" doorstaan, en als zodanig zijn waarschijnlijk afbreuk doen aan de functionabaarheid van een eiwit ontworpen om hen.
Tijdens het gebruik StickWRLD IPDS in een canonieke DNA of eiwitsequentie consensus / motief vóór techniek synthetische varianten identificeren vermindert het risico op fouten en ondersteunen snelle optimalisering van de functie, moet worden opgemerkt dat StickWRLD kan worden gebruikt als een algemene correlatie identificatie programma en niet uitsluitend beperkt tot eiwitten data. StickWRLD kan worden gebruikt om visueel te ontdekken de co-voorkomen van alle variabelen in elk goed gecodeerde data set.
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |