Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
蛋白质比对通常用于评估蛋白质残基的相似性,以及用于识别功能单元( 例如,域)衍生的共有序列。传统的共识建筑模型没有考虑到interpositional依赖 – 功能要求,往往整个进化过程和整个系统树同时出现残协方差。这些关系可以揭示蛋白质折叠,热稳定性,和对功能位点,这反过来又可以用来通知合成蛋白的工程所形成的过程中是重要的线索。不幸的是,这种关系基本上形成子图案不能用简单的“少数服从多数”,甚至基于HMM的共识模型进行预测,其结果可能是生物无效的“共识”,这不仅是从来没有见过的性质,但不太可行比任何现存的蛋白质。我们已经开发出一种视觉的alytics工具,StickWRLD,它创建了一个蛋白比对的交互式3D表示,并明确显示共变残。用户必须平移和缩放,以及动态的改变统计协变量门槛的识别潜在的能力。 StickWRLD先前已成功地用于鉴定蛋白质如腺苷酸激酶和DNA序列如内切核酸酶靶标位点功能性要求的共变残基。
蛋白质比对长期被用来评估在一个蛋白质家族的残基的相似性。蛋白( 例如,催化或其他结合位点)的频繁的最有趣的特点是蛋白质折叠使线性序列的远侧区接触的结果,并作为一个结果,在对准这些明显无关区域倾向于发展和改变以协调的方式。在其他情况下,蛋白质的功能可以依赖于它的静电签名,以及影响电子偶极突变用于通过改变到遥远带电残基补偿。变构效应也可诱发残渣身份之间的长距离连续和空间依赖性。不论其出身,这些功能要求的残协变性-相互依存关系定位(IPD的) -可能不是很明显与定位( 图1)的目视检查。的IPD的鉴定 – 以及其中这些职位中的特定残基倾向于共变作为一个单元 – 可以揭示蛋白质折叠的过程和功能位点的形成的重要线索。这个信息然后可用于优化的合成(工程化)蛋白的热稳定性和活性方面。人们早已知道,不是所有的点突变朝向共识提供改进的稳定性或活性。最近,蛋白质设计采取在其序列已知的IPD的优点已显示导致比严格从共识1,2-(手稿中制备)所设计的相同的蛋白质,类似稳定的点突变3的想法更大的活性。
不幸的是,传统的共识建筑模型( 如,多数人统治)只捕获的IPD意外。共识和具体位置得分矩阵方法是无知的IPD和唯一的“正确'它们包括在模型中,因残留物时也是最流行的残家庭中的位置。马尔可夫链模型可以捕捉的IPD时,他们依次是近,但他们的典型的实现会忽略一切,除了直接的顺序邻居,甚至在最佳状态,隐马尔可夫模型计算( 见图2)成为棘手的依赖时,由超过分离序列中十几位置4。由于这些本质上的IPD形成“子主题”不能用简单的“少数服从多数”,甚至基于HMM模型的共识预测5,6的结果可能是生物无效的“共识”,这不仅是从来没有见过的,但可以是可行性较小比任何现存的蛋白质。基于马尔可夫随机域,如GREMLIN 7系统,试图克服这些问题。此外,同时如不连续的重组-3,8-复杂生物/生化技术可用于IDEntify必需的蛋白质分子按地区,它们需要大量的时间和替补工作,以实现单碱基对的精度。
StickWRLD 9是一个基于Python的程序,它创建了一个蛋白比对,使IPD的清晰和易于理解的交互式3D表示。在对准各位置被表示为在显示一列,其中每列包括一堆叠的球体,每个的20个氨基酸,可能是存在于对准内的位置的。球体大小取决于发生的氨基酸的,使得用户可以立即搜集的共有残基或氨基酸内的位置,只需看在球体的尺寸相对分布的频率。代表每个位置的列被裹住的圆柱体。这使每一个代表一个可能的氨基酸在对齐每个位置范围,明确“视线”到每一个其他氨基酸可能性每隔一个位置。之前可视化,StickWRLD计算残基来识别的IPD 9的所有可能的组合之间的相关性的强度。来表示的IPD,线残基被协同进化在之间绘制更高,或低于所预期如果存在于该位置上的残基是独立(的IPD)。
这不仅可视显示哪些序列位置相互作用进化上,但作为IPD的边缘线在每列中的氨基酸球体之间绘制,用户能够快速确定哪些特定氨基酸倾向于协同进化在每个位置。用户具有旋转和探索的可视化的IPD结构,以及动态地改变它的统计阈值控制相关的显示,使得StickWRLD一个强大的发现工具的IPD的能力。
应用如GREMLIN 7 simil阿尔利显示残基之间的复杂关系信息 – 但这些关系是通过更传统的马尔可夫模型,这是不旨在确定任何条件式计算。正因为如此,这些都是能够被显示为二维凸起。与此相反,StickWRLD可以计算并显示多节点条件的依赖关系,如果呈现为二维图(这种现象被称为边缘遮挡)可被模糊处理。
StickWRLD的3D视图也有其他几个优点。通过允许用户操纵视觉 – 平移,旋转和缩放 – 可被模糊或直观在二维表示可以更容易地看到StickWRLD的3D汽缸中的功能。 StickWRLD本质上是一种可视化分析工具,利用人类大脑的模式识别能够看到的模式和趋势的力量,并从不同的角度探讨了数据的能力适合于这一点。
StickWRLD已成功地用于识别rho沸石依赖性终止子9这样的IPD中的腺苷酸激酶盖域16,以及相关的DNA碱基,以及在古菌的tRNA内含子内切酶6靶位点的新型剪接位点特异性。这些IPD中通过直接检查比对检测不到。
StickWRLD显示一个取向为20“球体”,其中每个球体代表20个氨基酸残基且球体的大小中的一个的列的每个位置表示发生该列内的特定残基的频率( 图4)。列被布置成圆筒,与边缘线连接的残基在不同的列(表示IPD)。阈值 – 这些边缘线如果相应的残基共变的频率超过两者的p值(重要性)和残余(观察预期)仅绘制。
使用标准序列比对工具6检测的共同发生相互依赖残基,或IPD中,在DNA或蛋白质序列比对的远侧区是困难的。虽然这种工具产生一种共识,或基序,顺序,这样的共识是,在许多情况下,简单多数规则平均和不传达可形成一个或一个以上子基序共变关系 – 即倾向于共演变残基。即使HMM模型,能够检测相邻的依赖关系,不能准确地模拟基序与远端的IPD 5。其结果是,计算出的共识可能实际上是一个“合成”序列在自然界中不存在 – 和基于这种计算共识未必,事实上,是最佳的工程蛋白。事实上,PFAM HMM为ADK将表明含有一半的四半胱氨酸基序,和一半的H的嵌合蛋白,S,D,T基序,在功能上可以被接受因为任何实际存在的ADK。不是这种情况,因为这样的嵌合体(与这些基序的许多其它的交融)是催化死4,19。
当寻找相关,至关重要的是,残余阈进行调整,以允许相关的相关性,通过设置上述在其中任何边缘被看见,然后逐渐升高的阈值回落水平阈值的发现。这确保了只有最显著边缘最初考虑。
另一种方法是先从残留设定门槛非常低。这将导致所有显著边缘的显示。从这里残留的门槛可以慢慢增加,让边缘辍学,直到模式出现。而寻找包含特定的节点( 例如,应用的领域知识)的当此方法不太有用,它允许意想不到的关系用StickWRLD作为一个可见的发现UAL的分析工具来发现数据可视化的新兴模式。
StickWRLD由在其上运行,以及在显示装置的分辨率的系统的可用存储器,主要的限制。虽然没有理论上的限制,以数据点StickWRLD可以检查号码,序列高达20000的位置已经过测试,在实践中StickWRLD与序列进行最好高达约1000的位置。
StickWRLD的主要优点在于它以鉴定彼此共变残基的能力。这是在统计的共有序列,这是一个简单的统计平均,并没有考虑共同进化考虑的传统方法一个显著优势。而在某些情况下,共变残留可能只是系统发育的神器,即使这些残留物经受住了“的选拔考试”,因此不可能从泛函减损任何蛋白质的lity工程,包括他们。
同时使用StickWRLD以识别一个规范的DNA或蛋白质序列一致/基序之前的工程合成的变体的IPD将减少潜在的错误和支持的功能快速优化,应当注意的是,StickWRLD可用作一个广义相关识别工具和并不仅限于蛋白质的数据。 StickWRLD可以用来可视地发现,在任何适当的编码数据集的共次数任何变量。
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |