我们描述了一种基于序列多样化的方法,用于估计蛋白质-蛋白质相互作用 (PPI) 中多特异性结合位点的氨基酸偏好。在这种策略中,生成了数千个潜在的肽配体,并在 计算机中进行了筛选,从而克服了可用实验方法的一些限制。
许多蛋白质-蛋白质相互作用涉及短蛋白质片段与肽结合结构域的结合。通常,这种交互需要识别具有变量守恒的线性基序。同一配体中高度保守和可变区域的组合通常有助于结合的多特异性,这是酶和细胞信号转导蛋白的共同特性。肽结合结构域的氨基酸偏好表征对于蛋白质-蛋白质相互作用 (PPI) 介质的设计非常重要。计算方法是通常昂贵且繁琐的实验技术的有效替代方案,能够设计出潜在的介质,这些介质可以在以后的下游实验中得到验证。在这里,我们描述了一种使用 Rosetta 分子建模包的 Pepspec 应用程序来预测肽结合域的氨基酸偏好的方法。当受体蛋白的结构和肽配体的性质都已知或可以推断时,这种方法很有用。该方法从配体中一个特征明确的锚点开始,通过随机添加氨基酸残基进行延伸。然后通过柔性骨架肽对接来评估以这种方式生成的肽的结合亲和力,以选择具有最佳预测结合分数的肽。然后使用这些肽来计算氨基酸偏好,并选择性地计算可用于进一步研究的位置-权重矩阵 (PWM)。为了说明这种方法的应用,我们使用了人干扰素调节因子 5 (IRF5) 亚基之间的相互作用,以前已知是多特异性的,但在全球范围内由称为 pLxIS 的短保守基序引导。估计的氨基酸偏好与先前关于 IRF5 结合表面的知识一致。被磷酸化丝氨酸残基占据的位置表现出高频率的天冬氨酸和谷氨酸,这可能是因为它们带负电荷的侧链与磷酸丝氨酸相似。
两种蛋白质之间的相互作用通常涉及氨基酸的短片段与肽结合结构域的结合,类似于蛋白质-肽界面。参与这种蛋白质-蛋白质相互作用 (PPI) 的受体蛋白通常具有识别一组重叠但不同的配体序列的能力,这种特性称为多特异性 1,2。多特异性识别是许多细胞蛋白的一个特征,但在酶和细胞信号转导蛋白中尤为显著3。与多特异性结合位点相互作用的蛋白质在其序列中通常具有更多和更不保守区域的组合 4,5,6。在这种情况下,更保守的序列基序参与严格的分子相互作用。相反,更多的可变序列以某种方式与受体结合位点中允许的表面相互作用。通常,这些不太保守但仍然具有功能相关性的片段是缺乏明确二级结构模式的环,或者具有更多的动态构象,例如那些典型的固有无序蛋白7。
鉴定结合位点的潜在肽配体通常是设计能够干扰相应 PPI 的介质的第一步8。然而,在多特异性结合位点的配体的大多数序列位置通常不太可能找到单个最常见的氨基酸残基。相反,这些位点可能根据其化学性质对特定类别的氨基酸有特定的偏好,例如,酸性和带负电荷的氨基酸,如天冬氨酸或谷氨酸,大体积芳香族氨基酸,如苯丙氨酸或更多的疏水残基,如脂肪族氨基酸丙氨酸、缬氨酸、亮氨酸或异亮氨酸3。几种实验方法可以提供有关蛋白质结合位点氨基酸偏好的见解,包括定向进化9 、多密码子扫描诱变10 和深度突变扫描11。所有这些方法都遵循序列多样化的方法,该方法基于将突变引入原始配体并进一步分析它们对受体蛋白功能的影响(参见 Bratulic 和 Badran12 的全面综述)。然而,这些方法通常需要对大型序列库进行调查,这使得它们更加繁琐、昂贵和耗时。
推断多特异性结合位点氨基酸偏好的计算方法有可能规避湿实验室方法的局限性。其中,计算机序列多样化方法评估了配体序列中各种氨基酸替换的能量影响,以此来表征 PPI 的结构可塑性13。该方法从与受体结合位点结合的肽配体的结构或模型开始,随后将突变引入配体序列。然后使用统计和能量评分函数来评估这些突变对稳定性和结合亲和力的影响。然后,可以使用评估阶段得到的一组得分最高的配体序列来计算氨基酸偏好。这种策略有可能以有效的方式处理非常大量的配体序列。因此,与从湿实验室方法中通常可以处理的更有限数量的序列计算的序列相比,它可以提供更完整和一致的氨基酸偏好推断。
Rosetta 分子建模套件14 的 Pepspec 应用程序是一种工具,可将序列多样化作为其肽设计模式的关键步骤。此应用需要受体蛋白的结构或模型,其中结合肽的长度低至单个氨基酸残基,用作后续步骤的锚点。然后,结合肽的序列被延伸(如有必要)并多样化,以产生大量推定的肽配体。然后通过柔性骨架肽对接评估这些肽的结合亲和力,以选择具有最佳预测结合分数的肽。尽管此应用程序的主要输出是在设计阶段结束时选择的最佳候选肽,但在此阶段接受的更大的肽集也可用于计算目标结合位点的氨基酸偏好。氨基酸偏好计算为配体序列每个位置的每个氨基酸残基的频率,表示为位置权重矩阵 (PWM) 或更直观的序列标志。
在本文中,我们描述了一种方案,用于估计参与 PPI 的受体蛋白结合表面的氨基酸偏好。该方案侧重于 PPI,其中已知蛋白质-配体的线性片段与受体蛋白结合,因此该场景可以建模为蛋白质-肽界面。在这种情况下,来自配体的保守基序通常与受体结合位点中的特定口袋相互作用,尽管 PPI 中涉及的整个配体片段可能包含不太保守的区域。 图 1 显示了总结该协议主要步骤的流程图。该方案从蛋白质-蛋白质复合物的 3D 结构开始,进一步将配体蛋白还原到潜在的最佳相互作用片段,保持受体蛋白完整。通过使用 BUDE Alanine Scan 服务器15 推断出相互作用最好的片段,该服务器进行计算丙氨酸扫描诱变以识别两种相互作用蛋白之间的热点残基。在这种方法中,来自配体的残基被丙氨酸单独取代,然后使用复合物自由能或稳定性 (ΔΔG) 的估计变化来推断相应残基与目标 PPI 的相关性。一旦推断出相互作用最好的片段,其与受体蛋白的复合物就被用作提交给 Pepspec 的碱基结构以进行序列多样化。
图 1:本研究中提出的协议的主要步骤概述。 编号与 protocol 部分中的步骤编号匹配。图是用文中描述的例子中使用的蛋白质-蛋白质复合物制作的。在该复合物中,被视为受体的蛋白质链显示为粉红色,而被视为配体的链显示为浅蓝色,其预测的最佳相互作用片段以红色突出显示。 请单击此处查看此图的较大版本。
建议的方案的局限性之一是需要蛋白质-肽界面的解析结构。该方案可以选择从目标蛋白质 – 肽界面的模型开始,尽管此处未描述具体的建模步骤。此外,尽管该协议可以在运行任何操作系统的个人计算机上执行,但涉及 Rosetta 应用程序的步骤需要 Linux 环境。由于 Pepspec 通常执行大量迭代,因此强烈建议将计算机集群用于序列多样化步骤。
通过估计 IRF5(人干扰素调节因子 (IRF) 家族的成员)的出价表面的氨基酸偏好来说明建议的方案的应用。我们选择这种蛋白质作为示例,因为在其激活过程中,两个亚基结合形成一个二聚体,其结构非常明显16。在 IRF 二聚体中,结合可以建模为蛋白质-肽界面,其中一个亚基提供结合表面,另一个亚基通过包含称为 pLxIS 的短保守基序的区域相互作用17,18。此外,与 IRF 亚基的结合是多特异性的;因此,它们可以与其他称为共激活因子的细胞蛋白形成同源二聚体、异二聚体和复合物18。
本文描述了一种基于计算机序列多样化来估计潜在多特异性结合位点的氨基酸偏好的方案。很少有计算工具被开发出来来估计蛋白质-肽界面的氨基酸偏好 14,25,26。这些工具具有预测性质,但它们在用于执行预测的计算算法和为提高准确性而实施的校正方面有所不同。在这项工作中,我们使用了 Rosetta ?…
The authors have nothing to disclose.
感谢 Sistema Nacional de Investigación (SNI)(拨款号 SNI-043-2023 和 SNI-170-2021)、巴拿马国家科学秘书、技术和创新 (SENACYT) 和人类研究机构 (IFARHU) 的财政支持。作者要感谢 Miguel Rodríguez 博士仔细审阅手稿。
BUDE Alanine Scan Server | University of Edinburgh | https://pragmaticproteindesign.bio.ed.ac.uk/balas/ | doi: 10.1021/acschembio.9b00560 |
Rosetta Modeling Software | Rosetta Commons | https://www.rosettacommons.org/software | doi: 10.1002/prot.22851 |
UCSF Chimera | University of California San Francisco | https://www.cgl.ucsf.edu/chimera/ | doi: 10.1002/jcc.20084 |