冷冻电子显微镜中的单颗粒分析是用于在高分辨率下确定生物集合体结构的主要技术之一。Scipion提供了创建整个管道的工具,以处理显微镜获取的信息并实现生物标本的3D重建。
冷冻电子显微镜已成为生物学研究中以近原子分辨率揭示大分子结构信息的最重要工具之一。在单颗粒分析中,玻化样品由电子束成像,显微镜柱末端的探测器产生该样品的电影。这些电影包含数千个随机方向的相同粒子的图像。数据需要经过具有多个步骤的图像处理工作流程才能获得最终的3D重建体积。图像处理工作流程的目标是确定采集参数,以便能够重建所研究的标本。Scipion提供了在集成框架中使用多个图像处理包创建此工作流程的所有工具,还允许结果的可追溯性。在本文中,Scipion中的整个图像处理工作流程通过来自真实测试用例的数据进行介绍和讨论,提供了从显微镜获得的电影到高分辨率最终3D重建所需的所有细节。此外,还讨论了使用共识工具的强大功能,这些工具允许组合方法,并在工作流程的每个步骤中确认结果,从而提高所获得结果的准确性。
在冷冻电子显微镜(cryo-EM)中,玻璃化冷冻水合物标本的单颗粒分析(SPA)是生物大分子成像中最广泛使用和最成功的变体之一,因为它可以理解分子相互作用和生物集合的功能1。这要归功于这种成像技术的最新进展,该技术引发了”分辨率革命”2,并允许以近原子分辨率成功测定生物3D结构。目前,SPA冷冻电镜中达到的最高分辨率是1.15 Å的apoferritin3(EMDB条目:11668)。这些技术进步包括样品制备4、图像采集5和图像处理方法6的改进。本文将重点介绍最后一点。
简而言之,图像处理方法的目标是识别所有采集参数,以反转显微镜的成像过程并恢复所研究生物标本的3D结构。这些参数是相机的增益,光束诱导的运动,显微镜的像差(主要是散焦),每个粒子的3D角度方向和平移,以及具有构象变化的标本时的构象状态。然而,参数的数量非常高,cryo-EM需要使用低剂量图像以避免辐射损伤,这显着降低了采集图像的信噪比(SNR)。因此,问题不能明确解决,所有要计算的参数只能是估计值。在图像处理工作流程中,应识别正确的参数,丢弃剩余的参数,最终获得高分辨率的3D重建。
显微镜产生的数据被收集在框架中。简化一下,每当使用电子计数探测器时,帧都包含到达图像中特定位置(像素)的电子数量。在特定的视野中,收集多个帧,这称为电影。由于使用低电子剂量来避免可能破坏样品的辐射损伤,因此SNR非常低,并且需要对对应于同一电影的帧进行平均,以获得揭示样品结构信息的图像。然而,不仅应用了简单的平均值,由于需要补偿的光束诱导运动,样品在成像时间内可能会遭受偏移和其他类型的运动。移位补偿和平均帧源自显微照片。
一旦获得显微照片,我们需要估计显微镜为每个微照片引入的像差,称为对比度传递函数(CTF),它表示显微照片对比度的变化作为频率的函数。然后,可以选择和提取颗粒,这称为颗粒拾取。每个粒子都应该是一个小图像,只包含所研究标本的一个副本。有三个用于粒子拾取的算法系列:1)仅使用粒子外观的一些基本参数化来在整个显微照片(例如,粒度)中找到它们的算法,2)从用户或预先训练的集合中学习粒子的外观的算法,以及3)使用图像模板的算法。每个系列都有不同的属性,稍后将显示。
在显微照片中发现的提取的粒子集将用于2D分类过程,该过程有两个目标:1)通过丢弃包含纯噪声图像,重叠粒子或其他伪影的子集来清洁粒子集,以及2)代表每个类的平均粒子可以用作初始信息来计算3D初始体积。
3D初始体积计算是下一个关键步骤。获得3D结构的问题可以看作是多维解景观中的优化问题,其中全局最小值是表示原始结构的最佳3D体积,但可以找到几个表示次优解的局部最小值,并且很容易被困住。初始体积代表搜索过程的起点,因此错误的初始体积估计可能会阻止我们找到全局最小值。从初始体积开始,3D分类步骤将有助于发现不同的构象状态并再次清洁颗粒集;目标是获得结构上均匀的颗粒群。之后,3D细化步骤将负责细化每个粒子的角度和平移参数,以获得最佳的3D体积。
最后,在最后的步骤中,可以获得的3D重建可以进行锐化和抛光。锐化是提高重建体积的高频的过程,抛光是在颗粒水平上进一步细化某些参数的步骤,如CTF或光束诱导的运动补偿。此外,还可以使用一些验证过程来更好地了解在工作流结束时实现的分辨率。
在所有这些步骤之后,跟踪和对接过程7 将通过从头开始构建原子模型或拟合现有模型,帮助为获得的3D重建赋予生物学意义。如果达到高分辨率,这些过程将告诉我们生物结构的位置,甚至是不同原子在我们的结构中的位置。
Scipion8 允许以集成方式创建整个工作流程,将最相关的图像处理包组合在一起。Xmipp9,Relion10,CryoSPARC11,Eman12,Spider13,Cryolo14,Ctffind15,CCP416,Phenix17以及更多软件包可以包含在Scipion中。此外,它还集成了所有必要的工具,有利于集成、互操作性、可追溯性和可重复性,从而全面跟踪整个图像处理工作流程8。
Scipion允许我们使用的最强大的工具之一是共识,这意味着在处理的一个步骤中将获得的结果与几种方法进行比较,使不同方法传达的信息组合在一起,以产生更准确的输出。这可以帮助提高性能并提高估计参数中实现的质量。请注意,可以在不使用共识方法的情况下构建更简单的工作流程;但是,我们已经看到了这个工具的强大功能22,25 ,并且本手稿中介绍的工作流程将分几个步骤使用它。
前面段落中总结的所有步骤将在下一节中详细解释,并使用 Scipion 合并到一个完整的工作流中。此外,还将展示如何使用共识工具在生成的输出中实现更高的一致。为此,选择了 恶性疟原虫 80S核糖体的示例数据集(EMPIAR条目:10028,EMDB条目:2660)。该数据集由600部电影组成,这些电影的16帧大小为4096×4096像素,像素尺寸为1.34Å,使用FEI FALCON II相机在FEI POLARA 300上拍摄,EMDB上报告的分辨率为3.2Å18 。
目前,冷冻电镜是揭示生物样品3D结构的关键工具。当用显微镜收集良好的数据时,可用的处理工具将使我们能够获得所研究大分子的3D重建。Cryo-EM数据处理能够实现近原子分辨率,这是理解大分子功能行为的关键,在药物发现中也至关重要。
Scipion是一款软件,允许以集成方式创建整个工作流程,将最相关的图像处理包组合在一起,这有助于整个图像处理工作流程的可追溯性和可重复性。Scipion提供了一套非常完整的工具来进行加工;然而,获得高分辨率重建完全取决于所获取数据的质量以及如何处理这些数据。
为了获得高分辨率的3D重建,首先需要从显微镜获得良好的电影,从而将结构信息保留到高分辨率。如果不是这种情况,工作流将无法从数据中提取高清信息。然后,成功的处理工作流程应该能够提取真正与结构相对应的粒子,并在3D空间中找到这些粒子的方向。如果工作流中的任何步骤失败,则重建卷的质量将降低。Scipion允许在任何处理步骤中使用不同的包,这有助于找到处理数据的最合适方法。此外,由于有许多可用的软件包,可以使用共识工具,通过在不同方法的估计输出中找到一致意见来提高准确性。此外,在”代表性成果”部分已经详细讨论了几种验证工具,以及如何在工作流程的每个步骤中识别准确和不准确的结果,以检测潜在问题以及如何尝试解决这些问题。协议中有几个检查点可以帮助确定协议是否正常运行。一些最相关的是:采摘,2D分类,初始体积估计和3D对齐。检查输入,使用其他方法重复步骤或使用共识,是Scipion中可用的选项,当问题出现时,用户可以使用这些选项来查找解决方案。
关于以前在冷冻电镜领域进行软件包集成的方法,Appion31 是唯一一种允许真正集成不同软件包的方法。然而,Appion与Leginon32紧密相连,Leginon32是一种从电子显微镜自动收集图像的系统。与 Scipion 的主要区别在于数据模型和存储的耦合程度较低。这样,要在Scipion中创建新协议,只需要开发一个Python脚本。但是,在 Appion 中,开发人员必须编写脚本并更改基础数据库。总之,Scipion的开发是为了简化维护和可扩展性。
我们在这份手稿中介绍了冷冻电镜处理的完整工作流程,使用了 恶性疟原虫 80S核糖体的真实案例数据集(EMPIAR条目:10028,EMDB条目:2660)。此处介绍和讨论的步骤可以概括为电影对齐、CTF 估计、粒子拾取、2D 分类、初始地图估计、3D 分类、3D 细化、评估和后处理。在其中几个步骤中使用了不同的软件包,并应用了共识工具。最终的3D重建体积达到了3 Å的分辨率,在后处理的体积中,可以区分一些二级结构,如α-螺旋,这有助于描述原子在空间中的排列方式。
本手稿中介绍的工作流程展示了如何使用 Scipion 以简单易用的方式组合不同的 Cryo-EM 软件包,以简化处理,同时获得更可靠的结果。
在未来,新方法和软件包的开发将继续增长,像Scipion这样的软件可以轻松集成所有这些方法和软件包对研究人员来说将更加重要。即使在那时,共识方法也将更加相关,届时将有大量具有不同基础的方法可用,有助于更准确地估计Cryo-EM重建过程中涉及的所有参数。跟踪和可重复性是研究过程中的关键,并且由于具有用于执行完整工作流程的通用框架,因此Scipion更容易实现。
The authors have nothing to disclose.
作者希望通过赠款感谢西班牙科学与创新部的经济支持:PID2019-104757RB-I00/AEI/10.13039/501100011033,通过赠款获得的”马德里自治委员会”:S2017 / BMD-3817,Instituto de Salud Carlos III,PT17/0009/0010(ISCIII-SGEFI / ERDF),欧盟(EU)和Horizon 2020通过赠款:INSTRUCT – ULTRA(INFRADEV-03-2016-2017,提案:731005),EOSC Life(INFRAEOSC-04-2018,提案: 824087),iNEXT – Discovery(提案:871037)和HighResCells(ERC – 2018 – SyG,提案:810057)。产生这些成果的项目得到了”la Caixa”基金会(ID 100010434)的奖学金支持。奖学金代码为LCF /BQ/DI18/11660021。该项目已获得欧盟地平线2020研究和创新计划的资助,该计划根据玛丽·斯克沃多夫斯卡 – 居里赠款协议第713673号。作者感谢Landmark ESFRI项目Instruction的资源支持和使用。