OpenProt 是一个可自由访问的数据库, 它实施了真核细胞基因组的多聚模型。在这里, 我们提出了一个在询问质谱数据集时使用 OpenProt 数据库的协议。利用 OpenProt 数据库分析蛋白质组学实验, 可以发现新的和以前无法检测到的蛋白质。
基因组注释是当今蛋白质组学研究的核心, 因为它绘制了蛋白质组景观的轮廓。开放阅读框架 (ORF) 注释的传统模型施加了两个任意标准: 每个编码器的最小长度为100个密码子和单个 ORF。然而, 越来越多的研究报告了来自所谓非编码区域的蛋白质表达, 这对当前基因组注释的准确性提出了挑战。这些新的蛋白质被发现编码要么在非编码 Rna, 5 ‘ 或 3 ‘ 未翻译的区域 (Ucs) 的 Mrna, 或重叠已知的编码序列 (CDS) 在一个替代 ORF。OpenProt 是第一个为真核细胞基因组实施多国模型的数据库, 允许对每个转录体的多个 Orf 进行注释。OpenProt 可免费访问, 并提供10个物种的蛋白质序列的自定义下载。利用 OpenProt 数据库进行蛋白质组学实验, 可以发现新的蛋白质, 并突出真核细胞基因的多因素性质。OpenProt 数据库 (所有预测的蛋白质) 的大小是巨大的, 需要在分析中加以考虑。但是, 通过适当的错误发现率 (FDR) 设置或使用受限制的 OpenProt 数据库, 用户将获得更逼真的蛋白质组景观视图。总体而言, OpenProt 是一个免费可用的工具, 将促进蛋白质组的发现。
在过去的几十年里, 基于质谱 (ms-) 的蛋白质组学已成为破译真核细胞 1,2,3, 4,5的蛋白质组的黄金技术。此方法依赖于当前的基因组注释来生成一个参考蛋白质序列数据库, 该数据库概述了可能性的范围6, 7,8.但是, 基因组注释包含 orf 注释的任意标准, 例如每个转录条 9、10的最小长度为100个密码子和一个 orf。越来越多的研究对目前的注释模型提出了挑战, 并报告了在真核细胞基因组 8、11、12、13中发现的未注释功能 orf。 14岁这些新的蛋白质被发现编码在据称非编码 Rna, 在 5 ‘ 或 3 ‘ 未翻译的区域 (UTR) 的 mrna, 或重叠的规范编码序列 (cCDS) 在一个替代的框架。尽管这些发现大多是偶然的, 但它们证明了当前基因组注释的警示和真核基因的多国性质8。
在这里, 我们重点介绍了 OpenProt 数据库在基于 ms 的蛋白质组学中的应用。OpenProt 是第一个保存真核细胞转录多核注释模型的数据库。客房 www.openprot.org15可免费使用。这些预测的 Orf 中有一部分是随机的和非功能性的, 这就是为什么 OpenProt 累积实验和功能证据以增加信心的原因。实验证据包括蛋白质表达 (由 ms) 和翻译证据 (通过核糖体分析)15。功能证据包括蛋白质正畸 (类似偏执狂的方法) 和功能域预测15。
OpenProt 提供了下载多个数据库的可能性, 从只包含支持良好的蛋白质到定制数据库。在这里, 我们将介绍一个用于 OpenProt 数据库的管道, 并将提供有关考虑实验目的的数据库选择的见解。这里介绍的蛋白质组学分析管道是由 galaxy 框架支持的, 因为它是开放访问和易于使用的, 但数据库可以与任何工作流16、17、18 一起使用。我们还将介绍如何利用 OpenProt 网站收集有关 ms 检测到的新蛋白质的进一步信息. 利用 OpenProt 数据库将提供更详尽的蛋白质组学视图, 并将促进蛋白质组学和生物标志物的发现。比目前的方法更系统的方法。
该协议突出了 OpenProt 数据库15在询问 ms 数据集时的使用情况;它不会审查实验本身的设计, 实验已经在其他地方彻底审查了20、21、22.为了保持完全的开源, 该协议是免费提供的 (补充材料 s1-s4)。为了便于阅读, 在 Opopenprot 和本协议中使用的所有术语都在表 1中定义。
在分析质谱仪的数据时, 蛋白质识别的质量在一定程度上取决于所使用的数据库6,20的准确性。目前的方法传统上使用 Unprotkb 数据库, 但这些数据库支持每个转录件的单个 ORF 和100个密码子的最小长度 (以前演示的示例除外) 的基因组注释模型40.多项研究将这类数据库的缺点与从据称非编码区域8、11、12、13中发现功能 orf 联系起来。现在, OpenProt 允许更详尽的蛋白质识别, 因为它从多个转录体注释中提取蛋白质序列。Openprot 检索 ncbi refseq (grch38. p7) 和 ensembl (grch38.83) 转录本和 uniprotkb 注释 (uniprotkb-swissprot, 2017-09-27)40,42,43。由于当前的注释几乎没有重叠, OpenProt 因此显示了潜在蛋白质组景观的更详尽的视图, 而不是仅限于一个注释15时。
此外, 由于 OpenProt 强制实施了多政务模型, 因此它允许每个转录点具有多个蛋白质注释。出于统计和计算方面的原因, OpenProt 仍然持有30个密码子15的最小长度阈值。然而, 它预测了数千个新的蛋白质序列, 从而扩大了蛋白质鉴定的可能性范围。通过这种方法, OpenProt 以更系统的方式支持蛋白质组的发现。
蛋白质识别的质量也会受到所使用参数的影响。基于 ms 的蛋白质组学分析通常持有1% 的蛋白质 FDR。但是, 整个 OpenProt 数据库包含的条目大约是 6倍 (图 1)。为了解释搜索空间的大幅增加, 我们建议使用更严格的 FDR 0.001%。利用基准研究和对随机选择的光谱15的手动评估对该参数进行了优化。不过, 假阳性仍然是有可能的, 我们鼓励对一种新蛋白质的佐证进行彻底的检查和验证。推荐的标准可以是识别来自两个不同 MS 运行的蛋白质, 因为背景数据和误报在数据集 15之间有所不同。
此处提供并用于案例研究的管道可以根据实验设计和参数进行随意修改。我们建议使用多个搜索引擎, 因为它增加了肽识别32的敏感性和敏感性.此外, 我们鼓励使用与实验目标最对应的数据库 (图 1)。由于使用整个 OpenProt 数据库带有严格的 FDR, 因此可能会丢失真正的标识。因此, 整个数据库应用于发现新的蛋白质, 而经典的蛋白质组学分析应该使用较小的 OpenProt 数据库 (如 OpenProt_2pep 在上面的案例研究中使用)。
Openprot 目前预测的序列从 atg 密码子开始, 而几项研究强调了其他密码子 44,45的翻译开始。当一种新的蛋白质被一个或几个独特的肽识别时, 真正的起始密码子可能不是假定的 ATG。用户可以在 OpenProt 网站上查找翻译证据。目前, OpenProt 仅报告翻译事件, 如果它们涉及整个预测的蛋白质序列 (100% 重叠)15。因此, 缺乏翻译证据并不意味着蛋白质没有被翻译, 但启动密码子可能不是所谓的 ATG。
尽管目前存在局限性, OpenProt 还是提供了对真核基因组编码潜力的更详尽的看法。OpenProt 数据库促进蛋白质组发现和对蛋白质组功能和相互作用的理解。OpenProt 数据库的未来发展将包括对其他物种的注释、来自非 atg 起始密码子的翻译证据以及将新蛋白质纳入全基因组和外显子组测序研究的管道的开发。
The authors have nothing to disclose.
我们感谢维维安·德尔考特对这项工作的帮助、讨论和建议。Xr. 是由法国和加勒比大学支助的魁北克桑特大学中心基金会的成员。这项研究得到了加拿大功能蛋白质组学和发现 x. r. 和 CIHR 赠款 mop-137056 的研究主席的支持。我们感谢魁北克 Calcul 和加拿大计算公司的团队对 Sherbrooke 大学的超级计算机 mp2 的支持。Mp2 超级计算机的运营由加拿大创新基金会、魁北克科学与创新组织 (MESI) 和《魁北克自然与技术》 (FRQ-NT) 资助。用于一些蛋白质组学计算的 Galaxy 服务器部分由协作研究中心992医疗表观遗传学 (DFG 赠款 sfsfsfs92 1 2012) 和德国联邦教育和研究部 (BMBF 赠款 031 a538c RBC, 031L0101B/031L0101C de。NBI-epi, 031L0106 de。STAIR (de。NBI))))。
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |