在这里, 我们提出了 proteogenomic 工具的弹跳和协议的快速, 数量, 后平移修改和变种启用映射的肽识别通过质谱的参考基因组。该工具用于集成和可视化 proteogenomic 和个人蛋白质组学的研究, 并与正交基因学数据相衔接。
基因、转录和蛋白质之间的交叉交谈是细胞反应的关键;因此, 对分子水平的分析作为不同的实体正在慢慢地扩展到综合研究, 以增强对细胞内分子动力学的理解。目前的工具, 以可视化和集成的蛋白质组与其他组学数据集是不足够的大规模研究。此外, 它们只捕获基本序列识别, 丢弃平移后修改和定量。为了解决这些问题, 我们开发了用于将多肽与相关的平移后修饰和定量相结合以参考基因组注释的弹簧。此外, 还开发了该工具, 以使从定制的序列数据库中识别出的多肽能够被纳入单一氨基酸变种。虽然弹跳是一个命令行工具, 图形界面 PoGoGUI 使非生物信息学研究人员可以轻松地将肽映射到由 Ensembl 基因组注释支持的25种物种。生成的输出借用了基因组学领域的文件格式, 因此, 大多数基因组浏览器都支持可视化。对于大规模的研究, TrackHubGenerator 支持的弹跳, 以创建 web 可访问的数据存储库, 映射到基因组, 也可以方便地共享 proteogenomics 数据。由于很少的努力, 这个工具可以映射数以百万计的肽, 以参考基因组在短短几分钟内, 优于其他可用的序列标识的工具。该协议展示了通过 proteogenomics 映射的最佳方法, 它具有公开的定量和 phosphoproteomics 数据集以及大规模的研究。
在细胞中, 基因组、转录和蛋白质组织相互影响, 调节对内部和外部刺激的反应, 并相互作用, 以执行导致健康和疾病的具体功能。因此, 对基因、转录和蛋白质进行定性和定量是充分理解细胞过程的关键。下一代测序技术是识别和量化基因和转录表达的最常用的策略之一。然而, 蛋白质表达通常由质谱 (MS) 评估。在过去十年中, MS 技术的显著进步使蛋白质组的识别和量化更加完整, 使数据与转录组学1相比较。Proteogenomics 和多组学作为整合和 MS 数据的方法, 已成为评估跨多个分子水平的细胞过程的有力方法, 确定癌症的亚型, 并导致癌症的新潜在药物靶点 2,3. 值得注意的是, proteogenomics 最初用于为基因和转录注释4提供蛋白质组证据。以前认为是非编码的几个基因最近经过重新评估, 考虑到大规模的人体组织数据集5,6,7。此外, 蛋白质组数据成功地用于支持非模型生物体中的注释工作8,9。然而, proteogenomic 数据集成可以进一步利用, 以突出显示与基因组特征的蛋白质表达, 并阐明转录和蛋白质之间的交叉交谈, 提供了一个联合的参考系统和方法, 以协同可视化。
为了为蛋白质组学、转录组学和基因组学数据提供一个共同的参考, 许多工具已经实现, 通过 MS 识别到基因组坐标的多 肽10, 11, 12,13,14,15,16,17。方法在映射参考、支持基因组浏览器以及与其他蛋白质组工具的集成程度方面有所不同, 如图 1所示。有些工具将反向翻译的肽映射到基因组16上, 另一些则使用一个在蛋白质和基因注释中的搜索引擎标注的位置来重建肽15的核苷酸序列。还有一些人使用3或6帧的基因组翻译来映射肽对11,13。最后, 几个工具跳过核苷酸序列, 并使用氨基酸序列翻译从 RNA 排序映射转录作为一个中间, 以映射肽到相关的基因组坐标10,12, 14,17。但是, 核苷酸序列的翻译是一个缓慢的过程, 自定义数据库容易出现错误, 传播到肽映射。对于快速和高吞吐量的映射, 一个小而全面的参考是至关重要的。因此, 一个标准化的蛋白质参考与相关的基因组坐标是准确的肽基因组图谱的关键。proteogenomics 中的一些新方面, 例如变体和后翻译修改 (PTMs)2,3, 在最近的研究中获得了势头。但是, 这些通常不受当前 proteogenomic 映射工具的支持, 如图 1所示。为了提高制图的速度和质量, 我们开发了一种可以快速、定量地将多肽映射到基因组18的工具。此外, 弹跳可以使多肽的映射多达两个序列变体和注释后的平移修改。
为了应付快速增加的数量高分辨率数据集, 捕获蛋白质组和全球修改, 并为诸如个人变异和精确医学等大规模分析提供了一个中心效用。本文介绍了该工具的应用, 以可视化后修改的存在与基因组特征。此外, 本文重点介绍了通过映射肽识别可选剪接事件, 以及通过自定义变体数据库识别的多肽的映射到参考基因组。此协议使用从自豪感存档19下载的公共可用数据集, 以演示这些弹跳的功能。此外, 本协议还描述了 TrackHubGenerator 的应用, 用于创建映射到基因组的在线可访问集线器, 用于大规模 proteogenomics 研究。
该协议描述了软件工具的弹跳及其图形用户界面 PoGoGUI 如何使多肽快速映射到基因组坐标上。该工具提供了独特的功能, 如量化, 后翻译修改和变体启用映射到基因组使用引用注释。本文演示了大规模 proteogenomic 研究的方法, 并与其他可用工具18相比, 突出了其速度和内存效率。与工具 TrackHubGenerator, 它创建在线可访问的中心基因组和基因组链接的数据, 弹簧, 与其图形用户界面, 使大规模的 proteogenomics 研究, 以快速可视化他们的数据在基因组的上下文。此外, 我们还演示了在变量数据库中搜索数据集和量化 phosphoproteomics22、29时的跳过的独特特性。
单个文件 (如 GCT 文件) 提供了多肽特征和基因组基因座之间的有价值的可视化和链接。然而, 重要的是要注意, 基于这些单独的解释可能是困难或误导, 因为它们的局限性, proteogenomics 的单一方面, 如唯一性, 翻译后的修改, 和数量的价值。因此, 仔细选择哪些输出文件、选项和组合适合手边的 proteogenomic 问题并修改组合是很重要的。例如, 有关映射到特定基因组轨迹的唯一性的信息可能对基因组特征7的注释有很大的价值, 而跨不同样本的量化可能更适合于相关的研究基因组特征对蛋白质丰度的变化29。输出应由每个设置的跳过弹簧生成。如果没有生成输出, 或者在输出文件夹中显示空文件, 建议检查输入文件中所需的内容和所需的文件格式。如果文件格式或内容不遵循 “跳过” 的期望 (例如, 则假定包含文本转换序列的 FASTA 文件包含成绩单的核苷酸序列), 错误消息将要求用户检查输入文件。
协议和工具的限制大多基于基因组学常用的文件格式的重用。重新调整用于 proteogenomic 应用程序的基因组学的文件格式伴随着特定的限制。这些都是由于基因组和 proteogenomic 数据的中心可视化所要求的不同, 例如需要从蛋白质组学数据中想象转化后的修改。这在基因组文件格式被限制以单一特征用法。许多方法和工具已经开发的蛋白质组, 以自信地本地化后, 在肽序列的翻译修改31,32,33,34。但是, 基因组文件格式的结构阻碍了对基因组进行多种修饰的可视化。因此, 同一类型的多个 PTMs 的单块可视化并不构成修改站点的任何歧义, 而是来自基因组社区不同要求的结果, 一次只可视化单个特征。然而, 弹簧的优点是将平移后的修改映射到基因组坐标上, 以使研究聚焦于基因组特征 (如单核苷酸变体) 对平移后修饰的影响。使用 “弹簧”, 变体映射会增加总映射数。然而, 映射肽的独特的颜色编码突出了可靠的映射从不可靠的。从已知的单核苷酸变体中识别出的变异肽的映射可以伴随着在 VCF 格式的变体旁边形象化映射的肽。这样, 表示不可靠的变异肽映射的颜色代码就会被已知核苷酸变体的存在所推翻。
使用 “弹簧” 的关键步骤是使用正确的文件和格式。使用翻译的转录序列作为蛋白质序列伴随 GTF 格式的注释是主要标准。另一个关键的因素, 当考虑使用弹簧的映射肽与氨基酸不匹配的是内存。虽然对于标准应用程序来说, 高内存效率, 但有一个或两个不匹配的可能映射的数量和指数的增加也会导致内存使用率18的相似指数增长。我们建议一个分段映射, 如本协议所述, 首先映射多肽而不匹配, 并将它们从集合中移除。随后的先前未映射的多肽然后可以使用一个不匹配来映射, 并且该过程可以用两个不匹配的方法重复, 其余的多肽仍未映射。
由于质谱的吞吐量显著增加, 近年来研究基因组和蛋白质的数据越来越频繁, 因此在同一坐标系下方便地将这些类型的数据接口的工具是日益不可或缺。这里提供的工具将帮助需要结合基因组和蛋白质的数据, 以提高更好地了解跨小数据集的综合研究, 通过将多肽映射到参考注释。令人鼓舞的是, 弹簧已被应用于将肽与参考标注相同格式的基因候选者映射到支持人类睾丸中表达的新基因的注释努力35。这里提出的方法与用于肽识别的数据库无关。该协议可以帮助识别和可视化新的翻译产品, 通过使用改编的输入文件从翻译序列和相关的 GTF 文件从 RNA 序列实验。
一些方法和工具, 具有广泛的特殊应用场景, 以映射肽到基因组的坐标, 从映射多肽直接到基因组序列到 RNA 排序引导映射, 已经介绍了10,11,12,13,14,15,16,17. 然而, 这些可能导致在翻译后的修改出现后无法正确地映射多肽, 而 RNA 排序读取的底层映射中的错误可能会传播到肽水平。已开发出用于具体克服这些障碍, 并应对快速增加的数量高分辨率蛋白质组数据, 以集成正交遗传学研究平台。此处描述的工具可以集成到高通量工作流中。通过图形界面 PoGoGUI, 该工具使用简单, 无需专门的生物信息学培训。
The authors have nothing to disclose.
这项工作由威康信托基金 (WT098051) 和 NIH 赠款 (U41HG007234) 资助 GENCODE 项目。
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |