通过运行路径关联研究工具 (PAST),无论是通过闪亮应用还是通过 R 控制台,研究人员可以通过调查所涉及的代谢途径,更深入地了解其全基因组关联研究 (GWAS) 结果的生物学意义。
最近,一项使用代谢通路分析来解释全基因组关联研究(GWAS)数据的先前描述方法的新实施已经开发并发布。路径关联研究工具 (PAST) 旨在解决用户友好性和运行缓慢分析的问题。这种新的用户友好型工具已在生物导体和 Github 上发布。在测试中,PAST 在不到一小时的时间内进行了分析,而之前需要 24 小时或更长时间。在本文中,我们提出了使用闪亮应用程序或 R 控制台运行过去的协议。
全基因组关联研究(GWAS)是研究复杂特征及其相关的基因组区域1,2,3的流行方法。在这类研究中,对数十万个单核苷酸多态性(SNP)标记进行了测试,以测试它们与特性的关系,并评估这些关联的重要性。符合错误发现率 (FDR) 阈值 (或某些其他类型的意义阈值) 的标记特征关联保留用于研究,但可能筛选出真正的关联。对于复杂的多基因特征,每个基因的效果可能很小(因此被过滤掉),并且一些等位基因只在研究3中可能不存在的特定条件下表达。因此,虽然许多 SNP 可能保留为与特征相关联,但每个 SNP 的效果可能非常小。将缺少太多的 SNP 呼叫,对特征的生物学意义和遗传结构的解释可能不完整和混乱。代谢途径分析可以帮助解决其中一些问题,通过专注于基因的综合效应,根据其生物功能4,5,6分组。
若干研究是使用本文中描述的方法的先前实施完成的。黄曲霉毒素积累7,玉米耳虫耐药性8,油生物合成9 都与以前的实施研究。虽然这些分析是成功的,但分析过程复杂、耗时且繁琐,因为分析工具是以 R、Perl 和 Bash 的组合编写的,而且管道没有自动化。由于每次分析都需要修改此方法所需的专业知识,现已开发出一种可以与其他研究人员共享的新方法。
路径协会学习工具(PAST)10 旨在通过减少编程语言知识并在较短的时间内运行分析来解决以前方法的缺点。虽然该方法是用玉米测试的,但 PAST 没有做出任何特定物种的假设。过去可以通过 R 控制台运行, 作为一个闪亮的应用程序, 和在线版本预计将很快在 Maizegdb 上可用。
PAST 的主要目标是将 GWAS 数据的代谢通路分析带给更广泛的受众,尤其是非人类和非动物生物体。过去替代方法通常是以人类或动物为重点的指挥线程序。用户友好性是 PAST 开发的首要目标,无论是选择开发闪亮应用程序还是选择使用 R 和 Bio 导体来发布应用程序。用户不需要学习如何编译程序来使用 PAST。
与大多数类型的分析软件一样,PAST 的结果仅与输入数据一样好:如果输入数据有错误或格式错误,PAST 将无法运行或产生不知情的结果。确保 GWAS 数据、LD 数据、注释和路径文件正确格式化对于接收来自 PAST 的正确输出至关重要。PAST 仅分析双过敏标记,并且只能运行每组输入数据的一个特征。此外,由不良基因型或不正确或不精确表型产生的 GWAS 数据也不太可能产生清晰或可重复的结果。PAST 有助于对 GWAS 结果进行生物解释,但如果环境变化、实验错误或人口结构没有正确解释,则不太可能澄清混乱的数据集。
用户可以选择更改分析的某些参数,无论是在闪亮应用程序中,还是通过将这些参数传递到 PAST 在 R 控制台中的功能。这些参数可以更改 PAST 报告的结果,用户在从默认值中修改这些参数时应小心谨慎。由于 LD 由用户测量,通常使用 GWAS 中也使用的相同标记数据集,因此 LD 测量是针对人群的。对于所有研究,特别是玉米以外的物种(特别是自授粉、多倍体或高度异质物种),默认物种的变化可能是合理的。
The authors have nothing to disclose.
没有。
Computer | NA | NA | Any computer with 8GB RAM should be sufficient |
R | R Project | NA | R 3.6 or greater is required to install from Bioconductor |