该分析计算平台为对细菌种群基因组学感兴趣的微生物学家,生态学家和流行病学家提供实用指导。具体而言,这里介绍的工作展示了如何执行:i)分层基因型的系统发育指导映射;ii)基于频率的基因型分析;iii) 亲属关系和克隆性分析;iv)识别谱系分化附属位点。
常规和系统地使用细菌全基因组测序(WGS)正在提高公共卫生实验室和监管机构开展的流行病学调查的准确性和分辨率。大量公开可用的WGS数据可用于大规模研究致病人群。最近,一个名为ProkEvo的免费计算平台被发布,以使用细菌WGS数据实现可重复,自动化和可扩展的基于分层的群体基因组分析。ProkEvo的这种实施证明了将种群的标准基因型图谱与挖掘辅助基因组内容以进行生态推断相结合的重要性。特别是,这里强调的工作使用ProkEvo派生的输出,使用R编程语言进行人口规模的分层分析。主要目标是通过展示如何:i)使用系统发育指导的分层基因型图谱;(ii)使用系统发育指导的分层基因型图谱;(iii)使用系统发育指导的分级基因型图谱图;(iii)使用分级基因型图ii)评估基因型的频率分布,作为生态适应性的代理;iii)使用特定的基因型分类确定亲属关系和遗传多样性;和iv)地图谱系区分附属位点。为了增强可重复性和可移植性,使用R markdown文件来演示整个分析方法。示例数据集包含来自 2,365 个人畜共患食源性病原体 纽波特沙门氏菌 分离株的基因组数据。分层基因型(血清->BAPS1 ->ST -> cgMLST)的系统发育锚定图揭示了群体遗传结构,突出了序列类型(STs)作为区分基因型的基石。在三个最主要的谱系中,ST5和ST118比高克隆的ST45系统型更晚地共享一个共同的祖先。基于ST的差异进一步突出了辅助抗菌素耐药性(AMR)位点的分布。最后,使用系统发育锚定的可视化来结合分层基因型和AMR内容,以揭示亲缘结构和谱系特异性基因组特征。综合起来,这种分析方法为使用泛基因组信息进行启发式细菌群体基因组分析提供了一些指导。
公共卫生实验室和监管机构越来越多地使用细菌全基因组测序(WGS)作为常规监测和流行病学调查的基础,大大加强了病原体疫情调查1,2,3,4。因此,大量去识别的WGS数据现已公开,可用于以前所未有的规模研究致病物种的种群生物学的各个方面,包括基于以下方面的研究:多个储层,地理区域和环境类型的种群结构,基因型频率和基因/等位基因频率5.最常用的WGS引导的流行病学调查基于仅使用共享核心基因组内容的分析,其中共享(保守)内容仅用于基因型分类(例如,变异呼叫),这些变异成为流行病学分析和追踪的基础1,2,6,7.通常,基于细菌核心基因组的基因分型是使用7到几千个位点8,9,10的多位点序列分型(MLST)方法进行的。这些基于MLST的策略包括将预组装或组装的基因组序列映射到高度策划的数据库,从而将等位基因信息组合成可重复的基因型单元,用于流行病学和生态学分析11,12。例如,这种基于MLST的分类可以在两个分辨率水平上生成基因型信息:较低级别的序列类型(ST)或ST谱系(7个位点),以及更高级别的核心基因组MLST(cgMLST)变体(〜300-3,000个位点)10。
基于MLST的基因型分类在实验室之间具有可计算性和高度可重复性,使其被广泛接受为细菌物种水平13,14以下的精确亚型方法。然而,细菌种群的结构具有物种特异性的不同程度的克隆性(即基因型同质性),基因型之间等级亲缘关系的复杂模式15,16,17,以及辅助基因组内容分布的广泛差异18,19.因此,一种更全面的方法超越了离散分类,进入了MLST基因型,并结合了不同分辨率下基因型的层次结构关系,以及将辅助基因组内容映射到基因型分类上,这有助于基于人群的推断18,20,21.此外,分析还可以集中在偶异相关基因型21,22中辅助基因组位点的共同遗传模式上。总体而言,组合方法能够对种群结构与地理空间或环境梯度中特定基因组组成(例如,位点)的分布之间的关系进行不可知论的询问。这种方法可以产生关于特定种群生态特征的基本和实用信息,这些信息反过来又可以解释它们在水库(如食用动物或人类)中的向性和分散模式。
这种基于系统的分层人口导向方法需要大量的WGS数据,以获得足够的统计能力来预测可区分的基因组特征。因此,该方法需要一个能够同时处理数千个细菌基因组的计算平台。最近,ProkEvo被开发出来,是一个免费获得,自动化,便携式和可扩展的生物信息学平台,允许基于分层的综合细菌种群分析,包括泛基因组图谱20。ProkEvo允许研究中大规模细菌数据集,同时提供一个框架来生成可测试且可推断的流行病学和生态假设以及可由用户自定义的表型预测。这项工作补充了该管道,提供了有关如何利用ProkEvo派生的输出文件作为分析和解释分层种群分类和辅助基因组挖掘的输入的指南。这里介绍的案例研究利用了 肠道沙门氏菌 谱系I人畜共患血清 S的种群。以纽波特为例,特别旨在为微生物学家,生态学家和流行病学家提供有关如何:i)使用自动化系统发育依赖性方法来绘制分层基因型的实用指南;ii)评估基因型的频率分布,作为评估生态适应性的代理;iii)使用独立的统计方法确定谱系特异性的克隆程度;iv)绘制谱系分化AMR位点,作为如何在种群结构背景下挖掘附属基因组内容的示例。更广泛地说,这种分析方法提供了一个可推广的框架,可以在一定规模上进行基于人群的基因组分析,无论目标物种如何,都可以用来推断进化和生态模式。
利用基于系统的启发式和分层种群结构分析为识别细菌数据集中的新基因组特征提供了一个框架,这些特征有可能解释独特的生态和流行病学模式20.此外,将辅助基因组数据映射到种群结构上可用于推断祖先获得的和/或最近衍生的性状,这些性状有助于ST谱系或cgMLST变体在储库6,20,21,45<s…
The authors have nothing to disclose.
这项工作得到了UNL-IANR农业研究司和国家抗菌素耐药性研究与教育研究所以及食品科学和技术部内布拉斯加州食品卫生中心提供的资金的支持。这项研究只能通过利用UNL的荷兰计算中心(HCC)来完成,该中心得到了内布拉斯加州研究计划的支持。我们还感谢通过HCC获得开放科学网格(OSG)提供的资源,该网格得到了美国国家科学基金会和美国能源部科学办公室的支持。这项工作使用了Pegasus Workflow Management Software,该软件由美国国家科学基金会(grant #1664162)资助。
amr_data_filtered | https://figshare.com/account/projects/116625/articles/14829225?file=28758762 | ||
amr_data_raw | https://figshare.com/account/projects/116625/articles/14829225?file=28547994 | ||
baps_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548003 | ||
Core-genome phylogeny | https://figshare.com/account/projects/116625/articles/14829225?file=28548006 | ||
genome_sra | https://figshare.com/account/projects/116625/articles/14829225?file=28639209 | ||
Linux, Mac, or PC | any high-performance platform | ||
mlst_output | https://figshare.com/account/projects/116625/articles/14829225?file=28547997 | ||
sistr_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548000 | ||
figshare credentials are required for login and have access to the files |