Here, we present phenomic approaches for the functional characterization of putative phage genes. Techniques include a developed assay capable of monitoring host anabolic metabolism, the Multi-phenotype Assay Plates (MAPs), in addition to the established method of metabolomics, capable of measuring effects to catabolic metabolism.
目前的调查到噬菌体 – 宿主相互作用依赖于从(甲基)基因组推断的知识。有趣的是,60 – 噬菌体全部序列的95%的市场份额没有同源性为当前注释蛋白质。其结果是,噬菌体的基因有很大一部分被注释为假设。这一现实严重影响了结构性和辅助代谢基因的注解。在这里,我们提出旨在捕捉所选主机的这些未知的噬菌体基因中的表达过程中的生理反应(S)phenomic方法。多表型分析板(MAP中)用于监控主机底物利用和随后的生物质形成的多样性,而代谢通过监测代谢物的丰度和多样性提供双向产物分析。这两种工具同时使用,以提供一个单一的推定噬菌体开放阅读框(ORF)的表达相关的表型信息。对于这两种方法的代表性结果进行比较,highl照明的宿主携带或者推定的结构或代谢噬菌体基因的表型信息的差异。此外,可视化技术和高吞吐量计算管道,便利实验分析给出。
即感染细菌(又名噬菌体或噬菌体)的病毒,估计存在于全局超过10 31病毒样颗粒(VLP)和多于所有其他生物体中的环境1,2-。第一个宏基因组研究,调查海洋环境相关的病毒社区集中于量化病毒部分3中看到的多样性。此外,布赖特巴特和他的同事发现,病毒序列社区65%以上没有共同的同源性在公共数据库的任何序列。随后的宏基因组的研究发现了类似的证据:从圣地亚哥海洋沉积物宏基因组,加州含有75%的未知病毒序列4;从索尔顿湖的高盐度湖泊宏基因组含有98%的未知病毒序列5;和珊瑚相关的宏基因组含有95 – 98%的未知病毒序列6。未注释的信息这种累积导致噬菌体的遗传物质是7“生物宇宙的暗物质”。
噬菌体的基因组的表征依赖于通过对现有的核酸和蛋白质数据库的比较确定序列相似性。因为噬菌体编码的遗传信息主要是未知的,同源性为基础的方法是无效的。在其基因组中,噬菌体通常编码三个主要基因类型:转录和复制的基因,代谢基因和结构基因。转录和复制的基因(类I / II基因8)包括聚合酶,primases,内/外-核酸酶,和激酶。这些基因是高度保守的,由于其在噬菌体感染的重要性,转录和复制的噬菌体遗传物质。噬菌体聚合酶容易地用传统的序列同源性的方法,由于其全球保护9确定并已显示出作为有效的系统发育标记物10。相比之下,噬菌体代谢和结构基因(II / III级基因8)越来越发散,往往标注为假想的基因。
噬菌体代谢基因影响宿主的代谢能力,并且不一定需要病毒复制。这些基因中,常常被称为辅助代谢的基因11(AMGs),出现以调节宿主代谢,并允许感染和病毒粒子的成熟的成功的最佳发展。 AMGs已用限制性营养或能量生产途径的利用和吸收有关。一些实例包括在各个噬12-16的基因组中发现的光系统的基因,基因连接并通过磷代谢17,18,和利用戊糖磷酸途径噬菌体的dNTP生物合成18,19的调节。相比之下,结构基因是中期到感染过程中产生的晚期基因之间以及在不同的噬菌体浩变化ST制度。结构蛋白的生产依赖于病毒的dNTP的可用性,以及它们的转录,翻译和组件8能池。衣壳和尾部纤维结构蛋白被认为是最发散的所有病毒蛋白编码基因和所需的成功的病毒粒子的生产。他们的分歧通常归因于它们在塑造病毒与宿主协同进化20起到积极的作用。发散的蛋白质,无论基因类的,很容易用传统的同源性和序列比对技术时忽视。为了纠正见过严格序列比较的局限性导致了能够使用的序列特征来判断的关联,如人工神经网络21的生物信息学工具。人工神经网络(人工神经网络)允许的结构和代谢基因的预测,但是,需要下游实验验证直接表征基因的功能。
本手稿的目的是提供一种能的新型噬菌体基因的表达过程中监测宿主细菌的两个分解代谢和合成代谢的代谢phenomic协议,功能通过人工神经网络的预测。组学的领域中,与细胞的表型相关的生物,是公认的在系统生物学中的蛋白质与未知或多效性功能的调查中提供帮助。 Phenomic工具用于表型信息链接到基因型信息。我们推测对它们的功能(多个)可以通过噬菌体基因表达过程中观察宿主的生理效应来确定推定的噬菌体基因。为了调查这一假设,两轮量化方法进行选择。多表型分析板(MAP中)被用来监测宿主底物利用和随后的生物质形成,而代谢测定宿主代谢物的多样性和相对丰度的增长在特定ENVIRON期间精神状态。推定的结构和代谢蛋白过表达在大肠杆菌中,并从两个实验的代表性结果进行了比较。众多的视觉技术和高通量处理管道呈现,以方便实验复制。最后,对所提出的方法的再现性和精度的预期生理效应一个被注解衣壳蛋白和噬菌体代谢蛋白,硫氧还蛋白,加上两个推定AMGs的上下文中讨论。
在这里,我们提出phenomic的方法推定噬菌体基因的功能特性。技术包括一种能够监控主机同化代谢开发的试验中,多表型分析板(MAPS),除了已建立的代谢的方法,能够测量作用于分解代谢的。我们提供了更多的工具来管理这些技术所产生的大数据集,允许高吞吐量处理和分析24。最后,通过注释的噬菌体衣壳蛋白,硫氧还蛋白噬菌体,两个推定代谢噬菌体的基因,平均响应实验的比较,我们提出各种策略来解释两个数据集和基因类,重点是识别表型的发展趋势和识别异常值的。
如前所述,这两种方法定量测量只有一半宿主代谢。为了解释任何的相对功能根据调查的新的蛋白质,从两种方法的数据是必需的,以提供的功能的证据。虽然这不是我们目前的手稿的一个重点,从每个phenomic方法,数据输出是通过组合的分析,重点集群技术,如随机森林和主成分分析投入。此外,从组合分析所得的假设必须随后通过传统的遗传方法验证。
最后,该方法提出了被很大程度上受到细菌生理学的影响,因此,按照同样的标准。当进行这两种方法,考虑需要进行,以确保独立,克隆群体试行;污染预防;一个单可变正在测试;和适当的控制正在同时运行。如果不考虑这些问题会导致不明确的结果,类似于任何生理检测。
多表型检测板(MAPS)
MAP的发展提供了高通量和适应性强的测定相比现有技术( 图5A和表1,2)。该测定法使用的用品,设备,和基本技术,可以在所有微生物学实验室。一个计算管道的掺入,PMAnalyzer 24,用于随后的数据处理和分析,确保快速的数据解析。另外,该方法的两个实验和分析方面可容易地调节或调谐定制的目的。例如,如果数据的相当大的比例没有通过在部分4中概述的过滤,可以通过手动的生长曲线筛选,以确定问题。如果问题的产生是由于严格的滤波器参数,调整该脚本可。或者,如果问题都与实验过程相关( 即凝结时间延长;不当细菌转移的CELLS等),那么附加的重复,可以容易地重复。
作为奎瓦斯等 24所描述的,PMAnalyzer是写成一个执行的解析和分析脚本作为一个有凝聚力的,自动化的流水线包装脚本一个bash程序。所有脚本都从一个Git仓库通过取中值跨数据一式三份每个时间点可以自由进出,25,随后参数化物流曲线获得的滞后时间,最大的增长速度,渐近线,以及一个新的名词,增长水平。的中间值被选择了的平均值在我们的研究中,以减少大型离群的效果,然而,该脚本可以容易地适于计算复制数据的平均值。由于减少了变化(SE)看到对面复制数据( 图2A),我们维持使用中的PMAnalyzer中位数为拟合逻辑曲线。此外,在该研究的切断成长(GL≥0.4)为DETE通过比较数据跨增长水平和最大生长速率如何分离rmined( 图1A,B)。根据所用这个词可能会有所不同的仪器和模型系统,要求重新界定这一对临界值。
我们的测定法的主要优点是能够比较使用单一参数表征整体微生物的生长,我们定义为生长水平(GL)的表型的能力。 GL是调和平均,并因此减轻了大的异常值的数据的影响。使用调和平均移与物流配值以提供经济增长的总结乃通过试验和错误。其他方法试图区分生长包括:花费的时间达到特定的曲线参数(半μ 最大值,μmax和承载能力),确定(R 2)的系数,以及R 2乘以特定曲线参数的组合。使用调和平均值与移为总帐物流入值提供的最大范围在评价生长,从而它成为所选择的方法。一个考虑需要注意的是动态增长曲线图案具有使用一个参数或拟合模型时,丢失的可能性。例如,该逻辑曲线和GL的各个曲线的参数是不能代表双相生长。在一个单一的碳的环境中,对生长这种效应意味着病毒蛋白的调解对底物利用衬底或转移的任一转换。在不考虑多个生长参数可能丢失的附加效果包括:延长滞后时间,建议病毒机器或产品的负担增加;迅速加快指数阶段,建议连接到主机的能源生产途径的病毒蛋白;或更高水平的生物质的形成,这意味着在主机养分吸收,同化病毒载体(数据未显示)。因此,新生绘制生长曲线( <st荣>图2A,B)提供了关于长期趋势的信息,而GL考虑到逻辑模型的主要变量,提供一个单一的量化数字来表示一个克隆的整体成功。
当考虑贡献的在MAP的结构和代谢的基因的不同反应,可以观察到有问题的不同的衬底类提供了蛋白质功能的最大证据。例如,代谢的蛋白质通常与采集限制性营养物质,这些都是非特异性主机中心代谢16,32相关联。初步的MAP实验表明,克隆窝藏推定代谢噬菌体基因都具有增加的滞后期上中心代谢的碳源( 图2A)上生长时。相反,克隆携带假定结构基因,这需要主机和能源的dNTP池的大比例,导致对增长百分之假阳性反应拉尔和氨基酸代谢的碳底物。这可能是由于导致宿主丝状和/或包涵体不溶性蛋白质的积累,通过显微镜( 图2A和数据未显示)所观察到的。同时进一步分析,以验证这些初步结果,该地图是能够检索的关联到具体的假设基因噬菌体类的功能表型反应。
除了未知病毒蛋白的澄清,地图是一种新颖的资源调查个体细菌的功能和代谢多样性或细菌的群落。地图部件的设计,便于改造支持一系列细菌的生长;包括海洋,营养缺陷型和厌氧微生物。为了便于这些努力已定义的基底和预生长培养基需要额外的或调节的化学物质之前,不同的细菌属可以在MAP中得到支持。在此使用的MAP的一个音符是维持确定的培养基,禁止使用的成分,如蛋白胨,酵母提取物和蛋白胨。
代谢组学
代谢组学的领域是依赖于代谢物数据库,其中包括通过质谱法鉴定分离的代谢物。这里所选择的核心设施具有最大代谢数据库之一。有趣的是,有一半以上来自我们experimentations产生的代谢物是不可识别的(〜65%),而其他人以前从未被记录在我们的宿主大肠杆菌 (例子包括:吲哚3乙酸33,水杨酸34,和二氢松香酸35)。这一事实可能归因于对植物的代谢物,或所研究的特定蛋白质数据库的任一强烈的偏见。无论如何,结果是已知的可用于数据表示和分析代谢物的数量有限。在福TURE,使用各种数据库的多个代谢组学方法将允许更大范围的代谢物。
目前,已知的和比较和对比了新颖的病毒蛋白时未知的代谢物被使用。使用这种方法,我们假设克隆窝藏功能相似的蛋白质将分享他们的完整代谢轮廓增加相似性。初步代谢分析显示,而结构和代谢基因不明确地互相分离,这些基因表现出在主机上类似的效果,当过量表达不相关( 图6)。例如,注释的衣壳基因簇紧密地与推定代谢基因在这项研究中,EDT2440和EDT2441突出显示。使用公众可用的跨膜拓扑结构和信号肽预测程序调查显示的证据表明,这两个推定代谢基因窝藏一个跨膜结构域。有趣的是5日出来的Ë9个克隆的第一个群集组(最左边的树状图的部分)的预测使用相同的拓扑结构方案跨膜结构域。需要进一步的研究,但是,它很可能是这些克隆的过度表达期间存在的代谢物与细胞应激反应从膜或结构性负担所得相关联。这方面的证据支持,虽然代谢数据具有噪声的增加量,该方法能够突出,区分基因的一般效果,无论是在和跨基因类信号。为了确定所述方法是否能够提取出的基因功能的特定信息的,代谢物被分为特定的代谢途径。该假说的存在,如果一个克隆影响特定于单个通路的代谢产物,然后过表达的基因是激活该途径。在此之前,我们建立了代谢组学的质量保证管线,初步数据显示,有超过一ð代表性不足的代谢产物是典型的“未知”,对与其相关的通路提供的信息很少(数据未显示)。预处理代谢数据,但是,发现,大多数人的代谢物轮廓相似,只有未知和已知代谢物的丰度的选定数量跨越克隆有所不同,例如腐胺和尿嘧啶( 图6)。以提供蛋白质的功能的努力的更大的分辨率正在作出通过实验与已知的噬菌体的基因,其可以用于填充在代谢物的基础功能表征的“洞”比较新颖的噬菌体基因。使用这种技术,已知的病毒基因所分配的功能提供的未知基因的功能的基准。尽管如此,代谢组学分析的限制因素是数据库的大小和相关性。为了纠正这些限制,听上去很像这项研究代谢数据库需要开发;这样作为代谢产物的特定对大肠杆菌的ASKA收集数据库及其丰度大肠杆菌克隆在其中的单个的ORF过表达36。在2013年提供了这样的数据库需要证据时,研究人员在Lawerence伯克利国家实验室编制具体型号细菌37的整个突变体文库代谢产物的第一个全面的数据库。这项研究提供了新的洞察需要利用特定的代谢物基因,揭示表型和基因型之间的明确联系。
当考虑代谢作为一种工具,重要的是要确定的处理机制,随后在核心设施。大多数实验步骤的工件与使用的仪器有关的一天到一天的差异。迄今所有的GC-MS分析实现利用了包含在每个分析跑内部标准;然而,除了项目具体的内部样品的</ em>的运行试验中的每一天额外的去除变异。这些因素必须尽早解决,以避免正常化的问题和偏见。另一种解决方案是处理所有样品在同一机器上的核心设施,作为一个单一的批次,在任何核心设施可用的选项。
各种工具都推出并重新探讨这个手稿提供新的手段,筛选和鉴定未知功能的基因的噬菌体。的实验技术与流线形使用计算管道的简单性和适应性,保证这些方法可应用于广泛的研究工作和领域。我们的目标是,这里介绍的方法phenomic将有助于在新的除蛋白噬菌体进一步调查,他们也都同样在功能上不确定的系统。
The authors have nothing to disclose.
We thank Benjamin Knowles, Yan Wei Lim, Andreas Haas, and members of the Viral Dark Matter consortium for their help and constructive input on this manuscript. This research is funded by the National Science Foundation (DEB-1046413) and is part of the Dimensions: Shedding Light on Viral Dark Matter project.
0.22µm Sterivex Filter | Fisher Scientific | SVGP01050 | Millipore |
0.22µm Millex Filters | Fisher Scientific | SLGV033RS | Millipore |
0.22µm SteriCap Filter | Fisher Scientific | SCGPS02RE | Millipore |
0.22 µm Omnipore membrane filters | Millipore | JHWP02500 | Millipore |
96 well micro-titer plates | VWR | 82050-764 | Standard F-Bottom 96 well Microplates |
2 mL 96 well plate | Fisher Scientific | ||
Adhesive Seal Plate Film | Sigma-Aldrich | Z369667 | |
2 L Nalgene square bottles | Cole Parmer | T-06040-70 | |
125 mL Nalgene square bottles | Cole Parmer | T-06040-50 | |
1/4inch Panel Mount Lock Nut, black nylon | Cole Parmer | EW-45509-04 | |
Female Luer Thread Style Panel Mount to 200 Series Barb 1/16inch | Cole Parmer | EW-45500-30 | |
Female Luer Thread Style Panel Mount to 200 Series Barb, 1/8inch | Cole Parmer | EW-45500-34 | |
Male Luer Integral Lock Ring to 500 Series Barb, 1/16inch ID tubing | Cole Parmer | EW-45505-31 | |
Male Luer with Lock Ring x Female Luer Coupler | Cole Parmer | T-45508-80 | |
Barbed Bulkhead Fittings 1/4inch OD | Fisher Scientific | 6149-0002 | |
Sanipure Tubing 1/16inch ID x 1/8inch OD | SaniPure | AR400002 | |
Sanipure Tubing 1/4inch OD x 1/8inch ID | SaniPure | AR400007 | |
Variable Flow Mini Pump (Peristaltic pump) | Fisher Scientific | 13-876-1 | |
Magnetic Stirrer | Velp Scientifica | F203A0160 | |
Forceps | Fisher Scientific | 14-512-141 | Millipore* Filter Forceps |
Multi-plate spectrophotometer plate reader | Molecular Devices Analyst GT | ||
Filter manifold | Fisher Scientific | XX10 025 02 | |
Software: | |||
Python version 2.7.5 | http://www.python.org/ | ||
PyLab module | http://wiki.scipy.org/PyLab | ||
R version 3.0.1 | http://www.r-project.org/ | ||
reshape2 library | http://had.co.nz/reshape | ||
ggplot2 library | http://ggplot2.org/ | ||
Gene Composer | PSI Tech Portal | http://www.genecomposer.net | |
Services: | |||
West Coast Metabolomics Center | UC Davis | http://metabolomics.ucdavis.edu | |
DNA 2.0 | https://www.dna20.com |