该协议的目的是使用计算和工作台研究的组合来寻找无法轻易从共同净化序列中分离的新序列, 这可能只是部分已知的序列。
减法基因组学可以用于任何研究, 这些研究的目标是确定嵌入在更大基因组背景下的基因、蛋白质或一般区域的序列。减法基因组学使研究人员能够通过全面测序和减去已知的遗传元素 (参考, r) 来分离感兴趣的目标序列 (t)。该方法可用于识别线粒体、叶绿体、病毒或种系受限染色体等新序列, 在 t 不能轻易从 r 中分离时尤其有用, 该方法从综合基因组数据 (r + t) 开始, 该方法使用基本局部对齐搜索工具 (blast) 对参考序列或序列, 删除匹配的已知序列 (r), 留下目标 (t)。为了使减法工作得最好, r 应该是一个相对完整的草案, 缺少 t。由于减法后剩余的序列是通过定量聚合酶链反应 (qpcr) 进行测试的, 因此 r 不需要完整就可以工作。在这里, 我们将计算步骤与实验步骤链接到一个周期, 可以根据需要迭代, 按顺序删除多个引用序列, 并完善对 t 的搜索。减法基因组学的优点是, 即使在物理纯化困难、不可能或昂贵的情况下, 也可以识别出一个全新的目标序列。该方法的一个缺点是为减法寻找合适的参考, 并获得 t 阳性和阴性样品进行 qpcr 检测。我们描述了该方法在斑马雀的细菌系限制染色体中识别第一个基因的应用。在这种情况下, 计算过滤涉及三个引用 (r), 在三个周期内按顺序删除: 不完整的基因组组装、原始基因组数据和转录数据。
这种方法的目的是从基因组上下文中识别一个新的靶向 (t) 基因组序列, 无论是 dna 还是 rna, 还是参考 (r) (图 1)。如果目标不能物理分离, 或者这样做的成本很高, 则该方法最有用。只有少数生物有完美完成的减法基因组, 因此我们方法的一个关键创新是将计算方法和板凳方法结合成一个周期, 使研究人员能够在参考不完善的情况下分离目标序列, 或者是草案来自非模型生物体的基因组。在周期结束时, qpcr 测试用于确定是否需要更多的减法。经过验证的候选 t 序列将显示 qpcr 在已知 t 阳性样本中的统计上更强的检测结果。
该方法已在发现没有宿主同源的 1、2、3、4的新细菌药物靶点中得到应用, 并从受感染的宿主中识别新病毒5,6。除了 t 的鉴定外, 该方法还能提高 r: 我们最近用这种方法从斑马雀参考基因组中鉴定了936缺失的基因, 并从仅有细菌的染色体 (t)7中发现了一个新的基因。当 t 可能与已知序列有极大的差异时, 或者当 t 的同一性基本不明确时, 例如在斑马雀细菌群限制的第7号染色体中, 减法基因组学尤其有价值。
通过事先不需要 t 的阳性识别, 减法基因组学的一个关键优势是它是无偏的。在最近的一项研究中, readhead等人研究了阿尔茨海默氏症与四个大脑区域病毒丰度之间的关系。为了病毒识别, readhead等人建立了一个由515种病毒8组成的数据库, 严重限制了他们的研究能够识别的病毒制剂。减法基因组学可以用来比较健康和阿尔茨海默氏症的基因组, 以分离可能与疾病相关的新病毒, 而不管它们与已知的传染因子有何种相似之处。虽然已知有263种人类目标病毒, 但据估计, 约有167万种未被发现的病毒物种存在, 其中 631.00-827 000 种有可能感染人类9。
分离新病毒是减法基因组学特别有效的一个领域, 但一些研究可能不需要如此严格的方法。例如, 识别新病毒的研究使用了无偏见的高通量测序, 然后是逆转录酶和 blastx 的病毒序列5或丰富病毒核酸提取和逆转录病毒序列6. 虽然这些研究采用了重新测序和组装, 但没有使用减法, 因为目标序列是通过 blast 得到肯定的。如果这些病毒是完全新颖的, 与其他病毒没有关系 (或远近相关), 减法基因组学将是一种有用的技术。减法基因组学的好处是可以获得全新的序列。如果生物的基因组是已知的, 它可以被减去留下任何病毒序列。例如, 在我们发表的研究中, 我们通过减法基因组学从斑马雀中分离出一个新的病毒序列, 尽管这不是我们最初的意图.
在抗生素耐药1、2、3、4急剧上升的推动下, 减法基因组学也被证明在识别细菌疫苗靶点方面很有用。为了最大限度地降低自身免疫反应的风险, 研究人员通过减去人类宿主中具有同源性的任何蛋白质来缩小潜在的疫苗目标。一项特别的研究, 研究了伪结核病的结核菌, 对几个细菌基因组的脊椎动物宿主基因组进行了减法, 以确保可能的药物靶点不会影响宿主中的蛋白质, 从而产生副作用1. 这些研究的基本工作流程是下载细菌蛋白质组, 确定生命蛋白质, 去除多余的蛋白质, 使用 blastp 分离必需的蛋白质, blastp 对宿主蛋白质组分离任何具有宿主同源体的蛋白质1,2,3 个,4. 在这种情况下, 减法基因组学确保所开发的疫苗不会对宿主1、2、3、4产生任何非目标影响。
我们使用减法基因组学来识别细菌系限制染色体 (grc) 上的第一个蛋白质编码基因 (在这种情况下, t), 它存在于种系中, 但不存在于两性的体细胞组织10中.在这项研究之前, 唯一了解 grc 的基因组信息是一个重复的区域11。在卵巢的 rna 序列中进行了 de novo 的组装, 从成年斑马雀的卵巢和睾丸组织 (r + t) 中进行。序列的计算消除使用已公布的体细胞 (肌肉) 基因组序列 (r 1) 12、其原始 (somatic) 读取数据 (r2) 和体细胞 (大脑) 转录组 (r3)13进行.每个周期的第5步 (图 2a) 的 qpcr 测试可连续使用三个引用, 这表明需要额外的筛选。通过 dna 和 rna 的 qpcr 以及克隆和测序, 证实了发现的α-snap 基因。我们在示例中表明, 此方法是灵活的: 它不依赖于匹配的核酸 (dna 与 rna), 减法可以使用由组件或原始读取组成的引用 (r) 进行。
虽然减法基因组学是强大的, 但它不是一种 cookie 切割器方法, 需要在几个关键步骤中进行自定义, 并仔细选择参考序列和测试样本。如果查询程序集的质量较差, 则筛选步骤可能只隔离程序集项目。因此, 使用特定项目的适当验证协议彻底验证新程序集非常重要。对于 rna-seq, 三一重工网站18提供了指导方针, 对于 dna, 可以使用 reapr23这样的工具。使用 blast ?…
The authors have nothing to disclose.
作者感谢 michelle Biederman、alyssa petersen 和 colin j. saldanha 在不同阶段对斑马雀基因组学项目的帮助。我们也感谢 evgeny bisk 计算集群系统管理和 nih 拨款 1k22ca184297 (至 j. r. b.) 和 nih ns 042767 (至 c. j. s)。
Accustart II Taq DNA Polymerase | Quanta Bio | 95141 | |
Blasic Local Alignment Search Tool (BLAST) | https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment | ||
Bowtie 2 | https://www.python.org/download/releases/2.7/ | ||
BWA-MEM v. 0.7.12 | https://github.com/BenLangmead/bowtie2 | ||
Geneious | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
PEAR v. 0.9.6 | http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html | ||
Personal Computer | Biomatters | http://www.geneious.com/ | |
PowerSYBR qPCR mix | ThermoFisher | 4367659 | |
Python v. 2.7 | https://sco.h-its.org/exelixis/web/software/pear/ | ||
Reptile v.1.1 | https://alurulab.cc.gatech.edu/reptile | ||
Stratagene Mx3005P | Agilent Technologies | 401456 | |
TransDecoder v. 3.0.1 | https://sourceforge.net/projects/bio-bwa/files/ | ||
Trinity v. 2.4.0 | https://github.com/TransDecoder/TransDecoder/wiki |