DNA 调控元素, 例如促进剂, 通过物理接触靶基因促进剂控制基因表达, 通常通过长距离染色体相互作用跨越大的基因组距离。启动子捕获高 c (PCHi) 确定促进者和远端区域之间的重要相互作用, 使潜在的调控序列分配给他们的目标基因。
基因组的三维组织与它的功能有关。例如, 转录增强剂等调控元素通过物理接触控制其目标基因的时空表达, 通常会在一定程度上弥合 (在某些情况下数以百计的 kilobases) 基因组距离和绕过附近的基因。人类基因组有大约100万促进剂, 其中绝大多数有未知的基因靶点。因此, 将远端调控区域分配给目标基因是理解基因表达控制的关键。我们开发了启动子捕获高 c (PCHi), 使全基因组的远端启动子相互作用区域 (PIRs) 的检测, 为所有发起人在一个单一的实验。在 PCHi 中, 高度复杂的高 C 库专为启动子序列, 通过在溶液混合选择与数以千计的生物素化 RNA 诱饵互补的所有启动子包含限制片段的两端特别丰富。其目的是, 然后拉下启动子序列和他们的频繁互动伙伴, 如增强剂和其他潜在的监管要素。在高通量配对结束排序后, 对每个启动子结扎的限制片段应用统计测试, 以确定限制片段级别上的重要 PIRs。我们使用 PCHi 生成了许多人和老鼠的细胞类型的远程启动子交互的图谱。这些启动子 interactome 映射通过将假定的调控区域分配给目标基因, 并揭示优先的空间启动子交互网络, 有助于更好地理解哺乳动物基因表达控制。这些信息也与了解人类遗传疾病和潜在疾病基因的识别有着很高的相关性, 通过将非编码疾病相关的序列变体或接近控制序列的基因链接到他们的目标。
积累的证据表明, 基因组的三维组织在一系列核过程中扮演着重要的功能角色, 包括基因活化1、2、3、压制4 ,5,6,7,8, 重组9,10, dna 修复11, dna 复制12,13, 和细胞衰老14。遥远的促进剂被发现在接近的空间接近度对促进者他们调控15,16,17, 这是必要的适当的时空基因表达控制。增强剂的缺失表明, 远端促进因子是关键的目标基因转录18,19,20,21,22, 和 ‘ 强迫染色质循环 ‘表明, 在Hbb轨迹中的增强器与其目标启动子之间的设计, 足以驱动转录激活23。此外, 基因组重排在异位促进剂控制下的基因重组可能导致不适当的基因激活和疾病24,25,26。这些例子共同说明了促进剂的相互作用对基因控制至关重要, 需要严格的调控以确保适当的基因表达。人类和老鼠的基因组估计大约有100万促进剂。对于这些增强剂中的绝大多数, 目标基因是未知的, 并且促进者和促进剂之间的 “接触规则” 被理解得很差。因此, 将转录增强剂分配给其目标基因, 是破译哺乳动物基因表达控制的一个主要挑战。
我们对三维基因组体系结构的理解被引入 3C27 (染色体构象捕获) 和它的变种28,29,30,31的革命性改变。.最强大的这些技术, 高 C (高通量染色体构象捕获) 的设计, 以确定整个集合的染色体相互作用的细胞群内。高 C 库, 通常由数以百万计的细胞产生, 是高度复杂的, 大约 1011独立结扎产品之间的 4 kb 片段在人类基因组32。因此, 除非高 c 库接受超深测序, 否则, 从高 c 数据中对单个限制片段 (如包含启动器或增强器) 之间的相互作用进行可靠和可重现的识别是不可行的,这不是一个在经济上可行的解决方案, 为实验室编写的高 C 图书馆例行。为了规避这一缺陷, 我们开发了启动子捕获高 c, 专门从高 c 库中丰富的启动子包含结扎产品。我们专注于发起人有两个原因。首先, 促进剂的接触已被证明是关键的正确的基因表达水平在许多研究 (见上文参考), 第二, 由于推动者基本上不变的细胞类型, 同样的捕获诱饵系统可以用来审问跨多个单元类型和条件的调节电路。我们的方法依赖于高 c 库的解决方案杂交, 数以万计的生物素化 RNA 120mers 互补的促进剂包含的高 c 结扎产品和后续捕获链亲和素涂层磁性珠子。这将导致 PCHi 库的复杂性大大降低, 与原始的高 C 库相比, 它只集中于识别在显著高频率下被结扎到启动子的碎片。
我们已经使用 PCHi 在一些人和小鼠细胞类型, 以帮助更好地理解基因表达控制通过揭示远距离远端启动子互动区域的假定调节功能, 以及非随机启动子-启动子在原子核的三维空间中的接触。这些研究已经映射了成千上万的启动器-增强剂的联系横跨许多细胞类型33,34,35,36,37,38, 39, 确定了 Polycomb 压迫复合介导的小鼠胚胎干细胞的空间基因组组织7, 展示了大范围的启动子 interactomes 在细胞分化37,38,39, 并将非编码疾病相关序列变体与基因促进剂35联系起来。
PCHi 是一种理想的方法来映射基因组范围内的 DNA 序列与促进者互动的集合。相关的方法, 如捕获的连续基因组区域的高 C (参见讨论) 是选择的方法为选定的基因组区域的高度分辨率互作用概要。PCHi 和捕获的高 c 从实验的角度来看非常相似 (唯一的区别是捕获系统的选择), 因此我们提供的建议和指导方针都适用于这两种方法。在这里, 我们介绍了 PCHi 的详细描述。概述了 PCHi 实验的基本原理和设计, 提供了一步一步的 PCHi 库生成协议, 并说明了如何在协议的各个步骤中监视 PCHi 库的质量, 从而产生高质量的数据。
启动子捕获的模块化设计
启动子捕获高 c 旨在专门丰富的高 c 库的互动涉及发起人。这些相互作用仅包括一个在高 C 库中存在的结扎产品的子集。
捕获高 c 可以很容易地被修改, 以丰富的高 c 库的任何基因组区域或感兴趣的地区通过改变捕获系统。捕获区域可以是连续的基因组片段44,45,46,48, 增强剂已确定在 PCHi (‘ 反向捕获高 c ‘35), 或 DNase I 敏感点49.捕获系统的大小可以根据实验范围进行调整。例如, 德莱顿等。目标519诱饵片段在三个基因沙漠与乳腺癌相关44。捕获系统由马丁等 al。目标两个连续基因组片段 (‘ 区域捕获 ‘: 211 基因组区域共计; 2131 限制片断) 和选择的促进者 (3857 基因促进者)45。
SureSelect 库可用于不同的大小范围: 1 kb 到 499 kb (5,190–4,806)、500 kb 到 2.9 mb (5,190–4,816) 和 3 mb 到 5.9 mb (5,190–4,831)。由于每个个体捕获生物素-RNA 是120核苷酸长, 这些捕获系统分别容纳 4158, 24166 和49166单独捕获探针。这对应于2079、12083和24583个目标限制片段, 分别 (注意, 限制片段的数字是下限的, 前提是两个单独的捕获探测器可以为每个限制设计片段-在现实中由于重复序列这将不是每个限制片段的情况 (请参见图 1B, C), 从而导致更多的多弹头限制片断为恒定的数量的可用的捕获探针).
此处描述的协议是基于使用限制酶与 6 bp 识别站点来发现远程交互。使用限制酶与 4 bp 识别站点更大的解决更近端的相互作用也是可能的40,49。
PCHi 的局限性
所有染色体构象捕获化验的一个固有的局限性是, 它们的分辨率是由用于库生成的限制酶决定的。在同一限制片段上的 DNA 元素之间发生的相互作用在 “C 型” 检测中是看不见的。此外, 在 PCHi, 在某些情况下, 一个以上的转录起始点可以位于相同的启动子包含限制片段, 和 PIRs 在某些情况下, 港口既活跃和压制组蛋白标记, 使难以确定哪些监管元素中介相互作用, 并预测启动子交互的调节输出。使用限制酶与 4 bp 识别站点缓解了这个问题, 但代价是大大提高了高 c 库的复杂性 (高 c 库生成的 4 bp 识别站点限制酶比高 c 更复杂至少100倍图书馆产生的 6 bp 识别站点限制酶), 以及相关成本的下一代测序。
另一个限制是, 当前的 PCHi 协议要求数以百万计的细胞作为起始材料, 从而排除了在稀有细胞类型中对启动子相互作用的分析。PCHi 的修改版本, 以便在1万到10万细胞 (例如早期胚胎发育或造血干细胞) 的细胞群中对启动子接触进行审问, 因此是捕获的重要补充。高 C 工具箱。
最后, 就像所有依赖于甲醛固定的方法一样, PCHi 只记录在固定时间点 “冷冻” 的相互作用。因此, 为了研究启动子相互作用的动力学和动力学, 需要在 PCHi 的同时, 采用超分辨率活细胞显微术。
高分辨率空间染色体组织的解剖方法
染色体相互作用库的巨大复杂性禁止了两个特定限制片段之间的相互作用产品的可靠识别, 具有统计学意义。为了规避这个问题, 序列捕获已经被用来丰富33,34,40,44或 3C50,51库的特定交互。在富集步骤中使用3C 库的高 c 库的主要优点是, 不同于3C 的高 c, 包括真正结扎产品的浓缩步骤。因此, PCHi 库中有效读取的百分比大约是10倍, 高于捕获 c 库50, 它包含在 HiCUP 筛选之后的5–8% 有效读取。Sahlen等直接将捕获 c 与 HiCap 进行了比较, 如 PCHi 使用高 c 库进行捕获浓缩, 与使用3C 库的捕获 c 形成对比。根据我们的发现, 他们发现捕获 C 库主要由未结扎的片段40组成。此外, HiCap 库的复杂性比捕获 C 库高40。
捕获 c (称为下一代捕获) 的变体-c52 (NG 捕获-c) 使用每个限制片段端的一个寡聚, 如以前在 PCHi33、34中建立的, 而不是原始的重叠探头。捕获-C 协议50。这增加了有效读数的百分比与捕获 c 比较谦虚, 但 NG 捕获-c 使用两个连续回合的捕获浓缩, 和一个相对较高数量的 PCR 周期 (20 到24周期的总和, 比较11周期通常为 PCHi), 这不可避免地会导致更多的序列重复和较低的库复杂性。在 PCHi 的优化过程中, 我们发现唯一的 (即不重复的) 读对的百分比只有大约 15%, 当我们使用 19 PCR 周期 (13 周期预捕获 + 6 周期后捕获; 数据未显示), 但优化到较低数量的 PCR 周期, 通常产生75–90% 唯一的读对。因此, 减少 PCR 周期的数量大大增加信息序列数据的数量。
最近的一种方法是将芯片与高 C 结合在一起, 以关注特定蛋白质介导的染色体相互作用 (HiChIP53)。与嘉-PET54, 这是基于类似的理由, HiChIP 数据包含更多的信息序列读取, 允许更高的信任交互调用53。这将是非常有趣的直接比较相应的 HiChIP 和捕获的高 C 数据集一旦可用 (例如 HiChIP 使用抗体对内聚力联合体单位 Smc1a53与捕获高 c 为所有 Smc1a 绑定限制片段) 并排。这两种方法的一个内在区别是, 捕获高 C 不依赖染色质免疫沉淀, 因此能够审问染色体的相互作用, 而不管蛋白质的占用情况如何。这使得3D 基因组组织在存在或没有特定的因子结合的情况下进行比较, 就像被用来识别 PRC1 作为鼠标 ESC 空间基因组结构的关键调节器7。
PCHi 和 GWAS
全基因组联合研究 (GWAS) 发现, 超过95% 的疾病相关序列变种位于基因组的非编码区域, 通常在很远的距离蛋白质编码基因55。GWAS 变异经常被发现在接近的接近度到 DNase I 敏感站点, 是序列的标志以潜在的调控活动。PCHi 和捕获的高 c 被广泛应用于连接促进剂到 GWAS 的风险位点在乳腺癌44, 大肠癌48, 和自身免疫性疾病35,45,46。对17种不同的人造血细胞类型的 PCHi 研究发现, 与自身免疫性疾病相关的 snp 在淋巴细胞中 PIRs 丰富, 而与血小板和红细胞特异性相关的序列变异主要见于巨噬细胞和孵育分别为35、56。因此, PCHi 发现的组织型特异启动子 interactomes 可以帮助了解非编码疾病相关序列变体的功能, 并确定新的潜在疾病基因进行治疗干预。
启动子相互作用区域的特征
几行证据链启动子 interactomes 基因表达控制。首先, 一些 PCHi 研究表明, 基因组区域与 (高度) 表达基因的促进者相互作用, 在与增强活性相关的标记中丰富, 如 H3K27 乙酰化和 p300 结合33,34,37. 我们发现基因表达水平与相互作用的促进剂数量呈正相关, 这表明促增素的添加剂效应会导致基因表达水平增加34,35。第二, 自然发生的表达数量性状基因位点 (eQTLs) 丰富的 PIRs, 是连接到相同的基因, 其表达受到影响的 eQTLs35。第三, 通过积分57和 PCHi 数据, 凯恩斯等发现, 旅行记者基因映射到 PIRs 在小鼠 ESCs 显示更强的报告基因表达比报告基因在整合站点的非促进者互动区域58、表明 PIRs 具有转录调控活性。这些发现表明, 在各种小鼠和人类细胞类型中 PCHi 发现的启动子 interactomes 包括基因表达控制的关键调控模块。
值得注意的是, 促促剂仅代表 PCHi-C33,34所揭示的所有 PIRs 中的一小部分 (~ 20%)。其他 PIRs 可以有结构或拓扑作用, 而不是直接转录调节功能。然而, 也有证据表明, PCHi 可能发现的 DNA 元素的监管功能, 不庇护经典的增强标记。在人类淋巴细胞系中, BRD7启动子被发现与一个没有增强标记的区域相互作用, 在报告基因检测33中显示有增强活性。具有类似特征的监管要素可能比目前所赞赏的更为丰富。例如, 一个基于 CRISPR 的管理 DNA 元素的屏幕识别了无标记的调控元素 (UREs), 控制基因表达, 但缺乏增强标记59。
在其他情况下, PIRs 已被证明与转录抑制相关的染色质标记。PIRs 和互动促进剂绑定的 PRC1 在小鼠 ESCs 参与了广泛的空间网络的压抑基因的压迫标记 H3K27me37。在人类永生细胞中, 与BCL6启动子相互作用的一个遥远元素抑制了转基因报告基因的表达33, 表明它可以在其原生语境中压制BCL6转录。
PIRs 丰富的染色质绝缘体蛋白 CTCF 在人类 ESCs 和 NECs37可能代表另一类 PIRs。总的来说, 这些结果表明, PIRs 港的基因调控活动的收集尚未功能特征。
The authors have nothing to disclose.
我们感谢 Valeriya Malysheva 的手稿和专家帮助的关键阅读图1。这项工作得到了英国医学研究委员会 (MR/L007150/1) 和英国生物技术和生物科学研究委员会 (BB/J004480/1) 的支持。
16% (vol/vol) paraformaldehyde solution | Agar Scientific | R1026 | |
Dulbecco's Modified Eagle Medium (DMEM) 1x | Life Technologies | 41965-039 | |
Fetal bovine serum (FBS) sterile filtered | Sigma | F9665 | |
Low-retention filter tips | Starlab | S1180-3810, S1180-1810, S1180-8810 and S1182-1830 | |
10x PBS pH 7.4 | Life Technologies | 70011-036 | |
Molecular biology grade water | Sigma-Aldrich | W4502 | |
1 M Tris-HCl pH 8.0 | Life Technologies | 15568-025 | |
IGEPAL CA-630 | Sigma-Aldrich | I8896 | |
5 M NaCl | Life Technologies | 24740-011 | |
Protease inhibitor cocktail (EDTA-free) | Roche Diagnostics | 11873580001 | |
Restriction buffer 2 (10x NEBuffer 2) | New England Biolabs | B7002 | |
DNA LoBind tube, 1.5 mL | Eppendorf | 0030 108.051 | |
DNA LoBind tube, 2 mL | Eppendorf | 30108078 | |
20% (wt/vol) SDS | Bio-Rad Laboratories | 161-0418 | |
20% (vol/vol) Triton X-100 | Sigma-Aldrich | T8787 | |
HindIII, 100 U/uL | New England Biolabs | R0104 | |
10 mM dCTP | Life Technologies | 18253-013 | |
10 mM dGTP | Life Technologies | 18254-011 | |
10 mM dTTP | Life Technologies | 18255-018 | |
0.4 mM Biotin-14-dATP | Life Technologies | 19524-016 | |
DNA polymerase I large (Klenow) fragment 5000 units/mL | New England Biolabs | M0210 | |
10x T4 DNA ligase reaction buffer | New England Biolabs | B0202 | |
100x 10mg/ml Bovine Serum Albumin | New England Biolabs | B9001 | |
T4 DNA ligase, 1 U/μL | Invitrogen | 15224-025 | |
RNase A | Roche | 10109142001 | |
Proteinase K, recombinant, PCR grade | Roche | 3115836001 | |
20 000×g 50 ml centrifuge tube | VWR | 525-0156 | |
0.5 M EDTA pH 8.0 | Life Technologies | 15575-020 | |
Phenol pH 8.0 | Sigma | P4557 | |
Phenol: Chloroform: Isoamyl Alcohol 25:24:1 | Sigma | P3803 | |
Sodium acetate pH 5.2 | Sigma | S7899 | |
Quant-iT PicoGreen | Invitrogen | P7589 | |
QIAquick Gel Extraction Kit | Qiagen | 28704 | |
QIAquick PCR Purification Kit | Qiagen | 28104 | |
Restriction buffer 2.1 (10x NEBuffer 2.1) | New England Biolabs | B7202 | |
NheI, 100U/uL | New England Biolabs | R0131 | |
Micro TUBE AFA Fiber Pre-slit snap cap 6x16mm vials | Covaris | 520045 | For sonication |
SPRI beads (Agencourt AMPure XP) | Beckman Coulter | A63881 | |
Dynabeads MyOne Streptavidin C1 beads | Invitrogen | 65001 | |
Tween 20 | Sigma | P9416 | |
10 mM dATP | Life Technologies | 18252-015 | |
T4 DNA polymerase 3000 units/mL | New England Biolabs | M0203 | |
T4 PNK 10000 units/mL | New England Biolabs | M0201 | |
Klenow exo minus 5000 units/mL | New England Biolabs | M0212 | |
Quick ligation reaction buffer | New England Biolabs | B6058 | |
NEB DNA Quick ligase | New England Biolabs | M2200 | |
PE adapter 1.0 (5'-P-GATCGGAAGAGCGGTTCAGC AGGAATGCCGAG-3') |
Illumina | ||
PE adapter 2.0 (5'-ACACTCTTTCCCTACACGACGCT CTTCCGATCT-3') |
Illumina | ||
NEB Phusion PCR kit | New England Biolabs | M0530 | |
PE PCR primer 1.0 (5'-AATGATACGGCGACCACCGA GATCTACACTCTTTCCCTAC ACGACGCTCTTCCGATCT-3') |
Illumina | ||
PE PCR primer 2.0 (5'-CAAGCAGAAGACGGCATACGA GATCGGTCTCGGCATTCCT GCTGAACCGCTCTTCCGATCT-3') |
Illumina | ||
PCR strips | Agilent Technologies | 410022 and 401425 | |
SureSelect SSEL TE Reagent ILM PE full adaptor kit | Agilent Technologies | 931108 | |
SureSelect custom 3-5.9 Mb library | Agilent Technologies | 5190-4831 | custom design mouse or human PCHi-C system |
Dynabeads MyOne Streptavidin T1 beads | Invitrogen | 65601 | |
E220 high-performance focused ultra-sonicator | Corvaris | E220 |