下一代测序 (0.5–2.0%) 是基因组特征的有力工具, 受平台高错误率的限制。我们描述了我们的错误纠正排序方法, 使我们能够避免的误差率和检测突变的变异等位基因分数罕见的0.0001。
传统的下一代测序技术在过去十年中已经允许了巨大的基因组特征。具体来说, 它已经被用来分析恶性肿瘤中克隆突变的频谱。虽然比传统的方法更有效率, 但由于0.5–2.0% 的高错误率, subclonal 在鉴别稀有克隆和基因突变方面进行了斗争。因此, 标准的 VAF 有一个检测的限制, 突变是 > 0.02 变异的等位基因分数 ()。尽管在没有已知疾病的患者中这种罕见突变的临床意义仍不清楚, 但白血病治疗的患者在流式细胞术 < 0.0001 残留疾病时有明显的改善效果。为了减轻 artefactual 的这一背景, 开发了许多方法。在这里, 我们描述了错误校正的 DNA 和 RNA 测序 (ECS) 的方法, 它包括用 16 bp 随机索引对单个分子进行误差校正和 8 bp 患者特定的复用指数的标记。我们的方法可以检测和跟踪变异等位基因的克隆突变 (VAFs) 两级的数量低于 0.0001 VAF 的检测极限。
随着年龄的推移, 暴露于诱变和细胞分裂过程中的随机误差导致了基因组躯体畸变的积累, 这构成了恶性转化、神经发育疾病、儿科的基本发病机制。疾病和正常衰老1,2。躯体突变与疾病驱动电位是重要的诊断和预后标志物的早期检测和风险管理3,4,5。为了更好地理解生理 clonogenesis, 这将告诉临床和研究决定, 准确的量化和鉴定这些突变是至关重要的。下一代测序法目前用于研究异质 DNA 样品中的克隆突变;然而, 由于测序平台6、7、80.5–2.0% 的固有误差率, VAF 仅限于识别 > 0.02 变异等位基因分数的突变。因此, 跟踪诊断和 prognostically 在较低 VAF 的重要体细胞变体不能使用标准的。
近年来, 为了规避8、9、10、11的误差率, 开发了各种方法。这些方法利用分子标记, 使测序后的纠错。序列库中的每个分子或基因组片段都被标记为特定于该分子的随机唯一的分子标识符 (UMI)。UMIs 是通过一系列随机核苷酸 (8–16 N) 的排列来构造的。第二个特定于示例的条码也集成到工作流中, 使多路复用多个样本进入相同的产品排序运行。在分子标记库上进行 PCR 放大, 随后将库发送到序列。在图书馆准备过程中, 预计在 PCR 扩增和测序8中随机引入基因组片段的误差。要删除随机排序错误, 原始排序读取按 UMI 分组。由于引入的随机性质, 在同一个基因组位置上, 由于 UMI 的随机性, 在所有读取中都不会出现序列中的工件, 而真正的变体将在所有共享相同 UMI 的读取中忠实地放大和排序。工件被 bioinformatically 删除。在这里, 我们描述了在实验室中优化的三种错误校正测序 (ECS) 方法, 用于鉴定单核苷酸变体 (SNVs) 和小的插入-删除 (Indels), 并用于 RNA, 以促进定量的基因表达低于错误阈值。
第一种方法描述了利用研究人员设计的基因特异引物寻找稀有体细胞事件的方法。在图书馆准备之前, 研究人员应该设计引物来瞄准感兴趣的片段。我们使用了 web 应用程序 Primer3 (http://bioinfo.ut.ee/primer3-0.4.0/)。Amplicons 200–250 bp 是一种理想的聚合酶链反应 (PCR), 因为这些将, 一旦 UMIs 被纳入, 产生重叠配对端读取与 150 bp 配对端读取。最理想的底漆设计条件是: 最小底漆尺寸 = 19;最佳底漆尺寸 = 25;最大底漆尺寸 = 30;最小 Tm = 64 °c;最佳 Tm = 70 °c;最大 Tm = 74 °c;最大 Tm 差 = 5 °c;最小 GC 内容 = 45;最大 GC 内容 = 80;返回的数字 = 20;最大 3 ‘ 末端稳定 = 100。
在方法2中, 我们描述了一种将 DNA 协议与 Illumina 化学相结合的方法, 用于对克隆 SNVs 和小 Indels 进行调查, 其稀有的 0.0001 VAF 使用包括数以百计的 amplicons 的商业上可用的基因板。我们使用了 TruSight 髓系测序板 (Illumina) 进行实验, 并设计了一个扩大的小组, 包括其他基因的儿童髓系疾病的兴趣。这些面板没有提供独特的分子标识符 (UMIs), 这将有助于纠错, 所以我们已经添加了我们自己的适配器策略这些面板。ECS 应与其他任何专门用于丰富与不同疾病相关基因的面板工作。在 DNA 分离和随后的定量从组织或样品的兴趣, 建议有至少 500 ng 每标本的股票 DNA。我们通常使用250的 DNA 来制作一个单测序库, 以便在下游读取重复数据消除和 VAF 计算时捕获尽可能多的独特的基因组片段。可选的复制序列库可以用其余250的 DNA 进行。我们总是在每个样本上制作两个复制库, 我们只考虑在两个复制中单独检测到的事件是真正的正数。我们还实施了一个基因组位置特定的二项式误差模型, 以提高变量调用4,13的准确性。
最后, 我们描述了一种方法, 将 ECS 与 rna 测序相结合, 利用现成的 QIAseq 靶向 rna 板 (Qiagen) 进行转录量化。重复数据消除和纠错所需的 UMIs 已被纳入套件中, 研究人员可以根据制造商的建议制作库。Bioinformatically, 研究人员可以遵循的管道概述的 DNA, 将在协议部分详细解释。
在这里, 我们展示了一套错误纠正排序协议, 可以很容易地实施, 以研究突变与低 VAFs 在不同的疾病。最重要的因素是在测序前将 UMIs 与每个分子结合在一起, 以便对原始读数进行纠错。这里描述的方法允许研究人员将定制的 UMIs 纳入商业上可用的基因板和自行设计的基因特异寡核苷酸。
由于测序误差率, 标准的 VAF 协议排除了对2% 以下的突变的检测, 这限制了在检测稀有变种的研究中应用了。通过规避标准的..。例如, 当这些突变第一次出现时, 发现致病性突变 (因此有低 VAF) 是必要的, 以通知早期干预的疾病14,15。在白血病研究中, 对微量残留疾病 (残留白血病细胞后处理) 的检测告知风险分层, 可用于以二进制流量细胞评估无法的方式通知治疗方案。此外, 该方法还适用于检测循环肿瘤核酸, 通过对实体肿瘤患者的存在/缺席以及某些突变的变化负担进行评估, 评估其转移电位, 即主要肿瘤16。
如表 1所示, 使用基于二项分布的位置特定错误模型来调用变体的能力在很大程度上取决于已排序库的数量以及用于生成错误模型的排序深度。误差模型的鲁棒性随着样品数量的增加和测序深度的提高而增大。建议至少使用10个已测序的样本, 平均每样误差校正的读覆盖率为每个样本的 3000x, 以便为每个样本生成错误配置文件。位置特定的方法与 MAGERI 类似, 但是, 不是使用所有六种不同的替代类型 (> C/t > g, > g/t > c, > t/t > a, c > a/克 > t 的总错误率, c > g/g > c, C > T/克 > A)13, 我们在每个位置独立地建模每个替换。例如, 给定基因组位置的 C > T 的错误率不同于另一个位置。我们的方法还考虑了排序批处理效果, 因为在一个排序运行中观察到的基替换速率可能与另一个运行不同。因此, 对所有替换类型的每个位置建模非常重要, 特别是当从不同的排序运行中抽取样本来构建模型时。
在设计一个 ECS 实验时, 一个重要的考虑因素是所需的检测阈值。研究的美在于, 它们可以很容易地按感兴趣的基因/目标、检测阈值 (由测序深度决定) 和被查询的个体数量来进行缩放。例如, 如果研究人员有兴趣在两个 amplicons 中发现罕见的突变, 检测阈值为 0.0001, 他们可以在一个单一的测序运行中最多75个样本, 使用 MiSeq V2 化学, 输出多达1500万读 (2 amplicons * 1万分子 * 10 读取纠错 * 75 样本 = 1500万测序读数)。研究人员可以改变测序的分子数量或单个测序运行中的汇集样本数量来调整检测阈值。在我们的研究中, 我们的目的是发现突变与检测阈值 0.0001 VAF (1:10,000) 使用 Illumina 基因组。我们经常使用250的起始 DNA 来确保捕获足够的分子以达到上述检测阈值。如果所需的检测限制为 > 0.001 VAF, 研究人员可以选择从较低数量的 DNA 开始 (建议 50 ng)。
随着 UMIs 追加到 i5 索引, 排序设置必须相应地加以修正。例如, 我们使用了 16 N UMIs, 排序设置是2×144 配对的结束读取, 8 周期的索引1和16周期的索引 2, 而不是通常8周期的索引2。索引2周期的增加通过分配给读取的循环的总次数减少来补偿。如果研究人员选择使用 12N UMIs10、17, 则应将设置更改为索引2的12个周期。
这种基于 UMI 的排序方法被优化以纠正排序错误。在处理 PCR jackpotting 方面, 它仍然是一个不理想的问题, 这是所有基于放大的方法的一个课题。我们使用 ddPCR 进行了一系列后测序和生物信息学验证, 我们很难检测到任何误报, 因为 PCR jackpotting。尽管如此, 建议研究人员使用高保真聚合酶进行实验, 以确保低放大误差。
The authors have nothing to disclose.
我们感谢儿童肿瘤学小组 AAML1531 研究的参与者和护士的健康研究, 以病人样本的形式作出贡献。这项工作由国立卫生研究院 (UM1 CA186107、RO1 CA49449 和 RO1 CA149445)、华盛顿大学儿童发现研究所和圣路易斯儿童医院 (MC-II-2015-461) 和 Eli?马修斯白血病基金会资助。
Q5 High Fidelity Hot Start Master Mix | New England BioLabs | M0492S | |
Agencourt AMPure XP | Beckman Coulter | A63880 | |
Qubit dsDNA HS Assay Kit | Thermo Fisher Scientific | Q32854 | |
SYBR Safe DNA Gel Stain | Thermo Fisher Scientific | S33102 | |
Truseq Custom Amplicon Index Kit | Illumina | FC-130-1003 | |
UMI i5 adapter sequences | Integrated DNA Technologies | – | |
NEBNext Ultra End Repair/dA-Tailing Module | New England BioLabs | E7442S | |
NEBNext Ultra II Ligation Module | New England BioLabs | E7595S | |
QX200 ddPCR EvaGreen Supermix | Bio-Rad | 1864034 | |
QX200 Droplet Generation Oil for EvaGreen | Bio-Rad | 1864005 | |
QX200 Droplet Digital PCR System | Bio-Rad | 1864001 | |
ddPCR 96-Well Plates | Bio-Rad | 12001925 | |
DG8 Cartridges for QX200/QX100 Droplet Generator | Bio-Rad | 1864008 | |
DG8 Gaskets for QX200/QX100 Droplet Generator | Bio-Rad | 1863009 | |
Bioanalyzer | Agilent Genomics | G2939BA | |
TapeStation | Agilent Genomics | G2991AA | |
TruSight Myeloid Sequencing Panel | Illumina | FC-130-1010 | |
Bowtie 2 | Johns Hopkins University | – | |
Customized QIAseq Targeted RNA Panel | Qiagen | – | |
Rneasy Plus Mini Kit (50) | Qiagen | 74134 |