Large-Scale Multi-Omics Genome-Wide Association Studies (Mo-GWAS): Guidelines for Sample Preparation and Normalization

Mustafa Bulut; Alisdair R. Fernie; Saleh Alseekh

doi:10.3791/62732

JoVE Journal > Biochemistry

Please note that all translations are automatically generated. Click here for the English version.

Biochemistry

大規模マルチオミクスゲノムワイド関連研究(Mo-GWAS):サンプル調製と正規化のためのガイドライン

Published: July 27, 2021

doi:

10.3791/62732

Mustafa Bulut¹, Alisdair R. Fernie^1,2, Saleh Alseekh^1,2

¹Max-Planck-Institute of Molecular Plant Physiology, ²Center of Plant Systems Biology and Biotechnology

Summary

このプロトコルでは、多くのサンプルの効率的で迅速なサンプル調製を組み合わせた最適化されたワークフローを紹介します。さらに、代謝GWAS研究のハイスループット評価のための分析変動を減らすためのステップバイステップガイドを提供します。

Abstract

ガスクロマトグラフィー質量分析(GC-MS)と液体クロマトグラフィー質量分析(LC-MS)はどちらも、何十万もの代謝産物の特徴を検出および定量するために広く使用されているメタボロミクスアプローチです。しかし、これらの技術を多数のサンプルに適用すると、特にゲノムワイド関連研究(GWAS)の場合、より複雑な相互作用の影響を受けます。このプロトコルは、効率的で迅速なサンプル調製とマメ科植物種の多数のサンプルの分析を組み合わせた、最適化された代謝ワークフローを記述します。このわずかに変更された抽出方法は、当初、植物および動物組織の分析のために開発され、極性および脂質代謝産物の捕捉を可能にするメチルtert-ブチルエーテル:メタノール溶媒中での抽出に基づいている。さらに、GWASにおける代謝分散のハイスループット評価に不可欠な分析変動を低減するためのステップバイステップガイドを提供します。

Introduction

大規模な「オミクス」アプローチは、複雑な生物学的システム^1,2,3の分析を可能にし、遺伝子型と結果として生じる表現型との間のリンクのさらなる理解^{を可能にした4}。超高速液体クロマトグラフィー質量分析(UHPLC-MS)とGC-MSを用いたメタボロミクスは、代謝産物の特徴の莫大な数の検出を可能にしたが、そのうち一部のみがある程度注釈が付けられており、その結果、未知の代謝産物の割合が高い。複雑な相互作用は、大規模なメタボロミクスと多様な集団の根底にある遺伝子型変動を組み合わせることによって探索することができる⁵。しかし、大きなサンプルセットを処理することは本質的に分析的変動に関連しており、さらなる下流プロセスに対する代謝分散の評価を歪めます。具体的には、分析の変動につながる主な問題は、機械の性能と時間の経過に伴う機器のドリフトに基づいています⁶。バッチ間の変動の統合は困難であり、大規模に構造化されたプラント集団を分析する際に特に問題になります。非生物学的変動、例えば、分析エラーを補正するための内部、外部、および同位体標識内部標準の使用を補正するために複数の正規化手順が提案され、それぞれが本質的に既知の問題および落とし穴と関連している^7,8,9,10。

分析上の変動に加えて、抽出プロトコルの選択は、一般に、分析方法に応じて変化する。最終的には、相分離ベースの抽出方法を実行することにより、材料コストと人件費を削減し、さまざまな分析プロセスに同じサンプルの複数のアリコートを使用する必要性を減らすことが望まれています。これらの方法は、クロロホルム(極性および疎水性化合物¹¹を分画するためのメタノール/水溶媒)を使用して最初に導入されました。

このプロトコルは、マメ科植物種の極性代謝産物と脂質の両方をプロファイリングするためのマルチオミクスプラットフォームのための高速ハイスループットパイプラインを記述しています。さらに、GWASを実行して代謝産物定量形質遺伝子座(QTL)を検出するために遺伝子型情報を統合する前に、これらのデータセットを分析的変動に対して適切に補正し、正規化する方法を示します。

Protocol

1. 実験設計と植物栽培注:実験仮説に応じて実験を設定すると、例えば、大規模なGWAS母集団を使用すると、アクセッションの代わりにすべての個々のSNPのハプロタイプに基づいて統計的検定が行われるため、複数の反復の必要性が減少します。対照的に、複数の反復は他の実験的アプローチでは不可欠です。実験の準備にあたっては、以下の点を考慮する必要があります。実験仮説に応じて、十分な生物学的複製を含める。生物学的複製物をブロック単位でランダム化して、栽培中の局所的な環境バイアス、例えば温室、畑を減少させる。成長中の植物の適切なメンテナンスを確保します。植物を均質に処理してバイアスを軽減します。 2. 生物植物材料の調製収穫準備均質化のための2つの5mmおよび2つの8mm直径金属ビーズを含むラベル収穫チューブ(20mL)。デュワーを液体窒素で満たします。注:植物は、新鮮な葉と根の組織収穫のための栄養段階にあるべきです。液体窒素中でのフラッシュ凍結により生体試料を採取する。収穫期間の延長中の代謝に対する概日振動の影響を排除するために、できるだけ早く収穫する12、13。収穫した新鮮な葉および根組織を-80°Cでさらに処理するために保管する。注:葉の切断からフラッシュ凍結までは、葉の切断後、活発な生物学的プロセスが創傷のために代謝プロファイルを変化させるため、数秒以上かかるべきではありません。根の場合は、液体窒素でフラッシュ凍結する前に水洗して根をきれいにしてください。根の表面の余分な水は、紙のティッシュで浸す必要があります。乾燥した種子は室温で保存することができます。液体窒素中の凍結は必要ありません。ティッシュミキサーミルを用いて組織を粉砕する。チューブホルダーを液体窒素で数分間予冷し、組織を粉砕しながら低温を維持します。 -80°Cの冷凍庫から取り出した後、窒素含有デュワーで生体試料を輸送する。均質な粉末を得るために組織を粉砕する;25Hzを1分間使用し、組織が均質に粉砕されていない場合は液体窒素で凍結した後に繰り返します。乾燥した種子を粉砕するには、直径15mmの金属ビーズを入れた粉砕瓶に種子を入れます。2.3.3 で説明したのと同じ頻度と時間を使用してください。注:ティッシュミキサーミルが利用できない場合は、清潔で予冷された乳鉢と乳棒を使用できます。プリクールラベル付き2 mLセーフロック微量遠心チューブ。分析スケールを使用して、50mgの新鮮な植物材料の誤差±5mgの重量を量る。液体窒素中の植物材料を移送するために使用されるツールを予冷する。計量プロセス中に植物材料が凍結したままであることを確認してください。注:温度の上昇によって生物学的プロセスが活性化され、代謝プロファイルが変化するため、新鮮な植物材料を室温に長時間さらさないでください14。各サンプルの割合をプールし、プールされた新鮮な植物材料の誤差±5 mgで50 mgの重量を予冷された2 mLのセーフロック微量遠心チューブにプールすることによって、追加の品質管理(QC)サンプルを生成します。注: 60 サンプルごとに少なくとも 3 つの QC サンプルをお勧めします。QC サンプルは、下流の補正、正規化、および分析に不可欠です。抽出試薬新鮮な組織、例えば、葉や根メモ: サンプル抽出は、前述のプロトコル15 に基づいています。このプロトコルは、現在のニーズ、例えば、複数の組織、異なる内部標準、および大規模な実験に基づいて修正されている。さらに、下記のすべてのボリュームと機器の設定は、社内の分析ユニットに合わせて調整されます。プロトコルユーザーは、試験サンプルに基づいて、分析ユニットと生物学的サンプルに応じてこれらを調整する必要があります。抽出混合物1(EM1):メチル tert-ブチルエーテル(MTBE)/メタノール(MeOH)(3:1 v/v) MTBE/MeOHを3:1の比率で混合して調製する。100 mL の抽出溶媒の場合、75 mL の MTBE と 25 mL の MeOH を清潔なガラス瓶に混ぜます。注:溶剤は、適切な安全装置を使用してヒュームフード内で慎重に取り扱う必要があります。 UHPLC-MSベースの脂質分析の内部標準として45 μLの1,2-ジヘプタデカノイル-sn-グリセロ-3-ホスホコリン(クロロホルム中1 mg/mL)、GC-MSベースの分析のための内部標準として400 μLのリビトール(水中1 mg/mL)、およびUHPLC-MSベースの代謝産物分析のための125 μLのイソビテキシン(MeOH/水中(1:1 v/v)1 mg/mL)を加える。注: 分析ニーズに応じた分析後の正規化には、内部標準の追加が必要です。各サンプルに1mLのEM1が必要なので、実験サンプルサイズに応じて原液を調製し、実験全体に使用する必要があります。EM1は-20°Cで保管する必要があります。使用された内部標準がなく、調査対象種の他の化合物と重複していないか確認してください。いくつかの標準を使用できます。このプロトコルにおける内部標準物質の選択は、共通豆抽出物16を用いた以前の試験に基づいていた。抽出混合物 2 (EM2) 水/メタノール (MeOH) (3:1 v/v) 100 mL EM2 の場合は、清潔なガラス瓶に 75 mL の二重蒸留水と 25 mL の MeOH を加えます。サンプルあたり500 μLのEM2を添加し、実験サンプルサイズに応じて原液を調製し、実験全体に使用する必要があります。EM2を4°Cで保管してください。乾燥種子抽出混合物 3 (EM3) メタノール (MeOH)/ 水 (7:3 v/v) 100 mL の EM3 の場合は、70 mL の MeOH と 30 mL の二重蒸留水を清潔なガラス瓶に入れます。各サンプルに対して1mLのEM3を調製する。 GC-MSベースの分析では400 μLのリビトール(水中1 mg/mL)を、UHPLC-MSベースの代謝産物分析には125 μLのイソビテキシン(MeOH/水中で1 mg/mL(1:1 v/v))を加えます。注:実験サンプルサイズに応じて原液を調製し、実験全体に使用してください。EM3を4°Cで保管してください。 4. サンプル抽出新鮮な組織、例えば、葉や根各サンプルに対して3本の1.5 mLセーフロック微量遠心チューブを用意します。EM1を-20°Cの液体冷却システムに保管してください。新鮮なサンプルを-80°Cの冷凍庫からドライアイスまたは液体窒素に移して輸送します。氷上を保つ前に、予冷EM1を各50mgアリコートおよびボルテックスに1mL加える。サンプルを800 × g のオービタルシェーカー上で4°Cで10分間インキュベートします。氷冷超音波処理浴中でサンプルを10分間超音波処理する。マルチチャンネルピペットを使用して500 μLのEM2を添加し、追加容量の変動を回避します。試料を短時間ボルテックスし、抽出混合物を混合してから、11,200× g で4°Cで5分間遠心分離する。相分離が生じた後、上部脂質含有相の500 μLを予め標識された1.5 mLのセーフロック微量遠心チューブに移す。上段のフェーズの残りの部分を削除します。注:この上相は蒸気圧が高く、ピペットから漏れる傾向があるため、転送中は注意してください。 GC-MS および UHPLC-MS 分析に使用した 2 本の 1.5 mL セーフロック微量遠心チューブに、下極性および半極性代謝産物含有相の 150 μL および 300 μL をそれぞれ移します。真空濃縮器を用いて加熱せずに溶媒を蒸発させて抽出した画分を全て濃縮し、-80°Cで保存する。乾燥種子各サンプルに対して2本の1.5 mLセーフロック微量遠心チューブを用意します。EM3を氷上に保ちます。直径5mmの金属ビーズをサンプルアリコートに入れます。各50mgアリコートに1mLのEM3を加え、サンプルを25Hzで2〜3分間ホモジナイズしてから氷上に置く。氷冷超音波処理浴中でサンプルを10分間超音波処理する。 11,200 × g で4°Cで5分間遠心分離する前にサンプルを短時間ボルテックスします。 GC-MS および UHPLC-MS 分析に使用した 2 本の 1.5 mL セーフロック微量遠心チューブに、上清 150 μL と 300 μL をそれぞれ移します。真空濃縮器を用いて加熱せずに溶媒を蒸発させて抽出した画分を全て濃縮し、-80°Cで保存する。注:経験に基づいて、ユーザーは乾燥種子中の半極性代謝産物および誘導体化代謝産物分析についてステップ4.2を実行することをお勧めします。乾燥種子脂質分析のための抽出ステップ4.1を実行する。 5. UHPLC-MSを用いた脂質の分析乾燥した脂質画分を250μLのアセトニトリル:2-プロパノール(7:3、vol/vol)に再懸濁する。脂質相を5分間超音波処理し、11,200 × g で1分間遠心分離する。上清90 μLをLC-MS用のガラスバイアルに移す。 2 μLの抽出物をLC-MSに注入する。表1に示すように、溶離液AとBを徐々に変化させながら、400 μL/minのフローで60°Cに保持した逆相C8カラムで脂質分画を行います。質量範囲150~1,500m/zの正イオン化モードで質量スペクトルを取得します。すべての毎日のバッチにいくつかのQCサンプルとブランクを含めて、分析変動の補正を確実にします。サンプルをブロック単位で順番にランダム化します。 6. UHPLC-MSを用いた極性および半極性代謝産物の解析乾燥した極性相を180μLのUHPLCグレードメタノール:水(1:1 v/v)に再懸濁します。極性相を2分間超音波処理し、11,200 × g で1分間遠心分離する。上清90 μLをLC-MS用のガラスバイアルに移す。 3 μLの抽出物をLC-MSに注入する。表 1 に示すように、溶離液 A と B を徐々に変化させながら、400 μL/minのフローで 40 °C に保持した逆相 C 18 カラムで代謝産物分画を実行します。フルMSスキャンで100~1,500m /z の質量範囲の質量スペクトルを取得し、40keVの高エネルギー衝突解離(HCD)によって誘導されるすべてのイオンフラグメンテーション(AIF)を取得します。メモ: 両方のイオン化モードを使用します。ただし、多数のサンプルを実行している間は容量が限られているため、両方のイオン化モードでテストサンプルを実行して、好ましいイオン化モードを決定します。すべての毎日のバッチにいくつかのQCサンプルとブランクを含めて、分析変動の補正を確実にします。サンプルをブロック単位で順番にランダム化します。データ依存 MS2 でプールされた QC を負イオン化モードと正イオン化モードの両方で実行します。後のステップ(8.5)で得られた質量スペクトルを注釈に使用します。 GC-MSを用いた誘導体化代謝産物の解析17,18 注:誘導体化代謝産物の分析は、前述のプロトコル17に基づいています。すべての誘導体化試薬をヒュームフードで取り扱います。 N-メチル-N-(トリメチルシリル)トリフルオラセタミド(MSTFA)が水や湿度と接触しないようにしてください。誘導体化試薬1(DR1) メトキシアミン塩酸塩をピリジンに溶解し、30mg/mLの濃度のDR1を得た。各サンプルに 40 μL の DR1 を使用してください。サンプルサイズに応じて原液を調製し、室温で保存した。誘導体化試薬2(DR2) MSTFAをMSTFA1mLあたり20μLの脂肪酸メチルエステル(FAME)で溶解する。各サンプルに 70 μL の DR2 を使用します。サンプルサイズに応じて原液を調製する。MSTFA を 4 °C、FAME を -20 °C で保存します。注:FAMEには、メチルカプリル酸、メチルペラルゴン酸メチル、メチルカプリン酸、ラウリン酸メチル、メチルミリスチン酸メチル、メチルパルミチン酸メチル、ステアリン酸メチル、メチルエイコサン酸、メチルドコサノエート、リグノセリン酸メチルエステル、メチルヘキサコサノエート、メチルオクタコサノエート、トリアコンタン酸メチルエステルが含まれ、これらはそれぞれ液体または固体標準で0.8μL/mLまたは0.4mg/mLの濃度でCHCl3に溶解される。真空濃縮器を使用して極性相(-80°Cで保存)からペレットを30分間再乾燥し、貯蔵中に発生するH2Oと下流の誘導体化に使用される溶媒との干渉を回避します。 40 μL の DR1 を追加します。オービタルシェーカーを用いてサンプルを950 × g で37°Cで2時間振とうし、続いて液体を短時間スピンダウンした。 70 μL の DR2 を追加します。オービタルシェーカーを用いて37°Cで30分間、950× g で再度振とうする。 GC-MS分析のために90 μLをガラスバイアルに移す前に、室温で短時間遠心分離する。代謝産物濃度に応じて、2 mL/minの一定のヘリウムキャリアガス流でGC-MSスプリットレスモードに1 μLを注入します。注入温度は、30mのMDN-35キャピラリーカラムを用いて230°Cに設定する。メモ: 温度勾配などの追加情報については、表 1 を参照してください。質量範囲は、20スキャン/分で70-600 m/zに設定されています。推定過負荷化合物の定量化を可能にするスプリットモードを含め、そのような場合の抽出物再誘導体化のコストと時間を節約します。すべての毎日のバッチにいくつかのQCサンプルとブランクを含めて、分析変動の補正を確実にします。サンプルをブロック単位で順番に適切にランダム化します。 8. クロマトグラム処理と複合アノテーション強度閾値を定義することにより、化学ノイズをフィルタリングします。クロマトグラムの処理中にすべてのQCサンプルを含めます。メモ: 大規模なデータの場合、ノイズフィルタリングは計算時間と処理能力を減らすために重要です。クロマトグラムを揃えるには、保持時間シフトウィンドウを定義します。各バッチのクロマトグラムをチェックして、バッチ内およびバッチ間の変動を評価します。ピーク形状に応じてピーク検出を行い、例えば、半値全幅(FWHM)計算の高さと幅。同位体をクラスタ化して冗長信号を減らし、シングルトンをフィルタリングします。注:クロマトグラム処理に使用されるソフトウェアの詳細については、材料表を参照してください。MS-DIAL、MetAlign、MzMine、Xcalibur 19、20、21など、自由に利用可能なさまざまなソフトウェアツールを使用してクロマトグラムを処理する方法に関する詳細なプロトコルが提供されています。複合アノテーションには、プールされた QC サンプルの ddMS2 データを使用します。モノアイソトピック質量を決定し、一般的な中性損失、既知の荷電アグリコン、および異なるタイプの切断(例えば、ホモリティックまたはヘテロ分解)を観察することによって、分子構造を評価する16,22。代謝産物データの報告については、Fernie et al. 201123に記載されている勧告に従ってください。注:異なる計算メタボロミクスアプローチを使用して、メタボロミクスデータ24、25、26を分析することができる。 9. 大規模メタボロミクスデータセットの正規化内部標準の分布を確認し、単一または複数の内部標準の応答を補正して正規化します。クロマトグラムから得られたピーク強度を、ステップ2.5から小分けされた均質化サンプル重量で割ることによって、正確なサンプル重量にわたって補正します。マルチバッチシリーズ全体の強度ドリフトを補正します。Rを使用して、局所推定散布図平滑法(LOESS)27などのQCベースの補正方法を実行します。注:バッチ28,29全体の取得中のMS性能のドリフトに対処するために、いくつかのツールとパッケージが利用可能です。 GWASを実行するためのRパッケージMASSからのboxcox()関数を使用するデータ変換、例えば、ボックスーコックス変換30によって形質の正規分布を保証する。多変量解析のためにデータスケーリング、例えばパレートスケーリングを実行して、低存在量化合物31の適切な計量を確実にする。注:可能であれば、マトリックス効果を回避するために回収アッセイ(例えば、イオン抑制14)を実行します。 10. ゲノムワイド関連研究(GWAS)32 一塩基多型(SNP)または構造変異体(SV)を配列決定データ33、34から呼び出す。 Tassel35を使用して、低周波バイアスを避けるために、マイナー対立遺伝子頻度(MAF)10%の遺伝子型データをフィルタリングします。 R パッケージ Ime436 を使用して、実験の繰り返しで正規化された各フィーチャの最適な線形不偏予測 (BLUP) を計算し、環境要因 (ランダム効果) に起因するバイアスを排除します。 R37 の rMVP パッケージを使用して GWAS を実行するには、各機能の BLUP を個別に使用します。注:各メタボロミクスの特徴は、ここでは個々のスタンドアロン表現型として見なされます。 GWASの実行中は、交絡効果を最小限に抑えるために、主成分分析(PCA)と状態別同一性(IBS)またはvanRadenを使用して集団構造を修正します。さらに、混合モデルには固定効果とランダム効果が含まれているため、混合線型モデル(MLM)または多軌跡混合モデル(MLMM)の使用を検討してください。 11. QTL 検出マンハッタンプロットを考慮に入れて、有意な関連性を示すSNPをチェックして、連鎖不平衡(LD)計算を行い、基礎となる遺伝子領域を決定します。R パッケージ LD ヒートマップまたはタッセル 5 を使用して LD 計算を実行します。ハプロタイプ間の統計的変化の形質レベルを調べて、潜在的な因果的SNP、例えば、表現型変動を説明できるタンパク質コード配列のアミノ酸変化をもたらすSNPsを見つけることによって、関連するSNPsの特性に対する効果サイズをチェックする。注:SNP形質の関連は必ずしも因果関係をもたらすとは限らないため、ゲノム領域を決定することが重要です。特徴アノテーションによる化合物同一性は、特定のゲノム領域において適切な候補遺伝子を見つけるのに非常に役立ちます。我々は、図4に示すように、多面的マップ内の特定の化合物に関連するすべての検出されたQTLを組み合わせて、遺伝的領域38に下線を引くことを提案する。候補遺伝子の検証のために、いくつかのアプローチを行うことができる(議論を参照)。

Representative Results

メタボロミクスGWAS実験を成功させるには、適切な実験計画から始めて、図1に示すように、サンプルの収集、抽出、データ収集、および処理が続く必要があります。このプロトコールでは、MTBE法15を使用して、いくつかの化合物クラスに属する何百もの代謝産物を抽出および分析した。クロマトグラフィーは、利用されるカラムおよび溶出バッファー混合物の特性に大きく依存します。図2は、QCサンプルのクロマトグラムを示し、この分析システムにおけるいくつかの主要な脂質クラスの溶出パターンを示す。各プラットフォームに適用されるグラデーションを表 1 に示します。大規模な実験では、全身的なエラーを処理することに重点が置かれました。大規模なメタボロミクスの実行は、本質的に全身エラーと関連している。デモンストレーションのために、我々はいくつかの一般的な豆種にわたるリピドミクスデータを分析した。補足表1は、材料表に示されたソフトウェアを用いてクロマトグラム処理後に得られた抽出された生リピドミクスデータを提供する。このプロトコルに従うことで、オミックスデータを扱う際の大きな問題、特に大きなサンプルセットを扱う際の大きな問題を回避することができました。正規化手順では、図 3 に示すように、バッチごとの分析誤差を正確に補正できます。QCサンプルの数を増やすと正規化の検出力は高まりますが、コストと時間の制約により、これは必ずしも実現可能ではありません。非標的代謝機能を有するハイスループットメタボロミクスGWASの場合、より多くの形質マーカー関連を適切に例示することが不可欠である。複数のGIS結果を組み合わせた多面的マップ38を使用して、いくつかの形質がリンクしているゲノム領域を強調することができます(図4)。図1:植物におけるメタボロミクスベースのGWASのフローチャート。実験計画からQTLの検出までのいくつかのステップが左側のパネルに示されています。右側のパネルには、左側のパネルで説明したいくつかのステップをサポートするために、複数の図が表示されます。右上から始めて、(1)LC-MSについて推奨されるサンプルのシーケンス、(2)QCサンプル強度を示す赤色の代表的な特徴分布前処理および後処理を含むPCAの前正規化前後のスコアプロット、および(3)LDおよびハプロタイプ分布が生成された有意な関連性を持つマンハッタンプロット。略語: GWAS = ゲノムワイド関連研究;QTL = 定量的形質遺伝子座;PCA = 主成分分析;QC = 品質管理;LD = 連鎖不平衡;MS = 質量分析;LC-MS = 液体クロマトグラフィー質量分析;GC-MS = ガスクロマトグラフィー質量分析;LOESS = 局所的に推定された散布図平滑化;MLM/MLMM = 混合線型モデル/多軌跡混合モデル。この図の拡大版を表示するには、ここをクリックしてください。図2:クロマトグラム処理異なるバッチからの2つのQCクロマトグラム(ベースピーク;脂質データ)は、プールされたQCサンプル中の特定の脂質クラスのバッチごとの変動を実証します。4つの主要な脂質クラスは、社内のLC-MSシステム内のそれぞれの溶出窓で示されています。クロマトグラムはMzMine21からエクスポートした。略語: QC = 品質管理;LC-MS = 液体クロマトグラフィー – 質量分析。この図の拡大版を表示するには、ここをクリックしてください。図3:システマティックエラーの修正取得したリピドミクスデータの主成分分析、全身エラーの事前補正(左、生データ)および補正後(右、バッチ黄土)。下のパネルは、分析変動のサンプル(n=650)とバッチ(n=10)の事前(左)と後(右)の補正に対する特徴(Cluster_00005)分布を示しています。略語: PCA = 主成分分析;QC = 品質管理;LOESS = 局所的に推定された散布図の平滑化。この図の拡大版を表示するには、ここをクリックしてください。図4:組み合わせたGWAS結果を示す多面的視マップ。多面的マップは、いくつかの形質に関連する全ゲノム中の領域を強調する。外環上の数字は、対応する染色体を示す。各サークルは、有意に関連するSNPを持つ個々の特性を表します。色は異なる複合クラスを表します(グレー = 化合物クラス 1、緑 = 複合クラス 2、紫 = 複合クラス 3、黄色 = 化合物クラス 4)。同じゲノム領域との化合物クラス間会合の場合、遺伝子が強調表示される。内側の灰色の円は、特定のゲノム位置に関連するすべての有意なSNPの合計を示す。この図に示す関連付けは、説明のためにのみ人工的に生成されています。略語: GWAS = ゲノムワイド関連研究;SNPs=一塩基多型。この図の拡大版を表示するには、ここをクリックしてください。脂質の UHPLC-MS 設定時間 [分] 溶離液 A から B [%]* 情報 0 – 1.00 45% A 溶離液A:1%1M NH4-アセテート、水中0.1%酢酸(UHPLCグレード) 1.00 – 4.00 LG 45% – 25% A 溶離液B:1%1M NH4-アセテート、アセトニトリル/2-プロパノール7:3(UHPLCグレード)中の0.1%酢酸 4.00 – 12.00 LG 25% – 11% A 流量: 400μL/分 12.00 – 15.00 LG 11% – 0% A 注入量: 2μL 15.00 – 19.50 CW 0% A 19.50-19.51 0% – 45% A 19.51-24.00 当量 45% 極性および半極性代謝産物の UHPLC-MS/MS 設定時間 [分] 溶離液 A および B [%]* 情報 0 – 1.00 99%A 溶離液A:水中のギ酸0.1%(UHPLCグレード) 1.00 – 11.00 LG 99% -60% A 溶離液B:アセトニトリル中の0.1%ギ酸(UHPLCグレード) 11.00 – 13.00 LG 60% – 30% A 流量: 400μL/分 13.00 – 15.00 LG 30% – 1% A 注入量: 3μL 15.00 – 16.00 cw 1% A 16.00 – 17.00 LG 1% – 99% A 17.00 – 20.00 等価 99% A 誘導体化代謝産物のGC-MS設定時間 [分] 温度[°C] 情報 0 – 2.00 85 キャリアガス: ヘリウム 2.00 – 18.66 LG 80 – 330 流量: 2mL /分 18.66 – 24.66 CW 330 温度勾配: 15°C/分 24.66 急速冷却注入量: 1μL 表 1: 各分析プラットフォームの勾配設定7. 略語: lg = 線形勾配;cw = カラム洗浄;eq = 平衡;UHPLC-MS = 超高速液体クロマトグラフィー質量分析;UHPLC-MS/MS = 超高速液体クロマトグラフィータンデム質量分析;GC-MS = ガスクロマトグラフィー – 質量分析。* = パーセント値は溶離液Aに対応します。残りの百分率値は溶離液Bに相当する。補足表1:生のリピドミクスデータ。各サンプルで検出された各クラスターのピーク強度を示します。この表をダウンロードするには、ここをクリックしてください。

Discussion

GC-MSとLC-MSはどちらも、さまざまな代謝産物クラスの複雑な混合物をプロファイリングするために広く使用されているツールです。これらのツールで大規模なデータセットを処理することは、本質的に非生物学的変動、例えば分析的変動と関連しており、結果の解釈を妨げ、偏らせる。このプロトコルは、非生物学的起源の変動を排除し、大規模な「オミックス」研究を実施するための包括的な代謝プロファイリングのための堅牢でハイスループットな抽出パイプラインを提供します。このプロトコールで使用した体積および濃度を、異なる組織におけるマメ科植物種について調整した。しかし、これらのパラメータはわずかに変更することができ、他の植物種からの大規模な代謝サンプルにも使用することができる。

前述の^15のMTBEベースの抽出は、誘導体化代謝産物、半極性代謝産物、および脂質を分析するために使用することができる。これは、このプロトコールの範囲外であったタンパク質および植物ホルモン抽出³⁹について拡張することができる。他の抽出プロトコルは、ジクロロメタンに依存しています:エタノール混合物^40,41。これらの抽出プロトコルのうち、MTBE:メタノール抽出プロトコルは、既存のクロロホルムベースの抽出プロトコル⁴²に代わる有利で危険性の低い代替手段を提供し、極性相と脂質相の間の中間相としてタンパク質ペレットを生じさせない。さらに、MTBE法は、様々な生物学的試料^43、44^、⁴⁵についてのいくつかの研究において既に使用されている。

このプロトコルは、例えば、収穫12、¹³、抽出¹⁴、および無作為化⁴⁶の間など、多数のサンプルを処理している間に潜在的な変動につながる可能性のあるいくつかの重要なステップについて議論する。さらに、高品質のメタボロミクスデータ、例えば、マトリックス効果およびイオン抑制¹⁴を確実にするために考慮されなければならない、このプロトコルでは議論されていない追加の問題がある。

QC ベースの正規化方法の検出力は、本質的に各バッチ内の QC サンプルの数に依存します。前述のように、数値を増やすと検出力は増加しますが、 図 3 に示すように、QC のバッチ内変動は、これらの分析システムのバッチ間変動と比較して比較的ごくわずかです。全体として、ランダムフォレスト(SERRF)を使用した全身エラー除去など、他のQCベースの正規化方法があり、バッチごとの比率、複数の内部標準の最適な選択を使用した正規化(NOMIS)、確率的商正規化(PQN)などの他の正規化方法のほとんどを上回ることが示されています⁴⁷.しかし、SERRFは各バッチの複数のQCサンプル、例えば10分の1サンプルに依存しており、多数のサンプルを処理している間は実現不可能です。他のデータ駆動型または内部標準ベースの方法に対するQCベースの正規化の主な利点は、望ましくない技術的変動²⁸に対応しながら、本質的な生物学的変動を保持することである。読者は、バリエーション²⁸の取り扱いに関するこのレビューを参照することができます。

GWASの主な問題の1つは偽陽性の割合であり、これは主に因果関係サイトと非因果関係サイトの連鎖に起因する^48,49。第2に、保存的統計的補正アプローチ、例えば、ボンフェローニおよびFDRは、近接SNPs間の結合に起因するGWASにおけるアッセイされたSNPsの数と等しくない独立試験の数について補正する^50,51したがって、独立試験の実際の数は、しばしばより低くなる。保存的統計的閾値を減少させる別の方法は、定義されたゲノム領域⁵²にわたる連鎖崩壊に基づいてGWASに使用される試験SNPの数を減らすことであろう。このプロトコルに記載されているGWAS統合ハイスループットメタボロミクスプラットフォームには、幅広いアプリケーションがあります。特に、代謝産物/脂質組成を工業的および栄養的に望ましいレベルに変更することにより、作物育種の改善を促進する。全体として、メタボロミクスは、過去数十年にわたって作物の家畜化中に起こった多数の代謝産物の遺伝的構造と代謝の多様化に関する深い洞察を提供しており、メタボロミクス関連の育種の広大な可能性を示しています⁵³。下流QTL検証のための分子生物学的アプローチには、CRISPR/Cas9変異株54、T-DNA挿入ライン⁵⁵、安定および/または一過性過剰発現ライン56、VIGS、エキソビボメタボロミクスアプローチ⁵⁷の生成が含まれ、クロスF2集団の生成における従来のアプローチならびに異なる集団における交差バリデーションに類似している。

上記のような分析的変動に対して必要な補正を行うことによって、GWASに加えて、代謝物−代謝産物、代謝産物−脂質相関分析、より複雑な形質に光を当てるための現象データへの相関分析、および/または生物学的系の基礎をさらに解明するための共発現分析など、いくつかの統合的アプローチを行うことができる⁵⁸。

Disclosures

The authors have nothing to disclose.

Acknowledgements

M.B.はIMPRS-PMPG「一次代謝と植物成長」によってサポートされています。A.R.F.とSAは、EU Horizon 2020 Research and Innovation Programme、Project PlantaSYST(SGA-CSA NO. 739582 UNDER FPA No. 664620)、およびProject INCREASE(GA 862862)の財政的支援を認める。

Materials

Reagents and standards
1,2-diheptadecanoyl-sn-glycero-3- phosphocholine (17:0 PC)	Avanti Polar Lipids	850360P	Internal standard for lipids
Chloroform	Supleco	67-66-3	FAME solvent
Isovitexin	Sigma Aldrich	38953-85-4	Internal standard for metabolites
Lignoceric Acid Methylester	Sigma Aldrich	2442-49-1	FAME
Methanol (MeOH)	Biosolve Chemicals	13684102	ULC-MS grade
Methoxyamin -hydrochlorid	Sigma Aldrich	593-56-6	Metabolite deriviatization
Methyl laurate	Sigma Aldrich	111-82-0	FAME
Methyl myristate	Sigma Aldrich	124-10-7	FAME
Methyl palmitate	Sigma Aldrich	112-39-0	FAME
Methyl stearate	Sigma Aldrich	112-61-8	FAME
Methyl tert-butyl ether (MTBE)	Biosolve Chemicals	13890602	HPLC grade
Methyl-caprat	Sigma Aldrich	110-42-9	FAME
Methylcaprylat	Sigma Aldrich	111-11-5	FAME
Methyldocosanoat	Sigma Aldrich	929-77-1	FAME
Methyleicosanoat	Sigma Aldrich	1120-28-1	FAME
Methyl-hexacosanoat	Sigma Aldrich	5802-82-4	FAME
Methyl-octacosanoat	Sigma Aldrich	55682-92-3	FAME
Methyl-pelargonate	Sigma Aldrich	1731-84-6	FAME
N-Methyl-N-(trimethylsilyl)trifluoracetamid (MSTFA)	Macherey-Nagel	24589-78-4	Metabolite deriviatization
Pyridine	Supleco	110-86-1	Metabolite deriviatization
Ribitol	Supleco	22566-17-2	Internal standard for derivatized metabolites
Triacontanoic Acid Methyl Ester	TCI Chemicals	629-83-4	FAME
Water	Biosolve Chemicals	23214102	ULC-MS grade
Equipment
1.5 mL Safe-lock microcentrifuge tubes	Eppendorf	3120086
2 mL Safe-lock microcentrifuge tubes	Eppendorf	3120094
Balance	Sartorius Corporation	14 557 572
DB-35ms, 30 m, 0,25 mm, 0,25 µm	Aglient	123-3832	Analysis of derivatized metabolites
GC-MS system	Leco Pegasus HT TOF-MS (LECO Corporation)		Analysis of derivatized metabolites
Grinding Balls, Stainless Steel	OPS DIAGNOSTICS	GBSS 196-2500-10
MS system	Exactive, Orbitrap-type, MS (Exactive, Thermo Fisher Scientific)		Analysis of lipids
MS system	Q Exactive Focus (Q Exactive™ Focus Hybrid Quadrupol-Orbitrap™ Massenspektrometer, Thermo Fisher Scientific)		Analysis of metabolites
Refrigerated microcentrifuge	Eppendorf, model 5427R	22620701
Reversed Phase (RP) Bridged Ethyl Hybrid (BEH) C8 column (100 mm × 2.1 mm containing 1.7 μm diameter particles)	Waters	186002878	Analysis of lipids
RP High Strength Silica (HSS) T3 column (100 mm × 2.1 mm containing 1.8 μm diameter particles)	Waters	186003539	Analysis of metabolites
Shaker	Eppendorf Thermomixer 5436	2050-100-05
Sonicator	USC 300 TH	142-0084
Tissue grinding mixer mill	Retsch, Mixer Mill MM 300	20.746.0001
UPLC system	Waters Acquity UPLC system (Waters)
Vacuum concentrator	Scan Speed Maxi Vac Alpha Evaporators	7.008.500.002
Vortex mixer	Vortex-Genie 2, Model G560	SI-0236
Software
MetAlign			Chromatogram processing
MzMine			Chromatogram processing
R package "data.table"
R package "fujiplot"			pleiotrpoic map
R package "genetics"
R package "Ime4"			BLUPs calculation
R package "LDheatmap"			LD plots
R package "MASS"			transformation
R package "rMVP"			GWAS
R version 4.0.4
RefinerMS			Chromatogram processing
RefinerMS Genedata	Expressionist		Chromatogram processing
Tassel 5			Genotype filtering
Xcalibur	Thermo Fisher Scientific	OPTON-30965	Chromatogram processing

References

Doerr, A. Global metabolomics. Nature Methods. 14 (1), 32 (2017).
Fessenden, M. Metabolomics: Small molecules, single cells. Nature. 540 (7631), 153-155 (2016).
Oliver, S. G., Winson, M. K., Kell, D. B., Baganz, F. Systematic functional analysis of the yeast genome. Trends in Biotechnology. 16 (9), 373-378 (1998).
Fiehn, O. Metabolomics-the link between genotypes and phenotypes. Plant Molecular Biology. 48 (1), 155-171 (2002).
Wu, S., et al. Mapping the Arabidopsis metabolic landscape by untargeted metabolomics at different environmental conditions. Molecular Plant. 11 (1), 118-134 (2018).
Sysi-Aho, M., Katajamaa, M., Yetukuri, L., Orešič, M. Normalization method for metabolomics data using optimal selection of multiple internal standards. BMC Bioinformatics. 8 (1), 93 (2007).
Chen, M., Rao, R. S. P., Zhang, Y., Zhong, C. X., Thelen, J. J. A modified data normalization method for GC-MS-based metabolomics to minimize batch variation. SpringerPlus. 3 (1), 439 (2014).
Dunn, W. B., et al. Metabolic profiling of serum using Ultra Performance Liquid Chromatography and the LTQ-Orbitrap mass spectrometry system. Journal of Chromatography B. 871 (2), 288-298 (2008).
Fiehn, O., et al. Metabolite profiling for plant functional genomics. Nature Biotechnology. 18 (11), 1157-1161 (2000).
vander Kloet, F. M., Bobeldijk, I., Verheij, E. R., Jellema, R. H. Analytical error reduction using single point calibration for accurate and precise metabolomic phenotyping. Journal of Proteome Research. 8 (11), 5132-5141 (2009).
Folch, J., Lees, M., Stanley, G. H. S. A simple method for the isolation and purification of total lipides from animal tissues. Journal of Biological Chemistry. 226 (1), 497-509 (1957).
Fukushima, A., et al. Impact of clock-associated Arabidopsis pseudo-response regulators in metabolic coordination. Proceedings of the National Academy of Sciences of the United States of America. 106 (17), 7251-7256 (2009).
Kerwin, R. E., et al. Network quantitative trait loci mapping of circadian clock outputs identifies metabolic pathway-to-clock linkages in Arabidopsis. The Plant Cell. 23 (2), 471-485 (2011).
Tohge, T., et al. From models to crop species: Caveats and solutions for translational metabolomics. Frontiers in Plant Sciences. 2, 61 (2011).
Salem, M., Bernach, M., Bajdzienko, K., Giavalisco, P. A simple fractionated extraction method for the comprehensive analysis of metabolites, lipids, and proteins from a single sample. Journal of Visualized Experiments:JoVE. (124), e55802 (2017).
Tohge, T., Fernie, A. R. Combining genetic diversity, informatics and metabolomics to facilitate annotation of plant gene function. Nature Protocols. 5 (6), 1210-1227 (2010).
Lisec, J., Schauer, N., Kopka, J., Willmitzer, L., Fernie, A. R. Gas chromatography mass spectrometry-based metabolite profiling in plants. Nature Protocols. 1 (1), 387-396 (2006).
Osorio, S., Do, P. T., Fernie, A. R., Hardy, N. W., Hall, R. D. . Plant Metabolomics: Methods and Protocols. , 101-109 (2012).
De Vos, R. C. H., et al. Untargeted large-scale plant metabolomics using liquid chromatography coupled to mass spectrometry. Nature Protocols. 2 (4), 778-791 (2007).
Perez de Souza, ., Alseekh, L., Naake, S., Fernie, T., A, Mass spectrometry-based untargeted plant metabolomics. Current Protocols in Plant Biology. 4 (4), 20100 (2019).
Pluskal, T., Castillo, S., Villar-Briones, A., Orešič, M. MZmine 2: Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data. BMC Bioinformatics. 11 (1), 395 (2010).
Watson, J. T., Sparkman, D. O. Electron Ionization. Introduction to mass spectrometry: Instrumentation, applications and strategies for data interpretation. , 315 (2007).
Fernie, A. R., et al. Recommendations for reporting metabolite data. The Plant Cell. 23 (7), 2477 (2011).
Treutler, H., et al. Discovering regulated metabolite families in untargeted metabolomics studies. Analytical Chemistry. 88 (16), 8082-8090 (2016).
Wang, M., et al. Sharing and community curation of mass spectrometry data with Global Natural Products Social Molecular Networking. Nature Biotechnology. 34 (8), 828-837 (2016).
Naake, T., Fernie, A. R. MetNet: Metabolite network prediction from high-resolution mass spectrometry data in R aiding metabolite annotation. Analytical Chemistry. 91 (3), 1768-1772 (2019).
Chambers, J. M. . Statistical models in S. , (1991).
Misra, B. B. Data normalization strategies in metabolomics: Current challenges, approaches, and tools. European Journal of Mass Spectrometry. 26 (3), 165-174 (2020).
Livera, A. M. D., et al. Statistical methods for handling unwanted variation in metabolomics data. Analytical Chemistry. 87 (7), 3606-3615 (2015).
Sakia, R. M. . The Box-Cox transformation technique: a review. 41 (2), 169-178 (1992).
vanden Berg, R. A., Hoefsloot, H. C. J., Westerhuis, J. A., Smilde, A. K., vander Werf, M. J. Centering, scaling, and transformations: improving the biological information content of metabolomics data. BMC Genomics. 7, 142 (2006).
Marees, A. T., et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. International Journal of Methods in Psychiatric Research. 27 (2), 1608 (2018).
Torkamaneh, D., Laroche, J., Bastien, M., Abed, A., Belzile, F. Fast-GBS: a new pipeline for the efficient and highly accurate calling of SNPs from genotyping-by-sequencing data. BMC Bioinformatics. 18 (1), 5 (2017).
Zhao, S., Agafonov, O., Azab, A., Stokowy, T., Hovig, E. Accuracy and efficiency of germline variant calling pipelines for human genome data. Scientific Reports. 10 (1), 20222 (2020).
Bradbury, P. J., et al. TASSEL: software for association mapping of complex traits in diverse samples. Bioinformatics. 23 (19), 2633-2635 (2007).
Bates, D., Mächler, M., Bolker, B., Walker, S. Fitting linear mixed-effects models using lme4. Journal of Statistical Software. 67 (1), (2015).
Yin, L., et al. rMVP: A memory-efficient, visualization-enhanced, and parallel-accelerated tool for genome-wide association study. Genomics, Proteomics & Bioinformatics. , (2021).
Kanai, M., et al. Genetic analysis of quantitative traits in the Japanese population links cell types to complex human diseases. Nature Genetics. 50 (3), 390-400 (2018).
Salem, M. A., et al. An improved extraction method enables the comprehensive analysis of lipids, proteins, metabolites and phytohormones from a single sample of leaf tissue under water-deficit stress. Plant Journal: for Cell and Molecular Biology. 103 (4), 1614-1632 (2020).
Balcke, G. U., et al. Multi-omics of tomato glandular trichomes reveals distinct features of central carbon metabolism supporting high productivity of specialized metabolites. The Plant Cell. 29 (5), 960-983 (2017).
Leonova, T., et al. Does protein glycation impact on the drought-related changes in metabolism and nutritional properties of mature pea (Pisum sativum L.) seeds. International Journal of Molecular Sciences. 21 (2), 567 (2020).
Alfonsi, K., et al. chemistry tools to influence a medicinal chemistry and research chemistry based organisation. Green Chemistry. 10 (1), 31-36 (2008).
Bozek, K., et al. Organization and evolution of brain lipidome revealed by large-scale analysis of human, chimpanzee, macaque, and mouse tissues. Neuron. 85 (4), 695-702 (2015).
Delgado, R., Muñoz, Y., Peña-Cortés, H., Giavalisco, P., Bacigalupo, J. Diacylglycerol activates the light-dependent channel TRP in the photosensitive microvilli of Drosophila melanogaster photoreceptors. The Journal of Neuroscience. 34 (19), 6679 (2014).
Sharma, D. K., et al. UPLC-MS analysis of Chlamydomonas reinhardtii and Scenedesmus obliquus lipid extracts and their possible metabolic roles. Journal of Applied Phycology. 27 (3), 1149-1159 (2015).
Dunn, W. B., Wilson, I. D., Nicholls, A. W., Broadhurst, D. The importance of experimental design and QC samples in large-scale and MS-driven untargeted metabolomic studies of humans. Bioanalysis. 4 (18), 2249-2264 (2012).
Fan, S., et al. Systematic error removal using random forest for normalizing large-scale untargeted lipidomics data. Analytical Chemistry. 91 (5), 3590-3596 (2019).
Larsson, S. J., Lipka, A. E., Buckler, E. S. Lessons from Dwarf8 on the strengths and weaknesses of structured association mapping. PLOS Genetics. 9 (2), 1003246 (2013).
Platt, A., Vilhjálmsson, B. J., Nordborg, M. Conditions under which genome-wide association studies will be positively misleading. Genetics. 186 (3), 1045-1052 (2010).
Nyholt, D. R. A simple correction for multiple testing for single-nucleotide polymorphisms in linkage disequilibrium with each other. American Journal of Human Genetics. 74 (4), 765-769 (2004).
Teo, Y. Y. Common statistical issues in genome-wide association studies: a review on power, data quality control, genotype calling and population structure. Current Opinion in Lipidology. 19 (2), 133-143 (2008).
Privé, F., Aschard, H., Ziyatdinov, A., Blum, M. G. B. Efficient analysis of large-scale genome-wide data with two R packages: bigstatsr and bigsnpr. Bioinformatics. 34 (16), 2781-2787 (2018).
Alseekh, S., et al. Domestication of crop metabolomes: desired and unintended consequences. Trends in Plant Science. 26 (6), 650-661 (2021).
Yano, K., et al. GWAS with principal component analysis identifies a gene comprehensively controlling rice architecture. Proceedings of the National Academy of Sciences of the United States of America. 116 (42), 21262 (2019).
Wu, S., et al. Mapping the Arabidopsis metabolic landscape by untargeted metabolomics at different environmental conditions. Molecular Plant. 11 (1), 118-134 (2018).
Ye, J., et al. An InDel in the promoter of Al-ACTIVATED MALATE TRANSPORTER9 selected during tomato domestication determines fruit malate contents and aluminum tolerance. The Plant Cell. 29 (9), 2249-2268 (2017).
Zhang, W., et al. Genome assembly of wild tea tree DASZ reveals pedigree and selection history of tea varieties. Nature Communications. 11 (1), 3719 (2020).
Tohge, T., Fernie, A. R. Annotation of plant gene function via combined genomics, metabolomics and informatics. Journal of Visualized Experiments: JoVE. (64), e3487 (2012).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Bulut, M., Fernie, A. R., Alseekh, S. Large-Scale Multi-Omics Genome-Wide Association Studies (Mo-GWAS): Guidelines for Sample Preparation and Normalization. J. Vis. Exp. (173), e62732, doi:10.3791/62732 (2021).

Automatically Generated

大規模マルチオミクスゲノムワイド関連研究(Mo-GWAS):サンプル調製と正規化のためのガイドライン

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Automatically Generated

大規模マルチオミクスゲノムワイド関連研究(Mo-GWAS):サンプル調製と正規化のためのガイドライン

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below