Dans ce protocole, nous présentons un flux de travail optimisé, qui combine une préparation efficace et rapide des échantillons de nombreux échantillons. En outre, nous fournissons un guide étape par étape pour réduire les variations analytiques pour l’évaluation à haut débit des études GWAS métaboliques.
La chromatographie en phase gazeuse-spectrométrie de masse (GC-MS) et la chromatographie liquide-spectrométrie de masse (LC-MS) sont des approches métabolomiques largement utilisées pour détecter et quantifier des centaines de milliers de caractéristiques métabolites. Cependant, l’application de ces techniques à un grand nombre d’échantillons est sujette à des interactions plus complexes, en particulier pour les études d’association à l’échelle du génome (GWAS). Ce protocole décrit un flux de travail métabolique optimisé, qui combine une préparation efficace et rapide des échantillons avec l’analyse d’un grand nombre d’échantillons pour les espèces de cultures de légumineuses. Cette méthode d’extraction légèrement modifiée a été initialement développée pour l’analyse des tissus végétaux et animaux et est basée sur l’extraction dans l’éther méthyl-tert-butylique : solvant méthanol pour permettre la capture des métabolites polaires et lipidiques. En outre, nous fournissons un guide étape par étape pour réduire les variations analytiques, qui sont essentielles pour l’évaluation à haut débit de la variance métabolique dans GWAS.
Les approches « omiques » à grande échelle ont permis l’analyse de systèmes biologiques complexes 1,2,3 et une meilleure compréhension du lien entre les génotypes et les phénotypes qui en résultent4. La métabolomique utilisant la chromatographie liquide ultra-haute performance-spectrométrie de masse (UHPLC-MS) et la GC-MS a permis la détection d’une pléthore de caractéristiques métabolites, dont seules certaines sont annotées dans une certaine mesure, ce qui entraîne une forte proportion de métabolites inconnus. Les interactions complexes peuvent être explorées en combinant la métabolomique à grande échelle avec la variation génotypique sous-jacente d’une population diversifiée5. Cependant, la manipulation de grands ensembles d’échantillons est intrinsèquement associée à des variations analytiques, ce qui fausse l’évaluation de la variance métabolique pour d’autres processus en aval. Plus précisément, les problèmes majeurs conduisant à des variations analytiques sont basés sur les performances de la machine et la dérive instrumentale au fil du temps6. L’intégration de la variation d’un lot à l’autre est difficile et particulièrement problématique lors de l’analyse de populations végétales structurées à grande échelle. De multiples procédures de normalisation ont été suggérées pour corriger les variations non biologiques, p. ex., l’utilisation de normes internes, externes et isotopiques pour corriger les erreurs analytiques, dont chacune est intrinsèquement associée à des problèmes et des pièges connus 7,8,9,10.
En plus de la variation analytique, le choix des protocoles d’extraction varie généralement en fonction de la méthode d’analyse. En fin de compte, il est souhaité de réduire les coûts de matériaux et de main-d’œuvre ainsi que la nécessité d’utiliser plusieurs aliquotes du même échantillon pour divers processus analytiques en effectuant des méthodes d’extraction basées sur la séparation de phase. Ces méthodes ont d’abord été introduites en utilisant du chloroforme : des solvants méthanol/eau pour fractionner les composés polaires et hydrophobes11.
Ce protocole décrit un pipeline rapide à haut débit pour une plate-forme multi-omique permettant de profiler à la fois les métabolites polaires et les lipides chez les espèces de légumineuses. En outre, il montre comment ces ensembles de données peuvent être corrigés de manière appropriée pour la variation analytique et normalisés avant d’intégrer des informations génotypiques pour détecter les loci de caractères quantitatifs des métabolites (QTL) en effectuant GWAS.
GC-MS et LC-MS sont des outils largement utilisés pour profiler des mélanges complexes de diverses classes de métabolites. La manipulation de grands ensembles de données à l’aide de ces outils est intrinsèquement associée à une variation non biologique, p. ex. une variation analytique, qui interfère et biaise l’interprétation des résultats. Ce protocole présente un pipeline d’extraction robuste et à haut débit pour un profilage métabolique complet afin d’éliminer la variation d’origine non biologique et de mener des études « omiques » à grande échelle. Les volumes et les concentrations utilisés dans ce protocole ont été ajustés pour tenir compte des espèces de légumineuses dans différents tissus. Cependant, ces paramètres peuvent être légèrement modifiés et utilisés pour des échantillons métaboliques à grande échelle provenant d’autres espèces végétales.
Les15 extractions à base de MTBE décrites précédemment peuvent être utilisées pour analyser les métabolites dérivés, les métabolites semi-polaires et les lipides. Cela peut être étendu pour les extractions de protéines et d’hormones végétales39, qui étaient hors du champ d’application de ce protocole. D’autres protocoles d’extraction reposent sur des mélanges dichlorométhane:éthanol40,41. Parmi ces protocoles d’extraction, le protocole d’extraction MTBE:méthanol offre une alternative favorable et moins dangereuse aux protocoles d’extraction existants à base de chloroforme42 et n’aboutit pas à une pastille de protéine comme interphase entre les phases polaire et lipidique. En outre, les méthodes MTBE ont déjà été utilisées dans plusieurs études pour divers échantillons biologiques 43,44,45.
Ce protocole traite de plusieurs étapes cruciales qui pourraient entraîner des variations potentielles lors de la manipulation d’un grand nombre d’échantillons, par exemple lors de la récolte12,13, de l’extraction14, ainsi que de la randomisation46. De plus, il y a d’autres questions qui n’ont pas été abordées dans ce protocole et qui doivent être prises en compte pour assurer des données métabolomiques de haute qualité, par exemple l’effet de matrice et la suppression des ions14.
La puissance des méthodes de normalisation basées sur le CQ dépend intrinsèquement du nombre d’échantillons de CQ dans chaque lot. Comme mentionné précédemment, bien que l’augmentation du nombre augmenterait la puissance, la variation intra-lot des QC est relativement marginale par rapport à la variation inter-lots dans ces systèmes analytiques, comme illustré à la figure 3. Dans l’ensemble, il existe d’autres méthodes de normalisation basées sur le CQ, telles que l’élimination des erreurs systémiques à l’aide de la forêt aléatoire (SERRF), qui se sont avérées surpassant la plupart des autres méthodes de normalisation telles que le ratio par lots, la normalisation à l’aide d’une sélection optimale de plusieurs étalons internes (NOMIS) et la normalisation probabiliste du quotient (PQN)47 . Cependant, SERRF s’appuie sur plusieurs échantillons de CQ dans chaque lot, par exemple, un échantillon sur dix, ce qui n’est pas réalisable lors de la manipulation d’un grand nombre d’échantillons. Le principal avantage de la normalisation basée sur le CQ par rapport à d’autres méthodes basées sur des données ou des normes internes est qu’elle conserve la variation biologique essentielle tout en tenant compte de la variation technique indésirable28. Les lecteurs peuvent se référer à cette revue sur le traitement de la variation28.
L’un des principaux problèmes dans GWAS est le taux de faux positifs, qui provient principalement du lien entre les sites causaux et non causaux48,49. Deuxièmement, les approches de correction statistique conservatrices, par exemple Bonferroni et FDR, corrigent le nombre de tests indépendants, qui n’est pas égal au nombre de SNP analysés dans GWAS en raison du lien entre les SNP proches50,51 Par conséquent, le nombre réel de tests indépendants est souvent plus faible. Une autre façon de réduire le seuil statistique conservateur serait de réduire le nombre de SNP testés utilisés pour les GWAS en fonction de la désintégration des liens sur des régions génomiques définies52. La plate-forme métabolomique à haut débit intégrée à GWAS décrite dans ce protocole a un large éventail d’applications. En particulier, il facilitera l’amélioration de la sélection des cultures en modifiant la composition métabolite/lipidique pour les niveaux souhaités industriellement et nutritionnellement. Dans l’ensemble, la métabolomique a fourni un aperçu approfondi de l’architecture génétique d’une pléthore de métabolites et de la diversification métabolique qui s’est produite lors de la domestication des cultures au cours des dernières décennies, indiquant le vaste potentiel de la sélection associée à la métabolomique53. Les approches de biologie moléculaire pour la validation QTL en aval comprennent la génération de lignées mutantes CRISPR/Cas954, de lignées d’insertion d’ADN-T55, de lignes de surexpression stables et/ou transitoires56, de VIGS, d’approches métabolomiques ex vivo 57 à côté de l’approche conventionnelle pour générer des populations croisées F2 ainsi que la validation croisée dans différentes populations.
En effectuant la correction nécessaire pour les variations analytiques décrites ci-dessus, plusieurs approches intégrées peuvent être effectuées en plus des GWAS, telles que l’analyse de corrélation métabolite-métabolite, métabolite-lipide, l’analyse de corrélation aux données phénomiques pour faire la lumière sur des traits plus complexes et / ou l’analyse de co-expression pour démêler davantage la base des systèmes biologiques58.
The authors have nothing to disclose.
M.B. est soutenu par l’IMPRS-PMPG ‘Primary Metabolism and Plant Growth’. A.R.F. et S.A. reconnaissent le soutien financier du programme de recherche et d’innovation Horizon 2020 de l’UE, du projet PlantaSYST (SGA-CSA n° 739582 sous FPA n° 664620) et du projet INCREASE (GA 862862).
Reagents and standards | |||
1,2-diheptadecanoyl-sn-glycero-3- phosphocholine (17:0 PC) | Avanti Polar Lipids | 850360P | Internal standard for lipids |
Chloroform | Supleco | 67-66-3 | FAME solvent |
Isovitexin | Sigma Aldrich | 38953-85-4 | Internal standard for metabolites |
Lignoceric Acid Methylester | Sigma Aldrich | 2442-49-1 | FAME |
Methanol (MeOH) | Biosolve Chemicals | 13684102 | ULC-MS grade |
Methoxyamin -hydrochlorid | Sigma Aldrich | 593-56-6 | Metabolite deriviatization |
Methyl laurate | Sigma Aldrich | 111-82-0 | FAME |
Methyl myristate | Sigma Aldrich | 124-10-7 | FAME |
Methyl palmitate | Sigma Aldrich | 112-39-0 | FAME |
Methyl stearate | Sigma Aldrich | 112-61-8 | FAME |
Methyl tert-butyl ether (MTBE) | Biosolve Chemicals | 13890602 | HPLC grade |
Methyl-caprat | Sigma Aldrich | 110-42-9 | FAME |
Methylcaprylat | Sigma Aldrich | 111-11-5 | FAME |
Methyldocosanoat | Sigma Aldrich | 929-77-1 | FAME |
Methyleicosanoat | Sigma Aldrich | 1120-28-1 | FAME |
Methyl-hexacosanoat | Sigma Aldrich | 5802-82-4 | FAME |
Methyl-octacosanoat | Sigma Aldrich | 55682-92-3 | FAME |
Methyl-pelargonate | Sigma Aldrich | 1731-84-6 | FAME |
N-Methyl-N-(trimethylsilyl)trifluoracetamid (MSTFA) | Macherey-Nagel | 24589-78-4 | Metabolite deriviatization |
Pyridine | Supleco | 110-86-1 | Metabolite deriviatization |
Ribitol | Supleco | 22566-17-2 | Internal standard for derivatized metabolites |
Triacontanoic Acid Methyl Ester | TCI Chemicals | 629-83-4 | FAME |
Water | Biosolve Chemicals | 23214102 | ULC-MS grade |
Equipment | |||
1.5 mL Safe-lock microcentrifuge tubes | Eppendorf | 3120086 | |
2 mL Safe-lock microcentrifuge tubes | Eppendorf | 3120094 | |
Balance | Sartorius Corporation | 14 557 572 | |
DB-35ms, 30 m, 0,25 mm, 0,25 µm | Aglient | 123-3832 | Analysis of derivatized metabolites |
GC-MS system | Leco Pegasus HT TOF-MS (LECO Corporation) | Analysis of derivatized metabolites | |
Grinding Balls, Stainless Steel | OPS DIAGNOSTICS | GBSS 196-2500-10 | |
MS system | Exactive, Orbitrap-type, MS (Exactive, Thermo Fisher Scientific) | Analysis of lipids | |
MS system | Q Exactive Focus (Q Exactive™ Focus Hybrid Quadrupol-Orbitrap™ Massenspektrometer, Thermo Fisher Scientific) |
Analysis of metabolites | |
Refrigerated microcentrifuge | Eppendorf, model 5427R | 22620701 | |
Reversed Phase (RP) Bridged Ethyl Hybrid (BEH) C8 column (100 mm × 2.1 mm containing 1.7 μm diameter particles) |
Waters | 186002878 | Analysis of lipids |
RP High Strength Silica (HSS) T3 column (100 mm × 2.1 mm containing 1.8 μm diameter particles) |
Waters | 186003539 | Analysis of metabolites |
Shaker | Eppendorf Thermomixer 5436 | 2050-100-05 | |
Sonicator | USC 300 TH | 142-0084 | |
Tissue grinding mixer mill | Retsch, Mixer Mill MM 300 | 20.746.0001 | |
UPLC system | Waters Acquity UPLC system (Waters) | ||
Vacuum concentrator | Scan Speed Maxi Vac Alpha Evaporators | 7.008.500.002 | |
Vortex mixer | Vortex-Genie 2, Model G560 | SI-0236 | |
Software | |||
MetAlign | Chromatogram processing | ||
MzMine | Chromatogram processing | ||
R package "data.table" | |||
R package "fujiplot" | pleiotrpoic map | ||
R package "genetics" | |||
R package "Ime4" | BLUPs calculation | ||
R package "LDheatmap" | LD plots | ||
R package "MASS" | transformation | ||
R package "rMVP" | GWAS | ||
R version 4.0.4 | |||
RefinerMS | Chromatogram processing | ||
RefinerMS Genedata | Expressionist | Chromatogram processing | |
Tassel 5 | Genotype filtering | ||
Xcalibur | Thermo Fisher Scientific | OPTON-30965 | Chromatogram processing |