Summary

Études d’association multi-omiques à grande échelle à l’échelle du génome (Mo-GWAS): Lignes directrices pour la préparation et la normalisation des échantillons

Published: July 27, 2021
doi:

Summary

Dans ce protocole, nous présentons un flux de travail optimisé, qui combine une préparation efficace et rapide des échantillons de nombreux échantillons. En outre, nous fournissons un guide étape par étape pour réduire les variations analytiques pour l’évaluation à haut débit des études GWAS métaboliques.

Abstract

La chromatographie en phase gazeuse-spectrométrie de masse (GC-MS) et la chromatographie liquide-spectrométrie de masse (LC-MS) sont des approches métabolomiques largement utilisées pour détecter et quantifier des centaines de milliers de caractéristiques métabolites. Cependant, l’application de ces techniques à un grand nombre d’échantillons est sujette à des interactions plus complexes, en particulier pour les études d’association à l’échelle du génome (GWAS). Ce protocole décrit un flux de travail métabolique optimisé, qui combine une préparation efficace et rapide des échantillons avec l’analyse d’un grand nombre d’échantillons pour les espèces de cultures de légumineuses. Cette méthode d’extraction légèrement modifiée a été initialement développée pour l’analyse des tissus végétaux et animaux et est basée sur l’extraction dans l’éther méthyl-tert-butylique : solvant méthanol pour permettre la capture des métabolites polaires et lipidiques. En outre, nous fournissons un guide étape par étape pour réduire les variations analytiques, qui sont essentielles pour l’évaluation à haut débit de la variance métabolique dans GWAS.

Introduction

Les approches « omiques » à grande échelle ont permis l’analyse de systèmes biologiques complexes 1,2,3 et une meilleure compréhension du lien entre les génotypes et les phénotypes qui en résultent4. La métabolomique utilisant la chromatographie liquide ultra-haute performance-spectrométrie de masse (UHPLC-MS) et la GC-MS a permis la détection d’une pléthore de caractéristiques métabolites, dont seules certaines sont annotées dans une certaine mesure, ce qui entraîne une forte proportion de métabolites inconnus. Les interactions complexes peuvent être explorées en combinant la métabolomique à grande échelle avec la variation génotypique sous-jacente d’une population diversifiée5. Cependant, la manipulation de grands ensembles d’échantillons est intrinsèquement associée à des variations analytiques, ce qui fausse l’évaluation de la variance métabolique pour d’autres processus en aval. Plus précisément, les problèmes majeurs conduisant à des variations analytiques sont basés sur les performances de la machine et la dérive instrumentale au fil du temps6. L’intégration de la variation d’un lot à l’autre est difficile et particulièrement problématique lors de l’analyse de populations végétales structurées à grande échelle. De multiples procédures de normalisation ont été suggérées pour corriger les variations non biologiques, p. ex., l’utilisation de normes internes, externes et isotopiques pour corriger les erreurs analytiques, dont chacune est intrinsèquement associée à des problèmes et des pièges connus 7,8,9,10.

En plus de la variation analytique, le choix des protocoles d’extraction varie généralement en fonction de la méthode d’analyse. En fin de compte, il est souhaité de réduire les coûts de matériaux et de main-d’œuvre ainsi que la nécessité d’utiliser plusieurs aliquotes du même échantillon pour divers processus analytiques en effectuant des méthodes d’extraction basées sur la séparation de phase. Ces méthodes ont d’abord été introduites en utilisant du chloroforme : des solvants méthanol/eau pour fractionner les composés polaires et hydrophobes11.

Ce protocole décrit un pipeline rapide à haut débit pour une plate-forme multi-omique permettant de profiler à la fois les métabolites polaires et les lipides chez les espèces de légumineuses. En outre, il montre comment ces ensembles de données peuvent être corrigés de manière appropriée pour la variation analytique et normalisés avant d’intégrer des informations génotypiques pour détecter les loci de caractères quantitatifs des métabolites (QTL) en effectuant GWAS.

Protocol

1. Conception expérimentale et culture de plantes REMARQUE: Mettre en place l’expérience en fonction de l’hypothèse expérimentale, par exemple, l’utilisation d’une population GWAS à grande échelle diminue la nécessité de plusieurs réplications, car des tests statistiques seront effectués en fonction des haplotypes de tous les SNP individuels au lieu de l’accession. En revanche, les répétitions multiples sont indispensables dans d’autres approches expérimentales. Les points suivants doivent être pris en compte lors de la préparation de l’expérience. Inclure suffisamment de répliques biologiques, selon l’hypothèse expérimentale. Randomiser les répliques biologiques par bloc pour réduire les biais environnementaux locaux pendant la culture, par exemple en serre, en champ. Assurer le bon entretien de la plante pendant la croissance. Traiter les plantes de manière homogène pour réduire les biais. 2. Préparation du matériel végétal biologique Préparation de la récolte Tubes de récolte d’étiquettes (20 mL) contenant deux billes métalliques de 5 mm et deux perles métalliques de 8 mm de diamètre pour l’homogénéisation. Remplissez un dewar avec de l’azote liquide.REMARQUE: Les plantes doivent être au stade végétatif pour la récolte de feuilles fraîches et de tissus racinaires. Récolter des échantillons biologiques par congélation éclair dans de l’azote liquide. Récoltez le plus rapidement possible pour exclure l’influence de l’oscillation circadienne sur le métabolisme pendant les durées de récolte prolongées12,13. Conservez les feuilles fraîches récoltées et les tissus racinaires pour un traitement ultérieur à -80 °C.REMARQUE: La coupe des feuilles à la congélation éclair ne devrait pas prendre plus de quelques secondes, car après le clivage des feuilles, les processus biologiques actifs modifieraient les profils métaboliques en raison de blessures. Pour les racines, prénettoyez les racines en les lavant à l’eau avant de les congeler brusquement dans de l’azote liquide. L’excès d’eau à la surface des racines doit être absorbé avec du papier en papier. Les graines séchées peuvent être conservées à température ambiante; aucune congélation dans l’azote liquide n’est requise. Broyer le tissu à l’aide d’un broyeur mélangeur de tissus. Prérefroidissez les porte-tubes dans de l’azote liquide pendant quelques minutes pour maintenir une température basse tout en broyant le tissu. Transporter les échantillons biologiques dans un dewar contenant de l’azote après les avoir sortis du congélateur à -80 °C. Broyer les tissus pour obtenir une poudre homogène; utiliser 25 Hz pendant 1 min et répéter après congélation dans de l’azote liquide si le tissu n’est pas broyé de manière homogène. Pour moudre les graines séchées, placez les graines dans un pot de broyage avec une perle métallique de 15 mm de diamètre. Utilisez la même fréquence et le même temps que ceux mentionnés au point 2.3.3.REMARQUE: Des mortiers et des pilons propres et prérefroidis peuvent être utilisés si un broyeur mélangeur de tissus n’est pas disponible. Tubes de microcentrifugation de 2 mL étiquetés prérefroidissement. Peser 50 mg avec une erreur de ±5 mg de matière végétale fraîche à l’aide d’une balance analytique. Prérefroidir les outils utilisés pour transférer le matériel végétal dans l’azote liquide. Assurez-vous que le matériel végétal reste congelé pendant le processus de pesée.REMARQUE: N’exposez pas trop longtemps le matériel végétal frais à la température ambiante, car les processus biologiques sont activés par l’augmentation de la température, modifiant les profils métaboliques14. Générez des échantillons supplémentaires de contrôle de la qualité (CQ) en regroupant une proportion de chaque échantillon et en pesant 50 mg avec une erreur de ±5 mg de matériel végétal frais regroupé dans des tubes de microcentrifugation à verrouillage de sécurité de 2 mL prérefroidis.REMARQUE : Au moins trois échantillons de CQ sont recommandés pour 60 échantillons. Les échantillons de CQ sont essentiels pour la correction, la normalisation et les analyses en aval. 3. Réactifs d’extraction Tissus frais, p. ex. feuilles et racinesREMARQUE : L’extraction d’échantillons est basée sur un protocole15 décrit précédemment. Ce protocole a été modifié en fonction des besoins actuels, par exemple plusieurs tissus, différentes normes internes et des expériences à grande échelle. De plus, tous les volumes et réglages d’instruments mentionnés ci-dessous sont ajustés aux unités d’analyse internes. Les utilisateurs du protocole doivent les ajuster en fonction de leur unité d’analyse et des échantillons biologiques, en fonction des échantillons d’essai. Mélange d’extraction 1 (EM1) : méthyl tert-butyléther (MTBE)/méthanol (MeOH) (3:1 v/v) Préparez un mélange de MTBE/MeOH dans un rapport de 3:1. Pour 100 mL de solvant d’extraction, mélanger 75 mL de MTBE avec 25 mL de MeOH dans une bouteille en verre propre.REMARQUE: Les solvants doivent être manipulés avec précaution dans la hotte avec un équipement de sécurité approprié. Ajouter 45 μL de 1,2-diheptadécanoyl-sn-glycero-3-phosphocholine (1 mg/mL dans le chloroforme) comme étalon interne pour l’analyse lipidique à base d’UHPLC-MS, 400 μL de ribitol (1 mg/mL dans l’eau) comme étalon interne pour l’analyse à base de GC-MS, et 125 μL d’isovitexine (1 mg/mL dans MeOH/eau (1:1 v/v)) pour l’analyse des métabolites à base de UHPLC-MS.REMARQUE: L’ajout de normes internes est nécessaire pour la normalisation post-analyse en fonction des besoins analytiques. Comme 1 mL d’EM1 est nécessaire pour chaque échantillon, préparez une solution mère en fonction de la taille de l’échantillon expérimental, qui doit être utilisée pour l’ensemble de l’expérience. EM1 doit être conservé à -20 °C. Vérifiez l’absence de l’étalon interne utilisé et le chevauchement avec d’autres composés de l’espèce étudiée. Plusieurs normes peuvent être utilisées; la sélection des normes internes dans ce protocole était basée sur des tests antérieurs utilisant des extraits de haricots communs16. Mélange d’extraction 2 (EM2) eau/méthanol (MeOH) (3:1 v/v) Pour 100 mL EM2, ajouter 75 mL d’eau double distillée et 25 mL de MeOH dans une bouteille en verre propre. Ajouter 500 μL d’EM2 par échantillon et préparer une solution mère en fonction de la taille de l’échantillon expérimental, qui doit être utilisée pour toute l’expérience. Conserver EM2 à 4 °C. Graines séchées Mélange d’extraction 3 (EM3) méthanol (MeOH)/eau (7:3 v/v) Pour 100 mL d’EM3, ajouter 70 mL de MeOH et 30 mL d’eau double distillée dans une bouteille en verre propre. Préparer 1 mL d’EM3 pour chaque échantillon. Ajouter 400 μL de ribitol (1 mg/mL dans l’eau) comme étalons internes pour l’analyse basée sur gc-MS et 125 μL d’isovitexine (1 mg/mL dans MeOH/eau (1:1 v/v)) pour l’analyse des métabolites UHPLC-MS.REMARQUE: Préparez une solution mère en fonction de la taille de l’échantillon expérimental et utilisez-la pour l’ensemble de l’expérience. Conserver EM3 à 4 °C. 4. Extraction d’échantillons Tissus frais, p. ex. feuilles et racines Préparer trois tubes de microcentrifugation à verrouillage sûr de 1,5 mL pour chaque échantillon. Conservez EM1 dans un système de refroidissement liquide à -20 °C. Transférer les échantillons frais du congélateur à -80 °C dans de la glace carbonique ou de l’azote liquide pour le transport. Ajouter brièvement 1 mL d’EM1 prérefroidi à chaque aliquote de 50 mg et vortex avant de rester sur la glace. Incuber les échantillons sur un agitateur orbital à 800 × g pendant 10 min à 4 °C. Sonicer les échantillons dans un bain de sonication refroidi par glace pendant 10 min. Ajouter 500 μL d’EM2 à l’aide d’une pipette multicanal pour éviter toute variation des volumes ajoutés. Vortex les échantillons brièvement pour mélanger les mélanges d’extraction avant de les centrifuger à 11 200 × g pendant 5 min à 4 °C. Après la séparation de phase, transférer 500 μL de la phase contenant des lipides supérieurs dans un tube de microcentrifugation prémarqué de 1,5 mL à verrouillage sûr. Retirez le reste de la phase supérieure.REMARQUE: Faites attention lors du transfert car cette phase supérieure a une pression de vapeur élevée et a tendance à s’échapper de la pipette. Transférer 150 μL et 300 μL des phases contenant des métabolites polaires et semi-polaires inférieurs dans deux tubes de microcentrifuge à verrouillage sûr de 1,5 mL utilisés pour l’analyse GC-MS et UHPLC-MS, respectivement. Concentrer toutes les fractions extraites en laissant les solvants s’évaporer sans chauffer à l’aide d’un concentrateur à vide et les stocker à -80 °C. Graines séchées Préparer deux tubes de microcentrifugation à verrouillage sûr de 1,5 mL pour chaque échantillon. Gardez EM3 sur la glace. Placez une perle métallique de 5 mm de diamètre dans les aliquotes de l’échantillon. Ajouter 1 mL d’EM3 dans chaque aliquote de 50 mg et homogénéiser les échantillons à 25 Hz pendant 2-3 min avant de les mettre sur glace. Sonicer les échantillons dans un bain de sonication refroidi par glace pendant 10 min. Vortex les échantillons brièvement avant la centrifugation à 11 200 × g pendant 5 min à 4 °C. Transférer 150 μL et 300 μL du surnageant dans deux tubes de microcentrifugation à verrouillage sûr de 1,5 mL utilisés respectivement pour l’analyse GC-MS et UHPLC-MS. Concentrez toutes les fractions extraites en laissant les solvants s’évaporer sans chauffage à l’aide d’un concentrateur à vide et stockez-les à -80 °C.REMARQUE: Sur la base de l’expérience, il est conseillé aux utilisateurs d’effectuer l’étape 4.2 pour l’analyse des métabolites semi-polaires et des métabolites dérivés dans les graines séchées. Effectuer l’étape d’extraction 4.1 pour l’analyse des lipides des graines séchées. 5. Analyse des lipides à l’aide de UHPLC-MS Suspendre à nouveau les fractions lipidiques séchées dans 250 μL d’acétonitrile:2-propanol (7:3, vol/vol). Sonicate la phase lipidique pendant 5 min, centrifuger à 11 200 × g pendant 1 min. Transférer 90 μL du surnageant dans un flacon en verre pour LC-MS. Injecter 2 μL des extraits dans le LC-MS. Effectuer un fractionnement lipidique sur une colonneC8 en phase inversée maintenue à 60 °C avec un débit de 400 μL/min avec des changements progressifs de l’éluant A et B comme indiqué dans le tableau 1. Acquérir les spectres de masse en mode d’ionisation positive avec une plage de masse de 150-1 500 m/z. Inclure plusieurs échantillons de CQ dans tous les lots quotidiens et un blanc pour assurer la correction de la variation analytique. Randomisez les échantillons par bloc dans l’ordre séquentiel. 6. Analyse des métabolites polaires et semi-polaires à l’aide de l’UHPLC-MS Remettez en suspension la phase polaire séchée dans 180 μL de méthanol de qualité UHPLC : eau (1:1 v/v). Soniquer la phase polaire pendant 2 min, centrifuger à 11 200 × g pendant 1 min. Transférer 90 μL du surnageant dans un flacon en verre pour LC-MS. Injecter 3 μL des extraits dans le LC-MS. Effectuer le fractionnement des métabolites sur une colonne en phase inverseC18 maintenue à 40 °C avec un débit de 400 μL/min avec des changements progressifs de l’éluant A et B comme indiqué dans le tableau 1. Acquérir les spectres de masse dans une gamme de masse de 100 à 1 500 m/z dans un balayage MS complet et toute la fragmentation ionique (AIF) induite par la dissociation collisionnelle à haute énergie (HCD) de 40 keV.REMARQUE: Utilisez les deux modes d’ionisation. Cependant, en raison de la capacité limitée lors de l’exécution d’un grand nombre d’échantillons, exécutez des échantillons de test dans les deux modes d’ionisation pour déterminer le mode d’ionisation préféré. Inclure plusieurs échantillons de CQ dans tous les lots quotidiens et un blanc pour assurer la correction de la variation analytique. Randomisez les échantillons par bloc dans l’ordre séquentiel. Exécutez un QC groupé dans MS2 dépendant des données en mode d’ionisation négative et positive. Utilisez les spectres de masse obtenus dans une étape ultérieure (8.5) pour l’annotation. 7. Analyse des métabolites dérivés à l’aide de GC-MS 17,18 REMARQUE: L’analyse des métabolites dérivés est basée sur un protocole17 décrit précédemment. Manipulez tous les réactifs de dérivatisation dans la hotte. S’assurer que le N-méthyl-N-(triméthylsilyl)trifluoracétamide (MSTFA) n’entre pas en contact avec l’eau et l’humidité. Réactif de dérivatisation 1 (DR1) Dissoudre le chlorhydrate de méthoxyamine dans la pyridine pour obtenir une concentration de 30 mg/mL de DR1. Utilisez 40 μL de DR1 pour chaque échantillon. Préparer une solution mère en fonction de la taille de l’échantillon et conserver à température ambiante. Réactif de dérivatisation 2 (DR2) Dissoudre le MSTFA avec 20 μL d’esters méthyliques d’acides gras (AGF) par 1 mL de MSTFA. Utilisez 70 μL de DR2 pour chaque échantillon. Préparez une solution mère en fonction de la taille de l’échantillon. Conserver le MSTFA à 4 °C et les FAME à -20 °C.REMARQUE : Les FAME comprennent le méthylcaprylate, le pélargonate de méthyle, le méthylcaprate, le méthyllaurate, le méthylmyristate, le méthylpalmitate, le méthylstéarate, le méthyléicosanoate, le méthyldocosanoate, l’ester méthylique de l’acide lignocérique, le méthylhexacosanoate, le méthyloctacosanoate et le méthylester d’acide triacontanoïque, qui sont dissous dans CHCl3 à une concentration de 0,8 μL/mL ou 0,4 mg/mL pour les étalons liquides ou solides, respectivement. Sécher à nouveau la pastille de la phase polaire (stockée à -80 °C) à l’aide d’un concentrateur sous vide pendant 30 min pour éviter toute interférence de H2O provenant pendant le stockage avec les solvants utilisés pour la dérivation en aval. Ajouter 40 μL de DR1. Agiter les échantillons à 950 × g pendant 2 h à 37 °C à l’aide d’un agitateur orbital, suivi d’une courte rotation du liquide. Ajouter 70 μL de DR2. Agiter à nouveau à 950 × g pendant 30 min à 37 °C à l’aide d’un agitateur orbital. Centrifugez brièvement à température ambiante avant de transférer 90 μL dans des flacons en verre pour l’analyse GC-MS. Injecter 1 μL en mode gc-MS splitless, en fonction des concentrations de métabolites, avec un débit constant de gaz porteur d’hélium de 2 mL/min. La température d’injection est réglée à 230 °C à l’aide d’une colonne capillaire MDN-35 de 30 m.REMARQUE : Des renseignements supplémentaires, p. ex. le gradient de température, se trouvent dans le tableau 1. La plage de masse est réglée sur 70-600 m/z avec 20 scans/min. Inclure des modes fractionnés pour permettre la quantification des composés de surcharge putative, ce qui permet d’économiser des coûts et du temps pour la reprivatisation des extraits dans de tels cas. Inclure plusieurs échantillons de CQ dans tous les lots quotidiens et un blanc pour assurer la correction de la variation analytique. Randomisez correctement les échantillons par bloc dans l’ordre séquentiel. 8. Traitement du chromatogramme et annotation des composés Filtrer le bruit chimique en définissant des seuils d’intensité. Inclure tous les échantillons qc lors du traitement des chromatogrammes.REMARQUE: Pour les données à grande échelle, le filtrage du bruit est crucial pour réduire le temps de calcul et la puissance de traitement. Alignez les chromatogrammes en définissant une fenêtre de décalage temporel de rétention. Vérifiez les chromatogrammes de chaque lot pour évaluer la variation intra- et inter-lot. Effectuez la détection des pics en fonction de la forme du pic, par exemple la hauteur et la largeur pour les calculs de pleine largeur à demi-maximum (FWHM). Regrouper les isotopes pour réduire les signaux redondants et filtrer les singletons.REMARQUE: Voir le tableau des matériaux pour plus de détails sur les logiciels utilisés pour le traitement des chromatogrammes. Des protocoles détaillés sur la façon de traiter les chromatogrammes à l’aide de divers outils logiciels disponibles gratuitement, par exemple MS-DIAL, MetAlign, MzMine et Xcalibur 19,20,21, sont fournis. Utilisez les données ddMS2 d’un exemple de contrôle qualité groupé pour l’annotation composée. Évaluer la structure moléculaire en déterminant la masse monoisotopique et en observant les pertes neutres courantes, les aglycones chargés connus et différents types de clivages, par exemple homolytiques ou hétérolytiques16,22. Pour communiquer les données sur les métabolites, suivez la recommandation décrite dans Fernie et coll., 201123.REMARQUE: Différentes approches métabolomiques computationnelles peuvent être utilisées pour analyser les données métabolomiques 24,25,26. 9. Normalisation de l’ensemble de données métabolomiques à grande échelle Vérifiez la distribution de la ou des normes internes et normalisez-les en corrigeant la réponse d’une ou de plusieurs normes internes. Corriger les intensités de crête obtenues à partir du chromatogramme sur le poids exact de l’échantillon en divisant les intensités de crête par le poids d’échantillon homogénéisé aliquote de l’étape 2.5. Correction de la dérive d’intensité sur plusieurs séries de lots. Effectuez des méthodes de correction basées sur le CQ, telles que le lissage du nuage de points estimé localement (LOESS)27 à l’aide de R.REMARQUE: Plusieurs outils et packages sont disponibles pour faire face à la dérive des performances MS lors de l’acquisition de l’ensemble des lots28,29. Assurer la distribution normale des traits par transformation des données, par exemple, la transformation box-Cox30 en utilisant la fonction boxcox () du package R MASS pour effectuer GWAS. Effectuer la mise à l’échelle des données, par exemple la mise à l’échelle de Pareto, pour l’analyse multivariée afin d’assurer une pesée correcte des composés à faible abondance31.REMARQUE: Si possible, effectuez un test de récupération pour éviter les effets de matrice, par exemple, la suppression des ions14. 10. Études d’association à l’échelle du génome (GWAS)32 Appelez le polymorphisme mononucléotidique (SNP) ou les variantes structurelles (SV) à partir des données de séquençage33,34. Filtrer les données génotypiques pour la fréquence des allèles mineurs (MAF) 10% pour éviter le biais de basse fréquence à l’aide de Tassel35. Calculer les meilleures prédictions linéaires non biaisées (BLUP) pour chaque caractéristique normalisée au cours des répétitions expérimentales afin d’éliminer les biais provenant de facteurs environnementaux (effets aléatoires) à l’aide du package R Ime436. Utilisez les BLUPs de chaque fonctionnalité individuellement pour effectuer GWAS à l’aide du package rMVP dans R37.REMARQUE: Chaque caractéristique métabolomique est considérée ici comme un phénotype autonome individuel. Lors de l’exécution de GWAS, corrigez la structure de la population à l’aide de l’analyse en composantes principales (PCA) et de l’identité par état (IBS) ou vanRaden pour minimiser les effets de confusion. En outre, envisagez d’utiliser un modèle linéaire mixte (MLM) ou un modèle mixte multi-locus (MLMM), car les modèles mixtes contiennent des effets fixes et aléatoires. 11. Détection QTL Vérifiez les SNP montrant une association significative, en tenant compte des diagrammes de Manhattan, pour les calculs de déséquilibre de liaison (LD) afin de déterminer la région génétique sous-jacente. Effectuez des calculs LD à l’aide du package R LD Heatmap ou Tassel 5. Vérifiez les SNP associés pour l’ampleur de l’effet sur le trait en examinant les niveaux de caractères pour les changements statistiques entre les haplotypes afin de trouver des SNP causaux potentiels, par exemple, les SNP conduisant à un changement d’acide aminé dans la séquence codant pour les protéines, ce qui pourrait expliquer la variation phénotypique.REMARQUE: Comme les associations de caractères NP Sne donnent pas nécessairement une association causale, il est crucial de déterminer la région génomique. L’identité composée par annotation de caractéristique peut aider énormément à trouver les bons gènes candidats dans une région génomique spécifique. Nous suggérons de combiner tous les QTL détectés associés à certains composés dans une carte pléiotropique pour souligner les régions génétiques38, comme le montre la figure 4. Pour la validation des gènes candidats, plusieurs approches peuvent être réalisées (voir la discussion).

Representative Results

Les expériences GWAS métabolomiques réussies devraient commencer par un plan expérimental approprié, suivi de la collecte, de l’extraction, de l’acquisition et du traitement des échantillons, comme illustré à la figure 1. Dans ce protocole, la méthode MTBE15 a été utilisée pour extraire et analyser des centaines de métabolites appartenant à plusieurs classes de composés. La chromatographie dépend fortement des propriétés de la colonne utilisée ainsi que des mélanges tampons d’élution. La figure 2 montre les chromatogrammes des échantillons de CQ, indiquant le profil d’élution de certaines classes de lipides majeures dans ce système analytique. Les gradients appliqués pour chaque plate-forme sont donnés dans le tableau 1. L’accent a été mis sur la gestion des erreurs systémiques dans les expériences à grande échelle. La réalisation de métabolomiques à grande échelle est intrinsèquement associée à des erreurs systémiques. À des fins de démonstration, nous avons analysé les données lipidomiques de plusieurs espèces de haricots communs. Le tableau supplémentaire 1 fournit les données lipidomiques brutes extraites obtenues après le traitement du chromatogramme à l’aide du logiciel indiqué dans le tableau des matériaux. Le respect de ce protocole nous a permis de contourner les problèmes majeurs liés au traitement des données omiques, en particulier lors de la manipulation de grands ensembles d’échantillons. La procédure de normalisation permet de corriger avec précision les erreurs analytiques par lots, comme le montre la figure 3. Bien que l’augmentation du nombre d’échantillons de CQ augmenterait la puissance de la normalisation, cela n’est pas toujours réalisable en raison des contraintes de coût et de temps. Pour les GWAS métabolomiques à haut débit avec des caractéristiques métaboliques non ciblées, il est essentiel d’illustrer de manière appropriée un nombre plus élevé d’associations trait-marqueur. Une carte pléiotropique38 combinant plusieurs résultats GWAS pourrait être utilisée pour mettre en évidence les régions génomiques auxquelles plusieurs traits sont liés (Figure 4). Figure 1 : Organigramme du GWAS à base de métabolomique chez les plantes. Plusieurs étapes allant de la conception expérimentale jusqu’à la détection de QTL sont affichées dans le panneau de gauche. Dans le panneau de droite, plusieurs figures sont affichées pour prendre en charge plusieurs étapes mentionnées dans le panneau de gauche. En partant du haut à droite, (1) une séquence suggérée d’échantillons est montrée pour LC-MS, (2) des diagrammes de score pré- et post-normalisés de PCA, y compris une distribution représentative des caractéristiques avant et après le traitement, avec le rouge indiquant les intensités de l’échantillon QC, et (3) un diagramme de Manhattan avec des associations significatives auxquelles des distributions LD et haplotypes ont été générées. Abréviations : GWAS = études d’association à l’échelle du génome; QTL = loci de caractères quantitatifs; APC = analyse en composantes principales; QC = contrôle de la qualité; LD = déséquilibre de liaison; MS = spectrométrie de masse; LC-MS = chromatographie liquide-spectrométrie de masse; GC-MS = chromatographie en phase gazeuse-spectrométrie de masse; LOESS = lissage du nuage de points estimé localement; MLM/MLMM = modèle linéaire mixte/modèle mixte multi-locus. Veuillez cliquer ici pour voir une version agrandie de cette figure. Figure 2 : Traitement du chromatogramme. Deux chromatogrammes QC (pic de base; données lipidiques) de différents lots démontrent la variation par lot pour certaines classes de lipides dans les échantillons QC regroupés. Quatre grandes classes de lipides sont indiquées avec leurs fenêtres d’élution respectives dans le système LC-MS interne. Les chromatogrammes ont été exportés à partir de MzMine21. Abréviations : QC = contrôle de la qualité; LC-MS = chromatographie liquide-spectrométrie de masse. Veuillez cliquer ici pour voir une version agrandie de cette figure. Figure 3 : Correction d’une erreur systématique. Analyse en composantes principales des données lipidomiques acquises, pré- (gauche, données brutes) et post-correction pour les erreurs systémiques (droite, lœss de lot). Les panneaux inférieurs illustrent la distribution des caractéristiques (Cluster_00005) sur les échantillons (n = 650) et les lots (n = 10) avant (à gauche) et après (à droite) pour la variation analytique. Abréviations : APC = analyse en composantes principales; QC = contrôle de la qualité; LOESS = lissage du nuage de points estimé localement. Veuillez cliquer ici pour voir une version agrandie de cette figure. Figure 4 : Carte pléiotropique illustrant les résultats combinés du GWAS. La carte pléiotropique met en évidence des régions de l’ensemble du génome associées à plusieurs traits. Les chiffres sur les anneaux extérieurs indiquent les chromosomes correspondants. Chaque cercle représente un trait individuel avec ses SNP significativement associés. Les couleurs représentent différentes classes de composés (gris = classe de composé 1; vert = classe de composé 2; violet = classe de composé 3; jaune = classe de composé 4). Dans le cas d’associations de classes inter-composés avec la même région génomique, les gènes sont mis en évidence. Le cercle gris intérieur montre la somme de tous les SNP significatifs associés à une position génomique spécifique. Les associations présentées dans cette figure ne sont générées artificiellement qu’à titre d’illustration. Abréviations : GWAS = études d’association à l’échelle du génome; SNP = polymorphismes mononucléotidiques. Veuillez cliquer ici pour voir une version agrandie de cette figure. Paramètres UHPLC-MS pour les lipides Temps [min] Éluant A à B [%]* Information 0 – 1.00 45 % A Éluant A : 1 % 1 M NH 4-acétate, 0,1 % d’acide acétique dans l’eau (grade UHPLC) 1.00 – 4.00 lg 45% – 25% A Éluant B : 1 % 1 M NH 4-acétate, 0,1 % d’acide acétique dans l’acétonitrile/2-propanol 7:3 (grade UHPLC) 4.00 – 12.00 lg 25% – 11% A Débit : 400 μL/min 12.00 – 15.00 lg 11% – 0% A Volume d’injection : 2 μL 15.00 – 19.50 cw 0% A 19.50-19.51 0 % – 45 % A 19.51-24.00 eq 45% Paramètres UHPLC-MS/MS pour les métabolites polaires et semi-polaires Temps [min] Éluant a et b [%]* Information 0 – 1.00 99 % A Éluant A : 0,1 % d’acide formique dans l’eau (grade UHPLC) 1.00 – 11.00 lg 99% -60% A Éluant B : 0,1 % d’acide formique dans l’acétonitrile (grade UHPLC) 11.00 – 13.00 lg 60% – 30% A Débit : 400 μL/min 13.00 – 15.00 lg 30% – 1% A Volume d’injection: 3 μL 15.00 – 16.00 cw 1% A 16.00 – 17.00 lg 1% – 99% A 17.00 – 20.00 eq 99% A Paramètres GC-MS pour les métabolites dérivés Temps [min] Température [°C] Information 0 – 2.00 85 Gaz porteur : Hélium 2.00 – 18.66 lg 80 – 330 Débit : 2 mL/min 18.66 – 24.66 cw 330 Gradient de température : 15 °C/min 24.66 refroidissement rapide Volume d’injection : 1 μL Tableau 1 : Paramètres de gradient pour chacune des plates-formes analytiques7. Abréviations : lg = gradient linéaire ; cw = lavage de colonne; eq = équilibre; UHPLC-MS = chromatographie liquide ultra-haute performance-spectrométrie de masse; UHPLC-MS/MS = chromatographie liquide ultra-haute performance-spectrométrie de masse en tandem; GC-MS = chromatographie en phase gazeuse-spectrométrie de masse. * = la valeur en pourcentage correspond à l’éluant A; la valeur restante en pourcentage correspond à l’éluant B. Tableau supplémentaire 1 : Données lipidomiques brutes. Indique les intensités maximales de chacun des clusters détectés sur chaque échantillon. Veuillez cliquer ici pour télécharger ce tableau.

Discussion

GC-MS et LC-MS sont des outils largement utilisés pour profiler des mélanges complexes de diverses classes de métabolites. La manipulation de grands ensembles de données à l’aide de ces outils est intrinsèquement associée à une variation non biologique, p. ex. une variation analytique, qui interfère et biaise l’interprétation des résultats. Ce protocole présente un pipeline d’extraction robuste et à haut débit pour un profilage métabolique complet afin d’éliminer la variation d’origine non biologique et de mener des études « omiques » à grande échelle. Les volumes et les concentrations utilisés dans ce protocole ont été ajustés pour tenir compte des espèces de légumineuses dans différents tissus. Cependant, ces paramètres peuvent être légèrement modifiés et utilisés pour des échantillons métaboliques à grande échelle provenant d’autres espèces végétales.

Les15 extractions à base de MTBE décrites précédemment peuvent être utilisées pour analyser les métabolites dérivés, les métabolites semi-polaires et les lipides. Cela peut être étendu pour les extractions de protéines et d’hormones végétales39, qui étaient hors du champ d’application de ce protocole. D’autres protocoles d’extraction reposent sur des mélanges dichlorométhane:éthanol40,41. Parmi ces protocoles d’extraction, le protocole d’extraction MTBE:méthanol offre une alternative favorable et moins dangereuse aux protocoles d’extraction existants à base de chloroforme42 et n’aboutit pas à une pastille de protéine comme interphase entre les phases polaire et lipidique. En outre, les méthodes MTBE ont déjà été utilisées dans plusieurs études pour divers échantillons biologiques 43,44,45.

Ce protocole traite de plusieurs étapes cruciales qui pourraient entraîner des variations potentielles lors de la manipulation d’un grand nombre d’échantillons, par exemple lors de la récolte12,13, de l’extraction14, ainsi que de la randomisation46. De plus, il y a d’autres questions qui n’ont pas été abordées dans ce protocole et qui doivent être prises en compte pour assurer des données métabolomiques de haute qualité, par exemple l’effet de matrice et la suppression des ions14.

La puissance des méthodes de normalisation basées sur le CQ dépend intrinsèquement du nombre d’échantillons de CQ dans chaque lot. Comme mentionné précédemment, bien que l’augmentation du nombre augmenterait la puissance, la variation intra-lot des QC est relativement marginale par rapport à la variation inter-lots dans ces systèmes analytiques, comme illustré à la figure 3. Dans l’ensemble, il existe d’autres méthodes de normalisation basées sur le CQ, telles que l’élimination des erreurs systémiques à l’aide de la forêt aléatoire (SERRF), qui se sont avérées surpassant la plupart des autres méthodes de normalisation telles que le ratio par lots, la normalisation à l’aide d’une sélection optimale de plusieurs étalons internes (NOMIS) et la normalisation probabiliste du quotient (PQN)47 . Cependant, SERRF s’appuie sur plusieurs échantillons de CQ dans chaque lot, par exemple, un échantillon sur dix, ce qui n’est pas réalisable lors de la manipulation d’un grand nombre d’échantillons. Le principal avantage de la normalisation basée sur le CQ par rapport à d’autres méthodes basées sur des données ou des normes internes est qu’elle conserve la variation biologique essentielle tout en tenant compte de la variation technique indésirable28. Les lecteurs peuvent se référer à cette revue sur le traitement de la variation28.

L’un des principaux problèmes dans GWAS est le taux de faux positifs, qui provient principalement du lien entre les sites causaux et non causaux48,49. Deuxièmement, les approches de correction statistique conservatrices, par exemple Bonferroni et FDR, corrigent le nombre de tests indépendants, qui n’est pas égal au nombre de SNP analysés dans GWAS en raison du lien entre les SNP proches50,51 Par conséquent, le nombre réel de tests indépendants est souvent plus faible. Une autre façon de réduire le seuil statistique conservateur serait de réduire le nombre de SNP testés utilisés pour les GWAS en fonction de la désintégration des liens sur des régions génomiques définies52. La plate-forme métabolomique à haut débit intégrée à GWAS décrite dans ce protocole a un large éventail d’applications. En particulier, il facilitera l’amélioration de la sélection des cultures en modifiant la composition métabolite/lipidique pour les niveaux souhaités industriellement et nutritionnellement. Dans l’ensemble, la métabolomique a fourni un aperçu approfondi de l’architecture génétique d’une pléthore de métabolites et de la diversification métabolique qui s’est produite lors de la domestication des cultures au cours des dernières décennies, indiquant le vaste potentiel de la sélection associée à la métabolomique53. Les approches de biologie moléculaire pour la validation QTL en aval comprennent la génération de lignées mutantes CRISPR/Cas954, de lignées d’insertion d’ADN-T55, de lignes de surexpression stables et/ou transitoires56, de VIGS, d’approches métabolomiques ex vivo 57 à côté de l’approche conventionnelle pour générer des populations croisées F2 ainsi que la validation croisée dans différentes populations.

En effectuant la correction nécessaire pour les variations analytiques décrites ci-dessus, plusieurs approches intégrées peuvent être effectuées en plus des GWAS, telles que l’analyse de corrélation métabolite-métabolite, métabolite-lipide, l’analyse de corrélation aux données phénomiques pour faire la lumière sur des traits plus complexes et / ou l’analyse de co-expression pour démêler davantage la base des systèmes biologiques58.

Disclosures

The authors have nothing to disclose.

Acknowledgements

M.B. est soutenu par l’IMPRS-PMPG ‘Primary Metabolism and Plant Growth’. A.R.F. et S.A. reconnaissent le soutien financier du programme de recherche et d’innovation Horizon 2020 de l’UE, du projet PlantaSYST (SGA-CSA n° 739582 sous FPA n° 664620) et du projet INCREASE (GA 862862).

Materials

Reagents and standards
1,2-diheptadecanoyl-sn-glycero-3- phosphocholine (17:0 PC) Avanti Polar Lipids 850360P Internal standard for lipids
Chloroform Supleco 67-66-3 FAME solvent
Isovitexin Sigma Aldrich 38953-85-4 Internal standard for metabolites
Lignoceric Acid Methylester Sigma Aldrich 2442-49-1 FAME
Methanol (MeOH) Biosolve Chemicals 13684102 ULC-MS grade
Methoxyamin -hydrochlorid Sigma Aldrich 593-56-6 Metabolite deriviatization
Methyl laurate Sigma Aldrich 111-82-0 FAME
Methyl myristate Sigma Aldrich 124-10-7 FAME
Methyl palmitate Sigma Aldrich 112-39-0 FAME
Methyl stearate Sigma Aldrich 112-61-8 FAME
Methyl tert-butyl ether (MTBE) Biosolve Chemicals 13890602 HPLC grade
Methyl-caprat Sigma Aldrich 110-42-9 FAME
Methylcaprylat Sigma Aldrich 111-11-5 FAME
Methyldocosanoat Sigma Aldrich 929-77-1 FAME
Methyleicosanoat Sigma Aldrich 1120-28-1 FAME
Methyl-hexacosanoat Sigma Aldrich 5802-82-4 FAME
Methyl-octacosanoat Sigma Aldrich 55682-92-3 FAME
Methyl-pelargonate Sigma Aldrich 1731-84-6 FAME
N-Methyl-N-(trimethylsilyl)trifluoracetamid (MSTFA) Macherey-Nagel 24589-78-4 Metabolite deriviatization
Pyridine Supleco 110-86-1 Metabolite deriviatization
Ribitol Supleco 22566-17-2 Internal standard for derivatized metabolites
Triacontanoic Acid Methyl Ester TCI Chemicals 629-83-4 FAME
Water Biosolve Chemicals 23214102 ULC-MS grade
Equipment
1.5 mL Safe-lock microcentrifuge tubes Eppendorf 3120086
2 mL Safe-lock microcentrifuge tubes Eppendorf 3120094
Balance Sartorius Corporation 14 557 572
DB-35ms, 30 m, 0,25 mm, 0,25 µm Aglient 123-3832 Analysis of derivatized metabolites
GC-MS system Leco Pegasus HT TOF-MS (LECO Corporation) Analysis of derivatized metabolites
Grinding Balls, Stainless Steel OPS DIAGNOSTICS GBSS 196-2500-10
MS system Exactive, Orbitrap-type, MS (Exactive, Thermo Fisher Scientific) Analysis of lipids
MS system Q Exactive Focus (Q Exactive™ Focus Hybrid Quadrupol-Orbitrap™
Massenspektrometer, Thermo Fisher Scientific)
Analysis of metabolites
Refrigerated microcentrifuge Eppendorf, model 5427R 22620701
Reversed Phase (RP) Bridged Ethyl Hybrid (BEH) C8 column
(100 mm × 2.1 mm containing 1.7 μm diameter particles)
Waters 186002878 Analysis of lipids
RP High Strength Silica (HSS) T3 column
(100 mm × 2.1 mm containing 1.8 μm diameter particles)
Waters 186003539 Analysis of metabolites
Shaker Eppendorf Thermomixer 5436 2050-100-05
Sonicator USC 300 TH 142-0084
Tissue grinding mixer mill Retsch, Mixer Mill MM 300 20.746.0001
UPLC system Waters Acquity UPLC system (Waters)
Vacuum concentrator Scan Speed Maxi Vac Alpha Evaporators 7.008.500.002
Vortex mixer Vortex-Genie 2, Model G560 SI-0236
Software
MetAlign Chromatogram processing
MzMine Chromatogram processing
R package "data.table"
R package "fujiplot" pleiotrpoic map
R package "genetics"
R package "Ime4" BLUPs calculation
R package "LDheatmap" LD plots
R package "MASS" transformation
R package "rMVP" GWAS
R version 4.0.4
RefinerMS Chromatogram processing
RefinerMS Genedata Expressionist Chromatogram processing
Tassel 5 Genotype filtering
Xcalibur Thermo Fisher Scientific OPTON-30965 Chromatogram processing

References

  1. Doerr, A. Global metabolomics. Nature Methods. 14 (1), 32 (2017).
  2. Fessenden, M. Metabolomics: Small molecules, single cells. Nature. 540 (7631), 153-155 (2016).
  3. Oliver, S. G., Winson, M. K., Kell, D. B., Baganz, F. Systematic functional analysis of the yeast genome. Trends in Biotechnology. 16 (9), 373-378 (1998).
  4. Fiehn, O. Metabolomics-the link between genotypes and phenotypes. Plant Molecular Biology. 48 (1), 155-171 (2002).
  5. Wu, S., et al. Mapping the Arabidopsis metabolic landscape by untargeted metabolomics at different environmental conditions. Molecular Plant. 11 (1), 118-134 (2018).
  6. Sysi-Aho, M., Katajamaa, M., Yetukuri, L., Orešič, M. Normalization method for metabolomics data using optimal selection of multiple internal standards. BMC Bioinformatics. 8 (1), 93 (2007).
  7. Chen, M., Rao, R. S. P., Zhang, Y., Zhong, C. X., Thelen, J. J. A modified data normalization method for GC-MS-based metabolomics to minimize batch variation. SpringerPlus. 3 (1), 439 (2014).
  8. Dunn, W. B., et al. Metabolic profiling of serum using Ultra Performance Liquid Chromatography and the LTQ-Orbitrap mass spectrometry system. Journal of Chromatography B. 871 (2), 288-298 (2008).
  9. Fiehn, O., et al. Metabolite profiling for plant functional genomics. Nature Biotechnology. 18 (11), 1157-1161 (2000).
  10. vander Kloet, F. M., Bobeldijk, I., Verheij, E. R., Jellema, R. H. Analytical error reduction using single point calibration for accurate and precise metabolomic phenotyping. Journal of Proteome Research. 8 (11), 5132-5141 (2009).
  11. Folch, J., Lees, M., Stanley, G. H. S. A simple method for the isolation and purification of total lipides from animal tissues. Journal of Biological Chemistry. 226 (1), 497-509 (1957).
  12. Fukushima, A., et al. Impact of clock-associated Arabidopsis pseudo-response regulators in metabolic coordination. Proceedings of the National Academy of Sciences of the United States of America. 106 (17), 7251-7256 (2009).
  13. Kerwin, R. E., et al. Network quantitative trait loci mapping of circadian clock outputs identifies metabolic pathway-to-clock linkages in Arabidopsis. The Plant Cell. 23 (2), 471-485 (2011).
  14. Tohge, T., et al. From models to crop species: Caveats and solutions for translational metabolomics. Frontiers in Plant Sciences. 2, 61 (2011).
  15. Salem, M., Bernach, M., Bajdzienko, K., Giavalisco, P. A simple fractionated extraction method for the comprehensive analysis of metabolites, lipids, and proteins from a single sample. Journal of Visualized Experiments:JoVE. (124), e55802 (2017).
  16. Tohge, T., Fernie, A. R. Combining genetic diversity, informatics and metabolomics to facilitate annotation of plant gene function. Nature Protocols. 5 (6), 1210-1227 (2010).
  17. Lisec, J., Schauer, N., Kopka, J., Willmitzer, L., Fernie, A. R. Gas chromatography mass spectrometry-based metabolite profiling in plants. Nature Protocols. 1 (1), 387-396 (2006).
  18. Osorio, S., Do, P. T., Fernie, A. R., Hardy, N. W., Hall, R. D. . Plant Metabolomics: Methods and Protocols. , 101-109 (2012).
  19. De Vos, R. C. H., et al. Untargeted large-scale plant metabolomics using liquid chromatography coupled to mass spectrometry. Nature Protocols. 2 (4), 778-791 (2007).
  20. Perez de Souza, ., Alseekh, L., Naake, S., Fernie, T., A, Mass spectrometry-based untargeted plant metabolomics. Current Protocols in Plant Biology. 4 (4), 20100 (2019).
  21. Pluskal, T., Castillo, S., Villar-Briones, A., Orešič, M. MZmine 2: Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data. BMC Bioinformatics. 11 (1), 395 (2010).
  22. Watson, J. T., Sparkman, D. O. Electron Ionization. Introduction to mass spectrometry: Instrumentation, applications and strategies for data interpretation. , 315 (2007).
  23. Fernie, A. R., et al. Recommendations for reporting metabolite data. The Plant Cell. 23 (7), 2477 (2011).
  24. Treutler, H., et al. Discovering regulated metabolite families in untargeted metabolomics studies. Analytical Chemistry. 88 (16), 8082-8090 (2016).
  25. Wang, M., et al. Sharing and community curation of mass spectrometry data with Global Natural Products Social Molecular Networking. Nature Biotechnology. 34 (8), 828-837 (2016).
  26. Naake, T., Fernie, A. R. MetNet: Metabolite network prediction from high-resolution mass spectrometry data in R aiding metabolite annotation. Analytical Chemistry. 91 (3), 1768-1772 (2019).
  27. Chambers, J. M. . Statistical models in S. , (1991).
  28. Misra, B. B. Data normalization strategies in metabolomics: Current challenges, approaches, and tools. European Journal of Mass Spectrometry. 26 (3), 165-174 (2020).
  29. Livera, A. M. D., et al. Statistical methods for handling unwanted variation in metabolomics data. Analytical Chemistry. 87 (7), 3606-3615 (2015).
  30. Sakia, R. M. . The Box-Cox transformation technique: a review. 41 (2), 169-178 (1992).
  31. vanden Berg, R. A., Hoefsloot, H. C. J., Westerhuis, J. A., Smilde, A. K., vander Werf, M. J. Centering, scaling, and transformations: improving the biological information content of metabolomics data. BMC Genomics. 7, 142 (2006).
  32. Marees, A. T., et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. International Journal of Methods in Psychiatric Research. 27 (2), 1608 (2018).
  33. Torkamaneh, D., Laroche, J., Bastien, M., Abed, A., Belzile, F. Fast-GBS: a new pipeline for the efficient and highly accurate calling of SNPs from genotyping-by-sequencing data. BMC Bioinformatics. 18 (1), 5 (2017).
  34. Zhao, S., Agafonov, O., Azab, A., Stokowy, T., Hovig, E. Accuracy and efficiency of germline variant calling pipelines for human genome data. Scientific Reports. 10 (1), 20222 (2020).
  35. Bradbury, P. J., et al. TASSEL: software for association mapping of complex traits in diverse samples. Bioinformatics. 23 (19), 2633-2635 (2007).
  36. Bates, D., Mächler, M., Bolker, B., Walker, S. Fitting linear mixed-effects models using lme4. Journal of Statistical Software. 67 (1), (2015).
  37. Yin, L., et al. rMVP: A memory-efficient, visualization-enhanced, and parallel-accelerated tool for genome-wide association study. Genomics, Proteomics & Bioinformatics. , (2021).
  38. Kanai, M., et al. Genetic analysis of quantitative traits in the Japanese population links cell types to complex human diseases. Nature Genetics. 50 (3), 390-400 (2018).
  39. Salem, M. A., et al. An improved extraction method enables the comprehensive analysis of lipids, proteins, metabolites and phytohormones from a single sample of leaf tissue under water-deficit stress. Plant Journal: for Cell and Molecular Biology. 103 (4), 1614-1632 (2020).
  40. Balcke, G. U., et al. Multi-omics of tomato glandular trichomes reveals distinct features of central carbon metabolism supporting high productivity of specialized metabolites. The Plant Cell. 29 (5), 960-983 (2017).
  41. Leonova, T., et al. Does protein glycation impact on the drought-related changes in metabolism and nutritional properties of mature pea (Pisum sativum L.) seeds. International Journal of Molecular Sciences. 21 (2), 567 (2020).
  42. Alfonsi, K., et al. chemistry tools to influence a medicinal chemistry and research chemistry based organisation. Green Chemistry. 10 (1), 31-36 (2008).
  43. Bozek, K., et al. Organization and evolution of brain lipidome revealed by large-scale analysis of human, chimpanzee, macaque, and mouse tissues. Neuron. 85 (4), 695-702 (2015).
  44. Delgado, R., Muñoz, Y., Peña-Cortés, H., Giavalisco, P., Bacigalupo, J. Diacylglycerol activates the light-dependent channel TRP in the photosensitive microvilli of Drosophila melanogaster photoreceptors. The Journal of Neuroscience. 34 (19), 6679 (2014).
  45. Sharma, D. K., et al. UPLC-MS analysis of Chlamydomonas reinhardtii and Scenedesmus obliquus lipid extracts and their possible metabolic roles. Journal of Applied Phycology. 27 (3), 1149-1159 (2015).
  46. Dunn, W. B., Wilson, I. D., Nicholls, A. W., Broadhurst, D. The importance of experimental design and QC samples in large-scale and MS-driven untargeted metabolomic studies of humans. Bioanalysis. 4 (18), 2249-2264 (2012).
  47. Fan, S., et al. Systematic error removal using random forest for normalizing large-scale untargeted lipidomics data. Analytical Chemistry. 91 (5), 3590-3596 (2019).
  48. Larsson, S. J., Lipka, A. E., Buckler, E. S. Lessons from Dwarf8 on the strengths and weaknesses of structured association mapping. PLOS Genetics. 9 (2), 1003246 (2013).
  49. Platt, A., Vilhjálmsson, B. J., Nordborg, M. Conditions under which genome-wide association studies will be positively misleading. Genetics. 186 (3), 1045-1052 (2010).
  50. Nyholt, D. R. A simple correction for multiple testing for single-nucleotide polymorphisms in linkage disequilibrium with each other. American Journal of Human Genetics. 74 (4), 765-769 (2004).
  51. Teo, Y. Y. Common statistical issues in genome-wide association studies: a review on power, data quality control, genotype calling and population structure. Current Opinion in Lipidology. 19 (2), 133-143 (2008).
  52. Privé, F., Aschard, H., Ziyatdinov, A., Blum, M. G. B. Efficient analysis of large-scale genome-wide data with two R packages: bigstatsr and bigsnpr. Bioinformatics. 34 (16), 2781-2787 (2018).
  53. Alseekh, S., et al. Domestication of crop metabolomes: desired and unintended consequences. Trends in Plant Science. 26 (6), 650-661 (2021).
  54. Yano, K., et al. GWAS with principal component analysis identifies a gene comprehensively controlling rice architecture. Proceedings of the National Academy of Sciences of the United States of America. 116 (42), 21262 (2019).
  55. Wu, S., et al. Mapping the Arabidopsis metabolic landscape by untargeted metabolomics at different environmental conditions. Molecular Plant. 11 (1), 118-134 (2018).
  56. Ye, J., et al. An InDel in the promoter of Al-ACTIVATED MALATE TRANSPORTER9 selected during tomato domestication determines fruit malate contents and aluminum tolerance. The Plant Cell. 29 (9), 2249-2268 (2017).
  57. Zhang, W., et al. Genome assembly of wild tea tree DASZ reveals pedigree and selection history of tea varieties. Nature Communications. 11 (1), 3719 (2020).
  58. Tohge, T., Fernie, A. R. Annotation of plant gene function via combined genomics, metabolomics and informatics. Journal of Visualized Experiments: JoVE. (64), e3487 (2012).

Play Video

Cite This Article
Bulut, M., Fernie, A. R., Alseekh, S. Large-Scale Multi-Omics Genome-Wide Association Studies (Mo-GWAS): Guidelines for Sample Preparation and Normalization. J. Vis. Exp. (173), e62732, doi:10.3791/62732 (2021).

View Video