Summary

Large-scale Multi-omics Genome-wide Association Studies (Mo-GWAS): Richtlinien für die Probenvorbereitung und Normalisierung

Published: July 27, 2021
doi:

Summary

In diesem Protokoll stellen wir einen optimierten Workflow vor, der eine effiziente und schnelle Probenvorbereitung vieler Proben kombiniert. Darüber hinaus bieten wir eine Schritt-für-Schritt-Anleitung zur Reduzierung analytischer Variationen für die Hochdurchsatzbewertung metabolischer GWAS-Studien.

Abstract

Sowohl die Gaschromatographie-Massenspektrometrie (GC-MS) als auch die Flüssigkeitschromatographie-Massenspektrometrie (LC-MS) sind weit verbreitete Metabolomik-Ansätze zum Nachweis und zur Quantifizierung von Hunderttausenden von Metabolitenmerkmalen. Die Anwendung dieser Techniken auf eine große Anzahl von Proben unterliegt jedoch komplexeren Wechselwirkungen, insbesondere bei genomweiten Assoziationsstudien (GWAS). Dieses Protokoll beschreibt einen optimierten Stoffwechselablauf, der eine effiziente und schnelle Probenvorbereitung mit der Analyse einer großen Anzahl von Proben für Hülsenfrüchtearten kombiniert. Diese leicht modifizierte Extraktionsmethode wurde ursprünglich für die Analyse von pflanzlichen und tierischen Geweben entwickelt und basiert auf der Extraktion in Methyl-tert-butylether: Methanollösungsmittel, um den Einfang von polaren und Lipidmetaboliten zu ermöglichen. Darüber hinaus bieten wir eine Schritt-für-Schritt-Anleitung zur Reduzierung analytischer Variationen, die für die Hochdurchsatzbewertung der metabolischen Varianz in GWAS unerlässlich sind.

Introduction

Groß angelegte “Omics”-Ansätze haben die Analyse komplexer biologischer Systeme 1,2,3 und ein besseres Verständnis der Verbindung zwischen Genotypen und den resultierenden Phänotypen 4 ermöglicht. Die Metabolomik mit ultrahochleistungsfähiger Flüssigkeitschromatographie-Massenspektrometrie (UHPLC-MS) und GC-MS ermöglichte den Nachweis einer Vielzahl von Metabolitenmerkmalen, von denen nur einige bis zu einem gewissen Grad annotiert sind, was zu einem hohen Anteil unbekannter Metaboliten führte. Komplexe Wechselwirkungen können untersucht werden, indem großflächige Metabolomik mit der zugrunde liegenden genotypischen Variation einer vielfältigen Populationkombiniert wird 5. Die Handhabung großer Probensätze ist jedoch inhärent mit analytischen Variationen verbunden, was die Bewertung der metabolischen Varianz für weitere nachgelagerte Prozesse verzerrt. Insbesondere basieren die Hauptprobleme, die zu analytischen Variationen führen, auf der Maschinenleistung und der instrumentellen Drift im Laufe der Zeit6. Die Integration von Batch-to-Batch-Variationen ist eine Herausforderung und besonders problematisch bei der Analyse großflächiger strukturierter Pflanzenpopulationen. Es wurden mehrere Normalisierungsverfahren vorgeschlagen, um nicht-biologische Variationen zu korrigieren, z. B. die Verwendung interner, externer und isotopenmarkierter interner Standards, um analytische Fehler zu korrigieren, von denen jeder von Natur aus mit bekannten Problemen und Fallstricken verbunden ist 7,8,9,10.

Neben der analytischen Variation variiert die Wahl der Extraktionsprotokolle im Allgemeinen je nach Analysemethode. Letztendlich ist es wünschenswert, die Material- und Arbeitskosten sowie die Notwendigkeit, mehrere Aliquots derselben Probe für verschiedene analytische Prozesse zu verwenden, durch die Durchführung von phasentrennungsbasierten Extraktionsmethoden zu reduzieren. Diese Methoden wurden zuerst unter Verwendung von Chloroform eingeführt: Methanol / Wasserlösungsmittel zur Fraktionierung polarer und hydrophober Verbindungen11.

Dieses Protokoll beschreibt eine schnelle Hochdurchsatzpipeline für eine Multi-Omics-Plattform, um sowohl polare Metaboliten als auch Lipide in Hülsenfrüchten zu profilieren. Darüber hinaus wird gezeigt, wie diese Datensätze für analytische Variationen angemessen korrigiert und normalisiert werden können, bevor genotypische Informationen integriert werden, um quantitative Merkmalsloci (QTL) von Metaboliten durch die Durchführung von GWAS zu erkennen.

Protocol

1. Versuchsplanung und Pflanzenbau HINWEIS: Richten Sie das Experiment in Abhängigkeit von der experimentellen Hypothese ein, z. B. verringert die Verwendung einer groß angelegten GWAS-Population die Notwendigkeit mehrerer Replikate, da statistische Tests auf der Grundlage der Haplotypen aller einzelnen SNPs anstelle der Progression durchgeführt werden. Im Gegensatz dazu sind mehrere Replikate in anderen experimentellen Ansätzen unverzichtbar. Die folgenden Punkte müssen bei der Vorbereitung des Experiments berücksichtigt werden. Fügen Sie genügend biologische Replikate hinzu, abhängig von der experimentellen Hypothese. Randomisieren Sie die biologischen Replikate blockweise, um lokale Umweltverzerrungen während des Anbaus zu reduzieren, z. B. Treibhaus, Feld. Stellen Sie sicher, dass die Pflanze während des Wachstums ordnungsgemäß gewartet wird. Behandeln Sie Pflanzen homogen, um Verzerrungen zu reduzieren. 2. Aufbereitung von biologischem Pflanzenmaterial Erntevorbereitung Etikettenernteröhrchen (20 ml) mit zwei Metallperlen mit einem Durchmesser von 5 mm und zwei Metallperlen mit einem Durchmesser von 8 mm zum Homogenisieren. Füllen Sie einen Dewar mit flüssigem Stickstoff auf.HINWEIS: Pflanzen sollten sich im vegetativen Stadium für die Ernte von frischem Blatt- und Wurzelgewebe befinden. Biologische Proben durch Schockgefrieren in flüssigem Stickstoff ernten. Ernte so schnell wie möglich, um den Einfluss der zirkadianen Oszillation auf den Stoffwechsel während längerer Erntedauern auszuschließen12,13. Lagern Sie das geerntete frische Blatt- und Wurzelgewebe zur Weiterverarbeitung bei -80 °C.HINWEIS: Das Schneiden von Blättern bis zum Einfrieren sollte nicht länger als ein paar Sekunden dauern, da nach der Blattspaltung aktive biologische Prozesse die Stoffwechselprofile aufgrund von Wunden verändern würden. Bei Wurzeln die Wurzeln vorreinigen, indem Sie sie vor dem Einfrieren in flüssigem Stickstoff mit Wasser waschen. Überschüssiges Wasser auf der Wurzeloberfläche sollte mit Papiertaschentuch aufgesaugt werden. Getrocknete Samen können bei Raumtemperatur gelagert werden; Es ist kein Einfrieren in flüssigem Stickstoff erforderlich. Mahlen Sie das Gewebe mit einer Tissue-Mixer-Mühle. Kühlen Sie die Röhrchenhalter für einige Minuten in flüssigem Stickstoff vor, um beim Mahlen des Gewebes eine niedrige Temperatur aufrechtzuerhalten. Transportieren Sie die biologischen Proben in einem stickstoffhaltigen Dewar, nachdem sie aus dem -80 °C Gefrierschrank entnommen wurden. Mahlen Sie die Gewebe, um homogenes Pulver zu erhalten; Verwenden Sie 25 Hz für 1 min und wiederholen Sie nach dem Einfrieren in flüssigem Stickstoff, wenn das Gewebe nicht homogen gemahlen ist. Zum Mahlen von getrockneten Samen die Samen in ein Mahlglas mit einer Metallperle mit einem Durchmesser von 15 mm geben. Verwenden Sie die gleiche Frequenz und Zeit wie in 2.3.3 erwähnt.HINWEIS: Saubere und vorgekühlte Mörser und Stößel können verwendet werden, wenn keine Tissue-Mixer-Mühle verfügbar ist. Vorkühl beschriftete 2 mL Safe-Lock Mikrozentrifugenröhrchen. Wiegen Sie 50 mg mit einem Fehler von ±5 mg frischem Pflanzenmaterial unter Verwendung einer analytischen Waage. Vorkühlen Sie die Werkzeuge, die zum Übertragen von Pflanzenmaterial in flüssigem Stickstoff verwendet werden. Stellen Sie sicher, dass das Pflanzenmaterial während des Wiegevorgangs gefroren bleibt.HINWEIS: Setzen Sie frisches Pflanzenmaterial nicht zu lange der Raumtemperatur aus, da biologische Prozesse durch Temperaturerhöhung aktiviert werden, wodurch die Stoffwechselprofile verändertwerden 14. Generieren Sie zusätzliche Qualitätskontrollproben (QC), indem Sie einen Anteil jeder Probe zusammenlegen und 50 mg mit einem Fehler von ±5 mg gepooltem Frischpflanzenmaterial in vorgekühlte 2-ml-Safe-Lock-Mikrozentrifugenröhrchen wiegen.HINWEIS: Pro 60 Proben werden mindestens drei QC-Proben empfohlen. Die QC-Proben sind für die nachgelagerte Korrektur, Normalisierung und Analyse unerlässlich. 3. Extraktionsreagenzien Frisches Gewebe, z.B. Blätter und WurzelnHINWEIS: Die Probenextraktion basiert auf einem zuvor beschriebenen Protokoll15. Dieses Protokoll wurde auf der Grundlage der aktuellen Bedürfnisse modifiziert, z. B. mehrerer Gewebe, verschiedener interner Standards und groß angelegter Experimente. Zusätzlich werden alle unten genannten Volumina und Geräteeinstellungen an hauseigene Analyseeinheiten angepasst. Protokollbenutzer sollten diese entsprechend ihrer Analyseeinheit und biologischen Proben auf der Grundlage von Testproben anpassen. Extraktionsgemisch 1 (EM1): Methyltert-butylether (MTBE)/Methanol (MeOH) (3:1 v/v) Bereiten Sie eine Mischung aus MTBE/MeOH im Verhältnis 3:1 vor. Für 100 ml Extraktionslösungsmittel mischen Sie 75 ml MTBE mit 25 ml MeOH in einer sauberen Glasflasche.HINWEIS: Lösungsmittel sollten vorsichtig im Abzug mit der richtigen Sicherheitsausrüstung gehandhabt werden. 45 μL 1,2-Diheptadecanoyl-sn-glycero-3-phosphocholin (1 mg/ml in Chloroform) als internen Standard für die UHPLC-MS-basierte Lipidanalyse, 400 μL Ribitol (1 mg/ml in Wasser) als internen Standard für die GC-MS-basierte Analyse und 125 μL Isovitexin (1 mg/ml in MeOH/Wasser (1:1 v/v)) für die UHPLC-MS-basierte Metabolitenanalyse hinzufügen.HINWEIS: Die Hinzufügung interner Standards ist für die Normalisierung nach der Analyse entsprechend den analytischen Anforderungen erforderlich. Da für jede Probe 1 ml EM1 benötigt wird, bereiten Sie eine Stammlösung entsprechend der experimentellen Probengröße vor, die für das gesamte Experiment verwendet werden sollte. EM1 muss bei -20 °C gelagert werden. Überprüfen Sie, ob der verwendete interne Standard fehlt und sich mit anderen Verbindungen in den untersuchten Spezies überschneidet. Mehrere Standards können verwendet werden; Die Auswahl der internen Standards in diesem Protokoll basierte auf früheren Tests mit gängigen Bohnenextrakten16. Extraktionsgemisch 2 (EM2) Wasser/ Methanol (MeOH) (3:1 v/v) Für 100 ml EM2 fügen Sie 75 ml doppelt destilliertes Wasser und 25 ml MeOH in eine saubere Glasflasche hinzu. Fügen Sie 500 μL EM2 pro Probe hinzu und bereiten Sie eine Stammlösung entsprechend der experimentellen Probengröße vor, die für das gesamte Experiment verwendet werden sollte. EM2 bei 4 °C lagern. Getrocknete Samen Extraktionsgemisch 3 (EM3) Methanol (MeOH)/ Wasser (7:3 v/v) Für 100 ml EM3 fügen Sie 70 ml MeOH und 30 ml doppelt destilliertes Wasser in eine saubere Glasflasche hinzu. Bereiten Sie 1 ml EM3 für jede Probe vor. 400 μL Ribitol (1 mg/ml in Wasser) als interne Standards für die GC-MS-basierte Analyse und 125 μL Isovitexin (1 mg/ml in MeOH/Wasser (1:1 v/v)) für die UHPLC-MS-basierte Metabolitenanalyse hinzufügen.HINWEIS: Bereiten Sie eine Stammlösung entsprechend der experimentellen Stichprobengröße vor und verwenden Sie sie für das gesamte Experiment. EM3 bei 4 °C lagern. 4. Probenextraktion Frisches Gewebe, z.B. Blätter und Wurzeln Bereiten Sie drei 1,5-ml-Safe-Lock-Mikrozentrifugenröhrchen für jede Probe vor. Bewahren Sie EM1 in einem Flüssigkeitskühlsystem von -20 °C auf. Die frischen Proben aus dem -80 °C Gefrierschrank zum Transport in Trockeneis oder flüssigen Stickstoff überführen. Fügen Sie 1 ml vorgekühltes EM1 zu jedem 50 mg Aliquot und Vortex kurz hinzu, bevor Sie es auf Eis halten. Die Proben werden auf einem Orbitalschüttler bei 800 × g für 10 min bei 4 °C inkubiert. Beschallen Sie die Proben in einem eisgekühlten Beschallungsbad für 10 min. Fügen Sie 500 μL EM2 mit einer Mehrkanalpipette hinzu, um Schwankungen des hinzugefügten Volumens zu vermeiden. Die Proben werden kurz umgeleitet, um die Extraktionsgemische zu mischen, bevor sie bei 11.200 × g für 5 min bei 4 °C zentrifugieren. Nach der Phasentrennung werden 500 μL der oberen lipidhaltigen Phase in ein vormarkiertes 1,5 mL Safe-Lock-Mikrozentrifugenröhrchen überführt. Entfernen Sie den Rest der oberen Phase.HINWEIS: Seien Sie vorsichtig beim Übertragen, da diese obere Phase einen hohen Dampfdruck hat und dazu neigt, aus der Pipette auszutreten. Transfer von 150 μL und 300 μL der unteren polaren und semipolaren metabolitenhaltigen Phasen in zwei 1,5 mL Safe-Lock-Mikrozentrifugenröhrchen, die für die GC-MS- bzw. UHPLC-MS-Analyse verwendet werden. Konzentrieren Sie alle extrahierten Fraktionen, indem Sie die Lösungsmittel ohne Erwärmung mit einem Vakuumkonzentrator verdampfen lassen und bei -80 °C lagern. Getrocknete Samen Bereiten Sie zwei 1,5-ml-Safe-Lock-Mikrozentrifugenröhrchen für jede Probe vor. Halten Sie EM3 auf Eis. Legen Sie eine Metallperle mit einem Durchmesser von 5 mm in die Probe Aliquots. Fügen Sie 1 ml EM3 in jeweils 50 mg Aliquot hinzu und homogenisieren Sie die Proben bei 25 Hz für 2-3 Minuten, bevor Sie sie auf Eis legen. Beschallen Sie die Proben in einem eisgekühlten Beschallungsbad für 10 min. Die Proben werden kurz vor dem Zentrifugieren bei 11.200 × g für 5 min bei 4 °C vorgewirbelt. Übertragen Sie 150 μL und 300 μL des Überstands in zwei 1,5 ml Safe-Lock-Mikrozentrifugenröhrchen, die für die GC-MS- bzw. UHPLC-MS-Analyse verwendet werden. Konzentrieren Sie alle extrahierten Fraktionen, indem Sie die Lösungsmittel ohne Erwärmung mit einem Vakuumkonzentrator verdampfen lassen und bei -80 °C lagern.HINWEIS: Basierend auf den Erfahrungen wird den Benutzern empfohlen, Schritt 4.2 für die Analyse von semipolaren Metaboliten und derivatisierten Metaboliten in getrockneten Samen durchzuführen. Führen Sie den Extraktionsschritt 4.1 für die Lipidanalyse von getrockneten Samen durch. 5. Analyse von Lipiden mittels UHPLC-MS Die getrockneten Lipidfraktionen werden in 250 μL Acetonitril:2-propanol (7:3, vol/vol) wieder suspendiert. Beschallung der Lipidphase für 5 min, Zentrifuge bei 11.200 × g für 1 min. Übertragen Sie 90 μL des Überstands auf ein Glasfläschchen für LC-MS. Injizieren Sie 2 μL der Extrakte in die LC-MS. Führen Sie eine Lipidfraktionierung an einer umgekehrtenC8-Säule durch, die bei 60 °C bei einem Durchfluss von 400 μL/min mit allmählichen Änderungen des Elutionsmittels A und B gehalten wird, wie in Tabelle 1 dargestellt. Erfassen Sie die Massenspektren im positiven Ionisationsmodus mit einem Massenbereich von 150-1.500 m/z. Schließen Sie mehrere QC-Proben in alle täglichen Chargen und einen Rohling ein, um eine Korrektur für analytische Variationen zu gewährleisten. Randomisieren Sie Stichproben blockweise in sequenzieller Reihenfolge. 6. Analyse von polaren und semipolaren Metaboliten mittels UHPLC-MS Schwebe die getrocknete polare Phase in 180 μL UHPLC-Methanol: Wasser (1:1 v/v). Beschallen Sie die polare Phase für 2 min, zentrifugieren Sie bei 11.200 × g für 1 min. Übertragen Sie 90 μL des Überstands auf ein Glasfläschchen für LC-MS. Injizieren Sie 3 μL der Extrakte in die LC-MS. Die Metabolitenfraktionierung erfolgt an einer Wirbelsäule der umgekehrten Phase C18, die bei 40 °C bei einem Durchfluss von 400 μL/min gehalten wird, mit allmählichen Änderungen des Elutionsmittels A und B, wie in Tabelle 1 dargestellt. Erfassen Sie die Massenspektren in einem Massenbereich von 100-1.500 m/z in einem vollständigen MS-Scan und der gesamten Ionenfragmentierung (AIF), die durch hochenergetische Kollisionsdissoziation (HCD) von 40 keV induziert wird.HINWEIS: Verwenden Sie beide Ionisationsmodi. Aufgrund der begrenzten Kapazität bei einer großen Anzahl von Proben sollten Sie jedoch Testproben in beiden Ionisationsmodi ausführen, um den bevorzugten Ionisationsmodus zu bestimmen. Schließen Sie mehrere QC-Proben in alle täglichen Chargen und einen Rohling ein, um eine Korrektur für analytische Variationen zu gewährleisten. Randomisieren Sie Stichproben blockweise in sequenzieller Reihenfolge. Führen Sie eine gepoolte QC im datenabhängigen MS2 sowohl im negativen als auch im positiven Ionisationsmodus aus. Die erhaltenen Massenspektren werden in einem späteren Schritt (8.5) zur Annotation verwendet. 7. Analyse derivatisierter Metaboliten mittels GC-MS17,18 HINWEIS: Die Analyse von derivatisierten Metaboliten basiert auf einem zuvor beschriebenen Protokoll17. Behandeln Sie alle Derivatisierungsreagenzien im Abzug. Stellen Sie sicher, dass N-Methyl-N-(Trimethylsilyl)trifluoracetamid (MSTFA) nicht mit Wasser und Feuchtigkeit in Berührung kommt. Derivatisierungsreagenz 1 (DR1) Methoxyaminhydrochlorid in Pyridin auflösen, um eine Konzentration von 30 mg/ml DR1 zu erhalten. Verwenden Sie 40 μL DR1 für jede Probe. Bereiten Sie eine Lagerlösung entsprechend der Stichprobengröße vor und lagern Sie sie bei Raumtemperatur. Derivatisierungsreagenz 2 (DR2) MSTFA mit 20 μL Fettsäuremethylestern (FAMEs) pro 1 ml MSTFA auflösen. Verwenden Sie 70 μL DR2 für jede Probe. Bereiten Sie eine Stammlösung entsprechend dem Stichprobenumfang vor. Lagern Sie MSTFA bei 4 °C und die FAMEs bei -20 °C.HINWEIS: FAMEs umfassen Methylcaprylat, Methylpelargonat, Methylcaprat, Methyllaurat, Methylmyristat, Methylpalmitat, Methylstearat, Methyleicosanoat, Methyldocosanoat, Lignocersäuremethylester, Methylhexacosanoat, Methyloctacosanoat und Triacontansäuremethylester, die inCHCl 3 in einer Konzentration von 0,8 μL / ml bzw. 0,4 mg / ml für flüssige oder feste Standards gelöst sind. Trocknen Sie das Pellet aus der polaren Phase (gelagert bei -80 °C) mit einem Vakuumkonzentrator für 30 Minuten erneut, um Interferenzen vonH2Owährend der Lagerung mit den für die nachgeschaltete Derivatisierung verwendeten Lösungsmitteln zu vermeiden. 40 μL DR1 hinzufügen. Schütteln Sie die Proben bei 950 × g für 2 h bei 37 °C mit einem Orbitalschüttler, gefolgt von einem kurzen Spin-Down der Flüssigkeit. 70 μL DR2 hinzufügen. Mit einem Orbitalschüttler erneut bei 950 × g für 30 min bei 37 °C schütteln. Kurz bei Raumtemperatur zentrifugieren, bevor 90 μL in Glasfläschchen für die GC-MS-Analyse überführt werden. Injizieren Sie 1 μL in den GC-MS-Splitless-Modus, abhängig von den Metabolitenkonzentrationen, mit einem konstanten Heliumträgergasfluss von 2 ml/min. Die Einspritztemperatur wird mit einer 30-m-Kapillarsäule MDN-35 auf 230 °C eingestellt.HINWEIS: Weitere Informationen, z. B. Temperaturgradienten, finden Sie in Tabelle 1. Der Massenbereich ist auf 70-600 m/z mit 20 Scans/min eingestellt. Fügen Sie Split-Modi hinzu, um die Quantifizierung von mutmaßlichen Überlastungsverbindungen zu ermöglichen und in solchen Fällen Kosten und Zeit für die Re-Derivatisierung von Extrakten zu sparen. Schließen Sie mehrere QC-Proben in alle täglichen Chargen und einen Rohling ein, um eine Korrektur für analytische Variationen zu gewährleisten. Randomisieren Sie Stichproben ordnungsgemäß blockweise in sequenzieller Reihenfolge. 8. Chromatogrammverarbeitung und zusammengesetzte Annotation Filtern Sie chemisches Rauschen, indem Sie Intensitätsschwellenwerte definieren. Schließen Sie alle QC-Proben ein, während Sie die Chromatogramme verarbeiten.HINWEIS: Bei umfangreichen Daten ist die Rauschfilterung entscheidend, um die Rechenzeit und die Verarbeitungsleistung zu verringern. Richten Sie die Chromatogramme aus, indem Sie ein Aufbewahrungszeitverschiebungsfenster definieren. Überprüfen Sie die Chromatogramme aus jeder Charge, um die Intra- und Inter-Batch-Variation zu beurteilen. Führen Sie eine Peak-Erkennung in Abhängigkeit von der Peak-Form durch, z. B. Höhe und Breite für FWHM-Berechnungen (Full Width at Half-Maximum). Cluster-Isotope, um redundante Signale zu reduzieren und Singletons herauszufiltern.HINWEIS: Weitere Informationen zur Software, die für die Chromatogrammverarbeitung verwendet wird, finden Sie in der Materialtabelle. Ausführliche Protokolle zur Verarbeitung von Chromatogrammen mit verschiedenen frei verfügbaren Software-Tools, z.B. MS-DIAL, MetAlign, MzMine und Xcalibur 19,20,21, werden bereitgestellt. Verwenden Sie die ddMS2-Daten eines gepoolten QC-Beispiels für die zusammengesetzte Annotation. Beurteilen Sie die molekulare Struktur durch Bestimmung der monoisotopischen Masse und unter Beobachtung gemeinsamer neutraler Verluste, bekannter geladener Aglycone und verschiedener Arten von Spaltungen, z. B. homolytisch oder heterolytisch16,22. Für die Meldung von Metabolitendaten befolgen Sie die in Fernie et al.2011 23 beschriebene Empfehlung.HINWEIS: Verschiedene computergestützte Metabolomik-Ansätze können verwendet werden, um Metabolomik-Daten24,25,26 zu analysieren. 9. Normalisierung eines großflächigen Metabolomik-Datensatzes Überprüfen Sie die Verteilung der internen Standards und normalisieren Sie sie, indem Sie die Reaktion einzelner oder mehrerer interner Standards korrigieren. Die aus dem Chromatogramm erhaltenen Spitzenintensitäten über das genaue Probengewicht werden korrigiert, indem die Spitzenintensitäten durch das aliquotierte homogenisierte Probengewicht aus Schritt 2.5 dividiert werden. Korrigieren Sie die Intensitätsdrift über Multi-Batch-Serien hinweg. Führen Sie QC-basierte Korrekturmethoden wie lokal geschätzte Streudiagrammglättung (LOESS)27 mit R durch.HINWEIS: Es stehen mehrere Tools und Pakete zur Verfügung, um die Drift der MS-Leistung während der Übernahme der gesamten Chargen28,29 zu beheben. Stellen Sie die Normalverteilung von Merkmalen durch Datentransformation sicher, z. B. Box-Cox-Transformation30 mit der Boxcox-Funktion () aus dem R-Paket MASS zur Durchführung von GWAS. Führen Sie Datenskalierungen, z. B. Pareto-Skalierung, für multivariate Analysen durch, um ein ordnungsgemäßes Wiegen von Verbindungen mit geringer Häufigkeitsicherzustellen 31.HINWEIS: Wenn möglich, führen Sie einen Erholungsassay durch, um Matrixeffekte zu vermeiden, z. B. Ionenunterdrückung14. 10. Genomweite Assoziationsstudien (GWAS)32 Rufen Sie Einzelnukleotidpolymorphismus (SNP) oder Strukturvarianten (SV) aus den Sequenzierungsdaten33,34 auf. Filtern Sie genotypische Daten für die Nebenallelfrequenz (MAF) 10%, um niederfrequente Verzerrungen mit Tassel35 zu vermeiden. Berechnen Sie die besten linearen unverzerrten Vorhersagen (BLUPs) für jedes normalisierte Merkmal über die experimentellen Wiederholungen, um Verzerrungen zu eliminieren, die von Umweltfaktoren (zufällige Effekte) ausgehen, indem Sie das R-Paket Ime436 verwenden. Verwenden Sie BLUPs jeder Funktion einzeln, um GWAS mit dem rMVP-Paket in R37 durchzuführen.HINWEIS: Jedes Metabolomics-Merkmal wird hier als individueller eigenständiger Phänotyp betrachtet. Korrigieren Sie bei der Durchführung von GWAS die Populationsstruktur mithilfe der Hauptkomponentenanalyse (PCA) und der Identität nach Staat (IBS) oder vanRaden, um Störeffekte zu minimieren. Erwägen Sie außerdem die Verwendung eines gemischten linearen Modells (MLM) oder eines gemischten Mehrlokusmodells (MLMM), da gemischte Modelle feste und zufällige Effekte enthalten. 11. QTL-Erkennung Überprüfen Sie die SNPs, die eine signifikante Assoziation zeigen, unter Berücksichtigung der Manhattan-Plots, für Verknüpfungsungleichgewichtsberechnungen (LD), um die zugrunde liegende genetische Region zu bestimmen. Führen Sie LD-Berechnungen mit der LD-Heatmap des R-Pakets oder Tassel 5 durch. Überprüfen Sie die zugehörigen SNPs auf die Effektgröße über das Merkmal, indem Sie die Merkmalsniveaus auf statistische Veränderungen zwischen Haplotypen untersuchen, um potenzielle kausale SNPs zu finden, z. B. SNPs, die zu einer Aminosäureänderung in der proteinkodierenden Sequenz führen, was die phänotypische Variation erklären könnte.HINWEIS: Da S-NP-Merkmalsassoziationennicht unbedingt zu einer kausalen Assoziation führen, ist es entscheidend, die genomische Region zu bestimmen. Die Verbindung der Identität durch Merkmalsannotation kann immens dazu beitragen, die richtigen Kandidatengene in einer bestimmten genomischen Region zu finden. Wir schlagen vor, alle nachgewiesenen QTL, die mit bestimmten Verbindungen assoziiert sind, in einer pleiotropen Karte zu kombinieren, um die genetischen Regionen38 zu unterstreichen, wie in Abbildung 4 gezeigt. Zur Validierung von Kandidatengenen können mehrere Ansätze durchgeführt werden (siehe Diskussion).

Representative Results

Erfolgreiche Metabolomics-GWAS-Experimente sollten mit einem geeigneten experimentellen Design beginnen, gefolgt von der Probenentnahme, -extraktion, -datenerfassung und -verarbeitung, wie in Abbildung 1 dargestellt. In diesem Protokoll wurde die MTBE-Methode15 verwendet, um Hunderte von Metaboliten zu extrahieren und zu analysieren, die zu mehreren Verbindungsklassen gehören. Die Chromatographie hängt stark von den Eigenschaften der verwendeten Säule sowie von Elutionspuffermischungen ab. Abbildung 2 zeigt Chromatogramme von QC-Proben und zeigt das Elutionsmuster einiger wichtiger Lipidklassen in diesem analytischen System. Die für jede Plattform angewandten Farbverläufe sind in Tabelle 1 aufgeführt. Großer Wert wurde auf den Umgang mit systemischen Fehlern in Großexperimenten gelegt. Die Durchführung von großflächigen Metabolomics ist inhärent mit systemischen Fehlern verbunden. Zur Demonstration analysierten wir lipidomische Daten über mehrere häufige Bohnenarten. Die ergänzende Tabelle 1 enthält die extrahierten lipidomischen Rohdaten, die nach der Chromatogrammverarbeitung mit der in der Materialtabelle angegebenen Software erhalten wurden. Die Befolgung dieses Protokolls ermöglichte es uns, wichtige Probleme im Umgang mit Omics-Daten zu umgehen, insbesondere bei der Verarbeitung großer Stichprobensätze. Das Normalisierungsverfahren führt zu einer genauen Korrektur von chargenweisen Analysefehlern, wie in Abbildung 3 dargestellt. Obwohl eine Erhöhung der Anzahl der QC-Proben die Stärke der Normalisierung erhöhen würde, ist dies aufgrund von Kosten- und Zeitbeschränkungen nicht immer möglich. Für Hochdurchsatz-Metabolomik-GWAS mit nicht zielgerichteten metabolischen Merkmalen ist es wichtig, eine höhere Anzahl von Merkmals-Marker-Assoziationen angemessen darzustellen. Eine pleiotrope Karte38, die mehrere GWAS-Ergebnisse kombiniert, könnte verwendet werden, um die genomischen Regionen hervorzuheben, mit denen mehrere Merkmale verknüpft sind (Abbildung 4). Abbildung 1: Flussdiagramm des metabolomics-basierten GWAS in Pflanzen. Mehrere Schritte vom Versuchsaufbau bis zum Nachweis von QTL sind im linken Bereich dargestellt. Im rechten Bereich werden mehrere Zahlen angezeigt, um mehrere Schritte zu unterstützen, die im linken Bereich erwähnt werden. Ausgehend von rechts oben wird (1) eine vorgeschlagene Sequenz von Stichproben für LC-MS, (2) vor- und nachnormalisierte Score-Diagramme von PCA, einschließlich einer repräsentativen Merkmalsverteilung vor und nach der Verarbeitung, mit roter Angabe der QC-Probenintensitäten, und (3) ein Manhattan-Diagramm mit signifikanten Assoziationen, zu denen LD- und Haplotyp-Verteilungen generiert wurden, angezeigt. Abkürzungen: GWAS = genomweite Assoziationsstudien; QTL = quantitative Trait Loci; PCA = Hauptkomponentenanalyse; QC = Qualitätskontrolle; LD = Verknüpfungsungleichgewicht; MS = Massenspektrometrie; LC-MS = Flüssigkeitschromatographie-Massenspektrometrie; GC-MS = Gaschromatographie-Massenspektrometrie; LOESS = lokal geschätzte Streudiagrammglättung; MLM/MLMM = gemischtes lineares Modell/Multi-Locus-Mischmodell. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen. Abbildung 2: Chromatogrammverarbeitung. Zwei QC-Chromatogramme (Base Peak; Lipiddaten) aus verschiedenen Chargen zeigen die chargenweise Variation für bestimmte Lipidklassen in den gepoolten QC-Proben. Vier Hauptlipidklassen sind mit ihren jeweiligen Elutionsfenstern im hauseigenen LC-MS-System angegeben. Die Chromatogramme wurden aus MzMine21 exportiert. Abkürzungen: QC = Qualitätskontrolle; LC-MS = Flüssigkeitschromatographie-Massenspektrometrie. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen. Abbildung 3: Korrektur des systematischen Fehlers. Hauptkomponentenanalyse der erfassten lipidomischen Daten, Pre- (links, Rohdaten) und Nachkorrektur für systemische Fehler (rechts, Batch-Löss). Die unteren Panels veranschaulichen die Feature-Verteilung (Cluster_00005) über die Proben (n=650) und Chargen (n=10) vor (links) und nach (rechts) Korrektur für analytische Variationen. Abkürzungen: PCA = Principal Component Analysis; QC = Qualitätskontrolle; LOESS = lokal geschätzte Streudiagrammglättung. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen. Abbildung 4: Pleiotrope Karte, die die kombinierten GWAS-Ergebnisse veranschaulicht. Die pleiotrope Karte hebt Regionen im gesamten Genom hervor, die mit mehreren Merkmalen assoziiert sind. Die Zahlen auf den äußeren Ringen zeigen die entsprechenden Chromosomen an. Jeder Kreis repräsentiert ein individuelles Merkmal mit seinen signifikant assoziierten SNPs. Die Farben repräsentieren verschiedene zusammengesetzte Klassen (grau = zusammengesetzte Klasse 1; grün = zusammengesetzte Klasse 2; lila = zusammengesetzte Klasse 3; gelb = zusammengesetzte Klasse 4). Im Falle von Inter-Compound-Klassenassoziationen mit derselben genomischen Region werden Gene hervorgehoben. Der innere graue Kreis zeigt die Summe aller signifikanten SNPs, die mit einer bestimmten genomischen Position assoziiert sind. Die in dieser Abbildung gezeigten Assoziationen werden nur zur Veranschaulichung künstlich erzeugt. Abkürzungen: GWAS = genomweite Assoziationsstudien; SNPs = Einzelnukleotid-Polymorphismen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen. UHPLC-MS-Einstellungen für Lipide Zeit [min] Elutionsmittel A bis B [%]* Information 0 – 1.00 45% A Elutionsmittel A: 1% 1M NH4-Acetat, 0,1% Essigsäure in Wasser (UHPLC-Qualität) 1.00 – 4.00 lg 45% – 25% A Elutionsmittel B: 1% 1M NH4-Acetat, 0,1% Essigsäure in Acetonitril/2-Propanol 7:3 (UHPLC-Qualität) 4.00 – 12.00 lg 25% – 11% A Durchflussmenge: 400 μL/min 12.00 – 15.00 lg 11% – 0% A Injektionsvolumen: 2 μL 15.00 – 19.50 cw 0% A 19.50-19.51 0% – 45% A 19.51-24.00 EQ 45% UHPLC-MS/MS-Einstellungen für polare und semipolare Metaboliten Zeit [min] Elutionsmittel A und B [%]* Information 0 – 1.00 99% A Elutionsmittel A: 0,1% Ameisensäure in Wasser (UHPLC-Qualität) 1.00 – 11.00 lg 99% -60% A Elutionsmittel B: 0,1% Ameisensäure in Acetonitril (UHPLC-Qualität) 11.00 – 13.00 lg 60% – 30% A Durchflussmenge: 400 μL/min 13.00 – 15.00 lg 30% – 1% A Injektionsvolumen: 3 μL 15.00 – 16.00 cw 1% A 16.00 – 17.00 lg 1% – 99% A 17.00 – 20.00 EQ 99% A GC-MS-Einstellungen für derivatisierte Metaboliten Zeit [min] Temperatur [°C] Information 0 – 2.00 85 Trägergas: Helium 2.00 – 18.66 LG 80 – 330 Durchflussmenge: 2 ml/min 18.66 – 24.66 CW 330 Temperaturgradient: 15 °C/min 24.66 schnelle Abkühlung Injektionsvolumen: 1 μL Tabelle 1: Gradienteneinstellungen für jede der Analyseplattformen7. Abkürzungen: lg = linearer Gradient; cw = Säulenwaschung; eq = Gleichgewicht; UHPLC-MS = Ultra-Hochleistungs-Flüssigkeitschromatographie-Massenspektrometrie; UHPLC-MS/MS = Ultrahochleistungs-Flüssigkeitschromatographie-Tandem-Massenspektrometrie; GC-MS = Gaschromatographie-Massenspektrometrie. * = Prozentwert entspricht Elutionsmittel A; Der verbleibende Prozentwert entspricht dem Elucent B. Ergänzende Tabelle 1: Rohe Lipidomik-Daten. Gibt die Spitzenintensitäten für jeden der erkannten Cluster über jede Stichprobe an. Bitte klicken Sie hier, um diese Tabelle herunterzuladen.

Discussion

Sowohl GC-MS als auch LC-MS sind weit verbreitete Werkzeuge zur Profilierung komplexer Mischungen verschiedener Metabolitenklassen. Der Umgang mit großen Datensätzen mit diesen Werkzeugen ist inhärent mit einer nicht-biologischen Variation verbunden, z. B. analytischer Variation, die die Interpretation der Ergebnisse stört und verzerrt. Dieses Protokoll stellt eine robuste Hochdurchsatz-Extraktionspipeline für eine umfassende metabolische Profilierung dar, um Variationen nicht-biologischen Ursprungs zu eliminieren und groß angelegte “Omics” -Studien durchzuführen. Die in diesem Protokoll verwendeten Volumina und Konzentrationen wurden für Hülsenfruchtarten in verschiedenen Geweben angepasst. Diese Parameter können jedoch leicht modifiziert und auch für großflächige Stoffwechselproben anderer Pflanzenarten verwendet werden.

Die zuvor15 beschriebenen MTBE-basierten Extraktionen können verwendet werden, um derivatisierte Metaboliten, semipolare Metaboliten und Lipide zu analysieren. Dies kann für Protein- und Pflanzenhormonextraktionen39 erweitert werden, die außerhalb des Geltungsbereichs dieses Protokolls lagen. Andere Extraktionsprotokolle beruhen auf Dichlormethan:Ethanol-Gemischen40,41. Von diesen Extraktionsprotokollen bietet das MTBE:methanol-Extraktionsprotokoll eine günstige und weniger gefährliche Alternative zu den bestehenden Chloroform-basierten Extraktionsprotokollen42 und führt nicht zu einem Proteinpellet als Interphase zwischen der polaren und der Lipidphase. Darüber hinaus wurden MTBE-Methoden bereits in mehreren Studien für verschiedene biologische Probenverwendet 43,44,45.

Dieses Protokoll diskutiert mehrere entscheidende Schritte, die bei der Handhabung einer großen Anzahl von Proben zu potenziellen Variationen führen können, z. B. während der Ernte 12,13, der Extraktion 14 sowie der Randomisierung46. Darüber hinaus gibt es zusätzliche Fragen, die in diesem Protokoll nicht diskutiert wurden, die berücksichtigt werden müssen, um qualitativ hochwertige metabolomische Daten zu gewährleisten, z. B. Matrixeffekt und Ionensuppression14.

Die Leistungsfähigkeit von QC-basierten Normalisierungsmethoden hängt von Natur aus von der Anzahl der QC-Proben in jeder Charge ab. Wie bereits erwähnt, ist die Intra-Batch-Variation der QCs im Vergleich zur Inter-Batch-Variation in diesen Analysesystemen relativ marginal, obwohl eine Erhöhung der Anzahl die Leistung erhöhen würde, wie in Abbildung 3 dargestellt. Insgesamt gibt es andere QC-basierte Normalisierungsmethoden, wie z. B. die systemische Fehlerbeseitigung mit Random Forest (SERRF), von denen gezeigt wurde, dass sie die meisten anderen Normalisierungsmethoden übertreffen, wie z. B. das Batch-Wise-Ratio, die Normalisierung mit einer optimalen Auswahl mehrerer interner Standards (NOMIS) und die probabilistische Quotientennormalisierung (PQN)47. . SERRF stützt sich jedoch auf mehrere QC-Proben in jeder Charge, z. B. jede zehnte Probe, was bei der Handhabung einer großen Anzahl von Proben nicht möglich ist. Der Hauptvorteil der QC-basierten Normalisierung gegenüber anderen datengesteuerten oder internen standardbasierten Methoden besteht darin, dass sie die wesentliche biologische Variation beibehält und gleichzeitig unerwünschte technische Variationen berücksichtigt28. Leser können sich auf diese Rezension zum Umgang mit Variation28 beziehen.

Ein Hauptproblem in GWAS ist die Rate der falsch positiven Ergebnisse, die hauptsächlich auf die Verknüpfung von kausalen und nicht-kausalen Stellen zurückzuführen sind48,49. Zweitens korrigieren die konservativen statistischen Korrekturansätze, z. B. Bonferroni und FDR, die Anzahl der unabhängigen Tests, die aufgrund der Verknüpfung zwischen benachbarten SNPs nicht gleich der Anzahl der untersuchten SNPs in GWAS ist50,51 Daher ist die tatsächliche Anzahl der unabhängigen Tests oft geringer. Eine andere Möglichkeit, den konservativen statistischen Schwellenwert zu reduzieren, wäre die Verringerung der Anzahl der getesteten SNPs, die für GWAS verwendet werden, basierend auf dem Linkage-Zerfall über definierte genomische Regionen52. Die in diesem Protokoll beschriebene GWAS-integrierte Hochdurchsatz-Metabolomik-Plattform bietet ein breites Anwendungsspektrum. Insbesondere wird es Verbesserungen in der Pflanzenzüchtung erleichtern, indem die Metaboliten-Lipid-Zusammensetzung für industriell und ernährungsphysiologisch gewünschte Werte verändert wird. Insgesamt hat die Metabolomik einen tiefen Einblick in die genetische Architektur einer Vielzahl von Metaboliten und die metabolische Diversifizierung gegeben, die während der Domestizierung von Pflanzen in den letzten Jahrzehnten aufgetreten sind, was auf das enorme Potenzial der Metabolomik-assoziierten Züchtung hinweist53. Die molekularbiologischen Ansätze für die nachgelagerte QTL-Validierung umfassen die Generierung von CRISPR/Cas9-Mutantenlinien54, T-DNA-Insertionslinien 55, stabilen und/oder transienten Überexpressionslinien 56, VIGS, Ex-vivo-Metabolomik-Ansätzen 57 neben dem konventionellen Ansatz zur Generierung von Cross-F2-Populationen sowie Kreuzvalidierung in verschiedenen Populationen.

Durch die Durchführung der notwendigen Korrektur für die analytischen Variationen wie oben beschrieben, können neben GWAS mehrere integrierte Ansätze durchgeführt werden, wie z.B. Metabolit-Metabolit-, Metabolit-Lipid-Korrelationsanalyse, Korrelationsanalyse zu phänomischen Daten, um Licht auf komplexere Merkmale zu werfen, und/oder Co-Expressionsanalyse, um die Grundlage biologischer Systeme weiter zu entschlüsseln58.

Disclosures

The authors have nothing to disclose.

Acknowledgements

M.B. wird durch das IMPRS-PMPG ‘Primary Metabolism and Plant Growth’ unterstützt. A.R.F. und S.A. würdigen die finanzielle Unterstützung des EU-Forschungs- und Innovationsprogramms Horizon 2020, des Projekts PlantaSYST (SGA-CSA Nr. 739582 unter FPA Nr. 664620) und des Projekts INCREASE (GA 862862).

Materials

Reagents and standards
1,2-diheptadecanoyl-sn-glycero-3- phosphocholine (17:0 PC) Avanti Polar Lipids 850360P Internal standard for lipids
Chloroform Supleco 67-66-3 FAME solvent
Isovitexin Sigma Aldrich 38953-85-4 Internal standard for metabolites
Lignoceric Acid Methylester Sigma Aldrich 2442-49-1 FAME
Methanol (MeOH) Biosolve Chemicals 13684102 ULC-MS grade
Methoxyamin -hydrochlorid Sigma Aldrich 593-56-6 Metabolite deriviatization
Methyl laurate Sigma Aldrich 111-82-0 FAME
Methyl myristate Sigma Aldrich 124-10-7 FAME
Methyl palmitate Sigma Aldrich 112-39-0 FAME
Methyl stearate Sigma Aldrich 112-61-8 FAME
Methyl tert-butyl ether (MTBE) Biosolve Chemicals 13890602 HPLC grade
Methyl-caprat Sigma Aldrich 110-42-9 FAME
Methylcaprylat Sigma Aldrich 111-11-5 FAME
Methyldocosanoat Sigma Aldrich 929-77-1 FAME
Methyleicosanoat Sigma Aldrich 1120-28-1 FAME
Methyl-hexacosanoat Sigma Aldrich 5802-82-4 FAME
Methyl-octacosanoat Sigma Aldrich 55682-92-3 FAME
Methyl-pelargonate Sigma Aldrich 1731-84-6 FAME
N-Methyl-N-(trimethylsilyl)trifluoracetamid (MSTFA) Macherey-Nagel 24589-78-4 Metabolite deriviatization
Pyridine Supleco 110-86-1 Metabolite deriviatization
Ribitol Supleco 22566-17-2 Internal standard for derivatized metabolites
Triacontanoic Acid Methyl Ester TCI Chemicals 629-83-4 FAME
Water Biosolve Chemicals 23214102 ULC-MS grade
Equipment
1.5 mL Safe-lock microcentrifuge tubes Eppendorf 3120086
2 mL Safe-lock microcentrifuge tubes Eppendorf 3120094
Balance Sartorius Corporation 14 557 572
DB-35ms, 30 m, 0,25 mm, 0,25 µm Aglient 123-3832 Analysis of derivatized metabolites
GC-MS system Leco Pegasus HT TOF-MS (LECO Corporation) Analysis of derivatized metabolites
Grinding Balls, Stainless Steel OPS DIAGNOSTICS GBSS 196-2500-10
MS system Exactive, Orbitrap-type, MS (Exactive, Thermo Fisher Scientific) Analysis of lipids
MS system Q Exactive Focus (Q Exactive™ Focus Hybrid Quadrupol-Orbitrap™
Massenspektrometer, Thermo Fisher Scientific)
Analysis of metabolites
Refrigerated microcentrifuge Eppendorf, model 5427R 22620701
Reversed Phase (RP) Bridged Ethyl Hybrid (BEH) C8 column
(100 mm × 2.1 mm containing 1.7 μm diameter particles)
Waters 186002878 Analysis of lipids
RP High Strength Silica (HSS) T3 column
(100 mm × 2.1 mm containing 1.8 μm diameter particles)
Waters 186003539 Analysis of metabolites
Shaker Eppendorf Thermomixer 5436 2050-100-05
Sonicator USC 300 TH 142-0084
Tissue grinding mixer mill Retsch, Mixer Mill MM 300 20.746.0001
UPLC system Waters Acquity UPLC system (Waters)
Vacuum concentrator Scan Speed Maxi Vac Alpha Evaporators 7.008.500.002
Vortex mixer Vortex-Genie 2, Model G560 SI-0236
Software
MetAlign Chromatogram processing
MzMine Chromatogram processing
R package "data.table"
R package "fujiplot" pleiotrpoic map
R package "genetics"
R package "Ime4" BLUPs calculation
R package "LDheatmap" LD plots
R package "MASS" transformation
R package "rMVP" GWAS
R version 4.0.4
RefinerMS Chromatogram processing
RefinerMS Genedata Expressionist Chromatogram processing
Tassel 5 Genotype filtering
Xcalibur Thermo Fisher Scientific OPTON-30965 Chromatogram processing

References

  1. Doerr, A. Global metabolomics. Nature Methods. 14 (1), 32 (2017).
  2. Fessenden, M. Metabolomics: Small molecules, single cells. Nature. 540 (7631), 153-155 (2016).
  3. Oliver, S. G., Winson, M. K., Kell, D. B., Baganz, F. Systematic functional analysis of the yeast genome. Trends in Biotechnology. 16 (9), 373-378 (1998).
  4. Fiehn, O. Metabolomics-the link between genotypes and phenotypes. Plant Molecular Biology. 48 (1), 155-171 (2002).
  5. Wu, S., et al. Mapping the Arabidopsis metabolic landscape by untargeted metabolomics at different environmental conditions. Molecular Plant. 11 (1), 118-134 (2018).
  6. Sysi-Aho, M., Katajamaa, M., Yetukuri, L., Orešič, M. Normalization method for metabolomics data using optimal selection of multiple internal standards. BMC Bioinformatics. 8 (1), 93 (2007).
  7. Chen, M., Rao, R. S. P., Zhang, Y., Zhong, C. X., Thelen, J. J. A modified data normalization method for GC-MS-based metabolomics to minimize batch variation. SpringerPlus. 3 (1), 439 (2014).
  8. Dunn, W. B., et al. Metabolic profiling of serum using Ultra Performance Liquid Chromatography and the LTQ-Orbitrap mass spectrometry system. Journal of Chromatography B. 871 (2), 288-298 (2008).
  9. Fiehn, O., et al. Metabolite profiling for plant functional genomics. Nature Biotechnology. 18 (11), 1157-1161 (2000).
  10. vander Kloet, F. M., Bobeldijk, I., Verheij, E. R., Jellema, R. H. Analytical error reduction using single point calibration for accurate and precise metabolomic phenotyping. Journal of Proteome Research. 8 (11), 5132-5141 (2009).
  11. Folch, J., Lees, M., Stanley, G. H. S. A simple method for the isolation and purification of total lipides from animal tissues. Journal of Biological Chemistry. 226 (1), 497-509 (1957).
  12. Fukushima, A., et al. Impact of clock-associated Arabidopsis pseudo-response regulators in metabolic coordination. Proceedings of the National Academy of Sciences of the United States of America. 106 (17), 7251-7256 (2009).
  13. Kerwin, R. E., et al. Network quantitative trait loci mapping of circadian clock outputs identifies metabolic pathway-to-clock linkages in Arabidopsis. The Plant Cell. 23 (2), 471-485 (2011).
  14. Tohge, T., et al. From models to crop species: Caveats and solutions for translational metabolomics. Frontiers in Plant Sciences. 2, 61 (2011).
  15. Salem, M., Bernach, M., Bajdzienko, K., Giavalisco, P. A simple fractionated extraction method for the comprehensive analysis of metabolites, lipids, and proteins from a single sample. Journal of Visualized Experiments:JoVE. (124), e55802 (2017).
  16. Tohge, T., Fernie, A. R. Combining genetic diversity, informatics and metabolomics to facilitate annotation of plant gene function. Nature Protocols. 5 (6), 1210-1227 (2010).
  17. Lisec, J., Schauer, N., Kopka, J., Willmitzer, L., Fernie, A. R. Gas chromatography mass spectrometry-based metabolite profiling in plants. Nature Protocols. 1 (1), 387-396 (2006).
  18. Osorio, S., Do, P. T., Fernie, A. R., Hardy, N. W., Hall, R. D. . Plant Metabolomics: Methods and Protocols. , 101-109 (2012).
  19. De Vos, R. C. H., et al. Untargeted large-scale plant metabolomics using liquid chromatography coupled to mass spectrometry. Nature Protocols. 2 (4), 778-791 (2007).
  20. Perez de Souza, ., Alseekh, L., Naake, S., Fernie, T., A, Mass spectrometry-based untargeted plant metabolomics. Current Protocols in Plant Biology. 4 (4), 20100 (2019).
  21. Pluskal, T., Castillo, S., Villar-Briones, A., Orešič, M. MZmine 2: Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data. BMC Bioinformatics. 11 (1), 395 (2010).
  22. Watson, J. T., Sparkman, D. O. Electron Ionization. Introduction to mass spectrometry: Instrumentation, applications and strategies for data interpretation. , 315 (2007).
  23. Fernie, A. R., et al. Recommendations for reporting metabolite data. The Plant Cell. 23 (7), 2477 (2011).
  24. Treutler, H., et al. Discovering regulated metabolite families in untargeted metabolomics studies. Analytical Chemistry. 88 (16), 8082-8090 (2016).
  25. Wang, M., et al. Sharing and community curation of mass spectrometry data with Global Natural Products Social Molecular Networking. Nature Biotechnology. 34 (8), 828-837 (2016).
  26. Naake, T., Fernie, A. R. MetNet: Metabolite network prediction from high-resolution mass spectrometry data in R aiding metabolite annotation. Analytical Chemistry. 91 (3), 1768-1772 (2019).
  27. Chambers, J. M. . Statistical models in S. , (1991).
  28. Misra, B. B. Data normalization strategies in metabolomics: Current challenges, approaches, and tools. European Journal of Mass Spectrometry. 26 (3), 165-174 (2020).
  29. Livera, A. M. D., et al. Statistical methods for handling unwanted variation in metabolomics data. Analytical Chemistry. 87 (7), 3606-3615 (2015).
  30. Sakia, R. M. . The Box-Cox transformation technique: a review. 41 (2), 169-178 (1992).
  31. vanden Berg, R. A., Hoefsloot, H. C. J., Westerhuis, J. A., Smilde, A. K., vander Werf, M. J. Centering, scaling, and transformations: improving the biological information content of metabolomics data. BMC Genomics. 7, 142 (2006).
  32. Marees, A. T., et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. International Journal of Methods in Psychiatric Research. 27 (2), 1608 (2018).
  33. Torkamaneh, D., Laroche, J., Bastien, M., Abed, A., Belzile, F. Fast-GBS: a new pipeline for the efficient and highly accurate calling of SNPs from genotyping-by-sequencing data. BMC Bioinformatics. 18 (1), 5 (2017).
  34. Zhao, S., Agafonov, O., Azab, A., Stokowy, T., Hovig, E. Accuracy and efficiency of germline variant calling pipelines for human genome data. Scientific Reports. 10 (1), 20222 (2020).
  35. Bradbury, P. J., et al. TASSEL: software for association mapping of complex traits in diverse samples. Bioinformatics. 23 (19), 2633-2635 (2007).
  36. Bates, D., Mächler, M., Bolker, B., Walker, S. Fitting linear mixed-effects models using lme4. Journal of Statistical Software. 67 (1), (2015).
  37. Yin, L., et al. rMVP: A memory-efficient, visualization-enhanced, and parallel-accelerated tool for genome-wide association study. Genomics, Proteomics & Bioinformatics. , (2021).
  38. Kanai, M., et al. Genetic analysis of quantitative traits in the Japanese population links cell types to complex human diseases. Nature Genetics. 50 (3), 390-400 (2018).
  39. Salem, M. A., et al. An improved extraction method enables the comprehensive analysis of lipids, proteins, metabolites and phytohormones from a single sample of leaf tissue under water-deficit stress. Plant Journal: for Cell and Molecular Biology. 103 (4), 1614-1632 (2020).
  40. Balcke, G. U., et al. Multi-omics of tomato glandular trichomes reveals distinct features of central carbon metabolism supporting high productivity of specialized metabolites. The Plant Cell. 29 (5), 960-983 (2017).
  41. Leonova, T., et al. Does protein glycation impact on the drought-related changes in metabolism and nutritional properties of mature pea (Pisum sativum L.) seeds. International Journal of Molecular Sciences. 21 (2), 567 (2020).
  42. Alfonsi, K., et al. chemistry tools to influence a medicinal chemistry and research chemistry based organisation. Green Chemistry. 10 (1), 31-36 (2008).
  43. Bozek, K., et al. Organization and evolution of brain lipidome revealed by large-scale analysis of human, chimpanzee, macaque, and mouse tissues. Neuron. 85 (4), 695-702 (2015).
  44. Delgado, R., Muñoz, Y., Peña-Cortés, H., Giavalisco, P., Bacigalupo, J. Diacylglycerol activates the light-dependent channel TRP in the photosensitive microvilli of Drosophila melanogaster photoreceptors. The Journal of Neuroscience. 34 (19), 6679 (2014).
  45. Sharma, D. K., et al. UPLC-MS analysis of Chlamydomonas reinhardtii and Scenedesmus obliquus lipid extracts and their possible metabolic roles. Journal of Applied Phycology. 27 (3), 1149-1159 (2015).
  46. Dunn, W. B., Wilson, I. D., Nicholls, A. W., Broadhurst, D. The importance of experimental design and QC samples in large-scale and MS-driven untargeted metabolomic studies of humans. Bioanalysis. 4 (18), 2249-2264 (2012).
  47. Fan, S., et al. Systematic error removal using random forest for normalizing large-scale untargeted lipidomics data. Analytical Chemistry. 91 (5), 3590-3596 (2019).
  48. Larsson, S. J., Lipka, A. E., Buckler, E. S. Lessons from Dwarf8 on the strengths and weaknesses of structured association mapping. PLOS Genetics. 9 (2), 1003246 (2013).
  49. Platt, A., Vilhjálmsson, B. J., Nordborg, M. Conditions under which genome-wide association studies will be positively misleading. Genetics. 186 (3), 1045-1052 (2010).
  50. Nyholt, D. R. A simple correction for multiple testing for single-nucleotide polymorphisms in linkage disequilibrium with each other. American Journal of Human Genetics. 74 (4), 765-769 (2004).
  51. Teo, Y. Y. Common statistical issues in genome-wide association studies: a review on power, data quality control, genotype calling and population structure. Current Opinion in Lipidology. 19 (2), 133-143 (2008).
  52. Privé, F., Aschard, H., Ziyatdinov, A., Blum, M. G. B. Efficient analysis of large-scale genome-wide data with two R packages: bigstatsr and bigsnpr. Bioinformatics. 34 (16), 2781-2787 (2018).
  53. Alseekh, S., et al. Domestication of crop metabolomes: desired and unintended consequences. Trends in Plant Science. 26 (6), 650-661 (2021).
  54. Yano, K., et al. GWAS with principal component analysis identifies a gene comprehensively controlling rice architecture. Proceedings of the National Academy of Sciences of the United States of America. 116 (42), 21262 (2019).
  55. Wu, S., et al. Mapping the Arabidopsis metabolic landscape by untargeted metabolomics at different environmental conditions. Molecular Plant. 11 (1), 118-134 (2018).
  56. Ye, J., et al. An InDel in the promoter of Al-ACTIVATED MALATE TRANSPORTER9 selected during tomato domestication determines fruit malate contents and aluminum tolerance. The Plant Cell. 29 (9), 2249-2268 (2017).
  57. Zhang, W., et al. Genome assembly of wild tea tree DASZ reveals pedigree and selection history of tea varieties. Nature Communications. 11 (1), 3719 (2020).
  58. Tohge, T., Fernie, A. R. Annotation of plant gene function via combined genomics, metabolomics and informatics. Journal of Visualized Experiments: JoVE. (64), e3487 (2012).

Play Video

Cite This Article
Bulut, M., Fernie, A. R., Alseekh, S. Large-Scale Multi-Omics Genome-Wide Association Studies (Mo-GWAS): Guidelines for Sample Preparation and Normalization. J. Vis. Exp. (173), e62732, doi:10.3791/62732 (2021).

View Video