Summary

Studi di associazione multiomica su larga scala (Mo-GWAS): linee guida per la preparazione e la normalizzazione dei campioni

Published: July 27, 2021
doi:

Summary

In questo protocollo, presentiamo un flusso di lavoro ottimizzato, che combina una preparazione efficiente e veloce del campione di molti campioni. Inoltre, forniamo una guida passo-passo per ridurre le variazioni analitiche per la valutazione ad alto rendimento degli studi GWAS metabolici.

Abstract

Sia la gascromatografia-spettrometria di massa (GC-MS) che la cromatografia liquida-spettrometria di massa (LC-MS) sono approcci metabolomici ampiamente utilizzati per rilevare e quantificare centinaia di migliaia di caratteristiche metaboliche. Tuttavia, l’applicazione di queste tecniche a un gran numero di campioni è soggetta a interazioni più complesse, in particolare per gli studi di associazione genome-wide (GWAS). Questo protocollo descrive un flusso di lavoro metabolico ottimizzato, che combina una preparazione efficiente e veloce del campione con l’analisi di un gran numero di campioni per le specie di leguminose. Questo metodo di estrazione leggermente modificato è stato inizialmente sviluppato per l’analisi di tessuti vegetali e animali e si basa sull’estrazione in etere metil-terz-butilico: solvente metanolo per consentire la cattura di metaboliti polari e lipidici. Inoltre, forniamo una guida passo-passo per ridurre le variazioni analitiche, che sono essenziali per la valutazione ad alto rendimento della varianza metabolica nei GWAS.

Introduction

Approcci “omici” su larga scala hanno permesso l’analisi di sistemi biologici complessi 1,2,3 e un’ulteriore comprensione del legame tra genotipi e fenotipi risultanti4. La metabolomica che utilizza la cromatografia liquida ad altissime prestazioni-spettrometria di massa (UHPLC-MS) e GC-MS ha permesso il rilevamento di una pletora di caratteristiche metaboliche, di cui solo alcune sono annotate in una certa misura, risultando in un’alta percentuale di metaboliti sconosciuti. Le interazioni complesse possono essere esplorate combinando la metabolomica su larga scala con la variazione genotipica sottostante di una popolazione diversificata5. Tuttavia, la gestione di grandi set di campioni è intrinsecamente associata a variazioni analitiche, distorcendo la valutazione della varianza metabolica per ulteriori processi a valle. In particolare, i principali problemi che portano a variazioni analitiche si basano sulle prestazioni della macchina e sulla deriva strumentale nel tempo6. L’integrazione della variazione da lotto a lotto è impegnativa e particolarmente problematica quando si analizzano popolazioni di piante strutturate su larga scala. Sono state suggerite molteplici procedure di normalizzazione per correggere variazioni non biologiche, ad esempio l’uso di standard interni, esterni e isotopici per correggere errori analitici, di cui ciascuno è intrinsecamente associato a problemi e insidie noti 7,8,9,10.

Oltre alla variazione analitica, la scelta dei protocolli di estrazione varia generalmente a seconda del metodo analitico. In definitiva, si desidera ridurre i costi di materiale e manodopera, nonché la necessità di utilizzare più aliquote dello stesso campione per vari processi analitici eseguendo metodi di estrazione basati sulla separazione di fase. Questi metodi sono stati introdotti per la prima volta utilizzando cloroformio: metanolo / solventi acquosi per frazionare composti polari e idrofobici11.

Questo protocollo descrive una pipeline veloce ad alto rendimento per una piattaforma multi-omica per profilare sia i metaboliti polari che i lipidi nelle specie di legumi. Inoltre, mostra come tali set di dati possono essere opportunamente corretti per la variazione analitica e normalizzati prima di integrare informazioni genotipiche per rilevare i loci dei tratti quantitativi del metabolita (QTL) eseguendo GWAS.

Protocol

1. Progettazione sperimentale e coltivazione delle piante NOTA: Impostare l’esperimento in base all’ipotesi sperimentale, ad esempio, l’utilizzo di una popolazione GWAS su larga scala riduce la necessità di repliche multiple, poiché verranno eseguiti test statistici basati sugli aplotipi di tutti i singoli SNP anziché sull’adesione. Al contrario, le repliche multiple sono indispensabili in altri approcci sperimentali. I seguenti punti devono essere considerati durante la preparazione dell’esperimento. Includere abbastanza repliche biologiche, a seconda dell’ipotesi sperimentale. Randomizzare le repliche biologiche a blocchi per ridurre i pregiudizi ambientali locali durante la coltivazione, ad esempio serra, campo. Garantire una corretta manutenzione della pianta durante la crescita. Trattare le piante in modo omogeneo per ridurre i pregiudizi. 2. Preparazione di materiale vegetale biologico Preparazione del raccolto Tubi per la raccolta di etichette (20 mL) contenenti due perle metalliche da 5 mm e due da 8 mm di diametro per l’omogeneizzazione. Riempi un dewar con azoto liquido.NOTA: le piante dovrebbero essere nella fase vegetativa per la raccolta di foglie fresche e tessuti radicali. Raccogliere campioni biologici mediante congelamento lampo in azoto liquido. Raccogli il più rapidamente possibile per escludere l’influenza dell’oscillazione circadiana sul metabolismo durante la durata prolungata della raccolta12,13. Conservare i tessuti freschi di foglie e radici raccolti per un’ulteriore lavorazione a -80 °C.NOTA: il taglio delle foglie al congelamento flash non dovrebbe richiedere più di pochi secondi poiché dopo la scissione delle foglie, i processi biologici attivi altererebbero i profili metabolici a causa della ferita. Per le radici, pulire le radici lavandole con acqua prima del congelamento in azoto liquido. L’acqua in eccesso sulla superficie della radice deve essere assorbita con carta velina. I semi essiccati possono essere conservati a temperatura ambiente; non è richiesto il congelamento in azoto liquido. Macinare il tessuto usando un mulino miscelatore di tessuti. Preraffreddare i portatubi in azoto liquido per un paio di minuti per mantenere una bassa temperatura durante la macinazione del tessuto. Trasportare i campioni biologici in un dewar contenente azoto dopo averli estratti dal congelatore a -80 °C. Macinare i tessuti per ottenere polvere omogenea; utilizzare 25 Hz per 1 minuto e ripetere dopo il congelamento in azoto liquido se il tessuto non è macinato in modo omogeneo. Per macinare i semi secchi, posizionare i semi in un barattolo di macinazione con una perla metallica di 15 mm di diametro. Utilizzare la stessa frequenza e la stessa ora di cui al punto 2.3.3.NOTA: mortai e pestelli puliti e preraffreddati possono essere utilizzati se non è disponibile un mulino miscelatore di tessuti. Precool etichettato 2 mL di tubi microcentrifuga sicuri. Pesare 50 mg con un errore di ±5 mg di materiale vegetale fresco utilizzando una bilancia analitica. Preraffreddare gli strumenti utilizzati per il trasferimento di materiale vegetale in azoto liquido. Assicurarsi che il materiale vegetale rimanga congelato durante il processo di pesatura.NOTA: Non esporre troppo a lungo materiale vegetale fresco a temperatura ambiente poiché i processi biologici vengono attivati aumentando la temperatura, alterando i profili metabolici14. Generare ulteriori campioni di controllo di qualità (QC) raggruppando una parte di ciascun campione e pesando 50 mg con un errore di ±5 mg di materiale vegetale fresco in pool in tubi microcentrifuga preraffreddati da 2 mL con blocco sicuro.NOTA: si consigliano almeno tre campioni QC ogni 60 campioni. I campioni QC sono essenziali per la correzione, la normalizzazione e le analisi a valle. 3. Reagenti di estrazione Tessuto fresco, ad esempio foglie e radiciNOTA: l’estrazione del campione si basa su un protocollo15 descritto in precedenza. Questo protocollo è stato modificato in base alle esigenze attuali, ad esempio più tessuti, diversi standard interni ed esperimenti su larga scala. Inoltre, tutti i volumi e le impostazioni dello strumento menzionati di seguito sono adattati alle unità analitiche interne. Gli utenti del protocollo dovrebbero regolarli in base alla loro unità analitica e ai campioni biologici, sulla base di campioni di prova. Miscela di estrazione 1 (EM1): metil terz-butil etere (MTBE)/metanolo (MeOH) (3:1 v/v) Preparare una miscela di MTBE/MeOH in un rapporto 3:1. Per 100 mL di solvente da estrazione, mescolare 75 mL di MTBE con 25 mL di MeOH in una bottiglia di vetro pulita.NOTA: i solventi devono essere maneggiati con cura nella cappa aspirante con adeguati dispositivi di sicurezza. Aggiungere 45 μL di 1,2-dieptacanoil-sn-glicero-3-fosfocolina (1 mg/mL nel cloroformio) come standard interno per l’analisi lipidica basata su UHPLC-MS, 400 μL di ribitolo (1 mg/mL in acqua) come standard interno per l’analisi basata su GC-MS e 125 μL di isovitexina (1 mg/mL in MeOH/acqua (1:1 v/v)) per l’analisi dei metaboliti basata su UHPLC-MS.NOTA: L’aggiunta di standard interni è necessaria per la normalizzazione post-analisi in base alle esigenze analitiche. Poiché è necessario 1 mL di EM1 per ciascun campione, preparare una soluzione madre in base alla dimensione del campione sperimentale, che dovrebbe essere utilizzata per l’intero esperimento. EM1 deve essere conservato a -20 °C. Verificare l’assenza dello standard interno utilizzato e la sovrapposizione con altri composti nelle specie studiate. È possibile utilizzare diversi standard; la selezione degli standard interni in questo protocollo si è basata su test precedenti utilizzando estratti di fagioli comuni16. Miscela di estrazione 2 (EM2) acqua/metanolo (MeOH) (3:1 v/v) Per 100 mL EM2, aggiungere 75 mL di acqua a doppia distillazione e 25 mL di MeOH in una bottiglia di vetro pulita. Aggiungere 500 μL di EM2 per campione e preparare una soluzione madre in base alla dimensione del campione sperimentale, che deve essere utilizzata per l’intero esperimento. Conservare EM2 a 4 °C. Semi secchi Miscela di estrazione 3 (EM3) metanolo (MeOH)/ acqua (7:3 v/v) Per 100 mL di EM3, aggiungere 70 mL di MeOH e 30 mL di acqua a doppia distillazione in una bottiglia di vetro pulita. Preparare 1 mL di EM3 per ogni campione. Aggiungere 400 μL di ribitolo (1 mg/mL in acqua) come standard interni per l’analisi basata su GC-MS e 125 μL di isovitexina (1 mg/mL in MeOH/acqua (1:1 v/v)) per l’analisi dei metaboliti basata su UHPLC-MS.NOTA: Preparare una soluzione madre in base alle dimensioni sperimentali del campione e utilizzarla per l’intero esperimento. Conservare EM3 a 4 °C. 4. Estrazione del campione Tessuto fresco, ad esempio foglie e radici Preparare tre provette microcentrifuga da 1,5 mL per ogni campione. Conservare EM1 in un sistema di raffreddamento a liquido a -20 °C. Trasferire i campioni freschi dal congelatore a -80 °C al ghiaccio secco o all’azoto liquido per il trasporto. Aggiungere 1 mL di EM1 preraffreddato a ciascuna aliquota da 50 mg e vortice brevemente prima di mantenere il ghiaccio. Incubare i campioni su uno shaker orbitale a 800 × g per 10 minuti a 4 °C. Sonicare i campioni in un bagno di sonicazione raffreddato a ghiaccio per 10 minuti. Aggiungere 500 μL di EM2 utilizzando una pipetta multicanale per evitare variazioni nei volumi aggiunti. Ruotare brevemente i campioni per miscelare le miscele di estrazione prima della centrifugazione a 11.200 × g per 5 minuti a 4 °C. Dopo la separazione di fase, trasferire 500 μL della fase superiore contenente lipidi in un tubo microcentrifuga preetichettato da 1,5 mL con blocco sicuro. Rimuovere il resto della fase superiore.NOTA: Fare attenzione durante il trasferimento poiché questa fase superiore ha un’alta pressione di vapore e tende a fuoriuscire dalla pipetta. Trasferire 150 μL e 300 μL delle fasi contenenti metaboliti polari e semipolari inferiori in due tubi microcentrifuga safe-lock da 1,5 mL utilizzati rispettivamente per l’analisi GC-MS e UHPLC-MS. Concentrare tutte le frazioni estratte lasciando evaporare i solventi senza riscaldamento utilizzando un concentratore sottovuoto e conservare a -80 °C. Semi secchi Preparare due provette microcentrifuga da 1,5 mL per ogni campione. Mantieni EM3 sul ghiaccio. Inserire una perla metallica di 5 mm di diametro nelle aliquote del campione. Aggiungere 1 mL di EM3 in ogni aliquota da 50 mg e omogeneizzare i campioni a 25 Hz per 2-3 minuti prima di metterli sul ghiaccio. Sonicare i campioni in un bagno di sonicazione raffreddato a ghiaccio per 10 minuti. Ruotare brevemente i campioni prima di centrifugare a 11.200 × g per 5 minuti a 4 °C. Trasferire 150 μL e 300 μL del surnatante in due tubi microcentrifuga safe-lock da 1,5 mL utilizzati rispettivamente per l’analisi GC-MS e UHPLC-MS. Concentrare tutte le frazioni estratte lasciando evaporare i solventi senza riscaldamento utilizzando un concentratore sottovuoto e conservare a -80 °C.NOTA: Sulla base dell’esperienza, si consiglia agli utenti di eseguire la fase 4.2 per i metaboliti semipolari e l’analisi dei metaboliti derivatizzati nei semi essiccati. Eseguire la fase di estrazione 4.1 per l’analisi lipidica dei semi essiccati. 5. Analisi dei lipidi mediante UHPLC-MS Sospendere nuovamente le frazioni lipidiche essiccate in 250 μL di acetonitrile:2-propanolo (7:3, vol/vol). Sonicare la fase lipidica per 5 min, centrifugare a 11.200 × g per 1 min. Trasferire 90 μL del surnatante in un flaconcino di vetro per LC-MS. Iniettare 2 μL degli estratti nel LC-MS. Eseguire il frazionamento lipidico su una colonna C8 di fase inversa mantenuta a 60 °C con un flusso di 400 μL/min con variazioni graduali dell’eluente A e B come mostrato nella Tabella 1. Acquisire gli spettri di massa in modalità di ionizzazione positiva con un intervallo di massa di 150-1.500 m/z. Includere diversi campioni QC in tutti i lotti giornalieri e uno spazio vuoto per garantire la correzione per la variazione analitica. Randomizzare i campioni in blocco in ordine sequenziale. 6. Analisi di metaboliti polari e semipolari mediante UHPLC-MS Sospendere nuovamente la fase polare essiccata in 180 μL di metanolo di grado UHPLC: acqua (1:1 v/v). Sonicare la fase polare per 2 min, centrifugare a 11.200 × g per 1 min. Trasferire 90 μL del surnatante in un flaconcino di vetro per LC-MS. Iniettare 3 μL degli estratti nel LC-MS. Eseguire il frazionamento del metabolita su una colonna di fase inversa C18 mantenuta a 40 °C con un flusso di 400 μL/min con variazioni graduali dell’eluente A e B come mostrato nella Tabella 1. Acquisire gli spettri di massa in un intervallo di massa di 100-1.500 m/z in una scansione MS completa e tutta la frammentazione ionica (AIF) indotta dalla dissociazione collisionale ad alta energia (HCD) di 40 keV.NOTA: utilizzare entrambe le modalità di ionizzazione. Tuttavia, a causa della capacità limitata durante l’esecuzione di un gran numero di campioni, eseguire campioni di test in entrambe le modalità di ionizzazione per determinare la modalità di ionizzazione preferita. Includere diversi campioni QC in tutti i lotti giornalieri e uno spazio vuoto per garantire la correzione per la variazione analitica. Randomizzare i campioni in blocco in ordine sequenziale. Eseguire un QC aggregato in MS2 dipendente dai dati in modalità di ionizzazione sia negativa che positiva. Utilizzare gli spettri di massa ottenuti in un passaggio successivo (8.5) per l’annotazione. 7. Analisi di metaboliti derivatizzati mediante GC-MS 17,18 NOTA: L’analisi dei metaboliti derivatizzati si basa su un protocollo17 precedentemente descritto. Maneggiare tutti i reagenti di derivatizzazione nella cappa aspirante. Assicurarsi che N-metil-N-(trimetilsilil)trifluoracetammide (MSTFA) non entri in contatto con acqua e umidità. Reagente di derivatizzazione 1 (DR1) Sciogliere la metossiamina cloridrato in piridina per ottenere una concentrazione di 30 mg/mL di DR1. Utilizzare 40 μL di DR1 per ogni campione. Preparare una soluzione madre in base alle dimensioni del campione e conservare a temperatura ambiente. Reagente di derivatizzazione 2 (DR2) Sciogliere MSTFA con 20 μL di esteri metilici degli acidi grassi (FAME) per 1 mL di MSTFA. Utilizzare 70 μL di DR2 per ogni campione. Preparare una soluzione madre in base alle dimensioni del campione. Conservare MSTFA a 4 °C e i FAMES a -20 °C.NOTA: I FAME includono metilcaprilato, metil pelargonato, metilcaprato, metillavellato, metilmiristato, metilpalmitato, metilstearato, metilecicosanoato, metildocosanoato, estere metilico dell’acido lignocerico, metilesacosanoato, metilottacosanoato e metilestere dell’acido triacontanoico, che vengono disciolti in CHCl3 ad una concentrazione di 0,8 μL/mL o 0,4 mg/mL per standard liquidi o solidi, rispettivamente. Asciugare nuovamente il pellet dalla fase polare (stoccato a -80 °C) utilizzando un concentratore sottovuoto per 30 min per evitare qualsiasi interferenza di H2O originata durante lo stoccaggio con i solventi utilizzati per la derivatizzazione a valle. Aggiungere 40 μL di DR1. Agitare i campioni a 950 × g per 2 ore a 37 °C utilizzando uno shaker orbitale, seguito da un breve spin-down del liquido. Aggiungere 70 μL di DR2. Agitare nuovamente a 950 × g per 30 minuti a 37 °C usando uno shaker orbitale. Centrifugare brevemente a temperatura ambiente prima di trasferire 90 μL in flaconcini di vetro per l’analisi GC-MS. Iniettare 1 μL in modalità splitless GC-MS, a seconda delle concentrazioni del metabolita, con un flusso costante di gas vettore elio di 2 mL/min. La temperatura di iniezione è impostata su 230 °C utilizzando una colonna capillare MDN-35 di 30 m.NOTA: ulteriori informazioni, ad esempio il gradiente di temperatura, sono disponibili nella Tabella 1. L’intervallo di massa è impostato su 70-600 m/z con 20 scansioni/min. Includere modalità di divisione per consentire la quantificazione di composti di sovraccarico putativo, risparmiando costi e tempo per la ricatirificazione dell’estratto in questi casi. Includere diversi campioni QC in tutti i lotti giornalieri e uno spazio vuoto per garantire la correzione per la variazione analitica. Randomizzare correttamente i campioni in blocco in ordine sequenziale. 8. Elaborazione del cromatogramma e annotazione del composto Filtrare il rumore chimico definendo soglie di intensità. Includere tutti i campioni QC durante l’elaborazione dei cromatogrammi.NOTA: per i dati su larga scala, il filtraggio del rumore è fondamentale per ridurre il tempo di elaborazione e la potenza di elaborazione. Allineare i cromatogrammi definendo una finestra di spostamento del tempo di ritenzione. Controllare i cromatogrammi di ciascun lotto per valutare la variazione intra e inter-batch. Eseguire il rilevamento dei picchi in base alla forma del picco, ad esempio altezza e larghezza per calcoli a larghezza intera a mezzo massimo (FWHM). Cluster isotopi per ridurre i segnali ridondanti e filtrare i singleton.NOTA: vedere la Tabella dei materiali per i dettagli sul software utilizzato per l’elaborazione del cromatogramma. Vengono forniti protocolli approfonditi su come elaborare i cromatogrammi utilizzando vari strumenti software disponibili gratuitamente, ad esempio MS-DIAL, MetAlign, MzMine e Xcalibur 19,20,21. Utilizzare i dati ddMS2 di un campione QC aggregato per l’annotazione composta. Valutare la struttura molecolare determinando la massa monoisotopica e osservando le perdite neutre comuni, gli agliconi carichi noti e diversi tipi di scissioni, ad esempio16,22 omolitici o eterolitici. Per riportare i dati sui metaboliti, seguire la raccomandazione descritta in Fernie et al. 201123.NOTA: diversi approcci di metabolomica computazionale possono essere utilizzati per analizzare i dati metabolomici 24,25,26. 9. Normalizzazione del set di dati di metabolomica su larga scala Controllare la distribuzione degli standard interni e normalizzare correggendo la risposta di standard interni singoli o multipli. Correggere le intensità di picco ottenute dal cromatogramma sul peso esatto del campione dividendo le intensità di picco per il peso del campione omogeneizzato aliquotato dal punto 2.5. Correggere la deriva di intensità tra serie multi-batch. Eseguire metodi di correzione basati su QC, come lo scatterplot smoothing (LOESS) stimato localmente, utilizzando R.NOTA: Sono disponibili diversi strumenti e pacchetti per affrontare la deriva delle prestazioni MS durante l’acquisizione dell’intero lotto 28,29. Garantire la normale distribuzione dei tratti mediante trasformazione dei dati, ad esempio la trasformazione Box-Cox30 utilizzando la funzione boxcox () del pacchetto R MASS per l’esecuzione di GWAS. Eseguire il ridimensionamento dei dati, ad esempio il ridimensionamento di Pareto, per l’analisi multivariata per garantire una corretta pesatura di composti a bassa abbondanza31.NOTA: Se possibile, eseguire un test di recupero per evitare effetti della matrice, ad esempio la soppressione degli ioni14. 10. Studi di associazione genome-wide (GWAS)32 Chiamare polimorfismo a singolo nucleotide (SNP) o varianti strutturali (SV) dai dati di sequenziamento33,34. Filtrare i dati genotipici per la frequenza allelica minore (MAF) 10% per evitare la distorsione a bassa frequenza utilizzando La nappa35. Calcola le migliori previsioni lineari imparziali (BLUP) per ogni caratteristica normalizzata sulle ripetizioni sperimentali per eliminare i pregiudizi originati da fattori ambientali (effetti casuali) utilizzando il pacchetto R Ime436. Utilizzare i BLUP di ciascuna funzionalità singolarmente per eseguire GWAS utilizzando il pacchetto rMVP in R37.NOTA: Ogni caratteristica della metabolomica è vista qui come un fenotipo individuale autonomo. Durante l’esecuzione di GWAS, correggere la struttura della popolazione utilizzando l’analisi dei componenti principali (PCA) e l’identità per stato (IBS) o vanRaden per ridurre al minimo gli effetti confondenti. Inoltre, considera l’utilizzo di un modello lineare misto (MLM) o di un modello misto multi-locus (MLMM), poiché i modelli misti contengono effetti fissi e casuali. 11. Rilevamento QTL Controllare gli SNP che mostrano un’associazione significativa, prendendo in considerazione le trame di Manhattan, per i calcoli di squilibrio di collegamento (LD) per determinare la regione genetica sottostante. Eseguire calcoli LD utilizzando la mappa di calore LD del pacchetto R o La nappa 5. Controllare gli SNP associati per la dimensione dell’effetto sul tratto esaminando i livelli dei tratti per i cambiamenti statistici tra gli aplotipi per trovare potenziali SNP causali, ad esempio SNP che portano a un cambiamento di aminoacidi nella sequenza di codifica proteica, che potrebbe spiegare la variazione fenotipica.NOTA: Poiché le associazioni SNP-tratto non producono necessariamente un’associazione causale, è fondamentale determinare la regione genomica. L’identità composta per annotazione di caratteristiche può aiutare immensamente a trovare i giusti geni candidati in una specifica regione genomica. Suggeriamo di combinare tutti i QTL rilevati associati a determinati composti in una mappa pleiotropica per sottolineare le regioni genetiche38, come mostrato nella Figura 4. Per la validazione dei geni candidati, è possibile eseguire diversi approcci (vedere la discussione).

Representative Results

Gli esperimenti GWAS di metabolomica di successo dovrebbero iniziare con un corretto disegno sperimentale, seguito da raccolta, estrazione, acquisizione ed elaborazione dei campioni, come illustrato nella Figura 1. In questo protocollo, il metodo MTBE15 è stato utilizzato per estrarre e analizzare centinaia di metaboliti appartenenti a diverse classi di composti. La cromatografia dipende molto dalle proprietà della colonna utilizzata e dalle miscele tampone di eluizione. La Figura 2 mostra cromatogrammi di campioni QC, indicando il modello di eluizione di alcune delle principali classi lipidiche in questo sistema analitico. Le pendenze applicate per ciascuna piattaforma sono indicate nella Tabella 1. Una forte enfasi è stata posta sulla gestione degli errori sistemici negli esperimenti su larga scala. L’esecuzione di metabolomica su larga scala è intrinsecamente associata a errori sistemici. Per dimostrazione, abbiamo analizzato i dati lipidomici in diverse specie di fagioli comuni. La Tabella 1 supplementare fornisce i dati lipidomici grezzi estratti ottenuti dopo l’elaborazione del cromatogramma utilizzando il software indicato nella Tabella dei materiali. Seguire questo protocollo ci ha permesso di aggirare i principali problemi nella gestione dei dati omici, in particolare durante la gestione di grandi set di campioni. La procedura di normalizzazione produce una correzione accurata degli errori analitici per lotto, come dimostrato nella Figura 3. Sebbene l’aumento del numero di campioni QC aumenterebbe la potenza della normalizzazione, ciò non è sempre fattibile a causa di vincoli di costo e di tempo. Per la metabolomica ad alto rendimento GWAS con caratteristiche metaboliche non mirate, è essenziale illustrare in modo appropriato un numero maggiore di associazioni tratto-marcatore. Una mappa pleiotropica38 che combina più risultati GWAS potrebbe essere utilizzata per evidenziare le regioni genomiche a cui sono collegati diversi tratti (Figura 4). Figura 1: Diagramma di flusso del GWAS basato sulla metabolomica nelle piante. Diversi passaggi a partire dalla progettazione sperimentale fino al rilevamento di QTL sono mostrati nel pannello di sinistra. Nel pannello di destra, vengono mostrate più figure per supportare diversi passaggi menzionati nel pannello di sinistra. Partendo dall’alto a destra, (1) viene mostrata una sequenza suggerita di campioni per LC-MS, (2) grafici di punteggi pre e post normalizzati di PCA, inclusa una distribuzione rappresentativa delle caratteristiche pre e post-elaborazione, con il rosso che indica le intensità del campione QC, e (3) un grafico di Manhattan con associazioni significative a cui sono state generate distribuzioni LD e aplotipiche. Abbreviazioni: GWAS = studi di associazione genome-wide; QTL = loci dei tratti quantitativi; PCA = analisi dei componenti principali; QC = controllo di qualità; LD = squilibrio di collegamento; MS = spettrometria di massa; LC-MS = cromatografia liquida-spettrometria di massa; GC-MS = gascromatografia-spettrometria di massa; LOESS = levigatura del grafico a dispersione stimato localmente; MLM/MLMM = modello lineare misto/modello misto multi-locus. Fare clic qui per visualizzare una versione più grande di questa figura. Figura 2: Elaborazione del cromatogramma. Due cromatogrammi QC (picco di base; dati lipidici) di diversi lotti dimostrano la variazione batch-wise per alcune classi lipidiche nei campioni QC raggruppati. Quattro principali classi lipidiche sono indicate con le rispettive finestre di eluizione nel sistema LC-MS interno. I cromatogrammi sono stati esportati da MzMine21. Abbreviazioni: QC = controllo qualità; LC-MS = cromatografia liquida-spettrometria di massa. Fare clic qui per visualizzare una versione più grande di questa figura. Figura 3: Correzione dell’errore sistematico. Analisi dei componenti principali dei dati lipidomici acquisiti, pre- (a sinistra, dati grezzi) e post-correzione per errori sistemici (destra, batch loess). I pannelli inferiori illustrano la distribuzione delle caratteristiche (Cluster_00005) sui campioni (n = 650) e i lotti (n = 10) pre- (sinistra) e post (destra) -correzione per la variazione analitica. Abbreviazioni: PCA = analisi dei componenti principali; QC = controllo di qualità; LOESS = levigatura del grafico a dispersione stimata localmente. Fare clic qui per visualizzare una versione più grande di questa figura. Figura 4: Mappa pleiotropica che illustra i risultati combinati GWAS. La mappa pleiotropica evidenzia le regioni dell’intero genoma che sono associate a diversi tratti. I numeri sugli anelli esterni indicano i cromosomi corrispondenti. Ogni circlet rappresenta un tratto individuale con i suoi SNP significativamente associati. I colori rappresentano diverse classi composte (grigio = classe composta 1; verde = classe composta 2; viola = classe composta 3; giallo = classe composta 4). Nel caso di associazioni di classi inter-composte con la stessa regione genomica, i geni sono evidenziati. Il cerchio grigio interno mostra la somma di tutti gli SNP significativi associati a una specifica posizione genomica. Le associazioni mostrate in questa figura sono generate artificialmente solo a scopo illustrativo. Abbreviazioni: GWAS = studi di associazione genome-wide; SNP = polimorfismi a singolo nucleotide. Fare clic qui per visualizzare una versione più grande di questa figura. Impostazioni UHPLC-MS per i lipidi Tempo [min] Eluente da A a B [%]* Informazione 0 – 1.00 45% A Eluente A: 1% 1M NH4-Acetato, 0,1% acido acetico in acqua (grado UHPLC) 1.00 – 4.00 lg 45% – 25% A Eluente B: 1% 1M NH4-Acetato, 0,1% acido acetico in acetonitrile/2-propanolo 7:3 (grado UHPLC) 4.00 – 12.00 lg 25% – 11% A Portata: 400 μL/min 12.00 – 15.00 lg 11% – 0% A Volume di iniezione: 2 μL 15.00 – 19.50 cw 0% A 19.50-19.51 0% – 45% A 19.51-24.00 eq 45% Impostazioni UHPLC-MS/MS per metaboliti polari e semipolari Tempo [min] Eluenti A e B [%]* Informazione 0 – 1.00 99% A Eluente A: 0,1% di acido formico in acqua (grado UHPLC) 1.00 – 11.00 LG 99% -60% A Eluente B: acido formico allo 0,1% in acetonitrile (grado UHPLC) 11.00 – 13.00 lg 60% – 30% A Portata: 400 μL/min 13.00 – 15.00 lg 30% – 1% A Volume di iniezione: 3 μL 15.00 – 16.00 cw 1% A 16.00 – 17.00 lg 1% – 99% A 17.00 – 20.00 eq 99% A Impostazioni GC-MS per metaboliti derivatizzati Tempo [min] Temperatura [°C] Informazione 0 – 2.00 85 Gas di trasporto: Elio 2.00 – 18.66 LG 80 – 330 Portata: 2 mL/min 18.66 – 24.66 cw 330 Gradiente di temperatura: 15 °C/min 24.66 raffreddamento rapido Volume di iniezione: 1 μL Tabella 1: Impostazioni del gradiente per ciascuna delle piattaforme analitiche7. Abbreviazioni: lg = gradiente lineare; cw = lavaggio delle colonne; eq = equilibrato; UHPLC-MS = cromatografia liquida ad altissime prestazioni-spettrometria di massa; UHPLC-MS/MS = cromatografia liquida ad altissime prestazioni-spettrometria di massa tandem; GC-MS = gascromatografia-spettrometria di massa. * = valore percentuale corrispondente all’eluente A; il valore percentuale rimanente corrisponde all’eluente B. Tabella supplementare 1: Dati lipidomici grezzi. Indica le intensità di picco per ciascuno dei cluster rilevati su ciascun campione. Fare clic qui per scaricare questa tabella.

Discussion

Sia GC-MS che LC-MS sono strumenti ampiamente utilizzati per profilare miscele complesse di varie classi di metaboliti. La gestione di set di dati di grandi dimensioni con questi strumenti è intrinsecamente associata a una variazione non biologica, ad esempio la variazione analitica, che interferisce e distorce l’interpretazione dei risultati. Questo protocollo presenta una pipeline di estrazione robusta e ad alto rendimento per una profilazione metabolica completa per eliminare la variazione di origine non biologica e condurre studi “omici” su larga scala. I volumi e le concentrazioni utilizzati in questo protocollo sono stati aggiustati per le specie di leguminose in diversi tessuti. Tuttavia, questi parametri possono essere leggermente modificati e utilizzati anche per campioni metabolici su larga scala di altre specie vegetali.

Le15 estrazioni basate su MTBE precedentemente descritte possono essere utilizzate per analizzare metaboliti derivati, metaboliti semipolari e lipidi. Questo può essere ampliato per le estrazioni di proteine eormoni vegetali 39, che erano fuori dall’ambito di questo protocollo. Altri protocolli di estrazione si basano su miscele di diclorometano:etanolo40,41. Di questi protocolli di estrazione, il protocollo di estrazione MTBE:metanolo fornisce un’alternativa favorevole e meno pericolosa ai protocolli di estrazione esistenti a base di cloroformio42 e non si traduce in un pellet proteico come interfase tra la fase polare e lipidica. Inoltre, i metodi MTBE sono già stati utilizzati in diversi studi per vari campioni biologici 43,44,45.

Questo protocollo discute diversi passaggi cruciali che potrebbero portare a potenziali variazioni durante la gestione di un gran numero di campioni, ad esempio durante la raccolta12,13, l’estrazione14 e la randomizzazione46. Inoltre, ci sono ulteriori questioni che non sono state discusse in questo protocollo che devono essere considerate per garantire dati metabolomici di alta qualità, ad esempio l’effetto matrice e la soppressione degli ioni14.

La potenza dei metodi di normalizzazione basati su QC dipende intrinsecamente dal numero di campioni QC in ciascun lotto. Come accennato in precedenza, sebbene l’aumento del numero aumenterebbe la potenza, la variazione intra-batch dei QC è relativamente marginale rispetto alla variazione tra lotti in questi sistemi analitici, come illustrato nella Figura 3. Nel complesso, ci sono altri metodi di normalizzazione basati su QC, come la rimozione degli errori sistemici utilizzando la foresta casuale (SERRF), che hanno dimostrato di superare la maggior parte degli altri metodi di normalizzazione come il rapporto batch-wise, la normalizzazione utilizzando una selezione ottimale di più standard interni (NOMIS) e la normalizzazione probabilistica del quoziente (PQN)47 . Tuttavia, SERRF si basa su più campioni QC in ogni lotto, ad esempio ogni decimo campione, il che non è fattibile durante la gestione di un gran numero di campioni. Il vantaggio principale della normalizzazione basata sul controllo di qualità rispetto ad altri metodi basati su dati o interni basati su standard è che mantiene la variazione biologica essenziale mentre accoglie la variazione tecnica indesiderata28. I lettori possono fare riferimento a questa recensione sulla gestione della variazione28.

Un problema principale in GWAS è il tasso di falsi positivi, che hanno origine principalmente a causa del collegamento di siti causali e non causali 48,49. In secondo luogo, gli approcci conservativi di correzione statistica, ad esempio Bonferroni e FDR, sono corretti per il numero di test indipendenti, che non è uguale al numero di SNP analizzati in GWAS a causa del collegamento tra SNP prossimi50,51 Pertanto, il numero effettivo di test indipendenti è spesso inferiore. Un altro modo per ridurre la soglia statistica conservativa sarebbe quello di ridurre il numero di SNP testati utilizzati per GWAS in base al decadimento del linkage su regioni genomiche definite52. La piattaforma metabolomica ad alto throughput integrata GWAS descritta in questo protocollo ha una vasta gamma di applicazioni. In particolare, faciliterà i miglioramenti nell’allevamento delle colture modificando la composizione metabolita/lipidica per i livelli desiderati industrialmente e nutrizionalmente. Nel complesso, la metabolomica ha fornito una visione approfondita dell’architettura genetica di una pletora di metaboliti e della diversificazione metabolica che si è verificata durante l’addomesticamento delle colture negli ultimi decenni, indicando il vasto potenziale dell’allevamento associato alla metabolomica53. Gli approcci biologici molecolari per la validazione QTL a valle includono la generazione di linee mutanti CRISPR/Cas954, linee di inserzione T-DNA55, linee di sovraespressione stabili e/o transitorie56, VIGS, approcci metabolomici ex vivo 57 accanto all’approccio convenzionale nella generazione di popolazioni F2 incrociate e convalida incrociata in diverse popolazioni.

Eseguendo la correzione necessaria per le variazioni analitiche come descritto sopra, oltre al GWAS possono essere eseguiti diversi approcci integrati, come metabolita-metabolita, analisi di correlazione metabolita-lipide, analisi di correlazione con dati fenomici per far luce su tratti più complessi e / o analisi di co-espressione per svelare ulteriormente le basi dei sistemi biologici58.

Disclosures

The authors have nothing to disclose.

Acknowledgements

M.B. è supportato dall’IMPRS-PMPG “Metabolismo primario e crescita delle piante”. A.R.F. e S.A. riconoscono il sostegno finanziario del programma di ricerca e innovazione Horizon 2020 dell’UE, del progetto PlantaSYST (SGA-CSA n. 739582 nell’ambito dell’FPA n. 664620) e del progetto INCREASE (GA 862862).

Materials

Reagents and standards
1,2-diheptadecanoyl-sn-glycero-3- phosphocholine (17:0 PC) Avanti Polar Lipids 850360P Internal standard for lipids
Chloroform Supleco 67-66-3 FAME solvent
Isovitexin Sigma Aldrich 38953-85-4 Internal standard for metabolites
Lignoceric Acid Methylester Sigma Aldrich 2442-49-1 FAME
Methanol (MeOH) Biosolve Chemicals 13684102 ULC-MS grade
Methoxyamin -hydrochlorid Sigma Aldrich 593-56-6 Metabolite deriviatization
Methyl laurate Sigma Aldrich 111-82-0 FAME
Methyl myristate Sigma Aldrich 124-10-7 FAME
Methyl palmitate Sigma Aldrich 112-39-0 FAME
Methyl stearate Sigma Aldrich 112-61-8 FAME
Methyl tert-butyl ether (MTBE) Biosolve Chemicals 13890602 HPLC grade
Methyl-caprat Sigma Aldrich 110-42-9 FAME
Methylcaprylat Sigma Aldrich 111-11-5 FAME
Methyldocosanoat Sigma Aldrich 929-77-1 FAME
Methyleicosanoat Sigma Aldrich 1120-28-1 FAME
Methyl-hexacosanoat Sigma Aldrich 5802-82-4 FAME
Methyl-octacosanoat Sigma Aldrich 55682-92-3 FAME
Methyl-pelargonate Sigma Aldrich 1731-84-6 FAME
N-Methyl-N-(trimethylsilyl)trifluoracetamid (MSTFA) Macherey-Nagel 24589-78-4 Metabolite deriviatization
Pyridine Supleco 110-86-1 Metabolite deriviatization
Ribitol Supleco 22566-17-2 Internal standard for derivatized metabolites
Triacontanoic Acid Methyl Ester TCI Chemicals 629-83-4 FAME
Water Biosolve Chemicals 23214102 ULC-MS grade
Equipment
1.5 mL Safe-lock microcentrifuge tubes Eppendorf 3120086
2 mL Safe-lock microcentrifuge tubes Eppendorf 3120094
Balance Sartorius Corporation 14 557 572
DB-35ms, 30 m, 0,25 mm, 0,25 µm Aglient 123-3832 Analysis of derivatized metabolites
GC-MS system Leco Pegasus HT TOF-MS (LECO Corporation) Analysis of derivatized metabolites
Grinding Balls, Stainless Steel OPS DIAGNOSTICS GBSS 196-2500-10
MS system Exactive, Orbitrap-type, MS (Exactive, Thermo Fisher Scientific) Analysis of lipids
MS system Q Exactive Focus (Q Exactive™ Focus Hybrid Quadrupol-Orbitrap™
Massenspektrometer, Thermo Fisher Scientific)
Analysis of metabolites
Refrigerated microcentrifuge Eppendorf, model 5427R 22620701
Reversed Phase (RP) Bridged Ethyl Hybrid (BEH) C8 column
(100 mm × 2.1 mm containing 1.7 μm diameter particles)
Waters 186002878 Analysis of lipids
RP High Strength Silica (HSS) T3 column
(100 mm × 2.1 mm containing 1.8 μm diameter particles)
Waters 186003539 Analysis of metabolites
Shaker Eppendorf Thermomixer 5436 2050-100-05
Sonicator USC 300 TH 142-0084
Tissue grinding mixer mill Retsch, Mixer Mill MM 300 20.746.0001
UPLC system Waters Acquity UPLC system (Waters)
Vacuum concentrator Scan Speed Maxi Vac Alpha Evaporators 7.008.500.002
Vortex mixer Vortex-Genie 2, Model G560 SI-0236
Software
MetAlign Chromatogram processing
MzMine Chromatogram processing
R package "data.table"
R package "fujiplot" pleiotrpoic map
R package "genetics"
R package "Ime4" BLUPs calculation
R package "LDheatmap" LD plots
R package "MASS" transformation
R package "rMVP" GWAS
R version 4.0.4
RefinerMS Chromatogram processing
RefinerMS Genedata Expressionist Chromatogram processing
Tassel 5 Genotype filtering
Xcalibur Thermo Fisher Scientific OPTON-30965 Chromatogram processing

References

  1. Doerr, A. Global metabolomics. Nature Methods. 14 (1), 32 (2017).
  2. Fessenden, M. Metabolomics: Small molecules, single cells. Nature. 540 (7631), 153-155 (2016).
  3. Oliver, S. G., Winson, M. K., Kell, D. B., Baganz, F. Systematic functional analysis of the yeast genome. Trends in Biotechnology. 16 (9), 373-378 (1998).
  4. Fiehn, O. Metabolomics-the link between genotypes and phenotypes. Plant Molecular Biology. 48 (1), 155-171 (2002).
  5. Wu, S., et al. Mapping the Arabidopsis metabolic landscape by untargeted metabolomics at different environmental conditions. Molecular Plant. 11 (1), 118-134 (2018).
  6. Sysi-Aho, M., Katajamaa, M., Yetukuri, L., Orešič, M. Normalization method for metabolomics data using optimal selection of multiple internal standards. BMC Bioinformatics. 8 (1), 93 (2007).
  7. Chen, M., Rao, R. S. P., Zhang, Y., Zhong, C. X., Thelen, J. J. A modified data normalization method for GC-MS-based metabolomics to minimize batch variation. SpringerPlus. 3 (1), 439 (2014).
  8. Dunn, W. B., et al. Metabolic profiling of serum using Ultra Performance Liquid Chromatography and the LTQ-Orbitrap mass spectrometry system. Journal of Chromatography B. 871 (2), 288-298 (2008).
  9. Fiehn, O., et al. Metabolite profiling for plant functional genomics. Nature Biotechnology. 18 (11), 1157-1161 (2000).
  10. vander Kloet, F. M., Bobeldijk, I., Verheij, E. R., Jellema, R. H. Analytical error reduction using single point calibration for accurate and precise metabolomic phenotyping. Journal of Proteome Research. 8 (11), 5132-5141 (2009).
  11. Folch, J., Lees, M., Stanley, G. H. S. A simple method for the isolation and purification of total lipides from animal tissues. Journal of Biological Chemistry. 226 (1), 497-509 (1957).
  12. Fukushima, A., et al. Impact of clock-associated Arabidopsis pseudo-response regulators in metabolic coordination. Proceedings of the National Academy of Sciences of the United States of America. 106 (17), 7251-7256 (2009).
  13. Kerwin, R. E., et al. Network quantitative trait loci mapping of circadian clock outputs identifies metabolic pathway-to-clock linkages in Arabidopsis. The Plant Cell. 23 (2), 471-485 (2011).
  14. Tohge, T., et al. From models to crop species: Caveats and solutions for translational metabolomics. Frontiers in Plant Sciences. 2, 61 (2011).
  15. Salem, M., Bernach, M., Bajdzienko, K., Giavalisco, P. A simple fractionated extraction method for the comprehensive analysis of metabolites, lipids, and proteins from a single sample. Journal of Visualized Experiments:JoVE. (124), e55802 (2017).
  16. Tohge, T., Fernie, A. R. Combining genetic diversity, informatics and metabolomics to facilitate annotation of plant gene function. Nature Protocols. 5 (6), 1210-1227 (2010).
  17. Lisec, J., Schauer, N., Kopka, J., Willmitzer, L., Fernie, A. R. Gas chromatography mass spectrometry-based metabolite profiling in plants. Nature Protocols. 1 (1), 387-396 (2006).
  18. Osorio, S., Do, P. T., Fernie, A. R., Hardy, N. W., Hall, R. D. . Plant Metabolomics: Methods and Protocols. , 101-109 (2012).
  19. De Vos, R. C. H., et al. Untargeted large-scale plant metabolomics using liquid chromatography coupled to mass spectrometry. Nature Protocols. 2 (4), 778-791 (2007).
  20. Perez de Souza, ., Alseekh, L., Naake, S., Fernie, T., A, Mass spectrometry-based untargeted plant metabolomics. Current Protocols in Plant Biology. 4 (4), 20100 (2019).
  21. Pluskal, T., Castillo, S., Villar-Briones, A., Orešič, M. MZmine 2: Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data. BMC Bioinformatics. 11 (1), 395 (2010).
  22. Watson, J. T., Sparkman, D. O. Electron Ionization. Introduction to mass spectrometry: Instrumentation, applications and strategies for data interpretation. , 315 (2007).
  23. Fernie, A. R., et al. Recommendations for reporting metabolite data. The Plant Cell. 23 (7), 2477 (2011).
  24. Treutler, H., et al. Discovering regulated metabolite families in untargeted metabolomics studies. Analytical Chemistry. 88 (16), 8082-8090 (2016).
  25. Wang, M., et al. Sharing and community curation of mass spectrometry data with Global Natural Products Social Molecular Networking. Nature Biotechnology. 34 (8), 828-837 (2016).
  26. Naake, T., Fernie, A. R. MetNet: Metabolite network prediction from high-resolution mass spectrometry data in R aiding metabolite annotation. Analytical Chemistry. 91 (3), 1768-1772 (2019).
  27. Chambers, J. M. . Statistical models in S. , (1991).
  28. Misra, B. B. Data normalization strategies in metabolomics: Current challenges, approaches, and tools. European Journal of Mass Spectrometry. 26 (3), 165-174 (2020).
  29. Livera, A. M. D., et al. Statistical methods for handling unwanted variation in metabolomics data. Analytical Chemistry. 87 (7), 3606-3615 (2015).
  30. Sakia, R. M. . The Box-Cox transformation technique: a review. 41 (2), 169-178 (1992).
  31. vanden Berg, R. A., Hoefsloot, H. C. J., Westerhuis, J. A., Smilde, A. K., vander Werf, M. J. Centering, scaling, and transformations: improving the biological information content of metabolomics data. BMC Genomics. 7, 142 (2006).
  32. Marees, A. T., et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. International Journal of Methods in Psychiatric Research. 27 (2), 1608 (2018).
  33. Torkamaneh, D., Laroche, J., Bastien, M., Abed, A., Belzile, F. Fast-GBS: a new pipeline for the efficient and highly accurate calling of SNPs from genotyping-by-sequencing data. BMC Bioinformatics. 18 (1), 5 (2017).
  34. Zhao, S., Agafonov, O., Azab, A., Stokowy, T., Hovig, E. Accuracy and efficiency of germline variant calling pipelines for human genome data. Scientific Reports. 10 (1), 20222 (2020).
  35. Bradbury, P. J., et al. TASSEL: software for association mapping of complex traits in diverse samples. Bioinformatics. 23 (19), 2633-2635 (2007).
  36. Bates, D., Mächler, M., Bolker, B., Walker, S. Fitting linear mixed-effects models using lme4. Journal of Statistical Software. 67 (1), (2015).
  37. Yin, L., et al. rMVP: A memory-efficient, visualization-enhanced, and parallel-accelerated tool for genome-wide association study. Genomics, Proteomics & Bioinformatics. , (2021).
  38. Kanai, M., et al. Genetic analysis of quantitative traits in the Japanese population links cell types to complex human diseases. Nature Genetics. 50 (3), 390-400 (2018).
  39. Salem, M. A., et al. An improved extraction method enables the comprehensive analysis of lipids, proteins, metabolites and phytohormones from a single sample of leaf tissue under water-deficit stress. Plant Journal: for Cell and Molecular Biology. 103 (4), 1614-1632 (2020).
  40. Balcke, G. U., et al. Multi-omics of tomato glandular trichomes reveals distinct features of central carbon metabolism supporting high productivity of specialized metabolites. The Plant Cell. 29 (5), 960-983 (2017).
  41. Leonova, T., et al. Does protein glycation impact on the drought-related changes in metabolism and nutritional properties of mature pea (Pisum sativum L.) seeds. International Journal of Molecular Sciences. 21 (2), 567 (2020).
  42. Alfonsi, K., et al. chemistry tools to influence a medicinal chemistry and research chemistry based organisation. Green Chemistry. 10 (1), 31-36 (2008).
  43. Bozek, K., et al. Organization and evolution of brain lipidome revealed by large-scale analysis of human, chimpanzee, macaque, and mouse tissues. Neuron. 85 (4), 695-702 (2015).
  44. Delgado, R., Muñoz, Y., Peña-Cortés, H., Giavalisco, P., Bacigalupo, J. Diacylglycerol activates the light-dependent channel TRP in the photosensitive microvilli of Drosophila melanogaster photoreceptors. The Journal of Neuroscience. 34 (19), 6679 (2014).
  45. Sharma, D. K., et al. UPLC-MS analysis of Chlamydomonas reinhardtii and Scenedesmus obliquus lipid extracts and their possible metabolic roles. Journal of Applied Phycology. 27 (3), 1149-1159 (2015).
  46. Dunn, W. B., Wilson, I. D., Nicholls, A. W., Broadhurst, D. The importance of experimental design and QC samples in large-scale and MS-driven untargeted metabolomic studies of humans. Bioanalysis. 4 (18), 2249-2264 (2012).
  47. Fan, S., et al. Systematic error removal using random forest for normalizing large-scale untargeted lipidomics data. Analytical Chemistry. 91 (5), 3590-3596 (2019).
  48. Larsson, S. J., Lipka, A. E., Buckler, E. S. Lessons from Dwarf8 on the strengths and weaknesses of structured association mapping. PLOS Genetics. 9 (2), 1003246 (2013).
  49. Platt, A., Vilhjálmsson, B. J., Nordborg, M. Conditions under which genome-wide association studies will be positively misleading. Genetics. 186 (3), 1045-1052 (2010).
  50. Nyholt, D. R. A simple correction for multiple testing for single-nucleotide polymorphisms in linkage disequilibrium with each other. American Journal of Human Genetics. 74 (4), 765-769 (2004).
  51. Teo, Y. Y. Common statistical issues in genome-wide association studies: a review on power, data quality control, genotype calling and population structure. Current Opinion in Lipidology. 19 (2), 133-143 (2008).
  52. Privé, F., Aschard, H., Ziyatdinov, A., Blum, M. G. B. Efficient analysis of large-scale genome-wide data with two R packages: bigstatsr and bigsnpr. Bioinformatics. 34 (16), 2781-2787 (2018).
  53. Alseekh, S., et al. Domestication of crop metabolomes: desired and unintended consequences. Trends in Plant Science. 26 (6), 650-661 (2021).
  54. Yano, K., et al. GWAS with principal component analysis identifies a gene comprehensively controlling rice architecture. Proceedings of the National Academy of Sciences of the United States of America. 116 (42), 21262 (2019).
  55. Wu, S., et al. Mapping the Arabidopsis metabolic landscape by untargeted metabolomics at different environmental conditions. Molecular Plant. 11 (1), 118-134 (2018).
  56. Ye, J., et al. An InDel in the promoter of Al-ACTIVATED MALATE TRANSPORTER9 selected during tomato domestication determines fruit malate contents and aluminum tolerance. The Plant Cell. 29 (9), 2249-2268 (2017).
  57. Zhang, W., et al. Genome assembly of wild tea tree DASZ reveals pedigree and selection history of tea varieties. Nature Communications. 11 (1), 3719 (2020).
  58. Tohge, T., Fernie, A. R. Annotation of plant gene function via combined genomics, metabolomics and informatics. Journal of Visualized Experiments: JoVE. (64), e3487 (2012).

Play Video

Cite This Article
Bulut, M., Fernie, A. R., Alseekh, S. Large-Scale Multi-Omics Genome-Wide Association Studies (Mo-GWAS): Guidelines for Sample Preparation and Normalization. J. Vis. Exp. (173), e62732, doi:10.3791/62732 (2021).

View Video