Summary

Estudios de asociación multiómica a gran escala de todo el genoma (Mo-GWAS): Directrices para la preparación y normalización de muestras

Published: July 27, 2021
doi:

Summary

En este protocolo, presentamos un flujo de trabajo optimizado, que combina una preparación de muestras eficiente y rápida de muchas muestras. Además, proporcionamos una guía paso a paso para reducir las variaciones analíticas para la evaluación de alto rendimiento de los estudios metabólicos GWAS.

Abstract

Tanto la cromatografía de gases-espectrometría de masas (GC-MS) como la cromatografía líquida-espectrometría de masas (LC-MS) son enfoques metabolómicos ampliamente utilizados para detectar y cuantificar cientos de miles de características de metabolitos. Sin embargo, la aplicación de estas técnicas a un gran número de muestras está sujeta a interacciones más complejas, particularmente para estudios de asociación de todo el genoma (GWAS). Este protocolo describe un flujo de trabajo metabólico optimizado, que combina una preparación de muestras eficiente y rápida con el análisis de un gran número de muestras para especies de cultivos de leguminosas. Este método de extracción ligeramente modificado se desarrolló inicialmente para el análisis de tejidos vegetales y animales y se basa en la extracción en metil terc-butil éter: disolvente de metanol para permitir la captura de metabolitos polares y lipídicos. Además, proporcionamos una guía paso a paso para reducir las variaciones analíticas, que son esenciales para la evaluación de alto rendimiento de la varianza metabólica en GWAS.

Introduction

Los enfoques “ómicos” a gran escala han permitido el análisis de sistemas biológicos complejos 1,2,3 y una mayor comprensión del vínculo entre los genotipos y los fenotipos resultantes4. La metabolómica utilizando cromatografía líquida de ultra alto rendimiento-espectrometría de masas (UHPLC-MS) y GC-MS permitió la detección de una gran cantidad de características de metabolitos, de las cuales solo algunas están anotadas hasta cierto punto, lo que resulta en una alta proporción de metabolitos desconocidos. Las interacciones complejas se pueden explorar combinando la metabolómica a gran escala con la variación genotípica subyacente de una población diversa5. Sin embargo, el manejo de grandes conjuntos de muestras está inherentemente asociado con variaciones analíticas, distorsionando la evaluación de la varianza metabólica para procesos posteriores. Específicamente, los principales problemas que conducen a variaciones analíticas se basan en el rendimiento de la máquina y la deriva instrumental a lo largo del tiempo6. La integración de la variación de lote a lote es desafiante y especialmente problemática cuando se analizan poblaciones de plantas estructuradas a gran escala. Se sugirieron múltiples procedimientos de normalización para corregir las variaciones no biológicas, por ejemplo, el uso de estándares internos, externos e internos marcados con isótopos para corregir errores analíticos, de los cuales cada uno está inherentemente asociado con problemas y trampas conocidos 7,8,9,10.

Además de la variación analítica, la elección de los protocolos de extracción generalmente varía según el método analítico. En última instancia, se desea reducir los costos de material y mano de obra, así como la necesidad de utilizar varias alícuotas de la misma muestra para diversos procesos analíticos mediante la realización de métodos de extracción basados en la separación de fases. Estos métodos se introdujeron por primera vez utilizando cloroformo: disolventes de metanol/agua para fraccionar compuestos polares e hidrófobos11.

Este protocolo describe una tubería rápida de alto rendimiento para una plataforma multiómica para perfilar tanto metabolitos polares como lípidos en especies de leguminosas. Además, muestra cómo esos conjuntos de datos pueden corregirse adecuadamente para la variación analítica y normalizarse antes de integrar información genotípica para detectar loci de rasgos cuantitativos de metabolitos (QTL) mediante la realización de GWAS.

Protocol

1. Diseño experimental y cultivo de plantas NOTA: Configurar el experimento dependiendo de la hipótesis experimental, por ejemplo, el uso de una población GWAS a gran escala disminuye la necesidad de múltiples réplicas, ya que las pruebas estadísticas se realizarán en función de los haplotipos de todos los SNP individuales en lugar de la adhesión. En contraste, las réplicas múltiples son indispensables en otros enfoques experimentales. Los siguientes puntos deben considerarse al preparar el experimento. Incluir suficientes réplicas biológicas, dependiendo de la hipótesis experimental. Aleatorice las réplicas biológicas en bloque para reducir el sesgo ambiental local durante el cultivo, por ejemplo, invernadero, campo. Asegurar el mantenimiento adecuado de la planta durante el crecimiento. Trate las plantas de manera homogénea para reducir el sesgo. 2. Preparación de material vegetal biológico Preparación de la cosecha Tubos de recolección de etiquetas (20 ml) que contienen dos perlas metálicas de 5 mm y dos de 8 mm de diámetro para homogeneizar. Llena un dewar con nitrógeno líquido.NOTA: Las plantas deben estar en la etapa vegetativa para la recolección de hojas frescas y tejido radicular. Cosechar muestras biológicas por congelación instantánea en nitrógeno líquido. Cosechar lo más rápido posible para excluir la influencia de la oscilación circadiana en el metabolismo durante las duraciones prolongadas de la cosecha12,13. Almacene los tejidos frescos de hoja y raíz cosechados para su posterior procesamiento a -80 °C.NOTA: El corte de hojas a la congelación instantánea no debe tomar más de unos pocos segundos, ya que después de la escisión de la hoja, los procesos biológicos activos alterarían los perfiles metabólicos debido a las heridas. Para las raíces, prelimpie las raíces lavando con agua antes de congelarlas en nitrógeno líquido. El exceso de agua en la superficie de la raíz debe absorberse con papel de papel. Las semillas secas se pueden almacenar a temperatura ambiente; no se requiere congelación en nitrógeno líquido. Moler el tejido con un molino mezclador de tejidos. Preenfríe los soportes del tubo en nitrógeno líquido durante un par de minutos para mantener una temperatura baja mientras se muele el tejido. Transportar las muestras biológicas en un dewar que contenga nitrógeno después de sacarlas del congelador de -80 °C. Moler los tejidos para obtener polvo homogéneo; utilizar 25 Hz durante 1 min y repetir después de la congelación en nitrógeno líquido si el tejido no está molido homogéneamente. Para moler semillas secas, coloque las semillas en un frasco de molienda con una cuenta de metal de 15 mm de diámetro. Utilice la misma frecuencia y tiempo que se menciona en el punto 2.3.3.NOTA: Se pueden usar morteros y morteros limpios y preenfriados si no se dispone de un molino mezclador de tejidos. Tubos de microcentrífuga de bloqueo seguro Precool etiquetados con 2 ml. Pesar 50 mg con un error de ±5 mg de material vegetal fresco mediante el uso de una báscula analítica. Preenfriar las herramientas utilizadas para transferir material vegetal en nitrógeno líquido. Asegúrese de que el material vegetal permanezca congelado durante el proceso de pesaje.NOTA: No exponer el material vegetal fresco demasiado tiempo a temperatura ambiente, ya que los procesos biológicos se activan al aumentar la temperatura, alterando los perfiles metabólicos14. Genere muestras adicionales de control de calidad (QC) agrupando una proporción de cada muestra y pesando 50 mg con un error de ±5 mg de material vegetal fresco agrupado en tubos de microcentrífuga de bloqueo seguro de 2 ml preenfriados.NOTA: Se recomiendan al menos tres muestras de control de calidad por cada 60 muestras. Las muestras de control de calidad son esenciales para la corrección, normalización y análisis posteriores. 3. Reactivos de extracción Tejido fresco, por ejemplo, hojas y raícesNOTA: La extracción de muestras se basa en un protocolo15 descrito anteriormente. Este protocolo se ha modificado en función de las necesidades actuales, por ejemplo, múltiples tejidos, diferentes estándares internos y experimentos a gran escala. Además, todos los volúmenes y ajustes de instrumentos mencionados a continuación se ajustan a las unidades analíticas internas. Los usuarios del protocolo deben ajustarlos de acuerdo con su unidad analítica y muestras biológicas, basadas en muestras de prueba. Mezcla de extracción 1 (EM1): metil terc-butil éter (MTBE)/metanol (MeOH) (3:1 v/v) Prepare una mezcla de MTBE/MeOH en una proporción de 3:1. Para 100 ml de disolvente de extracción, mezcle 75 ml de MTBE con 25 ml de MeOH en una botella de vidrio limpia.NOTA: Los disolventes deben manipularse con cuidado en la campana de humos con el equipo de seguridad adecuado. Agregue 45 μL de 1,2-diheptadecanoyl-sn-glycero-3-phosphocholine (1 mg/mL en cloroformo) como estándar interno para el análisis lipídico basado en UHPLC-MS, 400 μL de ribitol (1 mg/mL en agua) como estándar interno para el análisis basado en GC-MS, y 125 μL de isovitexina (1 mg/mL en MeOH/agua (1:1 v/v)) para el análisis de metabolitos basado en UHPLC-MS.NOTA: La adición de estándares internos es necesaria para la normalización posterior al análisis de acuerdo con las necesidades analíticas. Como se necesita 1 ml de EM1 para cada muestra, prepare una solución madre de acuerdo con el tamaño de la muestra experimental, que debe usarse para todo el experimento. EM1 debe almacenarse a -20 °C. Comprobar la ausencia de la norma interna utilizada y la superposición con otros compuestos en las especies investigadas. Se pueden utilizar varias normas; la selección de las normas internas en este protocolo se basó en pruebas previas utilizando extractos de frijol común16. Mezcla de extracción 2 (EM2) agua/metanol (MeOH) (3:1 v/v) Para 100 ml de EM2, agregue 75 ml de agua de doble destilación y 25 ml de MeOH en una botella de vidrio limpia. Agregue 500 μL de EM2 por muestra y prepare una solución madre de acuerdo con el tamaño de la muestra experimental, que debe usarse para todo el experimento. Conservar EM2 a 4 °C. Semillas secas Mezcla de extracción 3 (EM3) metanol (MeOH)/agua (7:3 v/v) Para 100 ml de EM3, agregue 70 ml de MeOH y 30 ml de agua de doble destilación en una botella de vidrio limpia. Preparar 1 ml de EM3 para cada muestra. Añadir 400 μL de ribitol (1 mg/mL en agua) como estándares internos para el análisis basado en GC-MS y 125 μL de isovitexina (1 mg/mL en MeOH/agua (1:1 v/v)) para el análisis de metabolitos basado en UHPLC-MS.NOTA: Prepare una solución madre de acuerdo con el tamaño de la muestra experimental y utilícela para todo el experimento. Conservar EM3 a 4 °C. 4. Extracción de muestras Tejido fresco, por ejemplo, hojas y raíces Prepare tres tubos de microcentrífuga de bloqueo seguro de 1,5 ml para cada muestra. Mantenga EM1 en un sistema de refrigeración líquida de -20 °C. Transfiera las muestras frescas del congelador de -80 °C al hielo seco o al nitrógeno líquido para su transporte. Agregue 1 ml de EM1 preenfriado a cada alícuota de 50 mg y vórtice brevemente antes de mantenerlo en hielo. Incubar las muestras en un agitador orbital a 800 × g durante 10 min a 4 °C. Sonicar las muestras en un baño de sonicación refrigerado por hielo durante 10 min. Agregue 500 μL de EM2 usando una pipeta multicanal para evitar la variación en los volúmenes agregados. Vórtice las muestras brevemente para mezclar las mezclas de extracción antes de centrifugar a 11.200 × g durante 5 min a 4 °C. Después de que se produzca la separación de fases, transfiera 500 μL de la fase superior que contiene lípidos a un tubo de microcentrífuga de bloqueo seguro de 1,5 ml premarcado. Retire el resto de la fase superior.NOTA: Tenga cuidado al transferir, ya que esta fase superior tiene una alta presión de vapor y tiende a filtrarse de la pipeta. Transfiera 150 μL y 300 μL de las fases polar inferior y semipolar que contienen metabolitos en dos tubos de microcentrífuga de bloqueo seguro de 1,5 ml utilizados para el análisis GC-MS y UHPLC-MS, respectivamente. Concentre todas las fracciones extraídas dejando que los disolventes se evaporen sin calentar utilizando un concentrador de vacío y almacene a -80 °C. Semillas secas Prepare dos tubos de microcentrífuga de bloqueo seguro de 1,5 ml para cada muestra. Mantenga EM3 en hielo. Coloque una cuenta metálica de 5 mm de diámetro en las alícuotas de muestra. Añadir 1 ml de EM3 en cada alícuota de 50 mg y homogeneizar las muestras a 25 Hz durante 2-3 min antes de ponerlas en hielo. Sonicar las muestras en un baño de sonicación refrigerado por hielo durante 10 min. Vórtice las muestras brevemente antes de centrifugar a 11.200 × g durante 5 min a 4 °C. Transfiera 150 μL y 300 μL del sobrenadante en dos tubos de microcentrífuga de bloqueo seguro de 1,5 ml utilizados para el análisis GC-MS y UHPLC-MS, respectivamente. Concentre todas las fracciones extraídas dejando que los disolventes se evaporen sin calentar utilizando un concentrador de vacío y almacene a -80 °C.NOTA: Sobre la base de la experiencia, se recomienda a los usuarios que realicen el paso 4.2 para los metabolitos semipolares y el análisis de metabolitos derivatizados en semillas secas. Realice la etapa de extracción 4.1 para el análisis de lípidos de semillas secas. 5. Análisis de lípidos utilizando UHPLC-MS Vuelva a suspender las fracciones lipídicas secas en 250 μL de acetonitrilo:2-propanol (7:3, vol/vol). Sonicar la fase lipídica durante 5 min, centrifugar a 11.200 × g durante 1 min. Transfiera 90 μL del sobrenadante a un vial de vidrio para LC-MS. Inyectar 2 μL de los extractos en el LC-MS. Realizar fraccionamiento lipídico en una columna C8 de fase invertida mantenida a 60 °C corriendo con un flujo de 400 μL/min con cambios graduales de eluyente A y B como se muestra en la Tabla 1. Adquirir los espectros de masas en modo de ionización positiva con un rango de masas de 150-1.500 m/z. Incluya varias muestras de control de calidad en todos los lotes diarios y un espacio en blanco para garantizar la corrección de la variación analítica. Aleatorice muestras en bloque en orden secuencial. 6. Análisis de metabolitos polares y semipolares utilizando UHPLC-MS Vuelva a suspender la fase polar seca en 180 μL de metanol de grado UHPLC: agua (1:1 v/v). Sonicar la fase polar durante 2 min, centrifugar a 11.200 × g durante 1 min. Transfiera 90 μL del sobrenadante a un vial de vidrio para LC-MS. Inyectar 3 μL de los extractos en el LC-MS. Realizar fraccionamiento de metabolitos en una columna de fase inversa C18 mantenida a 40 °C corriendo con un caudal de 400 μL/min con cambios graduales de eluyente A y B como se muestra en la Tabla 1. Adquirir los espectros de masas en un rango de masas de 100-1.500 m/z en un escaneo MS completo y toda la fragmentación iónica (AIF) inducida por disociación colisión (HCD) de alta energía de 40 keV.NOTA: Utilice ambos modos de ionización. Sin embargo, debido a la capacidad limitada mientras se ejecuta un gran número de muestras, ejecute muestras de prueba en ambos modos de ionización para determinar el modo de ionización preferido. Incluya varias muestras de control de calidad en todos los lotes diarios y un espacio en blanco para garantizar la corrección de la variación analítica. Aleatorice muestras en bloque en orden secuencial. Ejecute un control de calidad agrupado en MS2 dependiente de datos en los modos de ionización negativa y positiva. Utilice los espectros de masas obtenidos en un paso posterior (8.5) para la anotación. 7. Análisis de metabolitos derivatizados utilizando GC-MS17,18 NOTA: El análisis de metabolitos derivatizados se basa en un protocolo previamente descrito17. Maneje todos los reactivos de derivatización en la campana de humos. Asegúrese de que la N-metil-N-(trimetilsilil)trifluoracetamida (MSTFA) no entre en contacto con el agua y la humedad. Reactivo de derivatización 1 (DR1) Disolver el clorhidrato de metoxiamina en piridina para obtener una concentración de 30 mg/ml de DR1. Utilice 40 μL de DR1 para cada muestra. Prepare una solución madre de acuerdo con el tamaño de la muestra y guárdela a temperatura ambiente. Reactivo de derivatización 2 (DR2) Disolver MSTFA con 20 μL de ésteres metílicos de ácidos grasos (FAMEE) por 1 mL de MSTFA. Utilice 70 μL de DR2 para cada muestra. Prepare una solución madre de acuerdo con el tamaño de la muestra. Conservar MSTFA a 4 °C y las FAMEEs a -20 °C.NOTA: Los FAME incluyen metilcaprilato, metil pelargonato, metilcapato, metillato, metilmirrato, metilpalmitato, metilestearato, metileicosanoato, metildocosanoato, éster metílico de ácido lignocérico, metilhexacosanoato, metiloctacosanoato y metiléster de ácido triacontanoico, que se disuelven en CHCl3 a una concentración de 0.8 μL / ml o 0.4 mg / ml para estándares líquidos o sólidos, respectivamente. Vuelva a secar el pellet de la fase polar (almacenado a -80 °C) utilizando un concentrador de vacío durante 30 min para evitar cualquier interferencia de H2O originada durante el almacenamiento con los disolventes utilizados para la derivatización aguas abajo. Añadir 40 μL de DR1. Agite las muestras a 950 × g durante 2 h a 37 °C con un agitador orbital, seguido de un giro corto del líquido. Añadir 70 μL de DR2. Agitar de nuevo a 950 × g durante 30 min a 37 °C con un agitador orbital. Centrífuga brevemente a temperatura ambiente antes de transferir 90 μL a viales de vidrio para el análisis GC-MS. Inyecte 1 μL al modo sin división GC-MS, dependiendo de las concentraciones de metabolitos, con un flujo constante de gas portador de helio de 2 ml / min. La temperatura de inyección se ajusta a 230 °C utilizando una columna capilar MDN-35 de 30 m.NOTA: Información adicional, por ejemplo, gradiente de temperatura, se puede encontrar en la Tabla 1. El rango de masa se establece en 70-600 m/z con 20 escaneos/min. Incluir modos de división para permitir la cuantificación de compuestos de sobrecarga putativa, ahorrando costos y tiempo para la re-derivatización del extracto en tales casos. Incluya varias muestras de control de calidad en todos los lotes diarios y un espacio en blanco para garantizar la corrección de la variación analítica. Aleatorice las muestras correctamente en bloque en orden secuencial. 8. Procesamiento de cromatogramas y anotación de compuestos Filtre el ruido químico definiendo umbrales de intensidad. Incluya todas las muestras de control de calidad mientras procesa los cromatogramas.NOTA: Para los datos a gran escala, el filtrado de ruido es crucial para disminuir el tiempo de cómputo y la potencia de procesamiento. Alinee los cromatogramas definiendo una ventana de cambio de tiempo de retención. Compruebe los cromatogramas de cada lote para evaluar la variación intra e interconjunto. Realice la detección de picos dependiendo de la forma del pico, por ejemplo, altura y anchura para cálculos de ancho completo a medio máximo (FWHM). Isótopos de clúster para reducir las señales redundantes y filtrar los singletons.NOTA: Consulte la Tabla de materiales para obtener detalles sobre el software utilizado para el procesamiento de cromatogramas. Se proporcionan protocolos detallados sobre cómo procesar cromatogramas utilizando varias herramientas de software disponibles gratuitamente, por ejemplo, MS-DIAL, MetAlign, MzMine y Xcalibur 19,20,21. Utilice los datos ddMS2 de una muestra de control de calidad agrupada para la anotación de compuestos. Evaluar la estructura molecular determinando la masa monoisotópica y observando pérdidas neutras comunes, agliconas cargadas conocidas y diferentes tipos de escisiones, por ejemplo, homolíticas o heterolíticas16,22. Para reportar datos de metabolitos, siga la recomendación descrita en Fernie et al. 201123.NOTA: Se pueden utilizar diferentes enfoques de metabolómica computacional para analizar datos de metabolómica 24,25,26. 9. Normalización del conjunto de datos de metabolómica a gran escala Verifique la distribución de los estándares internos y normalice corrigiendo la respuesta de estándares internos únicos o múltiples. Corrija las intensidades máximas obtenidas del cromatograma sobre el peso exacto de la muestra dividiendo las intensidades máximas por el peso de la muestra homogeneizada aludido del paso 2.5. Correcto para la deriva de intensidad a través de series de varios lotes. Realice métodos de corrección basados en el control de calidad, como el suavizado de diagramas de dispersión estimado localmente (LOESS)27 utilizando R.NOTA: Hay varias herramientas y paquetes disponibles para abordar la deriva del rendimiento de MS durante la adquisición de todos los lotes28,29. Asegurar la distribución normal de rasgos por transformación de datos, por ejemplo, transformaciónBox-Cox 30 utilizando la función boxcox () del paquete R MASS para llevar a cabo GWAS. Realizar escalado de datos, por ejemplo, escalado de Pareto, para análisis multivariante para garantizar un pesaje adecuado de compuestos de baja abundancia31.NOTA: Si es posible, realice un ensayo de recuperación para evitar efectos de matriz, por ejemplo, supresión de iones14. 10. Estudios de asociación de todo el genoma (GWAS)32 Llame polimorfismo de un solo nucleótido (SNP) o variantes estructurales (SV) a partir de los datos de secuenciación33,34. Filtrar datos genotípicos para frecuencia de alelos menores (MAF) 10% para evitar sesgos de baja frecuencia utilizando Tassel35. Calcule las mejores predicciones lineales imparciales (BLUP) para cada característica normalizada sobre las repeticiones experimentales para eliminar el sesgo originado por factores ambientales (efectos aleatorios) utilizando el paquete R Ime436. Utilice BLUP de cada característica individualmente para realizar GWAS utilizando el paquete rMVP en R37.NOTA: Cada característica de metabolómica se ve aquí como un fenotipo independiente individual. Al realizar GWAS, corrija la estructura de la población utilizando el análisis de componentes principales (PCA) y la identidad por estado (IBS) o vanRaden para minimizar los efectos de confusión. Además, considere el uso de un modelo lineal mixto (MLM) o un modelo mixto multilocus (MLMM), ya que los modelos mixtos contienen efectos fijos y aleatorios. 11. Detección de QTL Verifique los SNP que muestran una asociación significativa, teniendo en cuenta las gráficas de Manhattan, para los cálculos de desequilibrio de vinculación (LD) para determinar la región genética subyacente. Realice cálculos de LD utilizando el mapa de calor LD del paquete R o Tassel 5. Verifique los SNP asociados para el tamaño del efecto sobre el rasgo examinando los niveles de rasgo en busca de cambios estadísticos entre haplotipos para encontrar posibles SNP causales, por ejemplo, SNP que conducen a un cambio de aminoácidos en la secuencia codificante de proteínas, lo que podría explicar la variación fenotípica.NOTA: Como lasasociaciones de rasgos S NP no necesariamente producen una asociación causal, es crucial determinar la región genómica. La identidad compuesta por anotación de características puede ayudar enormemente a encontrar los genes candidatos correctos en una región genómica específica. Sugerimos combinar todos los QTL detectados asociados con ciertos compuestos en un mapa pleiotrópico para subrayar las regiones genéticas38, como se muestra en la Figura 4. Para la validación de los genes candidatos, se pueden realizar varios enfoques (ver la discusión).

Representative Results

Los experimentos exitosos de GWAS de metabolómica deben comenzar con un diseño experimental adecuado, seguido de la recolección, extracción, adquisición de datos y procesamiento de muestras, como se ilustra en la Figura 1. En este protocolo, se utilizó el método MTBE15 para extraer y analizar cientos de metabolitos pertenecientes a varias clases de compuestos. La cromatografía depende en gran medida de las propiedades de la columna utilizada, así como de las mezclas tampón de elución. La Figura 2 muestra cromatogramas de muestras de control de calidad, lo que indica el patrón de elución de algunas de las principales clases de lípidos en este sistema analítico. Los gradientes aplicados para cada plataforma se dan en la Tabla 1. Se hizo especial hincapié en el manejo de los errores sistémicos en experimentos a gran escala. La realización de metabolómica a gran escala está inherentemente asociada con errores sistémicos. Para la demostración, analizamos los datos lipidómicos de varias especies de frijoles comunes. La Tabla Suplementaria 1 proporciona los datos lipidómicos en bruto extraídos obtenidos después del procesamiento del cromatograma utilizando el software indicado en la Tabla de Materiales. Seguir este protocolo nos permitió eludir los principales problemas en el tratamiento de datos ómicos, especialmente al manejar grandes conjuntos de muestras. El procedimiento de normalización produce una corrección precisa de los errores analíticos por lotes, como se demuestra en la Figura 3. Aunque aumentar el número de muestras de control de calidad aumentaría la potencia de la normalización, esto no siempre es factible debido a las limitaciones de costo y tiempo. Para los GWAS metabolómicos de alto rendimiento con características metabólicas no dirigidas, es esencial ilustrar adecuadamente un mayor número de asociaciones rasgo-marcador. Un mapa pleiotrópico38 que combine múltiples resultados de GWAS podría usarse para resaltar las regiones genómicas a las que están vinculados varios rasgos (Figura 4). Figura 1: Diagrama de flujo del GWAS basado en metabolómica en plantas. Varios pasos desde el diseño experimental hasta la detección de QTL se muestran en el panel izquierdo. En el panel derecho, se muestran varias figuras para admitir varios pasos mencionados en el panel izquierdo. Comenzando desde la parte superior derecha, (1) se muestra una secuencia sugerida de muestras para LC-MS, (2) gráficos de puntuación pre y post-normalizados de PCA, incluyendo una distribución representativa de características pre y post-procesamiento, con intensidades de muestra de QC que indican rojo, y (3) un gráfico de Manhattan con asociaciones significativas a las que se generaron distribuciones de LD y haplotipos. Abreviaturas: GWAS = estudios de asociación de todo el genoma; QTL = loci de rasgos cuantitativos; PCA = análisis de componentes principales; QC = control de calidad; LD = desequilibrio de enlace; MS = espectrometría de masas; LC-MS = cromatografía líquida-espectrometría de masas; GC-MS = cromatografía de gases-espectrometría de masas; LOESS = suavizado de diagramas de dispersión estimado localmente; MLM/MLMM = modelo lineal mixto/modelo mixto multilocus. Haga clic aquí para ver una versión más grande de esta figura. Figura 2: Procesamiento de cromatogramas. Dos cromatogramas de control de calidad (pico base; datos de lípidos) de diferentes lotes demuestran la variación por lotes para ciertas clases de lípidos en las muestras de control de calidad agrupadas. Cuatro clases principales de lípidos están indicadas con sus respectivas ventanas de elución en el sistema LC-MS interno. Los cromatogramas se exportaron desde MzMine21. Abreviaturas: QC = control de calidad; LC-MS = cromatografía líquida-espectrometría de masas. Haga clic aquí para ver una versión más grande de esta figura. Figura 3: Corrección del error sistemático. Análisis de componentes principales de los datos lipidómicos adquiridos, pre- (izquierda, datos en bruto) y post-corrección de errores sistémicos (derecha, batch loess). Los paneles inferiores ilustran la distribución de características (Cluster_00005) sobre las muestras (n = 650) y lotes (n = 10) pre – (izquierda) y post (derecha) – corrección para la variación analítica. Abreviaturas: PCA = análisis de componentes principales; QC = control de calidad; LOESS = suavizado de diagramas de dispersión estimado localmente. Haga clic aquí para ver una versión más grande de esta figura. Figura 4: Mapa pleiotrópico que ilustra los resultados combinados de GWAS. El mapa pleiotrópico destaca regiones en todo el genoma que están asociadas con varios rasgos. Los números en los anillos externos indican los cromosomas correspondientes. Cada círculo representa un rasgo individual con sus SNP significativamente asociados. Los colores representan diferentes clases de compuestos (gris = clase compuesta 1; verde = clase compuesta 2; púrpura = clase compuesta 3; amarillo = clase compuesta 4). En el caso de asociaciones de clases intercompuestos con la misma región genómica, se destacan los genes. El círculo gris interno muestra la suma de todos los SNP significativos asociados con una posición genómica específica. Las asociaciones que se muestran en esta figura se generan artificialmente solo para ilustración. Abreviaturas: GWAS = estudios de asociación de todo el genoma; SNP = polimorfismos de un solo nucleótido. Haga clic aquí para ver una versión más grande de esta figura. Configuración uhplc-MS para lípidos Tiempo [min] Eluyente A a B [%]* Información 0 – 1.00 45% A Eluyente A: 1% 1M NH4-Acetato, 0.1% ácido acético en agua (grado UHPLC) 1.00 – 4.00 lg 45% – 25% A Eluyente B: 1% 1M NH4-Acetato, 0.1% ácido acético en acetonitrilo/2-propanol 7:3 (grado UHPLC) 4.00 – 12.00 lg 25% – 11% A Caudal: 400 μL/min 12.00 – 15.00 lg 11% – 0% A Volumen de inyección: 2 μL 15.00 – 19.50 cw 0% A 19.50-19.51 0% – 45% A 19.51-24.00 eq 45% Ajustes UHPLC-MS/MS para metabolitos polares y semipolares Tiempo [min] Eluyente A y B [%]* Información 0 – 1.00 99% A Eluyente A: 0,1% de ácido fórmico en agua (grado UHPLC) 1.00 – 11.00 lg 99% -60% A Eluyente B: ácido fórmico al 0,1% en acetonitrilo (grado UHPLC) 11.00 – 13.00 lg 60% – 30% A Caudal: 400 μL/min 13.00 – 15.00 lg 30% – 1% A Volumen de inyección: 3 μL 15.00 – 16.00 cw 1% A 16.00 – 17.00 lg 1% – 99% A 17.00 – 20.00 eq 99% A Configuración de GC-MS para metabolitos derivatizados Tiempo [min] Temperatura [°C] Información 0 – 2.00 85 Gas portador: Helio 2.00 – 18.66 lg 80 – 330 Caudal: 2 mL/min 18.66 – 24.66 cw 330 Gradiente de temperatura: 15 °C/min 24.66 enfriamiento rápido Volumen de inyección: 1 μL Tabla 1: Ajustes de gradiente para cada una de las plataformas analíticas7. Abreviaturas: lg = gradiente lineal; cw = lavado de columnas; eq = equilibrar; UHPLC-MS = cromatografía líquida de ultra alto rendimiento-espectrometría de masas; UHPLC-MS/MS = cromatografía líquida de ultra alto rendimiento-espectrometría de masas en tándem; GC-MS = cromatografía de gases-espectrometría de masas. * = valor porcentual corresponde al eluyente A; el valor porcentual restante corresponde al eluyente B. Tabla suplementaria 1: Datos de lipidómica cruda. Indica las intensidades máximas para cada uno de los clústeres detectados en cada muestra. Haga clic aquí para descargar esta tabla.

Discussion

Tanto GC-MS como LC-MS son herramientas ampliamente utilizadas para perfilar mezclas complejas de varias clases de metabolitos. El manejo de grandes conjuntos de datos con estas herramientas está inherentemente asociado con una variación no biológica, por ejemplo, la variación analítica, que interfiere y sesga la interpretación de los resultados. Este protocolo presenta una tubería de extracción robusta y de alto rendimiento para perfiles metabólicos integrales para eliminar la variación del origen no biológico y realizar estudios “ómicos” a gran escala. Los volúmenes y concentraciones utilizados en este protocolo se ajustaron para las especies de leguminosas en diferentes tejidos. Sin embargo, estos parámetros también pueden modificarse ligeramente y utilizarse para muestras metabólicas a gran escala de otras especies de plantas.

Las15 extracciones basadas en MTBE descritas anteriormente se pueden usar para analizar metabolitos derivados, metabolitos semipolares y lípidos. Esto se puede ampliar para las extracciones de proteínas y hormonas vegetales39, que estaban fuera del alcance de este protocolo. Otros protocolos de extracción se basan en mezclas diclorometano:etanol40,41. De estos protocolos de extracción, el protocolo de extracción MTBE:metanol proporciona una alternativa favorable y menos peligrosa a los protocolos de extracción existentes a base de cloroformo42 y no da como resultado un pellet de proteína como interfase entre las fases polar y lipídica. Además, los métodos MTBE ya se han utilizado en varios estudios para diversas muestras biológicas 43,44,45.

Este protocolo discute varios pasos cruciales que podrían conducir a una variación potencial mientras se maneja una gran cantidad de muestras, por ejemplo, durante la cosecha12,13, la extracción14, así como la aleatorización46. Además, hay cuestiones adicionales que no se han discutido en este protocolo que deben considerarse para garantizar datos metabolómicos de alta calidad, por ejemplo, el efecto de matriz y la supresión de iones14.

El poder de los métodos de normalización basados en el control de calidad depende inherentemente del número de muestras de control de calidad en cada lote. Como se mencionó anteriormente, aunque aumentar el número aumentaría la potencia, la variación intra-lote de los QC es relativamente marginal en comparación con la variación entre lotes en estos sistemas analíticos, como se ilustra en la Figura 3. En general, existen otros métodos de normalización basados en el control de calidad, como la eliminación de errores sistémicos mediante bosque aleatorio (SERRF), que han demostrado superar a la mayoría de los otros métodos de normalización, como la relación por lotes, la normalización mediante una selección óptima de múltiples estándares internos (NOMIS) y la normalización probabilística del cociente (PQN)47 . Sin embargo, SERRF se basa en múltiples muestras de control de calidad en cada lote, por ejemplo, cada décima muestra, lo que no es factible mientras se maneja un gran número de muestras. La principal ventaja de la normalización basada en el control de calidad sobre otros métodos basados en datos o basados en estándares internos es que conserva la variación biológica esencial al tiempo que acomoda la variación técnica no deseada28. Los lectores pueden consultar esta revisión sobre el manejo de la variación28.

Un problema principal en GWAS es la tasa de falsos positivos, que se originan principalmente debido a la vinculación de sitios causales y no causales48,49. En segundo lugar, los enfoques conservadores de corrección estadística, por ejemplo, Bonferroni y FDR, corrigen el número de pruebas independientes, que no es igual al número de SNP ensayados en GWAS debido a la vinculación entre SNP próximos50,51 Por lo tanto, el número real de pruebas independientes es a menudo menor. Otra forma de reducir el umbral estadístico conservador sería reducir el número de SNP probados utilizados para GWAS basados en la desintegración de enlaces en regiones genómicas definidas52. La plataforma de metabolómica de alto rendimiento integrada en GWAS descrita en este protocolo tiene una amplia gama de aplicaciones. En particular, facilitará las mejoras en el mejoramiento de cultivos al cambiar la composición de metabolitos / lípidos para los niveles deseados industrial y nutricionalmente. En general, la metabolómica ha proporcionado una visión profunda de la arquitectura genética de una gran cantidad de metabolitos y diversificación metabólica que ocurrieron durante la domesticación de cultivos en las últimas décadas, lo que indica el vasto potencial de la reproducción asociada a la metabolómica53. Los enfoques biológicos moleculares para la validación QTL aguas abajo incluyen la generación de líneas mutantes CRISPR/Cas954, líneas de inserción de ADN-T55, líneas de sobreexpresión estables y/o transitorias56, VIGS, enfoques metabolómicos ex vivo 57 junto al enfoque convencional en la generación de poblaciones F2 cruzadas, así como validación cruzada en diferentes poblaciones.

Al realizar la corrección necesaria para las variaciones analíticas descritas anteriormente, se pueden realizar varios enfoques integrados además de GWAS, como el análisis de correlación metabolito-metabolito, metabolito-lípido, el análisis de correlación con datos fenómicos para arrojar luz sobre rasgos más complejos y / o el análisis de coexpresión para desentrañar aún más la base de los sistemas biológicos58.

Disclosures

The authors have nothing to disclose.

Acknowledgements

M.B. cuenta con el apoyo del IMPRS-PMPG ‘Metabolismo Primario y Crecimiento de las Plantas’. A.R.F. y S.A. reconocen el apoyo financiero del Programa de Investigación e Innovación Horizonte 2020 de la UE, el proyecto PlantaSYST (SGA-CSA No. 739582 bajo FPA No. 664620) y el proyecto INCREASE (GA 862862).

Materials

Reagents and standards
1,2-diheptadecanoyl-sn-glycero-3- phosphocholine (17:0 PC) Avanti Polar Lipids 850360P Internal standard for lipids
Chloroform Supleco 67-66-3 FAME solvent
Isovitexin Sigma Aldrich 38953-85-4 Internal standard for metabolites
Lignoceric Acid Methylester Sigma Aldrich 2442-49-1 FAME
Methanol (MeOH) Biosolve Chemicals 13684102 ULC-MS grade
Methoxyamin -hydrochlorid Sigma Aldrich 593-56-6 Metabolite deriviatization
Methyl laurate Sigma Aldrich 111-82-0 FAME
Methyl myristate Sigma Aldrich 124-10-7 FAME
Methyl palmitate Sigma Aldrich 112-39-0 FAME
Methyl stearate Sigma Aldrich 112-61-8 FAME
Methyl tert-butyl ether (MTBE) Biosolve Chemicals 13890602 HPLC grade
Methyl-caprat Sigma Aldrich 110-42-9 FAME
Methylcaprylat Sigma Aldrich 111-11-5 FAME
Methyldocosanoat Sigma Aldrich 929-77-1 FAME
Methyleicosanoat Sigma Aldrich 1120-28-1 FAME
Methyl-hexacosanoat Sigma Aldrich 5802-82-4 FAME
Methyl-octacosanoat Sigma Aldrich 55682-92-3 FAME
Methyl-pelargonate Sigma Aldrich 1731-84-6 FAME
N-Methyl-N-(trimethylsilyl)trifluoracetamid (MSTFA) Macherey-Nagel 24589-78-4 Metabolite deriviatization
Pyridine Supleco 110-86-1 Metabolite deriviatization
Ribitol Supleco 22566-17-2 Internal standard for derivatized metabolites
Triacontanoic Acid Methyl Ester TCI Chemicals 629-83-4 FAME
Water Biosolve Chemicals 23214102 ULC-MS grade
Equipment
1.5 mL Safe-lock microcentrifuge tubes Eppendorf 3120086
2 mL Safe-lock microcentrifuge tubes Eppendorf 3120094
Balance Sartorius Corporation 14 557 572
DB-35ms, 30 m, 0,25 mm, 0,25 µm Aglient 123-3832 Analysis of derivatized metabolites
GC-MS system Leco Pegasus HT TOF-MS (LECO Corporation) Analysis of derivatized metabolites
Grinding Balls, Stainless Steel OPS DIAGNOSTICS GBSS 196-2500-10
MS system Exactive, Orbitrap-type, MS (Exactive, Thermo Fisher Scientific) Analysis of lipids
MS system Q Exactive Focus (Q Exactive™ Focus Hybrid Quadrupol-Orbitrap™
Massenspektrometer, Thermo Fisher Scientific)
Analysis of metabolites
Refrigerated microcentrifuge Eppendorf, model 5427R 22620701
Reversed Phase (RP) Bridged Ethyl Hybrid (BEH) C8 column
(100 mm × 2.1 mm containing 1.7 μm diameter particles)
Waters 186002878 Analysis of lipids
RP High Strength Silica (HSS) T3 column
(100 mm × 2.1 mm containing 1.8 μm diameter particles)
Waters 186003539 Analysis of metabolites
Shaker Eppendorf Thermomixer 5436 2050-100-05
Sonicator USC 300 TH 142-0084
Tissue grinding mixer mill Retsch, Mixer Mill MM 300 20.746.0001
UPLC system Waters Acquity UPLC system (Waters)
Vacuum concentrator Scan Speed Maxi Vac Alpha Evaporators 7.008.500.002
Vortex mixer Vortex-Genie 2, Model G560 SI-0236
Software
MetAlign Chromatogram processing
MzMine Chromatogram processing
R package "data.table"
R package "fujiplot" pleiotrpoic map
R package "genetics"
R package "Ime4" BLUPs calculation
R package "LDheatmap" LD plots
R package "MASS" transformation
R package "rMVP" GWAS
R version 4.0.4
RefinerMS Chromatogram processing
RefinerMS Genedata Expressionist Chromatogram processing
Tassel 5 Genotype filtering
Xcalibur Thermo Fisher Scientific OPTON-30965 Chromatogram processing

References

  1. Doerr, A. Global metabolomics. Nature Methods. 14 (1), 32 (2017).
  2. Fessenden, M. Metabolomics: Small molecules, single cells. Nature. 540 (7631), 153-155 (2016).
  3. Oliver, S. G., Winson, M. K., Kell, D. B., Baganz, F. Systematic functional analysis of the yeast genome. Trends in Biotechnology. 16 (9), 373-378 (1998).
  4. Fiehn, O. Metabolomics-the link between genotypes and phenotypes. Plant Molecular Biology. 48 (1), 155-171 (2002).
  5. Wu, S., et al. Mapping the Arabidopsis metabolic landscape by untargeted metabolomics at different environmental conditions. Molecular Plant. 11 (1), 118-134 (2018).
  6. Sysi-Aho, M., Katajamaa, M., Yetukuri, L., Orešič, M. Normalization method for metabolomics data using optimal selection of multiple internal standards. BMC Bioinformatics. 8 (1), 93 (2007).
  7. Chen, M., Rao, R. S. P., Zhang, Y., Zhong, C. X., Thelen, J. J. A modified data normalization method for GC-MS-based metabolomics to minimize batch variation. SpringerPlus. 3 (1), 439 (2014).
  8. Dunn, W. B., et al. Metabolic profiling of serum using Ultra Performance Liquid Chromatography and the LTQ-Orbitrap mass spectrometry system. Journal of Chromatography B. 871 (2), 288-298 (2008).
  9. Fiehn, O., et al. Metabolite profiling for plant functional genomics. Nature Biotechnology. 18 (11), 1157-1161 (2000).
  10. vander Kloet, F. M., Bobeldijk, I., Verheij, E. R., Jellema, R. H. Analytical error reduction using single point calibration for accurate and precise metabolomic phenotyping. Journal of Proteome Research. 8 (11), 5132-5141 (2009).
  11. Folch, J., Lees, M., Stanley, G. H. S. A simple method for the isolation and purification of total lipides from animal tissues. Journal of Biological Chemistry. 226 (1), 497-509 (1957).
  12. Fukushima, A., et al. Impact of clock-associated Arabidopsis pseudo-response regulators in metabolic coordination. Proceedings of the National Academy of Sciences of the United States of America. 106 (17), 7251-7256 (2009).
  13. Kerwin, R. E., et al. Network quantitative trait loci mapping of circadian clock outputs identifies metabolic pathway-to-clock linkages in Arabidopsis. The Plant Cell. 23 (2), 471-485 (2011).
  14. Tohge, T., et al. From models to crop species: Caveats and solutions for translational metabolomics. Frontiers in Plant Sciences. 2, 61 (2011).
  15. Salem, M., Bernach, M., Bajdzienko, K., Giavalisco, P. A simple fractionated extraction method for the comprehensive analysis of metabolites, lipids, and proteins from a single sample. Journal of Visualized Experiments:JoVE. (124), e55802 (2017).
  16. Tohge, T., Fernie, A. R. Combining genetic diversity, informatics and metabolomics to facilitate annotation of plant gene function. Nature Protocols. 5 (6), 1210-1227 (2010).
  17. Lisec, J., Schauer, N., Kopka, J., Willmitzer, L., Fernie, A. R. Gas chromatography mass spectrometry-based metabolite profiling in plants. Nature Protocols. 1 (1), 387-396 (2006).
  18. Osorio, S., Do, P. T., Fernie, A. R., Hardy, N. W., Hall, R. D. . Plant Metabolomics: Methods and Protocols. , 101-109 (2012).
  19. De Vos, R. C. H., et al. Untargeted large-scale plant metabolomics using liquid chromatography coupled to mass spectrometry. Nature Protocols. 2 (4), 778-791 (2007).
  20. Perez de Souza, ., Alseekh, L., Naake, S., Fernie, T., A, Mass spectrometry-based untargeted plant metabolomics. Current Protocols in Plant Biology. 4 (4), 20100 (2019).
  21. Pluskal, T., Castillo, S., Villar-Briones, A., Orešič, M. MZmine 2: Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data. BMC Bioinformatics. 11 (1), 395 (2010).
  22. Watson, J. T., Sparkman, D. O. Electron Ionization. Introduction to mass spectrometry: Instrumentation, applications and strategies for data interpretation. , 315 (2007).
  23. Fernie, A. R., et al. Recommendations for reporting metabolite data. The Plant Cell. 23 (7), 2477 (2011).
  24. Treutler, H., et al. Discovering regulated metabolite families in untargeted metabolomics studies. Analytical Chemistry. 88 (16), 8082-8090 (2016).
  25. Wang, M., et al. Sharing and community curation of mass spectrometry data with Global Natural Products Social Molecular Networking. Nature Biotechnology. 34 (8), 828-837 (2016).
  26. Naake, T., Fernie, A. R. MetNet: Metabolite network prediction from high-resolution mass spectrometry data in R aiding metabolite annotation. Analytical Chemistry. 91 (3), 1768-1772 (2019).
  27. Chambers, J. M. . Statistical models in S. , (1991).
  28. Misra, B. B. Data normalization strategies in metabolomics: Current challenges, approaches, and tools. European Journal of Mass Spectrometry. 26 (3), 165-174 (2020).
  29. Livera, A. M. D., et al. Statistical methods for handling unwanted variation in metabolomics data. Analytical Chemistry. 87 (7), 3606-3615 (2015).
  30. Sakia, R. M. . The Box-Cox transformation technique: a review. 41 (2), 169-178 (1992).
  31. vanden Berg, R. A., Hoefsloot, H. C. J., Westerhuis, J. A., Smilde, A. K., vander Werf, M. J. Centering, scaling, and transformations: improving the biological information content of metabolomics data. BMC Genomics. 7, 142 (2006).
  32. Marees, A. T., et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. International Journal of Methods in Psychiatric Research. 27 (2), 1608 (2018).
  33. Torkamaneh, D., Laroche, J., Bastien, M., Abed, A., Belzile, F. Fast-GBS: a new pipeline for the efficient and highly accurate calling of SNPs from genotyping-by-sequencing data. BMC Bioinformatics. 18 (1), 5 (2017).
  34. Zhao, S., Agafonov, O., Azab, A., Stokowy, T., Hovig, E. Accuracy and efficiency of germline variant calling pipelines for human genome data. Scientific Reports. 10 (1), 20222 (2020).
  35. Bradbury, P. J., et al. TASSEL: software for association mapping of complex traits in diverse samples. Bioinformatics. 23 (19), 2633-2635 (2007).
  36. Bates, D., Mächler, M., Bolker, B., Walker, S. Fitting linear mixed-effects models using lme4. Journal of Statistical Software. 67 (1), (2015).
  37. Yin, L., et al. rMVP: A memory-efficient, visualization-enhanced, and parallel-accelerated tool for genome-wide association study. Genomics, Proteomics & Bioinformatics. , (2021).
  38. Kanai, M., et al. Genetic analysis of quantitative traits in the Japanese population links cell types to complex human diseases. Nature Genetics. 50 (3), 390-400 (2018).
  39. Salem, M. A., et al. An improved extraction method enables the comprehensive analysis of lipids, proteins, metabolites and phytohormones from a single sample of leaf tissue under water-deficit stress. Plant Journal: for Cell and Molecular Biology. 103 (4), 1614-1632 (2020).
  40. Balcke, G. U., et al. Multi-omics of tomato glandular trichomes reveals distinct features of central carbon metabolism supporting high productivity of specialized metabolites. The Plant Cell. 29 (5), 960-983 (2017).
  41. Leonova, T., et al. Does protein glycation impact on the drought-related changes in metabolism and nutritional properties of mature pea (Pisum sativum L.) seeds. International Journal of Molecular Sciences. 21 (2), 567 (2020).
  42. Alfonsi, K., et al. chemistry tools to influence a medicinal chemistry and research chemistry based organisation. Green Chemistry. 10 (1), 31-36 (2008).
  43. Bozek, K., et al. Organization and evolution of brain lipidome revealed by large-scale analysis of human, chimpanzee, macaque, and mouse tissues. Neuron. 85 (4), 695-702 (2015).
  44. Delgado, R., Muñoz, Y., Peña-Cortés, H., Giavalisco, P., Bacigalupo, J. Diacylglycerol activates the light-dependent channel TRP in the photosensitive microvilli of Drosophila melanogaster photoreceptors. The Journal of Neuroscience. 34 (19), 6679 (2014).
  45. Sharma, D. K., et al. UPLC-MS analysis of Chlamydomonas reinhardtii and Scenedesmus obliquus lipid extracts and their possible metabolic roles. Journal of Applied Phycology. 27 (3), 1149-1159 (2015).
  46. Dunn, W. B., Wilson, I. D., Nicholls, A. W., Broadhurst, D. The importance of experimental design and QC samples in large-scale and MS-driven untargeted metabolomic studies of humans. Bioanalysis. 4 (18), 2249-2264 (2012).
  47. Fan, S., et al. Systematic error removal using random forest for normalizing large-scale untargeted lipidomics data. Analytical Chemistry. 91 (5), 3590-3596 (2019).
  48. Larsson, S. J., Lipka, A. E., Buckler, E. S. Lessons from Dwarf8 on the strengths and weaknesses of structured association mapping. PLOS Genetics. 9 (2), 1003246 (2013).
  49. Platt, A., Vilhjálmsson, B. J., Nordborg, M. Conditions under which genome-wide association studies will be positively misleading. Genetics. 186 (3), 1045-1052 (2010).
  50. Nyholt, D. R. A simple correction for multiple testing for single-nucleotide polymorphisms in linkage disequilibrium with each other. American Journal of Human Genetics. 74 (4), 765-769 (2004).
  51. Teo, Y. Y. Common statistical issues in genome-wide association studies: a review on power, data quality control, genotype calling and population structure. Current Opinion in Lipidology. 19 (2), 133-143 (2008).
  52. Privé, F., Aschard, H., Ziyatdinov, A., Blum, M. G. B. Efficient analysis of large-scale genome-wide data with two R packages: bigstatsr and bigsnpr. Bioinformatics. 34 (16), 2781-2787 (2018).
  53. Alseekh, S., et al. Domestication of crop metabolomes: desired and unintended consequences. Trends in Plant Science. 26 (6), 650-661 (2021).
  54. Yano, K., et al. GWAS with principal component analysis identifies a gene comprehensively controlling rice architecture. Proceedings of the National Academy of Sciences of the United States of America. 116 (42), 21262 (2019).
  55. Wu, S., et al. Mapping the Arabidopsis metabolic landscape by untargeted metabolomics at different environmental conditions. Molecular Plant. 11 (1), 118-134 (2018).
  56. Ye, J., et al. An InDel in the promoter of Al-ACTIVATED MALATE TRANSPORTER9 selected during tomato domestication determines fruit malate contents and aluminum tolerance. The Plant Cell. 29 (9), 2249-2268 (2017).
  57. Zhang, W., et al. Genome assembly of wild tea tree DASZ reveals pedigree and selection history of tea varieties. Nature Communications. 11 (1), 3719 (2020).
  58. Tohge, T., Fernie, A. R. Annotation of plant gene function via combined genomics, metabolomics and informatics. Journal of Visualized Experiments: JoVE. (64), e3487 (2012).

Play Video

Cite This Article
Bulut, M., Fernie, A. R., Alseekh, S. Large-Scale Multi-Omics Genome-Wide Association Studies (Mo-GWAS): Guidelines for Sample Preparation and Normalization. J. Vis. Exp. (173), e62732, doi:10.3791/62732 (2021).

View Video