Summary

Aplicación del análisis factorial multiómico no supervisado para descubrir patrones de variación y procesos moleculares relacionados con las enfermedades cardiovasculares

Published: September 20, 2024
doi:

Summary

Presentamos un flujo de trabajo flexible y extensible basado en Jupyter-lab para el análisis no supervisado de conjuntos de datos multiómicos complejos que combina diferentes pasos de preprocesamiento, estimación del modelo de análisis factorial multiómico y varios análisis posteriores.

Abstract

Los mecanismos de las enfermedades suelen ser complejos y se rigen por la interacción de varios procesos moleculares distintos. Los conjuntos de datos complejos y multidimensionales son un recurso valioso para generar más información sobre esos procesos, pero el análisis de dichos conjuntos de datos puede ser un desafío debido a la alta dimensionalidad que resulta, por ejemplo, de diferentes condiciones de enfermedades, puntos de tiempo y ómicas que capturan el proceso a diferentes resoluciones.

Aquí, mostramos un enfoque para analizar y explorar un conjunto de datos multiómicos tan complejo de manera no supervisada mediante la aplicación del análisis factorial multiómico (MOFA) a un conjunto de datos generado a partir de muestras de sangre que capturan la respuesta inmune en síndromes coronarios agudos y crónicos. El conjunto de datos consta de varios ensayos con diferentes resoluciones, incluidos datos de citocinas a nivel de muestra, proteómica de plasma y secuenciación principal de neutrófilos, y datos de secuenciación de ARN de una sola célula (scRNA-seq). Se añade más complejidad al tener varios puntos de tiempo diferentes medidos por paciente y varios subgrupos de pacientes.

El flujo de trabajo de análisis describe cómo integrar y analizar los datos en varios pasos: (1) Preprocesamiento y armonización de datos, (2) Estimación del modelo MOFA, (3) Análisis posterior. En el paso 1 se describe cómo procesar las características de los diferentes tipos de datos, filtrar las características de baja calidad y normalizarlas para armonizar sus distribuciones para un análisis posterior. El paso 2 muestra cómo aplicar el modelo MOFA y explorar las principales fuentes de varianza dentro del conjunto de datos en todas las ómicas y características. En el paso 3 se presentan varias estrategias para el análisis posterior de los patrones capturados, vinculándolos a las condiciones de la enfermedad y a los posibles procesos moleculares que gobiernan esas condiciones.

En general, presentamos un flujo de trabajo para la exploración de datos no supervisada de conjuntos de datos multiómicos complejos para permitir la identificación de los principales ejes de variación compuestos por diferentes características moleculares que también se pueden aplicar a otros contextos y conjuntos de datos multiómicos (incluidos otros ensayos presentados en el caso de uso ejemplar).

Introduction

Los mecanismos de las enfermedades suelen ser complejos y se rigen por la interacción de varios procesos moleculares distintos. Descifrar los complejos mecanismos moleculares que conducen a enfermedades específicas o gobiernan la evolución de una enfermedad es una tarea de gran relevancia médica, ya que podría revelar nuevos conocimientos para la comprensión y el tratamiento de las enfermedades.

Los avances tecnológicos recientes permiten medir esos procesos en una resolución más alta (por ejemplo, a nivel de una sola célula) y en varias capas biológicas (por ejemplo, ADN, ARNm, accesibilidad a la cromatina, metilación del ADN, proteómica) al mismo tiempo. Esto conduce a la generación cada vez mayor de grandes conjuntos de datos biológicos multidimensionales, que se pueden analizar conjuntamente para generar más información sobre los procesos subyacentes. Al mismo tiempo, combinar y analizar las diferentes fuentes de datos de una manera biológicamente significativa sigue siendo una tarea desafiante1.

Los diferentes límites tecnológicos, ruidos y rangos de variabilidad entre las diferentes ómicas plantean un desafío. Por ejemplo, los datos de secuenciación de ARN de una sola célula (scRNA-seq) son muy escasos y, a menudo, están influenciados por grandes efectos técnicos o de lotes. Además, el espacio de características suele ser muy grande, abarcando varios miles de genes o proteínas medidos, mientras que los tamaños de muestra son limitados. Esto se complica aún más por los diseños complejos, que pueden incluir varias condiciones de enfermedad, factores de confusión, puntos de tiempo y resoluciones. Por ejemplo, en el caso de uso presentado, había diferentes tipos de datos disponibles a nivel de una sola célula o de muestra (a granel). Además de eso, los datos pueden estar incompletos y es posible que no todas las mediciones estén disponibles para todos los sujetos analizados.

Debido a estos desafíos, las diferentes ómicas y las características incluidas a menudo se analizan solo por separado2, aunque la realización de un análisis integrado no solo puede proporcionar una imagen completa del proceso, sino que los ruidos biológicos y técnicos de una ómica también pueden ser compensados por otras ómicas 3,4. Se han propuesto varios métodos diferentes para realizar un análisis integrado de datos multiómicos, incluidos los métodos bayesianos, los métodos basados en redes 5,6, el aprendizaje profundo multimodal7 y los métodos de reducción de dimensionalidad mediante factorización de matrices 8,9. Para este último, los resultados de un gran estudio de benchmarking10 han demostrado que el método MOFA9 (análisis factorial multiómico) es una de las herramientas más adecuadas cuando los datos deben vincularse a las anotaciones clínicas.

Especialmente en entornos complejos, los métodos de factorización de matrices no supervisados son un enfoque útil para reducir la complejidad y extraer señales compartidas y complementarias de diferentes fuentes de datos y características. Al descomponer el espacio complejo en representaciones latentes de rango inferior, las principales fuentes de varianza dentro de los datos se pueden explorar rápidamente y vincular a covariables conocidas. En caso de que el mismo patrón de variación se comparta a través de múltiples características (por ejemplo, genes o proteínas), esto puede agregarse a unos pocos factores mientras se reduce el ruido. La regularización se puede utilizar para aumentar la dispersión de los coeficientes del modelo, lo que hace que el enfoque sea adecuado en entornos en los que el espacio de características es grande mientras que el número de muestras es limitado9.

Este protocolo presenta un flujo de trabajo de análisis flexible que utiliza el modelo MOFA para mostrar cómo explorar rápidamente un conjunto de datos multiómicos complejo y destilar los principales patrones de variación que caracterizan a este conjunto de datos. El flujo de trabajo consta de tres pasos principales. En el primer paso, Preprocesamiento y armonización de datos, se presentan diferentes estrategias para el preprocesamiento de datos basadas en diferentes tipos de datos de entrada (scRNA-seq, proteómica, citocinas, datos clínicos). El protocolo explica cómo procesar las características de los diferentes conjuntos de datos de entrada, filtrar las características de baja calidad y normalizarlas para armonizar sus distribuciones. También mostramos cómo esas decisiones de preprocesamiento pueden afectar a los resultados posteriores. En el segundo paso, se aplica el modelo MOFA a los datos, y la descomposición de la varianza resultante se puede utilizar para evaluar la integración de los diferentes conjuntos de datos. El tercer paso muestra cómo vincular los factores capturados con las covariables y descubrir los programas moleculares que definen esos factores. Con el flujo de trabajo presentado, pudimos extraer varios factores latentes vinculados a covariables clínicas en un conjunto de datos de pacientes que padecían síndromes coronarios e identificar posibles programas inmunes multicelulares subyacentes de un proyecto anterior11. Usaremos este conjunto de datos aquí, pero el protocolo se puede aplicar fácilmente a otros contextos, incluidas otras ómicas.

El conjunto de datos consta de muestras de pacientes con síndromes coronarios crónicos (SCC) estables, síndromes coronarios agudos (SCA) y un grupo de control con coronarias sanas (no SCC) (Figura 1). El SCA es causado por la ruptura de la placa en el CCS preexistente, lo que conduce a una interrupción aguda del flujo sanguíneo al miocardio y una lesión isquémica posterior del corazón. Esta lesión provoca una respuesta inflamatoria del sistema inmune seguida de una fase reparadora, que dura hasta varios días después del evento agudo12. Para poder caracterizar esta respuesta inmunitaria en los pacientes con SCA, se tomaron muestras de sangre en cuatro momentos diferentes: agudo (TP1); después de la recanalización (14 [± 8] h) (TP2); 60 [± 12] h después (TP3); antes del alta (6,5 [±1,5] días) (TP4) (Figura 1A). Para el CCS y los pacientes con coronarias sanas, solo se disponía de un punto de tiempo: (TP0). Para todos los pacientes y puntos temporales se midieron diferentes ensayos basados en las muestras de sangre: marcadores clínicos de inflamación (creatina-quinasa (CK), CK-MB, TROPONINA, PROTEÍNA C reactiva (PCR)), scRNA-seq de células mononucleares de sangre periférica (PBMC), análisis de citocinas, proteómica plasmática y datos prime-seq13 de neutrófilos.

Figure 1
Figura 1: Conjunto de datos de entrada multiómica de infarto de miocardio. Conjunto de datos de entrada: Los datos analizados incluyen muestras de sangre de pacientes (n = 62) con síndrome coronario agudo (SCA), síndromes coronarios crónicos (SCC) y pacientes con coronarias sanas (no SCC). Para los pacientes con SCA, se incluyeron muestras de sangre en cuatro puntos de tiempo diferentes (TP1-4), para los pacientes con CCS y no CCS en un solo punto de tiempo (TP0). Cada combinación de paciente y punto de tiempo se trata como una muestra separada en el análisis. Se midieron diferentes ensayos ómicos en las muestras: análisis clínicos de sangre (n = 125), scRNA-seq (n = 121), plasma-proteómica (n = 119), ensayo de citocinas (n = 127) y neutrophil prime-seq (n = 121). Posteriormente, se aplicó el protocolo descrito para integrar los datos en todas las ómicas y explorarlos utilizando el modelo MOFA y análisis posteriores (análisis factorial, enriquecimiento de vías). Haga clic aquí para ver una versión más grande de esta figura.

Como entrada para el flujo de trabajo que se presenta aquí, tomamos recuentos brutos de los datos de scRNA-seq después del procesamiento con cellranger y el control de calidad (QC) como, por ejemplo, se describe en el tutorial de preprocesamiento de scanpy14 . Para la anotación del tipo de celda, utilizamos la canalización automatizada Azimut15 . A continuación, los recuentos se agregan a nivel de muestra para cada tipo de célula tomando la media de todas las células de cada muestra y tipo de célula (agregación pseudomasiva). La proteómica del plasma se incluye como intensidades normalizadas y centradas en la mediana, y para los neutrófilos, tomamos los recuentos de exones del identificador molecular único (UMI) de la secuencia principal. Sobre citocinas y valores clínicos, no se ha aplicado ningún preprocesamiento previo. En el manuscrito correspondiente11 se describen más detalles sobre la generación de datos (experimentales). Dado que los resultados presentados aquí se basan en el uso de la anotación de acimut automatizada para los tipos de células en los datos de scRNA-seq en comparación con la estrategia basada en marcadores que se utilizó en la publicación a la que se hace referencia, los resultados presentados aquí son similares, pero no exactamente iguales a los presentados en la publicación. En el manuscrito se pudo demostrar que la estrategia de anotación del tipo de celda no cambia los patrones principales y las interpretaciones biológicas del análisis, pero pequeños cambios en los valores exactos resultantes del modelo pueden variar. En general, los datos de entrada eran un conjunto de datos complejo y multidimensional que incluía diferentes puntos de tiempo y niveles de medición (células individuales frente a graneles) de más de 10.000 características diferentes (genes, proteínas, valores clínicos). Se ha demostrado que una estricta estrategia de preprocesamiento y armonización de datos seguida por el análisis MOFA es una herramienta útil y rápida para explorar los datos y extraer el programa inmunológico relevante. Cada combinación de punto de tiempo y paciente se trata como una muestra independiente en el análisis MOFA. Cada tipo de datos y tipo de celda se considera una vista separada en el análisis MOFA.

Este protocolo proporciona instrucciones para preparar los datos de entrada para el flujo de trabajo, ejecutar los diferentes pasos del flujo de trabajo, personalizar las configuraciones, interpretar las cifras resultantes y ajustar iterativamente las configuraciones en función de las interpretaciones. En la descripción general del flujo de trabajo técnico (Figura 2) se proporciona una descripción general de los diferentes pasos del protocolo, los conjuntos de datos de entrada necesarios en cada paso y las figuras y conjuntos de datos resultantes.

Figure 2
Figura 2: Descripción general del flujo de trabajo técnico. Esquema del flujo de trabajo para el análisis del conjunto de datos multiómicos. Los diferentes elementos están resaltados por diferentes colores y símbolos. Los Jupyter Notebooks que pertenecen al paso Preprocesamiento y armonización de datos (1) están coloreados en azul. Los Jupyter Notebooks que pertenecen al paso ‘Modelo MOFA’ (2) están coloreados en naranja. Los Jupyter Notebooks que pertenecen al paso “Análisis descendente” (3) están coloreados en verde. Un cuaderno de Jupyter Notebook que se usará para comparar los resultados está coloreado en amarillo. Los archivos de configuración donde se pueden modificar los parámetros para la ejecución del flujo de trabajo se resaltan en púrpura. Los conjuntos de datos de entrada necesarios para ejecutar el flujo de trabajo se indican mediante el símbolo del conjunto de datos y se resaltan en gris. Todas las salidas de figuras que se generan durante la ejecución del flujo de trabajo se indican con el símbolo de lupa. Los conjuntos de datos generados durante la ejecución del flujo de trabajo se indican como tablas. En general, el flujo de trabajo se ejecuta secuencialmente: (1) El preprocesamiento y la armonización de datos consta de dos pasos: la primera generación de una tabla pseudomasiva basada en los datos de entrada scRNA-seq (01_Prepare_Pseudobulk) y la posterior integración y normalización de estos datos junto con todas las demás entradas de nivel de muestra (masivas) (02_Integrate_and_Normalize_Data). Dentro de este paso, a través de los archivos de configuración, es posible configurar para cada conjunto de datos por separado cuál de los pasos de preprocesamiento y normalización indicados (por ejemplo, filtro de muestra) se debe aplicar. (2) ‘Modelo MOFA’: ejecuta el modelo MOFA en la entrada generada del primer paso con las configuraciones especificadas en el archivo de configuración (03_MOFA_configs.csv) (3) ‘Análisis descendente’: consta de tres cuadernos diferentes que pueden ejecutarse independientemente entre sí para generar información sobre los resultados MOFA generados y asociarlos con metadatos de muestra (covariables) proporcionados como entrada a través del archivo ‘Sample Meta Data.csv’. (4) “Comparación de modelos”: es un pequeño paso separado que se puede utilizar para comparar diferentes modelos generados en el paso 2. Haga clic aquí para ver una versión más grande de esta figura.

El flujo de trabajo consta de varios Jupyter Notebooks escritos en R y Python (no se requiere conocimiento del lenguaje R y Python para ejecutar el flujo de trabajo, pero puede ser útil en caso de que aparezcan errores). En varios pasos del protocolo, los parámetros se modifican a través de archivos de configuración (archivos ‘.csv’ que contienen el sufijo ‘_Configs’ en el nombre). Dentro del protocolo, solo describimos los parámetros que deben cambiarse a partir de la configuración predeterminada.

También se pueden cambiar otros parámetros, por ejemplo, para personalizar el preprocesamiento. Una documentación de estos parámetros y explicaciones se proporciona en el archivo ‘Documentation_Config_Parameter’, que se incluye en el repositorio descargado.

Protocol

1. Preparativos: Configuración técnica e instalación NOTA: Para ejecutar este programa, tenga wget, git y Apptainer preinstalados en el dispositivo. Aquí se proporciona una guía para instalar Apptainer en diferentes sistemas (Linux, Windows, Mac): https://apptainer.org/docs/admin/main/installation.html. La información de instalación de git se puede encontrar aquí: https://git-scm.com/book/en/v2/Getting-Started-Installing-Git. En función…

Representative Results

Después de la ejecución exitosa del flujo de trabajo, se generan varias tablas y figuras como se indica en la Figura 2. Las figuras se colocan en la carpeta /figures (Figura 6, Figura 7, Figura 8, Figura complementaria 1, Figura complementaria 2, Figura complementaria 3, Figura complementaria …

Discussion

Con el protocolo descrito, se presenta un flujo de trabajo modular y extensible basado en Jupyter-notebook que se puede utilizar para explorar rápidamente un conjunto de datos multiómico complejo. Las partes principales del flujo de trabajo consisten en la parte de preprocesamiento y armonización de datos (que ofrece diferentes pasos estándar para el filtrado y la normalización de los datos), la estimación del modelo MOFA9 y algunos ejemplos de análisis pos…

Divulgaciones

The authors have nothing to disclose.

Acknowledgements

C.L. cuenta con el apoyo de la Asociación Helmholtz en el marco de la escuela de investigación conjunta “Munich School for Data Science – MUDS”.

Materials

Apptainer NA NA https://apptainer.org/docs/admin/main/installation.html
Compute server or workstation or cloud  (Linux, Mac or Windows environment).
Depending on the size of the different input datasets we recommend running the workflow on a suitable machine (in our setting we use: 16 CPU, 64GB Memory)
Any manufacturer 16 CPU, 64GB Memory Large Memory is only required for the processing of the raw single cell data. After preprocessing the later analysis steps can also be performed on regular desktop or laptop computers
git NA NA https://git-scm.com/book/en/v2/Getting-Started-Installing-Git
GitHub GitHub NA https://github.com/heiniglab/mofa_workflow

Referencias

  1. Lähnemann, D., et al. Eleven grand challenges in single-cell data science. Genome Biol. 21 (1), 31 (2020).
  2. Colomé-Tatché, M., Theis, F. J. Statistical single cell multi-omics integration. Curr Opin Syst Biol. 7, 54-59 (2018).
  3. Hawe, J., Theis, F., Heinig, M. Inferring interaction networks from multi-omics data. Front Genet. 10, 535 (2019).
  4. Hawe, J. S., et al. Network reconstruction for trans acting genetic loci using multi-omics data and prior information. Genome Med. 14 (1), 125 (2022).
  5. Koh, H. W. L., Fermin, D., Vogel, C., Choi, K. P., Ewing, R. M., Choi, H. iOmicsPASS: network-based integration of multiomics data for predictive subnetwork discovery. NPJ Syst Biol Appl. 5, 22 (2019).
  6. Ogris, C., Hu, Y., Arloth, J., Müller, N. S. Versatile knowledge guided network inference method for prioritizing key regulatory factors in multi-omics data. Sci Rep. 11, 6806 (2021).
  7. Lee, C., van der Schaar, M. A variational information bottleneck approach to multi-omics data integration. 130, 1513-1521 (2021).
  8. Singh, A., et al. DIABLO: an integrative approach for identifying key molecular drivers from multi-omics assays. Bioinformatics. 35 (17), 3055-3062 (2019).
  9. Argelaguet, R., et al. Multi-omics factor analysis-a framework for unsupervised integration of multi-omics data sets. Mol Syst Biol. 14 (6), e8124 (2018).
  10. Cantini, L., et al. Benchmarking joint multi-omics dimensionality reduction approaches for the study of cancer. Nature Commun. 12 (1), 124 (2021).
  11. Pekayvaz, K., et al. Multiomic analyses uncover immunological signatures in acute and chronic coronary syndromes. Nature Medicine. 30 (6), 1696-1710 (2024).
  12. Swirski, F. K., Nahrendorf, M. Cardioimmunology: the immune system in cardiac homeostasis and disease. Nat Rev Immunol. 18 (12), 733-744 (2018).
  13. Janjic, A., et al. Prime-seq, efficient and powerful bulk RNA sequencing. Genome Biol. 23 (1), 88 (2022).
  14. Wolf, F. A., Angerer, P., Theis, F. J. SCANPY: large-scale single-cell gene expression data analysis. Genome Biol. 19 (1), 15 (2018).
  15. Cao, Y., et al. Integrated analysis of multimodal single-cell data with structural similarity. Nucleic Acids Res. 50 (21), e121 (2022).
  16. . Get Started – JupyterLab 4.1.0a4 documentation Available from: https://jupyterlab.readthedocs.io/en/latest/getting_started/overview.html (2024)
  17. . MOFA2: training a model in R Available from: https://raw.githack.com/bioFAM/MOFA2_tutorials/master/R_tutorials/getting_started_R.html (2020)
  18. De Silva, D., et al. Robust T cell activation requires an eIF3-driven burst in T cell receptor translation. eLife. 10, e74272 (2021).
  19. Li, G., Liang, X., Lotze, M. HMGB1: The central cytokine for all lymphoid cells. Front Immunol. 4, 68 (2013).
  20. Jassal, B., et al. The reactome pathway knowledgebase. Nucleic Acids Res. 48 (D1), D498-D503 (2020).
  21. Argelaguet, R., et al. MOFA+: a statistical framework for comprehensive integration of multimodal single-cell data. Genome Biol. 21 (1), 111 (2020).
  22. Velten, B., et al. Identifying temporal and spatial patterns of variation from multimodal data using MEFISTO. Nat Methods. 19 (2), 179-186 (2022).
  23. Qoku, A., Buettner, F. Encoding domain knowledge in multi-view latent variable models: A Bayesian approach with structured sparsity. 206, 11545-11562 (2022).
  24. . Multi-Omics Factor Analysis Available from: https://biofam.github.io/MOFA2/ (2024)
  25. Mitchel, J., et al. Tensor decomposition reveals coordinated multicellular patterns of transcriptional variation that distinguish and stratify disease individuals. bioRxiv. , (2023).

Play Video

Citar este artículo
Losert, C., Pekayvaz, K., Knottenberg, V., Nicolai, L., Stark, K., Heinig, M. Application of Unsupervised Multi-Omic Factor Analysis to Uncover Patterns of Variation and Molecular Processes Linked to Cardiovascular Disease. J. Vis. Exp. (211), e66659, doi:10.3791/66659 (2024).

View Video