Summary

Selección asistida de biomarcadores mediante análisis discriminante lineal del tamaño del efecto (LEfSe) en datos de microbioma

Published: May 16, 2022
doi:

Summary

LEfSe (LDA Effect Size) es una herramienta para la minería de biomarcadores de alta dimensión para identificar características genómicas (como genes, vías y taxonomías) que caracterizan significativamente dos o más grupos en datos de microbiomas.

Abstract

Hay una creciente atención hacia los genomas biológicos cerrados en el medio ambiente y en la salud. Para explorar y revelar las diferencias intergrupales entre diferentes muestras o entornos, es crucial descubrir biomarcadores con diferencias estadísticas entre grupos. La aplicación del análisis discriminante lineal Effect Size (LEfSe) puede ayudar a encontrar buenos biomarcadores. A partir de los datos originales del genoma, se lleva a cabo el control de calidad y cuantificación de diferentes secuencias basadas en taxones o genes. En primer lugar, se utilizó la prueba de rango de Kruskal-Wallis para distinguir entre diferencias específicas entre grupos estadísticos y biológicos. Luego, se realizó la prueba de rango de Wilcoxon entre los dos grupos obtenidos en el paso anterior para evaluar si las diferencias eran consistentes. Finalmente, se realizó un análisis discriminante lineal (LDA) para evaluar la influencia de los biomarcadores en grupos significativamente diferentes en función de las puntuaciones de LDA. En resumen, LEfSe proporcionó la conveniencia de identificar biomarcadores genómicos que caracterizan las diferencias estadísticas entre los grupos biológicos.

Introduction

Los biomarcadores son características biológicas que se pueden medir y pueden indicar algunos fenómenos como la infección, la enfermedad o el medio ambiente. Entre ellos, los biomarcadores funcionales pueden ser funciones biológicas específicas de una sola especie o comunes a algunas especies, como genes, proteínas, metabolitos y vías. Además, los biomarcadores taxonómicos indican una especie inusual, un grupo de organismos (reino, filo, clase, orden, familia, género, especie), el Variente de Secuencia de Amplicon (ASV)1 o la Unidad Taxonómica Operativa (OTU)2. Para encontrar biomarcadores de forma más rápida y precisa, es necesaria una herramienta para analizar los datos biológicos. Las diferencias entre clases pueden explicarse mediante LEfSe junto con pruebas estándar de significación estadística y pruebas adicionales que codifican la consistencia biológica y la relevancia del efecto3. LEfSe está disponible como un módulo de galaxia, una fórmula conda, una imagen docker e incluido en bioBakery (VM y cloud)4. En general, el análisis de la diversidad microbiana a menudo utiliza una prueba no paramétrica para la distribución incierta de una comunidad de muestras. La prueba de suma de rango es un método de prueba no paramétrico, que utiliza el rango de muestras para reemplazar el valor de las muestras. De acuerdo con la diferencia de grupos de muestras, se puede dividir en dos muestras con la prueba de suma de rango de Wilcoxon y en múltiples muestras con la prueba de Kruskal-Wallis 5,6. En particular, cuando hay diferencias significativas entre múltiples grupos de muestras, se debe realizar una prueba de suma de rangos de comparación por pares de múltiples muestras. LDA (que significa Análisis Discriminante Lineal) inventado por Ronald Fisher en 1936, es un tipo de aprendizaje supervisado, también conocido como Discriminante Lineal7 de Fisher. Es un algoritmo clásico y popular en el campo actual de la minería de datos de aprendizaje automático.

Aquí, el ensayo LEfSe ha sido optimizado por los servidores Conda y Galaxy. Se analizan tres grupos de secuencias de genes 16S rRNA para demostrar las diferencias significativas entre los diferentes grupos con puntuaciones LDA de comunidades microbianas y resultados de visualización.

Protocol

NOTA: El protocolo fue obtenido y modificado a partir de la investigación de Segata et al.3. El método se proporciona en https://bitbucket.org/biobakery/biobakery/wiki/lefse. 1. Preparación del archivo de entrada para el análisis Prepare el archivo de entrada (Tabla 1) de LEfSe, que podría ser generado fácilmente por muchos flujos de trabajo8 o protocolos anteriores9 con los archivos origin…

Representative Results

Las puntuaciones LDA de las comunidades microbianas con diferencias significativas en cada grupo mediante el análisis de las secuencias del gen 16S rRNA de tres muestras se muestran en la Figura 8. El color del histograma representa diferentes grupos, mientras que la longitud representa la puntuación LDA, que es la influencia de la especie con diferencias significativas entre los diferentes grupos. El histograma muestra las especies con diferencias significativas cuya puntuación LDA es ma…

Discussion

Aquí se describe el protocolo para la identificación y caracterización de biomarcadores dentro de diferentes grupos. Este protocolo se puede adaptar fácilmente para otros tipos de muestras, como las OTU de microorganismos. El método estadístico de LEfSe puede encontrar los microorganismos característicos en cada grupo (por defecto es LDA >2), es decir, los microorganismos que son más abundantes en este grupo en relación con los otros12. LEfSe está disponible en versiones nativas y web de…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue apoyado por una subvención de los Fondos de Investigación Fundamental para los Institutos Centrales de Investigación de Bienestar Público (TKS170205) y la Fundación para el Desarrollo de la Ciencia y la Tecnología, y el Instituto de Investigación de Tianjin para la Ingeniería del Transporte Acuático (TIWTE), M.O.T. (KJFZJJ170201).

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Play Video

Cite This Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video