LEfSe (LDA Effect Size) es una herramienta para la minería de biomarcadores de alta dimensión para identificar características genómicas (como genes, vías y taxonomías) que caracterizan significativamente dos o más grupos en datos de microbiomas.
Hay una creciente atención hacia los genomas biológicos cerrados en el medio ambiente y en la salud. Para explorar y revelar las diferencias intergrupales entre diferentes muestras o entornos, es crucial descubrir biomarcadores con diferencias estadísticas entre grupos. La aplicación del análisis discriminante lineal Effect Size (LEfSe) puede ayudar a encontrar buenos biomarcadores. A partir de los datos originales del genoma, se lleva a cabo el control de calidad y cuantificación de diferentes secuencias basadas en taxones o genes. En primer lugar, se utilizó la prueba de rango de Kruskal-Wallis para distinguir entre diferencias específicas entre grupos estadísticos y biológicos. Luego, se realizó la prueba de rango de Wilcoxon entre los dos grupos obtenidos en el paso anterior para evaluar si las diferencias eran consistentes. Finalmente, se realizó un análisis discriminante lineal (LDA) para evaluar la influencia de los biomarcadores en grupos significativamente diferentes en función de las puntuaciones de LDA. En resumen, LEfSe proporcionó la conveniencia de identificar biomarcadores genómicos que caracterizan las diferencias estadísticas entre los grupos biológicos.
Los biomarcadores son características biológicas que se pueden medir y pueden indicar algunos fenómenos como la infección, la enfermedad o el medio ambiente. Entre ellos, los biomarcadores funcionales pueden ser funciones biológicas específicas de una sola especie o comunes a algunas especies, como genes, proteínas, metabolitos y vías. Además, los biomarcadores taxonómicos indican una especie inusual, un grupo de organismos (reino, filo, clase, orden, familia, género, especie), el Variente de Secuencia de Amplicon (ASV)1 o la Unidad Taxonómica Operativa (OTU)2. Para encontrar biomarcadores de forma más rápida y precisa, es necesaria una herramienta para analizar los datos biológicos. Las diferencias entre clases pueden explicarse mediante LEfSe junto con pruebas estándar de significación estadística y pruebas adicionales que codifican la consistencia biológica y la relevancia del efecto3. LEfSe está disponible como un módulo de galaxia, una fórmula conda, una imagen docker e incluido en bioBakery (VM y cloud)4. En general, el análisis de la diversidad microbiana a menudo utiliza una prueba no paramétrica para la distribución incierta de una comunidad de muestras. La prueba de suma de rango es un método de prueba no paramétrico, que utiliza el rango de muestras para reemplazar el valor de las muestras. De acuerdo con la diferencia de grupos de muestras, se puede dividir en dos muestras con la prueba de suma de rango de Wilcoxon y en múltiples muestras con la prueba de Kruskal-Wallis 5,6. En particular, cuando hay diferencias significativas entre múltiples grupos de muestras, se debe realizar una prueba de suma de rangos de comparación por pares de múltiples muestras. LDA (que significa Análisis Discriminante Lineal) inventado por Ronald Fisher en 1936, es un tipo de aprendizaje supervisado, también conocido como Discriminante Lineal7 de Fisher. Es un algoritmo clásico y popular en el campo actual de la minería de datos de aprendizaje automático.
Aquí, el ensayo LEfSe ha sido optimizado por los servidores Conda y Galaxy. Se analizan tres grupos de secuencias de genes 16S rRNA para demostrar las diferencias significativas entre los diferentes grupos con puntuaciones LDA de comunidades microbianas y resultados de visualización.
Aquí se describe el protocolo para la identificación y caracterización de biomarcadores dentro de diferentes grupos. Este protocolo se puede adaptar fácilmente para otros tipos de muestras, como las OTU de microorganismos. El método estadístico de LEfSe puede encontrar los microorganismos característicos en cada grupo (por defecto es LDA >2), es decir, los microorganismos que son más abundantes en este grupo en relación con los otros12. LEfSe está disponible en versiones nativas y web de…
The authors have nothing to disclose.
Este trabajo fue apoyado por una subvención de los Fondos de Investigación Fundamental para los Institutos Centrales de Investigación de Bienestar Público (TKS170205) y la Fundación para el Desarrollo de la Ciencia y la Tecnología, y el Instituto de Investigación de Tianjin para la Ingeniería del Transporte Acuático (TIWTE), M.O.T. (KJFZJJ170201).