Summary

Sélection assistée de biomarqueurs par taille d’effet d’analyse discriminante linéaire (LEfSe) dans les données du microbiome

Published: May 16, 2022
doi:

Summary

LEfSe (LDA Effect Size) est un outil d’exploration de biomarqueurs de haute dimension pour identifier les caractéristiques génomiques (telles que les gènes, les voies et les taxonomies) qui caractérisent de manière significative deux groupes ou plus dans les données du microbiome.

Abstract

On s’intéresse de plus en plus aux génomes biologiques fermés dans l’environnement et dans la santé. Pour explorer et révéler les différences entre les groupes entre différents échantillons ou environnements, il est crucial de découvrir des biomarqueurs avec des différences statistiques entre les groupes. L’application de l’analyse discriminante linéaire Effect Size (LEfSe) peut aider à trouver de bons biomarqueurs. Sur la base des données génomiques originales, le contrôle de la qualité et la quantification de différentes séquences basées sur des taxons ou des gènes sont effectués. Tout d’abord, le test de rang de Kruskal-Wallis a été utilisé pour distinguer les différences spécifiques entre les groupes statistiques et biologiques. Ensuite, le test de rang de Wilcoxon a été effectué entre les deux groupes obtenus à l’étape précédente pour évaluer si les différences étaient cohérentes. Enfin, une analyse discriminante linéaire (LDA) a été menée pour évaluer l’influence des biomarqueurs sur des groupes significativement différents en fonction des scores LDA. Pour résumer, LEfSe a fourni la commodité pour identifier les biomarqueurs génomiques qui caractérisent les différences statistiques entre les groupes biologiques.

Introduction

Les biomarqueurs sont des caractéristiques biologiques qui peuvent être mesurées et peuvent indiquer certains phénomènes tels que l’infection, la maladie ou l’environnement. Parmi eux, les biomarqueurs fonctionnels peuvent être des fonctions biologiques spécifiques d’une seule espèce ou communes à certaines espèces, telles que les gènes, les protéines, les métabolites et les voies. En outre, les biomarqueurs taxonomiques indiquent une espèce inhabituelle, un groupe d’organismes (règne, embranchement, classe, ordre, famille, genre, espèce), la variation de séquence amplicon (ASV)1 ou l’unité taxonomique opérationnelle (OTU)2. Afin de trouver des biomarqueurs plus rapidement et avec plus de précision, un outil d’analyse des données biologiques est nécessaire. Les différences entre les classes peuvent être expliquées par LEfSe couplé à des tests standard de signification statistique et à des tests supplémentaires codant pour la cohérence biologique et la pertinence de l’effet3. LEfSe est disponible sous la forme d’un module galaxie, d’une formule conda, d’une image docker et inclus dans bioBakery (VM et cloud)4. En général, l’analyse de la diversité microbienne utilise souvent un test non paramétrique pour la distribution incertaine d’une communauté d’échantillons. Le test de somme de rang est une méthode de test non paramétrique, qui utilise le rang des échantillons pour remplacer la valeur des échantillons. Selon la différence des groupes d’échantillons, il peut être divisé en deux échantillons avec le test de somme de rang de Wilcoxon et en plusieurs échantillons avec le test de Kruskal-Wallis 5,6. Notamment, lorsqu’il existe des différences significatives entre plusieurs groupes d’échantillons, un test de somme de rang de comparaison par paires de plusieurs échantillons devrait être effectué. LDA (qui signifie Linear Discriminant Analysis) inventé par Ronald Fisher en 1936, est un type d’apprentissage supervisé, également connu sous le nom de Fisher’s Linear Discriminant7. Il s’agit d’un algorithme classique et populaire dans le domaine actuel de l’exploration de données d’apprentissage automatique.

Ici, le test LEfSe a été optimisé par les serveurs Conda et Galaxy. Trois groupes de séquences de gènes d’ARNr 16S sont analysés pour démontrer les différences significatives entre les différents groupes ayant des scores LDA de communautés microbiennes et des résultats de visualisation.

Protocol

NOTE: Le protocole provient et a été modifié à partir des recherches de Segata et al.3. La méthode est fournie à https://bitbucket.org/biobakery/biobakery/wiki/lefse. 1. Préparation du fichier d’entrée pour analyse Préparez le fichier d’entrée (Tableau 1) de LEfSe, qui pourrait être facilement généré par de nombreux workflows8 ou protocoles précédents9 avec les fichiers d’or…

Representative Results

Les scores LDA des communautés microbiennes avec des différences significatives dans chaque groupe en analysant les séquences de gènes d’ARNr 16S de trois échantillons sont illustrés à la figure 8. La couleur de l’histogramme représente différents groupes, tandis que la longueur représente le score LDA, qui est l’influence de l’espèce avec des différences significatives entre les différents groupes. L’histogramme montre les espèces présentant des différences signifi…

Discussion

Ici, le protocole pour l’identification et la caractérisation des biomarqueurs au sein de différents groupes est décrit. Ce protocole peut facilement être adapté à d’autres types d’échantillons, tels que les OTU de micro-organismes. La méthode statistique de LEfSe permet de trouver les micro-organismes caractéristiques dans chaque groupe (la valeur par défaut est LDA >2), c’est-à-dire les micro-organismes les plus abondants dans ce groupe par rapport aux autres12. LEfSe est disp…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par une subvention des Fonds de recherche fondamentale pour les Instituts centraux de recherche sur le bien-être public (TKS170205) et la Fondation pour le développement de la science et de la technologie, et de l’Institut de recherche de Tianjin pour l’ingénierie du transport par eau (TIWTE), M.O.T. (KJFZJJ170201).

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Play Video

Cite This Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video