LEfSe (LDA Effect Size) est un outil d’exploration de biomarqueurs de haute dimension pour identifier les caractéristiques génomiques (telles que les gènes, les voies et les taxonomies) qui caractérisent de manière significative deux groupes ou plus dans les données du microbiome.
On s’intéresse de plus en plus aux génomes biologiques fermés dans l’environnement et dans la santé. Pour explorer et révéler les différences entre les groupes entre différents échantillons ou environnements, il est crucial de découvrir des biomarqueurs avec des différences statistiques entre les groupes. L’application de l’analyse discriminante linéaire Effect Size (LEfSe) peut aider à trouver de bons biomarqueurs. Sur la base des données génomiques originales, le contrôle de la qualité et la quantification de différentes séquences basées sur des taxons ou des gènes sont effectués. Tout d’abord, le test de rang de Kruskal-Wallis a été utilisé pour distinguer les différences spécifiques entre les groupes statistiques et biologiques. Ensuite, le test de rang de Wilcoxon a été effectué entre les deux groupes obtenus à l’étape précédente pour évaluer si les différences étaient cohérentes. Enfin, une analyse discriminante linéaire (LDA) a été menée pour évaluer l’influence des biomarqueurs sur des groupes significativement différents en fonction des scores LDA. Pour résumer, LEfSe a fourni la commodité pour identifier les biomarqueurs génomiques qui caractérisent les différences statistiques entre les groupes biologiques.
Les biomarqueurs sont des caractéristiques biologiques qui peuvent être mesurées et peuvent indiquer certains phénomènes tels que l’infection, la maladie ou l’environnement. Parmi eux, les biomarqueurs fonctionnels peuvent être des fonctions biologiques spécifiques d’une seule espèce ou communes à certaines espèces, telles que les gènes, les protéines, les métabolites et les voies. En outre, les biomarqueurs taxonomiques indiquent une espèce inhabituelle, un groupe d’organismes (règne, embranchement, classe, ordre, famille, genre, espèce), la variation de séquence amplicon (ASV)1 ou l’unité taxonomique opérationnelle (OTU)2. Afin de trouver des biomarqueurs plus rapidement et avec plus de précision, un outil d’analyse des données biologiques est nécessaire. Les différences entre les classes peuvent être expliquées par LEfSe couplé à des tests standard de signification statistique et à des tests supplémentaires codant pour la cohérence biologique et la pertinence de l’effet3. LEfSe est disponible sous la forme d’un module galaxie, d’une formule conda, d’une image docker et inclus dans bioBakery (VM et cloud)4. En général, l’analyse de la diversité microbienne utilise souvent un test non paramétrique pour la distribution incertaine d’une communauté d’échantillons. Le test de somme de rang est une méthode de test non paramétrique, qui utilise le rang des échantillons pour remplacer la valeur des échantillons. Selon la différence des groupes d’échantillons, il peut être divisé en deux échantillons avec le test de somme de rang de Wilcoxon et en plusieurs échantillons avec le test de Kruskal-Wallis 5,6. Notamment, lorsqu’il existe des différences significatives entre plusieurs groupes d’échantillons, un test de somme de rang de comparaison par paires de plusieurs échantillons devrait être effectué. LDA (qui signifie Linear Discriminant Analysis) inventé par Ronald Fisher en 1936, est un type d’apprentissage supervisé, également connu sous le nom de Fisher’s Linear Discriminant7. Il s’agit d’un algorithme classique et populaire dans le domaine actuel de l’exploration de données d’apprentissage automatique.
Ici, le test LEfSe a été optimisé par les serveurs Conda et Galaxy. Trois groupes de séquences de gènes d’ARNr 16S sont analysés pour démontrer les différences significatives entre les différents groupes ayant des scores LDA de communautés microbiennes et des résultats de visualisation.
Ici, le protocole pour l’identification et la caractérisation des biomarqueurs au sein de différents groupes est décrit. Ce protocole peut facilement être adapté à d’autres types d’échantillons, tels que les OTU de micro-organismes. La méthode statistique de LEfSe permet de trouver les micro-organismes caractéristiques dans chaque groupe (la valeur par défaut est LDA >2), c’est-à-dire les micro-organismes les plus abondants dans ce groupe par rapport aux autres12. LEfSe est disp…
The authors have nothing to disclose.
Ce travail a été soutenu par une subvention des Fonds de recherche fondamentale pour les Instituts centraux de recherche sur le bien-être public (TKS170205) et la Fondation pour le développement de la science et de la technologie, et de l’Institut de recherche de Tianjin pour l’ingénierie du transport par eau (TIWTE), M.O.T. (KJFZJJ170201).