LEfSe (LDA Effect Size) é uma ferramenta para mineração biomarcadora de alta dimensão para identificar características genômicas (como genes, caminhos e taxonomias) que caracterizam significativamente dois ou mais grupos em dados de microbioma.
Há uma atenção crescente para genomas biológicos fechados no meio ambiente e na saúde. Para explorar e revelar as diferenças entre diferentes amostras ou ambientes, é crucial descobrir biomarcadores com diferenças estatísticas entre os grupos. A aplicação do Linear discriminant analysis Effect Size (LEfSe) pode ajudar a encontrar bons biomarcadores. Com base nos dados originais do genoma, o controle de qualidade e a quantificação de diferentes sequências baseadas em taxas ou genes são realizados. Primeiro, o teste de classificação Kruskal-Wallis foi utilizado para distinguir entre diferenças específicas entre grupos estatísticos e biológicos. Em seguida, foi realizado o teste de classificação de Wilcoxon entre os dois grupos obtidos na etapa anterior para avaliar se as diferenças eram consistentes. Finalmente, foi realizada uma análise discriminante linear (LDA) para avaliar a influência dos biomarcadores em grupos significativamente diferentes com base nos escores de LDA. Resumindo, a LEfSe proporcionou a conveniência de identificar biomarcadores genômicos que caracterizam diferenças estatísticas entre grupos biológicos.
Biomarcadores são características biológicas que podem ser medidas e podem indicar alguns fenômenos como infecção, doença ou ambiente. Entre eles, biomarcadores funcionais podem ser funções biológicas específicas de espécies únicas ou comuns a algumas espécies, como gene, proteína, metabólito e caminhos. Além disso, biomarcadores taxonômicos indicam uma espécie incomum, um grupo de organismos (reino, filo, classe, ordem, família, gênero, espécie), a Sequência Despíope Varient (ASV)1, ou a Unidade Taxonômica Operacional (OTU)2. Para encontrar biomarcadores de forma mais rápida e precisa, é necessária uma ferramenta para analisar os dados biológicos. As diferenças entre as classes podem ser explicadas pelo LEfSe, juntamente com testes padrão de significância estatística e testes adicionais codificando a consistência biológica e a relevância do efeito3. LEfSe está disponível como um módulo de galáxia, uma fórmula conda, uma imagem docker, e incluído no bioBakery (VM e cloud)4. Geralmente, a análise da diversidade microbiana muitas vezes utiliza um teste não paramétrico para a distribuição incerta de uma comunidade amostral. O teste de soma de classificação é um método de teste não paramétrico, que utiliza a classificação de amostras para substituir o valor das amostras. De acordo com a diferença de grupos amostrais, ele pode ser dividido em duas amostras com o teste de soma de classificação wilcoxon e em várias amostras com o teste de Kruskal-Wallis 5,6. Notavelmente, quando há diferenças significativas entre vários grupos de amostras, deve ser realizado um teste de classificação de comparação em pares de múltiplas amostras. LDA (que significa Análise Discriminante Linear) inventada por Ronald Fisher em 1936, é um tipo de aprendizado supervisionado, também conhecido como Fisher’s Linear Discriminant7. É um algoritmo clássico e popular no campo atual da mineração de dados de aprendizado de máquina.
Aqui, o ensaio LEfSe foi otimizado pelos servidores Conda e Galaxy. Três grupos de sequências genéticas de rRNA 16S são analisados para demonstrar as diferenças significativas entre diferentes grupos com escores de LDA de comunidades microbianas e resultados de visualização.
Aqui, descreve-se o protocolo de identificação e caracterização de biomarcadores em diferentes grupos. Este protocolo pode ser facilmente adaptado para outros tipos de amostra, como OTUs de microrganismos. O método estatístico da LEfSe pode encontrar os microrganismos característicos em cada grupo (padrão é LDA >2), ou seja, os microrganismos que são mais abundantes neste grupo em relação aos outros12. O LEfSe está disponível em versões nativas e web Linux, onde os usuários também…
The authors have nothing to disclose.
Este trabalho foi apoiado por uma bolsa do Fundamental Research Funds para os Institutos Centrais de Pesquisa em Bem-Estar Público (TKS170205) e fundação para o desenvolvimento de ciência e tecnologia, e do Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).