Summary

Seleção Assistida de Biomarcadores por Tamanho de Efeito de Análise Discriminante Linear (LEfSe) em dados de microbioma

Published: May 16, 2022
doi:

Summary

LEfSe (LDA Effect Size) é uma ferramenta para mineração biomarcadora de alta dimensão para identificar características genômicas (como genes, caminhos e taxonomias) que caracterizam significativamente dois ou mais grupos em dados de microbioma.

Abstract

Há uma atenção crescente para genomas biológicos fechados no meio ambiente e na saúde. Para explorar e revelar as diferenças entre diferentes amostras ou ambientes, é crucial descobrir biomarcadores com diferenças estatísticas entre os grupos. A aplicação do Linear discriminant analysis Effect Size (LEfSe) pode ajudar a encontrar bons biomarcadores. Com base nos dados originais do genoma, o controle de qualidade e a quantificação de diferentes sequências baseadas em taxas ou genes são realizados. Primeiro, o teste de classificação Kruskal-Wallis foi utilizado para distinguir entre diferenças específicas entre grupos estatísticos e biológicos. Em seguida, foi realizado o teste de classificação de Wilcoxon entre os dois grupos obtidos na etapa anterior para avaliar se as diferenças eram consistentes. Finalmente, foi realizada uma análise discriminante linear (LDA) para avaliar a influência dos biomarcadores em grupos significativamente diferentes com base nos escores de LDA. Resumindo, a LEfSe proporcionou a conveniência de identificar biomarcadores genômicos que caracterizam diferenças estatísticas entre grupos biológicos.

Introduction

Biomarcadores são características biológicas que podem ser medidas e podem indicar alguns fenômenos como infecção, doença ou ambiente. Entre eles, biomarcadores funcionais podem ser funções biológicas específicas de espécies únicas ou comuns a algumas espécies, como gene, proteína, metabólito e caminhos. Além disso, biomarcadores taxonômicos indicam uma espécie incomum, um grupo de organismos (reino, filo, classe, ordem, família, gênero, espécie), a Sequência Despíope Varient (ASV)1, ou a Unidade Taxonômica Operacional (OTU)2. Para encontrar biomarcadores de forma mais rápida e precisa, é necessária uma ferramenta para analisar os dados biológicos. As diferenças entre as classes podem ser explicadas pelo LEfSe, juntamente com testes padrão de significância estatística e testes adicionais codificando a consistência biológica e a relevância do efeito3. LEfSe está disponível como um módulo de galáxia, uma fórmula conda, uma imagem docker, e incluído no bioBakery (VM e cloud)4. Geralmente, a análise da diversidade microbiana muitas vezes utiliza um teste não paramétrico para a distribuição incerta de uma comunidade amostral. O teste de soma de classificação é um método de teste não paramétrico, que utiliza a classificação de amostras para substituir o valor das amostras. De acordo com a diferença de grupos amostrais, ele pode ser dividido em duas amostras com o teste de soma de classificação wilcoxon e em várias amostras com o teste de Kruskal-Wallis 5,6. Notavelmente, quando há diferenças significativas entre vários grupos de amostras, deve ser realizado um teste de classificação de comparação em pares de múltiplas amostras. LDA (que significa Análise Discriminante Linear) inventada por Ronald Fisher em 1936, é um tipo de aprendizado supervisionado, também conhecido como Fisher’s Linear Discriminant7. É um algoritmo clássico e popular no campo atual da mineração de dados de aprendizado de máquina.

Aqui, o ensaio LEfSe foi otimizado pelos servidores Conda e Galaxy. Três grupos de sequências genéticas de rRNA 16S são analisados para demonstrar as diferenças significativas entre diferentes grupos com escores de LDA de comunidades microbianas e resultados de visualização.

Protocol

NOTA: O protocolo foi originado e modificado a partir da pesquisa de Segata et al.3. O método é fornecido em https://bitbucket.org/biobakery/biobakery/wiki/lefse. 1. Preparação do arquivo de entrada para análise Prepare o arquivo de entrada (Tabela 1) do LEfSe, que poderia ser facilmente gerado por muitos fluxos de trabalho8 ou protocolos anteriores9 com os arquivos originais (arquivo de amo…

Representative Results

Os escores de LDA de comunidades microbianas com diferenças significativas em cada grupo, analisando as sequências genéticas de rRNA 16S de três amostras, são mostrados na Figura 8. A cor do histograma representa diferentes grupos, enquanto o comprimento representa a pontuação LDA, que é a influência da espécie com diferenças significativas entre diferentes grupos. O histograma mostra a espécie com diferenças significativas cujo escore de LDA é maior do que o valor predefinido….

Discussion

Aqui, descreve-se o protocolo de identificação e caracterização de biomarcadores em diferentes grupos. Este protocolo pode ser facilmente adaptado para outros tipos de amostra, como OTUs de microrganismos. O método estatístico da LEfSe pode encontrar os microrganismos característicos em cada grupo (padrão é LDA >2), ou seja, os microrganismos que são mais abundantes neste grupo em relação aos outros12. O LEfSe está disponível em versões nativas e web Linux, onde os usuários também…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabalho foi apoiado por uma bolsa do Fundamental Research Funds para os Institutos Centrais de Pesquisa em Bem-Estar Público (TKS170205) e fundação para o desenvolvimento de ciência e tecnologia, e do Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Play Video

Cite This Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video