Summary

Вспомогательный выбор биомаркеров по размеру эффекта линейного дискриминантного анализа (LEfSe) в данных микробиома

Published: May 16, 2022
doi:

Summary

LEfSe (LDA Effect Size) – это инструмент для многомерного анализа биомаркеров для выявления геномных особенностей (таких как гены, пути и таксономии), которые значительно характеризуют две или более группы в данных микробиома.

Abstract

Растет внимание к закрытым биологическим геномам в окружающей среде и в здравоохранении. Для изучения и выявления межгрупповых различий между различными выборками или средами крайне важно обнаружить биомаркеры со статистическими различиями между группами. Применение линейного дискриминантного анализа Effect Size (LEfSe) может помочь найти хорошие биомаркеры. На основе исходных данных генома осуществляется контроль качества и количественная оценка различных последовательностей на основе таксонов или генов. Во-первых, ранж-тест Крускала-Уоллиса использовался для различения конкретных различий между статистическими и биологическими группами. Затем между двумя группами, полученными на предыдущем шаге, был проведен ранж-тест Уилкоксона, чтобы оценить, были ли различия последовательными. Наконец, был проведен линейный дискриминантный анализ (LDA) для оценки влияния биомаркеров на значительно отличающиеся группы на основе показателей LDA. Подводя итог, LEfSe обеспечил удобство для идентификации геномных биомаркеров, характеризующих статистические различия между биологическими группами.

Introduction

Биомаркеры — это биологические характеристики, которые могут быть измерены и могут указывать на некоторые явления, такие как инфекция, болезнь или окружающая среда. Среди них функциональные биомаркеры могут быть специфическими биологическими функциями отдельных видов или общими для некоторых видов, такими как ген, белок, метаболит и пути. Кроме того, таксономические биомаркеры указывают на необычный вид, группу организмов (царство, тип, класс, отряд, семейство, род, вид), вариацию последовательности Ампликона (ASV)1 или операционную таксономическую единицу (OTU)2. Для того чтобы быстрее и точнее найти биомаркеры, необходим инструмент для анализа биологических данных. Различия между классами могут быть объяснены LEfSe в сочетании со стандартными тестами на статистическую значимость и дополнительными тестами, кодирующими биологическую согласованность и релевантность эффекта3. LEfSe доступен в виде галактического модуля, формулы conda, образа docker и включен в bioBakery (VM и cloud)4. Как правило, при анализе микробного разнообразия часто используется непараметрический тест для неопределенного распределения сообщества образцов. Тест на ранговую сумму является непараметрическим методом тестирования, который использует ранг образцов для замены значения образцов. В зависимости от разницы выборочных групп его можно разделить на две выборки с тестом на сумму ранга Уилкоксона и на несколько образцов с тестом Крускала-Уоллиса 5,6. Примечательно, что при наличии существенных различий между несколькими группами выборок следует проводить ранж-суммовый тест попарного сравнения нескольких образцов. LDA (что расшифровывается как линейный дискриминантный анализ), изобретенный Рональдом Фишером в 1936 году, является типом контролируемого обучения, также известным как линейный дискриминант Фишера7. Это классический и популярный алгоритм в современной области интеллектуального анализа данных машинного обучения.

Здесь анализ LEfSe был оптимизирован серверами Conda и Galaxy. Три группы последовательностей генов 16S рРНК анализируются, чтобы продемонстрировать значительные различия между различными группами с показателями LDA микробных сообществ и результатами визуализации.

Protocol

ПРИМЕЧАНИЕ: Протокол был получен и модифицирован из исследований Segata et al.3. Метод приведен в https://bitbucket.org/biobakery/biobakery/wiki/lefse. 1. Подготовка входного файла для анализа Подготовьте входной файл (таблица 1) LEfSe, который может быть легко сгенерирован мно?…

Representative Results

Оценка LDA микробных сообществ со значительными различиями в каждой группе путем анализа последовательностей генов 16S рРНК трех образцов показана на рисунке 8. Цвет гистограммы представляет различные группы, в то время как длина представляет собой показатель LDA, который …

Discussion

Здесь описан протокол идентификации и характеристики биомаркеров в пределах разных групп. Этот протокол может быть легко адаптирован для других типов образцов, таких как OTU микроорганизмов. Статистический метод LEfSe позволяет найти характерные микроорганизмы в каждой группе (по умолча…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Эта работа была поддержана грантом Фондов фундаментальных исследований для Центральных научно-исследовательских институтов общественного благосостояния (TKS170205) и Фонда развития науки и техники, а также Тяньцзиньского научно-исследовательского института инженерии водного транспорта (TIWTE), M.O.T. (KJFZJJ170201).

Materials

No materials used

Riferimenti

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Play Video

Citazione di questo articolo
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video