LEfSe (LDA Effect Size) – это инструмент для многомерного анализа биомаркеров для выявления геномных особенностей (таких как гены, пути и таксономии), которые значительно характеризуют две или более группы в данных микробиома.
Растет внимание к закрытым биологическим геномам в окружающей среде и в здравоохранении. Для изучения и выявления межгрупповых различий между различными выборками или средами крайне важно обнаружить биомаркеры со статистическими различиями между группами. Применение линейного дискриминантного анализа Effect Size (LEfSe) может помочь найти хорошие биомаркеры. На основе исходных данных генома осуществляется контроль качества и количественная оценка различных последовательностей на основе таксонов или генов. Во-первых, ранж-тест Крускала-Уоллиса использовался для различения конкретных различий между статистическими и биологическими группами. Затем между двумя группами, полученными на предыдущем шаге, был проведен ранж-тест Уилкоксона, чтобы оценить, были ли различия последовательными. Наконец, был проведен линейный дискриминантный анализ (LDA) для оценки влияния биомаркеров на значительно отличающиеся группы на основе показателей LDA. Подводя итог, LEfSe обеспечил удобство для идентификации геномных биомаркеров, характеризующих статистические различия между биологическими группами.
Биомаркеры — это биологические характеристики, которые могут быть измерены и могут указывать на некоторые явления, такие как инфекция, болезнь или окружающая среда. Среди них функциональные биомаркеры могут быть специфическими биологическими функциями отдельных видов или общими для некоторых видов, такими как ген, белок, метаболит и пути. Кроме того, таксономические биомаркеры указывают на необычный вид, группу организмов (царство, тип, класс, отряд, семейство, род, вид), вариацию последовательности Ампликона (ASV)1 или операционную таксономическую единицу (OTU)2. Для того чтобы быстрее и точнее найти биомаркеры, необходим инструмент для анализа биологических данных. Различия между классами могут быть объяснены LEfSe в сочетании со стандартными тестами на статистическую значимость и дополнительными тестами, кодирующими биологическую согласованность и релевантность эффекта3. LEfSe доступен в виде галактического модуля, формулы conda, образа docker и включен в bioBakery (VM и cloud)4. Как правило, при анализе микробного разнообразия часто используется непараметрический тест для неопределенного распределения сообщества образцов. Тест на ранговую сумму является непараметрическим методом тестирования, который использует ранг образцов для замены значения образцов. В зависимости от разницы выборочных групп его можно разделить на две выборки с тестом на сумму ранга Уилкоксона и на несколько образцов с тестом Крускала-Уоллиса 5,6. Примечательно, что при наличии существенных различий между несколькими группами выборок следует проводить ранж-суммовый тест попарного сравнения нескольких образцов. LDA (что расшифровывается как линейный дискриминантный анализ), изобретенный Рональдом Фишером в 1936 году, является типом контролируемого обучения, также известным как линейный дискриминант Фишера7. Это классический и популярный алгоритм в современной области интеллектуального анализа данных машинного обучения.
Здесь анализ LEfSe был оптимизирован серверами Conda и Galaxy. Три группы последовательностей генов 16S рРНК анализируются, чтобы продемонстрировать значительные различия между различными группами с показателями LDA микробных сообществ и результатами визуализации.
Здесь описан протокол идентификации и характеристики биомаркеров в пределах разных групп. Этот протокол может быть легко адаптирован для других типов образцов, таких как OTU микроорганизмов. Статистический метод LEfSe позволяет найти характерные микроорганизмы в каждой группе (по умолча…
The authors have nothing to disclose.
Эта работа была поддержана грантом Фондов фундаментальных исследований для Центральных научно-исследовательских институтов общественного благосостояния (TKS170205) и Фонда развития науки и техники, а также Тяньцзиньского научно-исследовательского института инженерии водного транспорта (TIWTE), M.O.T. (KJFZJJ170201).