Эта аналитическая вычислительная платформа предоставляет практическое руководство для микробиологов, экологов и эпидемиологов, заинтересованных в бактериальной популяционной геномике. В частности, представленная здесь работа продемонстрировала, как выполнять: i) филогенное картирование иерархических генотипов; ii) частотный анализ генотипов; iii) анализ родства и клональности; iv) идентификация родословной, дифференцирующей локусы аксессуаров.
Регулярное и систематическое использование бактериального секвенирования всего генома (WGS) повышает точность и разрешение эпидемиологических расследований, проводимых лабораториями общественного здравоохранения и регулирующими органами. Большие объемы общедоступных данных WGS могут быть использованы для изучения патогенных популяций в больших масштабах. Недавно была опубликована свободно доступная вычислительная платформа под названием ProkEvo, позволяющая воспроизводить, автоматизировать и масштабировать иерархический геномный анализ популяций с использованием бактериальных данных WGS. Эта реализация ProkEvo продемонстрировала важность сочетания стандартного генотипического картирования популяций с добычей дополнительного геномного содержания для экологического вывода. В частности, в работе, выделенной здесь, использовались выходные данные ProkEvo для иерархического анализа в масштабе популяции с использованием языка программирования R. Основная цель состояла в том, чтобы предоставить практическое руководство для микробиологов, экологов и эпидемиологов, показав, как: i) использовать филогенное картирование иерархических генотипов; ii) оценивать частотные распределения генотипов в качестве показателя экологической пригодности; iii) определять родственные отношения и генетическое разнообразие с использованием специфических генотипических классификаций; и iv) карта родословной, дифференцирующая локусы аксессуаров. Для повышения воспроизводимости и переносимости использовались файлы R markdown для демонстрации всего аналитического подхода. Пример набора данных содержал геномные данные из 2 365 изолятов зоонозного пищевого патогена Salmonella Newport. Филогенное картирование иерархических генотипов (серовар -> BAPS1 -> ST -> cgMLST) выявило генетическую структуру популяции, выделив типы последовательностей (STs) в качестве краеугольного камня, дифференцирующего генотип. В трех наиболее доминирующих линиях ST5 и ST118 имели общего предка совсем недавно, чем с высококлональным типом ST45. Различия на основе ST были дополнительно подчеркнуты распределением локусов дополнительной устойчивости к противомикробным препаратам (УПП). Наконец, филогенная визуализация была использована для объединения иерархических генотипов и содержания AMR для выявления структуры родства и геномных сигнатур, специфичных для линии. В совокупности этот аналитический подход предоставляет некоторые рекомендации для проведения эвристического бактериального геномного анализа популяции с использованием пангеномной информации.
Все более широкое использование бактериального секвенирования всего генома (WGS) в качестве основы для рутинного эпиднадзора и эпидемиологического расследования лабораториями общественного здравоохранения и регулирующими органами значительно улучшило расследования вспышек патогенов 1,2,3,4. Как следствие, большие объемы деидентифицированных данных WGS в настоящее время находятся в открытом доступе и могут быть использованы для изучения аспектов популяционной биологии патогенных видов в беспрецедентных масштабах, включая исследования, основанные на: структурах популяций, частотах генотипов и частотах генов / аллелей в нескольких резервуарах, географических регионах и типах сред5 . Наиболее часто используемые эпидемиологические запросы, управляемые WGS, основаны на анализах с использованием только общего основного геномного содержания, где только общее (сохраненное) содержание используется только для генотипической классификации (например, вызов вариантов), и эти варианты становятся основой для эпидемиологического анализа и отслеживания 1,2,6,7 . Как правило, генотипирование бактериального ядра на основе генома осуществляется с помощью многолокусного типирования последовательности (MLST) с использованием от семи до нескольких тысяч локусов 8,9,10. Эти стратегии, основанные на MLST, включают в себя отображение предварительно собранных или собранных геномных последовательностей в высоко курируемых базах данных, тем самым объединяя аллельную информацию в воспроизводимые генотипические единицы для эпидемиологического и экологического анализа11,12. Например, эта классификация на основе MLST может генерировать генотипическую информацию на двух уровнях разрешения: типы последовательностей более низкого уровня (ST) или линии ST (7 локусов) и варианты MLST более высокого уровня (~ 300-3000 локусов)10.
Генотипическая классификация на основе MLST является вычислительно портативной и хорошо воспроизводимой между лабораториями, что делает ее широко принятой в качестве точного подхода к субтипированию ниже уровня видов бактерий13,14. Однако бактериальные популяции структурированы с видоспецифичными различными степенями клональности (т.е. генотипической однородности), сложными паттернами иерархического родства между генотипами 15,16,17 и широким диапазоном вариаций в распределении добавочного геномного содержания 18,19 . Таким образом, более целостный подход выходит за рамки дискретных классификаций в генотипы MLST и включает иерархические отношения генотипов на разных масштабах разрешения, наряду с отображением дополнительного геномного содержимого на генотипические классификации, что облегчает популяционный вывод 18,20,21 . Кроме того, анализ может также сосредоточиться на общих паттернах наследования вспомогательных геномных локусов даже отдаленно связанных генотипов21,22. В целом, комбинированный подход позволяет агностически исследовать взаимосвязи между структурой популяции и распределением конкретных геномных составов (например, локусов) между геопространственными или экологическими градиентами. Такой подход может дать как фундаментальную, так и практическую информацию об экологических характеристиках конкретных популяций, которая, в свою очередь, может объяснить их тропизм и закономерности дисперсии по водоемам, таким как пищевые животные или люди.
Этот системный иерархический популяционно-ориентированный подход требует больших объемов данных WGS для достаточной статистической мощности для прогнозирования различимых геномных сигнатур. Следовательно, подход требует вычислительной платформы, способной обрабатывать многие тысячи бактериальных геномов одновременно. Недавно был разработан ProkEvo и представляет собой свободно доступную, автоматизированную, портативную и масштабируемую биоинформатику, которая позволяет проводить интегративный иерархический анализ бактериальных популяций, включая пангеномное картирование20. ProkEvo позволяет изучать средне- и крупномасштабные наборы бактериальных данных, обеспечивая при этом основу для создания проверяемых и выводимых эпидемиологических и экологических гипотез и фенотипических прогнозов, которые могут быть настроены пользователем. Эта работа дополняет этот конвейер в предоставлении руководства по использованию выходных файлов, полученных из ProkEvo, в качестве входных данных для анализа и интерпретации иерархических классификаций популяций и геномного майнинга аксессуаров. В представленном здесь тематическом исследовании использовалась популяция Salmonella enterica lineage I zoonotic serovar S. Ньюпорт в качестве примера и был специально направлен на предоставление практических рекомендаций для микробиологов, экологов и эпидемиологов о том, как: i) использовать автоматизированный филогенийно-зависимый подход для картирования иерархических генотипов; ii) оценивать частотное распределение генотипов в качестве прокси для оценки экологической пригодности; iii) определять специфические для родословной степени клональности с использованием независимых статистических подходов; и iv) картирование локусов УПП, дифференцирующих родословную, в качестве примера того, как добывать дополнительное геномное содержание в контексте структуры популяции. В более широком смысле, этот аналитический подход обеспечивает обобщаемую основу для выполнения популяционного геномного анализа в масштабе, который может быть использован для вывода эволюционных и экологических моделей независимо от целевого вида.
Использование системного эвристического и иерархического анализа структуры популяции обеспечивает основу для выявления новых геномных сигнатур в наборах бактериальных данных, которые могут объяснить уникальные экологические и эпидемиологические закономерности20. Кро?…
The authors have nothing to disclose.
Эта работа была поддержана финансированием, предоставленным Отделом сельскохозяйственных исследований UNL-IANR и Национальным институтом исследований и образования в области устойчивости к противомикробным препаратам, а также Центром продовольствия для здоровья штата Небраска при Департаменте пищевой науки и техники (UNL). Это исследование может быть завершено только с использованием Голландского вычислительного центра (HCC) в UNL, который получает поддержку от Исследовательской инициативы Небраски. Мы также благодарны за доступ через HCC к ресурсам, предоставляемым Open Science Grid (OSG), которая поддерживается Национальным научным фондом и Управлением науки Министерства энергетики США. В этой работе использовалось программное обеспечение Для управления рабочими процессами Pegasus, которое финансируется Национальным научным фондом (грант No 1664162).
amr_data_filtered | https://figshare.com/account/projects/116625/articles/14829225?file=28758762 | ||
amr_data_raw | https://figshare.com/account/projects/116625/articles/14829225?file=28547994 | ||
baps_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548003 | ||
Core-genome phylogeny | https://figshare.com/account/projects/116625/articles/14829225?file=28548006 | ||
genome_sra | https://figshare.com/account/projects/116625/articles/14829225?file=28639209 | ||
Linux, Mac, or PC | any high-performance platform | ||
mlst_output | https://figshare.com/account/projects/116625/articles/14829225?file=28547997 | ||
sistr_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548000 | ||
figshare credentials are required for login and have access to the files |