Summary

Эвристическая добыча иерархических генотипов и локусов генома аксессуаров в бактериальных популяциях

Published: December 07, 2021
doi:

Summary

Эта аналитическая вычислительная платформа предоставляет практическое руководство для микробиологов, экологов и эпидемиологов, заинтересованных в бактериальной популяционной геномике. В частности, представленная здесь работа продемонстрировала, как выполнять: i) филогенное картирование иерархических генотипов; ii) частотный анализ генотипов; iii) анализ родства и клональности; iv) идентификация родословной, дифференцирующей локусы аксессуаров.

Abstract

Регулярное и систематическое использование бактериального секвенирования всего генома (WGS) повышает точность и разрешение эпидемиологических расследований, проводимых лабораториями общественного здравоохранения и регулирующими органами. Большие объемы общедоступных данных WGS могут быть использованы для изучения патогенных популяций в больших масштабах. Недавно была опубликована свободно доступная вычислительная платформа под названием ProkEvo, позволяющая воспроизводить, автоматизировать и масштабировать иерархический геномный анализ популяций с использованием бактериальных данных WGS. Эта реализация ProkEvo продемонстрировала важность сочетания стандартного генотипического картирования популяций с добычей дополнительного геномного содержания для экологического вывода. В частности, в работе, выделенной здесь, использовались выходные данные ProkEvo для иерархического анализа в масштабе популяции с использованием языка программирования R. Основная цель состояла в том, чтобы предоставить практическое руководство для микробиологов, экологов и эпидемиологов, показав, как: i) использовать филогенное картирование иерархических генотипов; ii) оценивать частотные распределения генотипов в качестве показателя экологической пригодности; iii) определять родственные отношения и генетическое разнообразие с использованием специфических генотипических классификаций; и iv) карта родословной, дифференцирующая локусы аксессуаров. Для повышения воспроизводимости и переносимости использовались файлы R markdown для демонстрации всего аналитического подхода. Пример набора данных содержал геномные данные из 2 365 изолятов зоонозного пищевого патогена Salmonella Newport. Филогенное картирование иерархических генотипов (серовар -> BAPS1 -> ST -> cgMLST) выявило генетическую структуру популяции, выделив типы последовательностей (STs) в качестве краеугольного камня, дифференцирующего генотип. В трех наиболее доминирующих линиях ST5 и ST118 имели общего предка совсем недавно, чем с высококлональным типом ST45. Различия на основе ST были дополнительно подчеркнуты распределением локусов дополнительной устойчивости к противомикробным препаратам (УПП). Наконец, филогенная визуализация была использована для объединения иерархических генотипов и содержания AMR для выявления структуры родства и геномных сигнатур, специфичных для линии. В совокупности этот аналитический подход предоставляет некоторые рекомендации для проведения эвристического бактериального геномного анализа популяции с использованием пангеномной информации.

Introduction

Все более широкое использование бактериального секвенирования всего генома (WGS) в качестве основы для рутинного эпиднадзора и эпидемиологического расследования лабораториями общественного здравоохранения и регулирующими органами значительно улучшило расследования вспышек патогенов 1,2,3,4. Как следствие, большие объемы деидентифицированных данных WGS в настоящее время находятся в открытом доступе и могут быть использованы для изучения аспектов популяционной биологии патогенных видов в беспрецедентных масштабах, включая исследования, основанные на: структурах популяций, частотах генотипов и частотах генов / аллелей в нескольких резервуарах, географических регионах и типах сред5 . Наиболее часто используемые эпидемиологические запросы, управляемые WGS, основаны на анализах с использованием только общего основного геномного содержания, где только общее (сохраненное) содержание используется только для генотипической классификации (например, вызов вариантов), и эти варианты становятся основой для эпидемиологического анализа и отслеживания 1,2,6,7 . Как правило, генотипирование бактериального ядра на основе генома осуществляется с помощью многолокусного типирования последовательности (MLST) с использованием от семи до нескольких тысяч локусов 8,9,10. Эти стратегии, основанные на MLST, включают в себя отображение предварительно собранных или собранных геномных последовательностей в высоко курируемых базах данных, тем самым объединяя аллельную информацию в воспроизводимые генотипические единицы для эпидемиологического и экологического анализа11,12. Например, эта классификация на основе MLST может генерировать генотипическую информацию на двух уровнях разрешения: типы последовательностей более низкого уровня (ST) или линии ST (7 локусов) и варианты MLST более высокого уровня (~ 300-3000 локусов)10.

Генотипическая классификация на основе MLST является вычислительно портативной и хорошо воспроизводимой между лабораториями, что делает ее широко принятой в качестве точного подхода к субтипированию ниже уровня видов бактерий13,14. Однако бактериальные популяции структурированы с видоспецифичными различными степенями клональности (т.е. генотипической однородности), сложными паттернами иерархического родства между генотипами 15,16,17 и широким диапазоном вариаций в распределении добавочного геномного содержания 18,19 . Таким образом, более целостный подход выходит за рамки дискретных классификаций в генотипы MLST и включает иерархические отношения генотипов на разных масштабах разрешения, наряду с отображением дополнительного геномного содержимого на генотипические классификации, что облегчает популяционный вывод 18,20,21 . Кроме того, анализ может также сосредоточиться на общих паттернах наследования вспомогательных геномных локусов даже отдаленно связанных генотипов21,22. В целом, комбинированный подход позволяет агностически исследовать взаимосвязи между структурой популяции и распределением конкретных геномных составов (например, локусов) между геопространственными или экологическими градиентами. Такой подход может дать как фундаментальную, так и практическую информацию об экологических характеристиках конкретных популяций, которая, в свою очередь, может объяснить их тропизм и закономерности дисперсии по водоемам, таким как пищевые животные или люди.

Этот системный иерархический популяционно-ориентированный подход требует больших объемов данных WGS для достаточной статистической мощности для прогнозирования различимых геномных сигнатур. Следовательно, подход требует вычислительной платформы, способной обрабатывать многие тысячи бактериальных геномов одновременно. Недавно был разработан ProkEvo и представляет собой свободно доступную, автоматизированную, портативную и масштабируемую биоинформатику, которая позволяет проводить интегративный иерархический анализ бактериальных популяций, включая пангеномное картирование20. ProkEvo позволяет изучать средне- и крупномасштабные наборы бактериальных данных, обеспечивая при этом основу для создания проверяемых и выводимых эпидемиологических и экологических гипотез и фенотипических прогнозов, которые могут быть настроены пользователем. Эта работа дополняет этот конвейер в предоставлении руководства по использованию выходных файлов, полученных из ProkEvo, в качестве входных данных для анализа и интерпретации иерархических классификаций популяций и геномного майнинга аксессуаров. В представленном здесь тематическом исследовании использовалась популяция Salmonella enterica lineage I zoonotic serovar S. Ньюпорт в качестве примера и был специально направлен на предоставление практических рекомендаций для микробиологов, экологов и эпидемиологов о том, как: i) использовать автоматизированный филогенийно-зависимый подход для картирования иерархических генотипов; ii) оценивать частотное распределение генотипов в качестве прокси для оценки экологической пригодности; iii) определять специфические для родословной степени клональности с использованием независимых статистических подходов; и iv) картирование локусов УПП, дифференцирующих родословную, в качестве примера того, как добывать дополнительное геномное содержание в контексте структуры популяции. В более широком смысле, этот аналитический подход обеспечивает обобщаемую основу для выполнения популяционного геномного анализа в масштабе, который может быть использован для вывода эволюционных и экологических моделей независимо от целевого вида.

Protocol

1. Подготовка входных файлов ПРИМЕЧАНИЕ: Протокол доступен здесь – https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Протокол предполагает, что исследователь специально использовал ProkEvo (или сопоставимый конвейер) для получения необходимых выходных данных, доступных в ?…

Representative Results

Используя вычислительную платформу ProkEvo для анализа популяционной геномики, первым шагом в интеллектуальном анализе данных бактериальной WGS является изучение иерархической структуры популяции в контексте филогении ядра-генома (рисунок 1). В случае С. энтерическ…

Discussion

Использование системного эвристического и иерархического анализа структуры популяции обеспечивает основу для выявления новых геномных сигнатур в наборах бактериальных данных, которые могут объяснить уникальные экологические и эпидемиологические закономерности20. Кро?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Эта работа была поддержана финансированием, предоставленным Отделом сельскохозяйственных исследований UNL-IANR и Национальным институтом исследований и образования в области устойчивости к противомикробным препаратам, а также Центром продовольствия для здоровья штата Небраска при Департаменте пищевой науки и техники (UNL). Это исследование может быть завершено только с использованием Голландского вычислительного центра (HCC) в UNL, который получает поддержку от Исследовательской инициативы Небраски. Мы также благодарны за доступ через HCC к ресурсам, предоставляемым Open Science Grid (OSG), которая поддерживается Национальным научным фондом и Управлением науки Министерства энергетики США. В этой работе использовалось программное обеспечение Для управления рабочими процессами Pegasus, которое финансируется Национальным научным фондом (грант No 1664162).

Materials

amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -. H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -. F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user’s guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -. F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 – Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. MLST. GitHub Available from: https://github.com/tseemann/mist (2020)
  29. ABRicate. GitHub Available from: https://github.com/tseemann/abricate (2020)
  30. R: A language and environment for statistical computing. R Foundation for Statistical Computing Available from: https://cran.r-project.org (2021)
  31. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  32. rOpenSci: The skimr package. GitHub Available from: https://github.com/ropensci/skimr/ (2021)
  33. . vegan: Community ecology package. R package version 2.5-5 Available from: https://CRAN.R-project.org/package=vegan (2019)
  34. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  35. . ggpubr: “ggplot2” Based Publication Ready Plots. R package version 0.4.0 Available from: https://CRAN.R-project.org/package=ggpubr (2020)
  36. . ggrepel: Automatically Position Non-Overlapping Text Labels with “ggplot2”. R package version 0.9.1 Available from: https://CRAN.R-project.org/package=ggrepel (2021)
  37. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  38. . RColorBrewer: ColorBrewer Palettes. R package version 1.1-2 Available from: https://CRAN.R-project.org/package=RColorBrewer (2014)
  39. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  40. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  41. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  42. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  43. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  44. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  45. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  46. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  47. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  48. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  49. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  50. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  51. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  52. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  53. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  54. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  55. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  56. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  57. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  58. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  59. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Play Video

Cite This Article
Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

View Video