Summary

Heuristische mijnbouw van hiërarchische genotypen en accessoire genoom loci in bacteriële populaties

Published: December 07, 2021
doi:

Summary

Dit analytische computationele platform biedt praktische richtlijnen voor microbiologen, ecologen en epidemiologen die geïnteresseerd zijn in bacteriële populatiegenomica. In het bijzonder demonstreerde het hier gepresenteerde werk hoe uit te voeren: i) fylogenie-geleide mapping van hiërarchische genotypen; ii) op frequentie gebaseerde analyse van genotypen; iii) verwantschaps- en klonaliteitsanalyses; iv) identificatie van afstammingsonderscheidende accessoire loci.

Abstract

Routinematig en systematisch gebruik van bacteriële whole-genome sequencing (WGS) verbetert de nauwkeurigheid en oplossing van epidemiologisch onderzoek uitgevoerd door volksgezondheidslaboratoria en regelgevende instanties. Grote hoeveelheden openbaar beschikbare WGS-gegevens kunnen worden gebruikt om pathogene populaties op grote schaal te bestuderen. Onlangs werd een vrij beschikbaar computationeel platform genaamd ProkEvo gepubliceerd om reproduceerbare, geautomatiseerde en schaalbare hiërarchische populatie-genomische analyses mogelijk te maken met behulp van bacteriële WGS-gegevens. Deze implementatie van ProkEvo toonde het belang aan van het combineren van standaard genotypische mapping van populaties met mijnbouw van accessoire genomische inhoud voor ecologische gevolgtrekking. In het bijzonder gebruikte het hier belichte werk ProkEvo-afgeleide outputs voor hiërarchische analyses op populatieschaal met behulp van de R-programmeertaal. Het belangrijkste doel was om microbiologen, ecologen en epidemiologen een praktische gids te bieden door te laten zien hoe: i) een fylogenie-geleide mapping van hiërarchische genotypen kan worden gebruikt; ii) frequentieverdelingen van genotypen te beoordelen als een proxy voor ecologische fitheid; iii) verwantschapsrelaties en genetische diversiteit te bepalen met behulp van specifieke genotypische classificaties; en iv) kaartlijn differentiërende accessoire loci. Om de reproduceerbaarheid en draagbaarheid te verbeteren, werden R-afwaarderingsbestanden gebruikt om de volledige analytische benadering te demonstreren. De voorbeelddataset bevatte genomische gegevens van 2.365 isolaten van de zoönotische voedselpathogeen Salmonella Newport. Fylogenie-verankerde mapping van hiërarchische genotypen (Serovar -> BAPS1 -> ST -> cgMLST) onthulde de populatiegenetische structuur, waarbij sequentietypen (ST’s) werden benadrukt als de hoeksteen die het genotype onderscheidt. Over de drie meest dominante afstammingslijnen deelden ST5 en ST118 recenter een gemeenschappelijke voorouder dan met het zeer klonale ST45-fylogenylotype. Op ST gebaseerde verschillen werden verder benadrukt door de verdeling van accessoire antimicrobiële resistentie (AMR) loci. Ten slotte werd een fylogenie-verankerde visualisatie gebruikt om hiërarchische genotypen en AMR-inhoud te combineren om de verwantschapsstructuur en afstammingsspecifieke genomische handtekeningen te onthullen. Gecombineerd biedt deze analytische benadering enkele richtlijnen voor het uitvoeren van heuristische bacteriële populatie genomische analyses met behulp van pan-genomische informatie.

Introduction

Het toenemende gebruik van bacteriële whole-genome sequencing (WGS) als basis voor routinematige surveillance en epidemiologisch onderzoek door volksgezondheidslaboratoria en regelgevende instanties heeft het onderzoek naar het uitbreken van pathogenen aanzienlijk verbeterd 1,2,3,4. Als gevolg hiervan zijn grote hoeveelheden geanonimiseerde WGS-gegevens nu openbaar beschikbaar en kunnen ze worden gebruikt om aspecten van de populatiebiologie van pathogene soorten op een ongekende schaal te bestuderen, inclusief studies op basis van: populatiestructuren, genotypefrequenties en gen / allelfrequenties in meerdere reservoirs, geografische regio’s en soorten omgevingen5 . De meest gebruikte WGS-geleide epidemiologische onderzoeken zijn gebaseerd op analyses met alleen de gedeelde kern-genomische inhoud, waarbij de gedeelde (geconserveerde) inhoud alleen wordt gebruikt voor genotypische classificatie (bijv. Variant calling), en deze varianten worden de basis voor epidemiologische analyse en tracering 1,2,6,7 . Typisch, bacteriële kern-genoom-gebaseerde genotypering wordt uitgevoerd met multi-locus sequence typing (MLST) benaderingen met behulp van zeven tot een paar duizend loci 8,9,10. Deze MLST-gebaseerde strategieën omvatten het in kaart brengen van voorgeassembleerde of geassembleerde genomische sequenties op sterk samengestelde databases, waardoor allelische informatie wordt gecombineerd tot reproduceerbare genotypische eenheden voor epidemiologische en ecologische analyse11,12. Deze MLST-gebaseerde classificatie kan bijvoorbeeld genotypische informatie genereren op twee resolutieniveaus: sequentietypen op een lager niveau (ST’s) of ST-afstammingslijnen (7 loci) en mlst-varianten (cgMLST) op een hoger niveau (~ 300-3.000 loci)10.

MLST-gebaseerde genotypische classificatie is computationeel draagbaar en zeer reproduceerbaar tussen laboratoria, waardoor het algemeen wordt geaccepteerd als een nauwkeurige subtyperingsbenadering onder het bacteriesoortniveau13,14. Bacteriële populaties zijn echter gestructureerd met soortspecifieke verschillende gradaties van klonaliteit (d.w.z. genotypische homogeniteit), complexe patronen van hiërarchische verwantschap tussen genotypen 15,16,17 en een breed scala aan variatie in de verdeling van accessoire genomische inhoud 18,19 . Een meer holistische benadering gaat dus verder dan discrete classificaties in MLST-genotypen en omvat de hiërarchische relaties van genotypen op verschillende resolutieschalen, samen met het in kaart brengen van accessoire genomische inhoud op genotypische classificaties, wat populatiegebaseerde gevolgtrekkingen 18,20,21 vergemakkelijkt . Bovendien kunnen analyses zich ook richten op gedeelde patronen van overerving van accessoire genomische loci bij zelfs ver verwante genotypen 21,22. Over het algemeen maakt de gecombineerde aanpak agnostische ondervraging mogelijk van relaties tussen populatiestructuur en de verdeling van specifieke genomische samenstellingen (bijv. Loci) over geospatiale of omgevingsgradiënten. Een dergelijke benadering kan zowel fundamentele als praktische informatie opleveren over de ecologische kenmerken van specifieke populaties die op hun beurt hun tropisme en verspreidingspatronen over reservoirs, zoals voedseldieren of mensen, kunnen verklaren.

Deze op systemen gebaseerde hiërarchische populatiegerichte benadering vereist grote hoeveelheden WGS-gegevens voor voldoende statistische kracht om onderscheidbare genomische handtekeningen te voorspellen. Bijgevolg vereist de aanpak een computationeel platform dat in staat is om vele duizenden bacteriële genomen tegelijk te verwerken. Onlangs is ProkEvo ontwikkeld en is het een vrij beschikbaar, geautomatiseerd, draagbaar en schaalbaar bioinformaticaplatform dat integratieve hiërarchische bacteriële populatieanalyses mogelijk maakt, inclusief pan-genomische mapping20. ProkEvo maakt de studie van matige tot grootschalige bacteriële datasets mogelijk en biedt tegelijkertijd een kader om testbare en afleidbare epidemiologische en ecologische hypothesen en fenotypische voorspellingen te genereren die door de gebruiker kunnen worden aangepast. Dit werk vormt een aanvulling op die pijplijn door een gids te bieden voor het gebruik van prokevo-afgeleide outputbestanden als input voor analyses en interpretatie van hiërarchische populatieclassificaties en accessoire genomische mijnbouw. De hier gepresenteerde casestudy maakte gebruik van de populatie van Salmonella enterica-afstamming I zoönotische serovar S. Newport als voorbeeld en was specifiek gericht op het verstrekken van praktische richtlijnen voor microbiologen, ecologen en epidemiologen over hoe: i) een geautomatiseerde fylogenie-afhankelijke benadering te gebruiken om hiërarchische genotypen in kaart te brengen; ii) de frequentieverdeling van genotypen te beoordelen als een proxy voor het evalueren van ecologische fitheid; iii) afstammingsspecifieke graden van klonaliteit te bepalen met behulp van onafhankelijke statistische benaderingen; en iv) amr-loci in kaart te brengen als een voorbeeld van hoe accessoire genomische inhoud kan worden ontginnen in de context van de populatiestructuur. Meer in het algemeen biedt deze analytische benadering een generaliseerbaar kader om een populatiegebaseerde genomische analyse uit te voeren op een schaal die kan worden gebruikt om evolutionaire en ecologische patronen af te leiden, ongeacht de beoogde soort.

Protocol

1. Bereid invoerbestanden voor OPMERKING: Het protocol is hier beschikbaar – https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Het protocol gaat ervan uit dat de onderzoeker specifiek ProkEvo (of een vergelijkbare pijplijn) heeft gebruikt om de benodigde uitvoer beschikbaar te krijgen in deze Figshare-repository (https://figshare.com/account/projects/116625/articles/15097503 – inloggegevens zijn vereist – De gebruiker moet een gratis account aanmaken…

Representative Results

Door gebruik te maken van het computationele platform ProkEvo voor populatiegenomics-analyses, bestaat de eerste stap in bacteriële WGS-datamining uit het onderzoeken van de hiërarchische populatiestructuur in de context van een kerngenoomfylogenie (figuur 1). In het geval van S. enterica afstamming I, zoals geïllustreerd door de S. Newport dataset, is de populatie hiërarchisch gestructureerd als volgt: serovar (laagste resolutieniveau), BAPS1-subgroepen of ha…

Discussion

Het gebruik van een systeemgebaseerde heuristische en hiërarchische populatiestructuuranalyse biedt een kader om nieuwe genomische handtekeningen in bacteriële datasets te identificeren die het potentieel hebben om unieke ecologische en epidemiologische patronen te verklaren20. Bovendien kan het in kaart brengen van accessoire genoomgegevens op de populatiestructuur worden gebruikt om voorouderlijk verworven en / of recent afgeleide eigenschappen af te leiden die de verspreiding van ST-afstammin…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit werk werd ondersteund door financiering door de UNL-IANR Agricultural Research Division en het National Institute for Antimicrobial Resistance Research and Education en door het Nebraska Food for Health Center van de Food Science and Technology Department (UNL). Dit onderzoek kon alleen worden voltooid door gebruik te maken van het Holland Computing Center (HCC) bij UNL, dat steun krijgt van het Nebraska Research Initiative. We zijn ook dankbaar dat we via de HCC toegang hebben tot middelen die worden geleverd door het Open Science Grid (OSG), dat wordt ondersteund door de National Science Foundation en het Office of Science van het Amerikaanse ministerie van Energie. Dit werk maakte gebruik van de Pegasus Workflow Management Software die wordt gefinancierd door de National Science Foundation (grant #1664162).

Materials

amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -. H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -. F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user’s guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -. F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 – Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. MLST. GitHub Available from: https://github.com/tseemann/mist (2020)
  29. ABRicate. GitHub Available from: https://github.com/tseemann/abricate (2020)
  30. R: A language and environment for statistical computing. R Foundation for Statistical Computing Available from: https://cran.r-project.org (2021)
  31. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  32. rOpenSci: The skimr package. GitHub Available from: https://github.com/ropensci/skimr/ (2021)
  33. . vegan: Community ecology package. R package version 2.5-5 Available from: https://CRAN.R-project.org/package=vegan (2019)
  34. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  35. . ggpubr: “ggplot2” Based Publication Ready Plots. R package version 0.4.0 Available from: https://CRAN.R-project.org/package=ggpubr (2020)
  36. . ggrepel: Automatically Position Non-Overlapping Text Labels with “ggplot2”. R package version 0.9.1 Available from: https://CRAN.R-project.org/package=ggrepel (2021)
  37. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  38. . RColorBrewer: ColorBrewer Palettes. R package version 1.1-2 Available from: https://CRAN.R-project.org/package=RColorBrewer (2014)
  39. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  40. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  41. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  42. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  43. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  44. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  45. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  46. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  47. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  48. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  49. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  50. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  51. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  52. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  53. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  54. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  55. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  56. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  57. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  58. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  59. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Play Video

Cite This Article
Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

View Video