Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations

Natasha Pavlovikj; Joao Carlos Gomes-Neto; Andrew K. Benson

doi:10.3791/63115

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetics

Exploration heuristique des génotypes hiérarchiques et des loci du génome accessoire dans les populations bactériennes

Published: December 07, 2021

doi:

10.3791/63115

Natasha Pavlovikj*¹, Joao Carlos Gomes-Neto*^2,3, Andrew K. Benson^2,3

¹Department of Computer Science and Engineering,University of Nebraska-Lincoln, ²Department of Food Science and Technology,University of Nebraska-Lincoln, ³Nebraska Food for Health Center,University of Nebraska-Lincoln

Summary

Cette plate-forme informatique analytique fournit des conseils pratiques aux microbiologistes, aux écologistes et aux épidémiologistes intéressés par la génomique des populations bactériennes. Plus précisément, les travaux présentés ici ont démontré comment effectuer: i) une cartographie guidée par la phylogénie des génotypes hiérarchiques; ii) l’analyse des génotypes fondée sur la fréquence; iii) analyses de la parenté et de la clonalité; iv) l’identification des loci accessoires différenciant la lignée.

Abstract

L’utilisation systématique et systématique du séquençage bactérien du génome entier (SGC) améliore l’exactitude et la résolution des enquêtes épidémiologiques menées par les laboratoires de santé publique et les organismes de réglementation. De grands volumes de données WGS accessibles au public peuvent être utilisés pour étudier les populations pathogènes à grande échelle. Récemment, une plate-forme de calcul disponible gratuitement appelée ProkEvo a été publiée pour permettre des analyses génomiques de population reproductibles, automatisées et évolutives basées sur des hiérarchies à l’aide de données WGS bactériennes. Cette mise en œuvre de ProkEvo a démontré l’importance de combiner la cartographie génotypique standard des populations avec l’extraction du contenu génomique accessoire pour l’inférence écologique. En particulier, les travaux mis en évidence ici ont utilisé des résultats dérivés de ProkEvo pour des analyses hiérarchiques à l’échelle de la population utilisant le langage de programmation R. L’objectif principal était de fournir un guide pratique aux microbiologistes, aux écologistes et aux épidémiologistes en montrant comment: i) utiliser une cartographie guidée par la phylogénie des génotypes hiérarchiques; ii) évaluer les distributions de fréquence des génotypes comme approximation de l’aptitude écologique; iii) déterminer les relations de parenté et la diversité génétique à l’aide de classifications génotypiques spécifiques; et iv) la lignée cartographique différenciant les loci accessoires. Pour améliorer la reproductibilité et la portabilité, des fichiers de démarque R ont été utilisés pour démontrer l’ensemble de l’approche analytique. L’exemple d’ensemble de données contenait des données génomiques provenant de 2 365 isolats de l’agent pathogène zoonotique d’origine alimentaire Salmonella Newport. La cartographie ancrée dans la phylogénie des génotypes hiérarchiques (Serovar -> BAPS1 -> ST -> cgMLST) a révélé la structure génétique de la population, mettant en évidence les types de séquences (ST) comme génotype différenciant clé de voûte. Dans les trois lignées les plus dominantes, ST5 et ST118 ont partagé un ancêtre commun plus récemment qu’avec le phylotype ST45 hautement clonal. Les différences fondées sur les ST ont également été mises en évidence par la distribution des loci de résistance aux antimicrobiens accessoires (RAM). Enfin, une visualisation ancrée dans la phylogénie a été utilisée pour combiner les génotypes hiérarchiques et le contenu de la RAM afin de révéler la structure de parenté et les signatures génomiques spécifiques à la lignée. Combinée, cette approche analytique fournit des lignes directrices pour la réalisation d’analyses heuristiques génomiques de populations bactériennes à l’aide d’informations pangénomiques.

Introduction

L’utilisation croissante du séquençage bactérien du génome entier (SGC) comme base de la surveillance de routine et des enquêtes épidémiologiques par les laboratoires de santé publique et les organismes de réglementation a considérablement amélioré les enquêtes sur les éclosions ^d’agents pathogènes ^1,2,3,4. En conséquence, de grands volumes de données WGS anonymisées sont maintenant accessibles au public et peuvent être utilisés pour étudier des aspects de la biologie des populations d’espèces pathogènes à une échelle sans précédent, y compris des études basées sur : les structures de population, les fréquences de génotype et les fréquences de gènes/allèles dans plusieurs réservoirs, régions géographiques et types d’environnements⁵ . Les enquêtes épidémiologiques guidées par le WGS les plus couramment utilisées sont basées sur des analyses utilisant uniquement le contenu génomique de base partagé, où le contenu partagé (conservé) seul est utilisé pour la classification génotypique (par exemple, l’appel de variantes), et ces variantes deviennent la base de ^l’analyse épidémiologique et du traçage ^1,2,6,7 . En règle générale, le génotypage basé sur le noyau bactérien est effectué avec des approches de typage de séquence multi-locus (MLST) utilisant sept à quelques milliers de loci ^8,9,10. Ces stratégies basées sur mlST englobent la cartographie de séquences génomiques pré-assemblées ou assemblées sur des bases de données hautement organisées, combinant ainsi des informations alléliques en unités génotypiques reproductibles pour l’analyse épidémiologique et écologique^11,12. Par exemple, cette classification basée sur MLST peut générer des informations génotypiques à deux niveaux de résolution : les types de séquences de niveau inférieur (ST) ou les lignées ST (7 loci), et les variantes MLST (cgMLST) du génome du noyau supérieur (~ 300-3 000 loci)¹⁰.

La classification génotypique basée sur MLST est portable sur le plan informatique et hautement reproductible entre les laboratoires, ce qui la rend largement acceptée comme une approche de sous-typage précise sous le niveau^{d’espèce bactérienne 13,14}. Cependant, les populations bactériennes sont structurées avec des degrés de clonalité variables spécifiques à l’espèce (c.-à-d. homogénéité génotypique), des modèles complexes de parenté hiérarchique entre les génotypes ^15,16,17 et un large éventail de variations dans la distribution du contenu génomique accessoire^18,19 . Ainsi, une approche plus holistique va au-delà des classifications discrètes dans les génotypes MLST et intègre les relations hiérarchiques des génotypes à différentes échelles de résolution, ainsi que la cartographie du contenu génomique accessoire sur les classifications génotypiques, ce qui facilite l’inférence basée sur la population 18,20,21 . En outre, les analyses peuvent également se concentrer sur les modèles partagés d’hérédité des loci génomiques accessoires parmi les génotypes^21,22, même éloignés. Dans l’ensemble, l’approche combinée permet d’interroger de manière agnostique les relations entre la structure de la population et la distribution de compositions génomiques spécifiques (p. ex., loci) parmi les gradients géospatiaux ou environnementaux. Une telle approche peut fournir des informations à la fois fondamentales et pratiques sur les caractéristiques écologiques de populations spécifiques qui peuvent, à leur tour, expliquer leur tropisme et leurs modèles de dispersion dans les réservoirs, tels que les animaux destinés à l’alimentation ou les humains.

Cette approche hiérarchique axée sur la population basée sur les systèmes exige de grands volumes de données WGS pour une puissance statistique suffisante pour prédire des signatures génomiques distinguables. Par conséquent, l’approche nécessite une plate-forme de calcul capable de traiter plusieurs milliers de génomes bactériens à la fois. Récemment, ProkEvo a été développé et est une plate-forme bioinformatique librement disponible, automatisée, portable et évolutive qui permet des analyses de population bactérienne intégrées basées sur la hiérarchie, y compris la cartographie pangénomique²⁰. ProkEvo permet l’étude d’ensembles de données bactériennes à moyenne à grande échelle tout en fournissant un cadre pour générer des hypothèses épidémiologiques et écologiques testables et inférables et des prédictions phénotypiques qui peuvent être personnalisées par l’utilisateur. Ce travail complète ce pipeline en fournissant un guide sur la façon d’utiliser les fichiers de sortie dérivés de ProkEvo comme entrée pour les analyses et l’interprétation des classifications hiérarchiques des populations et l’exploration génomique accessoire. L’étude de cas présentée ici a utilisé la population de Salmonella enterica lignée I zoonotique sérovar S. Newport à titre d’exemple et visait spécifiquement à fournir des lignes directrices pratiques aux microbiologistes, aux écologistes et aux épidémiologistes sur la façon de: i) utiliser une approche automatisée dépendante de la phylogénie pour cartographier les génotypes hiérarchiques; ii) évaluer la distribution de fréquence des génotypes comme approximation pour évaluer l’aptitude écologique; iii) déterminer les degrés de clonalité propres à la lignée à l’aide d’approches statistiques indépendantes; et iv) cartographier les loci de RMI différenciant la lignée comme exemple de la façon d’exploiter le contenu génomique accessoire dans le contexte de la structure de la population. Plus largement, cette approche analytique fournit un cadre généralisable pour effectuer une analyse génomique basée sur la population à une échelle qui peut être utilisée pour déduire des modèles évolutifs et écologiques quelle que soit l’espèce ciblée.

Protocol

1. Préparer les fichiers d’entrée REMARQUE: Le protocole est disponible ici – https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Le protocole suppose que le chercheur a spécifiquement utilisé ProkEvo (ou un pipeline comparable) pour obtenir les sorties nécessaires disponibles dans ce référentiel Figshare (https://figshare.com/account/projects/116625/articles/15097503 – les informations de connexion sont requises – L’utilisateur doit créer …

Representative Results

En utilisant la plate-forme de calcul ProkEvo pour les analyses de génomique des populations, la première étape de l’exploration de données WGS bactériennes consiste à examiner la structure hiérarchique de la population dans le contexte d’une phylogénie noyau-génome (Figure 1). Dans le cas de S. lignée enterica I, illustrée par le S. Ensemble de données Newport, la population est structurée hiérarchiquement comme suit : sérovar (niveau de résol…

Discussion

L’utilisation d’une analyse heuristique et hiérarchique de la structure des populations basée sur des systèmes fournit un cadre pour identifier de nouvelles signatures génomiques dans des ensembles de données bactériennes qui ont le potentiel d’expliquer des modèles écologiques et épidémiologiques uniques²⁰. De plus, la cartographie des données génomiques accessoires sur la structure de la population peut être utilisée pour déduire des caractères acquis par l’ancestral et/o…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par un financement fourni par la Division de la recherche agricole de l’UNL-IANR et de l’Institut national de recherche et d’éducation sur la résistance aux antimicrobiens, ainsi que par le Nebraska Food for Health Center du Département des sciences et technologies alimentaires (UNL). Cette recherche n’a pu être complétée qu’en utilisant le Holland Computing Center (HCC) de l’UNL, qui reçoit le soutien de la Nebraska Research Initiative. Nous sommes également reconnaissants d’avoir accès, par l’intermédiaire du HCC, aux ressources fournies par l’Open Science Grid (OSG), qui est soutenu par la National Science Foundation et l’Office of Science du département de l’Énergie des États-Unis. Ce travail a utilisé le logiciel de gestion du flux de travail Pegasus qui est financé par la National Science Foundation (subvention n ° 1664162).

Materials

amr_data_filtered			https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw			https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output			https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny			https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra			https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC			any high-performance platform
mlst_output			https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output			https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

References

Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
Worby, C. J., Chang, H. -. H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
Zhou, Z., Alikhan, N. -. F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user’s guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
Alikhan, N. -. F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 – Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
MLST. GitHub Available from: https://github.com/tseemann/mist (2020)
ABRicate. GitHub Available from: https://github.com/tseemann/abricate (2020)
R: A language and environment for statistical computing. R Foundation for Statistical Computing Available from: https://cran.r-project.org (2021)
Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
rOpenSci: The skimr package. GitHub Available from: https://github.com/ropensci/skimr/ (2021)
. vegan: Community ecology package. R package version 2.5-5 Available from: https://CRAN.R-project.org/package=vegan (2019)
Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
. ggpubr: “ggplot2” Based Publication Ready Plots. R package version 0.4.0 Available from: https://CRAN.R-project.org/package=ggpubr (2020)
. ggrepel: Automatically Position Non-Overlapping Text Labels with “ggplot2”. R package version 0.9.1 Available from: https://CRAN.R-project.org/package=ggrepel (2021)
Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2 Available from: https://CRAN.R-project.org/package=RColorBrewer (2014)
Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Automatically Generated

Exploration heuristique des génotypes hiérarchiques et des loci du génome accessoire dans les populations bactériennes

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Automatically Generated

Exploration heuristique des génotypes hiérarchiques et des loci du génome accessoire dans les populations bactériennes

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below