Summary

Heuristisches Mining von hierarchischen Genotypen und akzessorischen Genomloci in Bakterienpopulationen

Published: December 07, 2021
doi:

Summary

Diese analytische Berechnungsplattform bietet praktische Anleitungen für Mikrobiologen, Ökologen und Epidemiologen, die sich für die Genomik der Bakterienpopulation interessieren. Insbesondere zeigte die hier vorgestellte Arbeit, wie man Folgendes durchführt: i) phylogenie-geführte Kartierung hierarchischer Genotypen; ii) frequenzbasierte Analyse von Genotypen; iii) Verwandtschafts- und Klonalitätsanalysen; iv) Identifizierung der Abstammungsdifferenzierung der akzessorischen Loci.

Abstract

Der routinemäßige und systematische Einsatz der bakteriellen Ganzgenomsequenzierung (WGS) verbessert die Genauigkeit und Auflösung epidemiologischer Untersuchungen, die von Laboratorien und Aufsichtsbehörden des öffentlichen Gesundheitswesens durchgeführt werden. Große Mengen öffentlich verfügbarer WGS-Daten können verwendet werden, um pathogene Populationen in großem Maßstab zu untersuchen. Vor kurzem wurde eine frei verfügbare Rechenplattform namens ProkEvo veröffentlicht, um reproduzierbare, automatisierte und skalierbare hierarchisch basierte populationsgenomische Analysen unter Verwendung von bakteriellen WGS-Daten zu ermöglichen. Diese Implementierung von ProkEvo zeigte, wie wichtig es ist, die standardmäßige genotypische Kartierung von Populationen mit dem Abbau des akzessorischen genomischen Inhalts für die ökologische Inferenz zu kombinieren. Insbesondere verwendete die hier hervorgehobene Arbeit ProkEvo-abgeleitete Ausgaben für populationsskalierte hierarchische Analysen unter Verwendung der Programmiersprache R. Das Hauptziel war es, Mikrobiologen, Ökologen und Epidemiologen einen praktischen Leitfaden zur Verfügung zu stellen, indem gezeigt wurde, wie: i) eine phylogeniegesteuerte Kartierung hierarchischer Genotypen zu verwenden; ii) Bewertung der Häufigkeitsverteilungen von Genotypen als Proxy für die ökologische Fitness; iii) Bestimmung der Verwandtschaftsbeziehungen und der genetischen Vielfalt unter Verwendung spezifischer genotypischer Klassifikationen; und iv) Kartenlinie, die die Zubehörloki unterscheidet. Um die Reproduzierbarkeit und Portabilität zu verbessern, wurden R-Markdown-Dateien verwendet, um den gesamten analytischen Ansatz zu demonstrieren. Der Beispieldatensatz enthielt genomische Daten von 2.365 Isolaten des zoonotischen lebensmittelbedingten Erregers Salmonella Newport. Die phylogenieverankerte Kartierung hierarchischer Genotypen (Serovar -> BAPS1 -> ST -> cgMLST) zeigte die genetische Struktur der Population und hob Sequenztypen (STs) als Schlüsselelement zur Unterscheidung des Genotyps hervor. Über die drei dominantesten Linien hinweg teilten ST5 und ST118 in jüngerer Zeit einen gemeinsamen Vorfahren als mit dem hochklonalen ST45-Phylotyp. Die ST-basierten Unterschiede wurden durch die Verteilung der Loci für akzessorische antimikrobielle Resistenzen (AMR) weiter hervorgehoben. Schließlich wurde eine phylogenieverankerte Visualisierung verwendet, um hierarchische Genotypen und AMR-Inhalte zu kombinieren, um die Verwandtschaftsstruktur und die linienspezifischen genomischen Signaturen aufzudecken. In Kombination bietet dieser analytische Ansatz einige Richtlinien für die Durchführung heuristischer genomischer Analysen der Bakterienpopulation unter Verwendung pangenomischer Informationen.

Introduction

Die zunehmende Verwendung der bakteriellen Sequenzierung des gesamten Genoms (WGS) als Grundlage für die routinemäßige Überwachung und epidemiologische Untersuchung durch Laboratorien und Regulierungsbehörden des öffentlichen Gesundheitswesens hat die Untersuchungen von Krankheitserregern erheblich verbessert 1,2,3,4. Infolgedessen sind große Mengen anonymisierter WGS-Daten nun öffentlich verfügbar und können verwendet werden, um Aspekte der Populationsbiologie pathogener Arten in einem beispiellosen Umfang zu untersuchen, einschließlich Studien auf der Grundlage von: Populationsstrukturen, Genotyphäufigkeiten und Gen- / Allelhäufigkeiten über mehrere Reservoirs, geografische Regionen und Umgebungstypenhinweg 5 . Die am häufigsten verwendeten WGS-geführten epidemiologischen Untersuchungen basieren auf Analysen, die nur den gemeinsamen Kerngenomgehalt verwenden, wobei der gemeinsame (konservierte) Inhalt allein für die genotypische Klassifikation (z. B. Variantenaufruf) verwendet wird, und diese Varianten werden zur Grundlage für die epidemiologische Analyse und Rückverfolgung 1,2,6,7 . Typischerweise wird die bakterielle Kerngenom-basierte Genotypisierung mit Multi-Locus-Sequenztypisierung (MLST) unter Verwendung von sieben bis einigen tausend Loci 8,9,10 durchgeführt. Diese MLST-basierten Strategien umfassen die Kartierung vormontierter oder assemblierter genomischer Sequenzen auf hochkuratierte Datenbanken, wodurch allelische Informationen zu reproduzierbaren genotypischen Einheiten für die epidemiologische und ökologische Analyse kombiniertwerden 11,12. Zum Beispiel kann diese MLST-basierte Klassifikation genotypische Informationen auf zwei Auflösungsebenen generieren: Sequenztypen auf niedrigerer Ebene (STs) oder ST-Linien (7 Loci) und MLST-Varianten (cgMLST) auf höherer Ebene (~ 300-3.000 Loci)10.

Die MLST-basierte genotypische Klassifikation ist rechnerisch tragbar und zwischen Labors hochgradig reproduzierbar, was sie weithin als genauen Subtypisierungsansatz unterhalb der Bakterienartenebene13,14 akzeptiert. Bakterienpopulationen sind jedoch mit artspezifischen unterschiedlichen Klonalitätsgraden (d. h. genotypischer Homogenität), komplexen Mustern hierarchischer Verwandtschaft zwischen den Genotypen 15,16,17 und einer breiten Palette von Variationen in der Verteilung des akzessorischen genomischen Inhalts strukturiert 18,19 . Daher geht ein ganzheitlicherer Ansatz über diskrete Klassifikationen in MLST-Genotypen hinaus und umfasst die hierarchischen Beziehungen von Genotypen auf verschiedenen Auflösungsskalen sowie die Abbildung des akzessorischen genomischen Inhalts auf genotypische Klassifikationen, was eine populationsbasierte Inferenz erleichtert 18,20,21 . Darüber hinaus können sich die Analysen auch auf gemeinsame Vererbungsmuster akzessorischer genomischer Loci bei selbst entfernt verwandten Genotypenkonzentrieren 21,22. Insgesamt ermöglicht der kombinierte Ansatz eine agnostische Abfrage von Beziehungen zwischen der Populationsstruktur und der Verteilung spezifischer genomischer Zusammensetzungen (z. B. Loci) zwischen Geo- oder Umweltgradienten. Ein solcher Ansatz kann sowohl grundlegende als auch praktische Informationen über die ökologischen Eigenschaften bestimmter Populationen liefern, die wiederum ihren Tropismus und ihre Ausbreitungsmuster über Stauseen wie Futtertiere oder Menschen erklären können.

Dieser systembasierte hierarchische populationsorientierte Ansatz erfordert große Mengen an WGS-Daten für eine ausreichende statistische Aussagekraft, um unterscheidbare genomische Signaturen vorherzusagen. Folglich erfordert der Ansatz eine Rechenplattform, die in der Lage ist, viele Tausende von bakteriellen Genomen gleichzeitig zu verarbeiten. Vor kurzem wurde ProkEvo entwickelt und ist eine frei verfügbare, automatisierte, tragbare und skalierbare Bioinformatik-Plattform, die integrative hierarchisch basierte Bakterienpopulationsanalysen, einschließlich pangenomischer Kartierung20, ermöglicht. ProkEvo ermöglicht die Untersuchung von mittelgroßen bis großen bakteriellen Datensätzen und bietet gleichzeitig einen Rahmen für die Erstellung überprüfbarer und inferiierbarer epidemiologischer und ökologischer Hypothesen und phänotypischer Vorhersagen, die vom Benutzer angepasst werden können. Diese Arbeit ergänzt diese Pipeline durch die Bereitstellung eines Leitfadens zur Verwendung von ProkEvo-abgeleiteten Ausgabedateien als Input für Analysen und Interpretationen hierarchischer Populationsklassifikationen und des akzessorischen genomischen Minings. Die hier vorgestellte Fallstudie verwendete die Population der Salmonella enterica-Linie I zoonotischer Serovar S. Newport als Beispiel und zielte speziell darauf ab, praktische Richtlinien für Mikrobiologen, Ökologen und Epidemiologen bereitzustellen, wie: i) einen automatisierten phylogenieabhängigen Ansatz zur Abbildung hierarchischer Genotypen zu verwenden; ii) die Häufigkeitsverteilung von Genotypen als Proxy für die Bewertung der ökologischen Eignung zu bewerten; iii) Bestimmung der linienspezifischen Klonalitätsgrade unter Verwendung unabhängiger statistischer Ansätze; und iv) abbilden liniendifferenzierende AMR-Loci als Beispiel dafür, wie akzessorische genomische Inhalte im Kontext der Populationsstruktur abgebaut werden können. Im weiteren Sinne bietet dieser analytische Ansatz einen verallgemeinerbaren Rahmen für die Durchführung einer populationsbasierten genomischen Analyse in einem Maßstab, der verwendet werden kann, um evolutionäre und ökologische Muster unabhängig von der Zielart abzuleiten.

Protocol

1. Eingabedateien vorbereiten HINWEIS: Das Protokoll ist hier verfügbar – https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Das Protokoll geht davon aus, dass der Forscher speziell ProkEvo (oder eine vergleichbare Pipeline) verwendet hat, um die notwendigen Ausgaben in diesem Figshare-Repository verfügbar zu machen (https://figshare.com/account/projects/116625/articles/15097503 – Anmeldedaten sind erforderlich – Der Benutzer muss ein kostenloses Ko…

Representative Results

Durch die Nutzung der Computerplattform ProkEvo für populationsgenomische Analysen besteht der erste Schritt im bakteriellen WGS-Data-Mining darin, die hierarchische Populationsstruktur im Kontext einer Core-Genom-Phylogenie zu untersuchen (Abbildung 1). Im Fall von S. enterica Linie I, am Beispiel der S. Newport-Datensatz ist die Grundgesamtheit hierarchisch wie folgt strukturiert: Serovar (niedrigste Auflösungsstufe), BAPS1-Untergruppen oder Haplotypen, ST-Lin…

Discussion

Die Verwendung einer systembasierten heuristischen und hierarchischen Populationsstrukturanalyse bietet einen Rahmen für die Identifizierung neuartiger genomischer Signaturen in bakteriellen Datensätzen, die das Potenzial haben, einzigartige ökologische und epidemiologische Muster zu erklären20. Darüber hinaus kann die Kartierung von akzessorischen Genomdaten auf die Populationsstruktur verwendet werden, um auf von Vorfahren erworbene und/oder kürzlich abgeleitete Merkmale zu schließen, die…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde durch Mittel unterstützt, die von der UNL-IANR Agricultural Research Division und dem National Institute for Antimicrobial Resistance Research and Education sowie vom Nebraska Food for Health Center am Food Science and Technology Department (UNL) zur Verfügung gestellt wurden. Diese Forschung konnte nur durch die Nutzung des Holland Computing Center (HCC) an der UNL abgeschlossen werden, das von der Nebraska Research Initiative unterstützt wird. Wir sind auch dankbar dafür, dass wir über das HCC Zugang zu Ressourcen haben, die vom Open Science Grid (OSG) bereitgestellt werden, das von der National Science Foundation und dem Office of Science des US-Energieministeriums unterstützt wird. Diese Arbeit verwendete die Pegasus Workflow Management Software, die von der National Science Foundation (Grant # 1664162) finanziert wird.

Materials

amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -. H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -. F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user’s guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -. F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 – Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. MLST. GitHub Available from: https://github.com/tseemann/mist (2020)
  29. ABRicate. GitHub Available from: https://github.com/tseemann/abricate (2020)
  30. R: A language and environment for statistical computing. R Foundation for Statistical Computing Available from: https://cran.r-project.org (2021)
  31. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  32. rOpenSci: The skimr package. GitHub Available from: https://github.com/ropensci/skimr/ (2021)
  33. . vegan: Community ecology package. R package version 2.5-5 Available from: https://CRAN.R-project.org/package=vegan (2019)
  34. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  35. . ggpubr: “ggplot2” Based Publication Ready Plots. R package version 0.4.0 Available from: https://CRAN.R-project.org/package=ggpubr (2020)
  36. . ggrepel: Automatically Position Non-Overlapping Text Labels with “ggplot2”. R package version 0.9.1 Available from: https://CRAN.R-project.org/package=ggrepel (2021)
  37. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  38. . RColorBrewer: ColorBrewer Palettes. R package version 1.1-2 Available from: https://CRAN.R-project.org/package=RColorBrewer (2014)
  39. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  40. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  41. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  42. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  43. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  44. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  45. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  46. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  47. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  48. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  49. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  50. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  51. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  52. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  53. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  54. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  55. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  56. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  57. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  58. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  59. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Play Video

Cite This Article
Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

View Video