Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations

Natasha Pavlovikj; Joao Carlos Gomes-Neto; Andrew K. Benson

doi:10.3791/63115

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetics

Estrazione euristica di genotipi gerarchici e loci genomici accessori in popolazioni batteriche

Published: December 07, 2021

doi:

10.3791/63115

Natasha Pavlovikj*¹, Joao Carlos Gomes-Neto*^2,3, Andrew K. Benson^2,3

¹Department of Computer Science and Engineering,University of Nebraska-Lincoln, ²Department of Food Science and Technology,University of Nebraska-Lincoln, ³Nebraska Food for Health Center,University of Nebraska-Lincoln

Summary

Questa piattaforma computazionale analitica fornisce una guida pratica per microbiologi, ecologi ed epidemiologi interessati alla genomica delle popolazioni batteriche. Nello specifico, il lavoro qui presentato ha dimostrato come eseguire: i) mappatura filogenetica di genotipi gerarchici; ii) analisi dei genotipi basata sulla frequenza; iii) analisi di parentela e clonalità; iv) identificazione del lignaggio differenziando i loci accessori.

Abstract

L’uso sistematico e sistematico del sequenziamento dell’intero genoma batterico (WGS) sta migliorando l’accuratezza e la risoluzione delle indagini epidemiologiche condotte dai laboratori di sanità pubblica e dalle agenzie di regolamentazione. Grandi volumi di dati WGS disponibili pubblicamente possono essere utilizzati per studiare le popolazioni patogene su larga scala. Recentemente, è stata pubblicata una piattaforma computazionale liberamente disponibile chiamata ProkEvo per consentire analisi genomiche di popolazione riproducibili, automatizzate e scalabili basate su gerarchia utilizzando dati WGS batterici. Questa implementazione di ProkEvo ha dimostrato l’importanza di combinare la mappatura genotipica standard delle popolazioni con l’estrazione di contenuti genomici accessori per l’inferenza ecologica. In particolare, il lavoro qui evidenziato ha utilizzato output derivati da ProkEvo per analisi gerarchiche su scala di popolazione utilizzando il linguaggio di programmazione R. L’obiettivo principale era quello di fornire una guida pratica per microbiologi, ecologi ed epidemiologi mostrando come: i) utilizzare una mappatura filogenica dei genotipi gerarchici; ii) valutare le distribuzioni di frequenza dei genotipi come proxy per l’idoneità ecologica; iii) determinare le relazioni di parentela e la diversità genetica utilizzando specifiche classificazioni genotipiche; e iv) mappare il lignaggio differenziando i loci accessori. Per migliorare la riproducibilità e la portabilità, sono stati utilizzati file di markdown R per dimostrare l’intero approccio analitico. Il set di dati di esempio conteneva dati genomici da 2.365 isolati del patogeno zoonotico di origine alimentare Salmonella Newport. La mappatura ancorata alla filogenesi dei genotipi gerarchici (Serovar -> BAPS1 -> ST -> cgMLST) ha rivelato la struttura genetica della popolazione, evidenziando i tipi di sequenza (ST) come genotipo differenziante chiave di volta. Attraverso i tre lignaggi più dominanti, ST5 e ST118 hanno condiviso un antenato comune più recentemente che con il filotipo ST45 altamente clonale. Le differenze basate sulla ST sono state ulteriormente evidenziate dalla distribuzione dei loci di resistenza antimicrobica accessoria (AMR). Infine, è stata utilizzata una visualizzazione ancorata alla filogenesi per combinare genotipi gerarchici e contenuto AMR per rivelare la struttura della parentela e le firme genomiche specifiche del lignaggio. Combinato, questo approccio analitico fornisce alcune linee guida per condurre analisi genomiche euristiche della popolazione batterica utilizzando informazioni pan-genomiche.

Introduction

Il crescente uso del sequenziamento dell’intero genoma batterico (WGS) come base per la sorveglianza di routine e l’indagine epidemiologica da parte dei laboratori di sanità pubblica e delle agenzie di regolamentazione ha sostanzialmente migliorato le indagini sui focolai di patogeni ^1,2,3,4. Di conseguenza, grandi volumi di dati WGS de-identificati sono ora disponibili al pubblico e possono essere utilizzati per studiare aspetti della biologia della popolazione di specie patogene su una scala senza precedenti, compresi studi basati su: strutture di popolazione, frequenze di genotipo e frequenze geniche / alleliche in più serbatoi, regioni geografiche e tipi di ambienti⁵ . Le indagini epidemiologiche guidate dal WGS più comunemente utilizzate si basano su analisi che utilizzano solo il contenuto genomico di base condiviso, in cui il contenuto condiviso (conservato) da solo viene utilizzato per la classificazione genotipica (ad esempio, la chiamata delle varianti) e queste varianti diventano la base per l’analisi epidemiologica e il tracciamento 1,2,6,7 . Tipicamente, la genotipizzazione basata sul genoma del nucleo batterico viene effettuata con approcci MLST (Multi-locus sequence typing) utilizzando da sette a poche migliaia di loci ^8,9,10. Queste strategie basate su MLST comprendono la mappatura di sequenze genomiche preassemblate o assemblate su database altamente curati, combinando così le informazioni alleliche in unità genotipiche riproducibili per l’analisi epidemiologica ed ecologica^11,12. Ad esempio, questa classificazione basata su MLST può generare informazioni genotipiche a due livelli di risoluzione: tipi di sequenza di livello inferiore (ST) o lignaggi ST (7 loci) e varianti MLST (cgMLST) del genoma centrale di livello superiore (~ 300-3.000 loci)¹⁰.

La classificazione genotipica basata su MLST è computazionalmente portatile e altamente riproducibile tra i laboratori, rendendola ampiamente accettata come un approccio accurato di sottostimolazione al di sotto del livello^13,14 delle specie batteriche. Tuttavia, le popolazioni batteriche sono strutturate con vari gradi di clonalità specie-specifici (cioè omogeneità genotipica), modelli complessi di parentela gerarchica tra genotipi ^15,16,17 e un’ampia gamma di variazioni nella distribuzione del contenuto genomico accessorio^18,19 . Pertanto, un approccio più olistico va oltre le classificazioni discrete nei genotipi MLST e incorpora le relazioni gerarchiche dei genotipi a diverse scale di risoluzione, insieme alla mappatura del contenuto genomico accessorio su classificazioni genotipiche, che facilita l’inferenza basata sulla popolazione 18,20,21 . Inoltre, le analisi possono anche concentrarsi su modelli condivisi di ereditarietà di loci genomici accessori tra genotipi anche lontanamente correlati^21,22. Nel complesso, l’approccio combinato consente un’interrogazione agnostica delle relazioni tra la struttura della popolazione e la distribuzione di specifiche composizioni genomiche (ad esempio, loci) tra gradienti geospaziali o ambientali. Un tale approccio può fornire informazioni sia fondamentali che pratiche sulle caratteristiche ecologiche di popolazioni specifiche che possono, a loro volta, spiegare il loro tropismo e i modelli di dispersione tra i bacini idrici, come gli animali alimentari o gli esseri umani.

Questo approccio gerarchico orientato alla popolazione basato su sistemi richiede grandi volumi di dati WGS per una potenza statistica sufficiente a prevedere firme genomiche distinguibili. Di conseguenza, l’approccio richiede una piattaforma computazionale in grado di elaborare molte migliaia di genomi batterici contemporaneamente. Recentemente, ProkEvo è stato sviluppato ed è una piattaforma bioinformatica liberamente disponibile, automatizzata, portatile e scalabile che consente analisi integrative della popolazione batterica basate su gerarchia, inclusa la mappatura pan-genomica²⁰. ProkEvo consente lo studio di set di dati batterici su scala da moderata a grande, fornendo al contempo un quadro per generare ipotesi epidemiologiche ed ecologiche verificabili e deducibili e previsioni fenotipiche che possono essere personalizzate dall’utente. Questo lavoro integra questa pipeline nel fornire una guida su come utilizzare i file di output derivati da ProkEvo come input per l’analisi e l’interpretazione delle classificazioni gerarchiche della popolazione e dell’estrazione genomica accessoria. Il caso di studio qui presentato ha utilizzato la popolazione di Salmonella enterica lignaggio I sierotipo zoonotico S. Newport come esempio ed era specificamente finalizzato a fornire linee guida pratiche per microbiologi, ecologi ed epidemiologi su come: i) utilizzare un approccio automatizzato filogenesi-dipendente per mappare genotipi gerarchici; ii) valutare la distribuzione in frequenza dei genotipi come proxy per valutare l’idoneità ecologica; iii) determinare i gradi di clonalità specifici del lignaggio utilizzando approcci statistici indipendenti; e iv) mappare i loci AMR differenzianti il lignaggio come esempio di come estrarre il contenuto genomico accessorio nel contesto della struttura della popolazione. Più in generale, questo approccio analitico fornisce un quadro generalizzabile per eseguire un’analisi genomica basata sulla popolazione su una scala che può essere utilizzata per dedurre modelli evolutivi ed ecologici indipendentemente dalla specie bersaglio.

Protocol

1. Preparare i file di input NOTA: Il protocollo è disponibile qui – https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Il protocollo presuppone che il ricercatore abbia specificamente utilizzato ProkEvo (o una pipeline comparabile) per ottenere gli output necessari disponibili in questo repository Figshare (https://figshare.com/account/projects/116625/articles/15097503 – sono richieste le credenziali di accesso – L’utente deve creare un account grat…

Representative Results

Utilizzando la piattaforma computazionale ProkEvo per le analisi genomiche di popolazione, il primo passo nel data mining WGS batterico consiste nell’esaminare la struttura gerarchica della popolazione nel contesto di una filogenesi nucleo-genoma (Figura 1). Nel caso di S. enterica lignaggio I, come esemplificato dalla S. Set di dati newport, la popolazione è strutturata gerarchicamente come segue: sierotipo (livello più basso di risoluzione), sottogruppi o aplo…

Discussion

L’utilizzo di un’analisi euristica e gerarchica della struttura della popolazione basata su sistemi fornisce un quadro per identificare nuove firme genomiche in set di dati batterici che hanno il potenziale per spiegare modelli ecologici ed epidemiologici unici²⁰. Inoltre, la mappatura dei dati del genoma accessorio sulla struttura della popolazione può essere utilizzata per dedurre tratti ancestrali acquisiti e / o di derivazione recente che facilitano la diffusione di lignaggi ST o varianti cgM…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è stato sostenuto da finanziamenti forniti dalla Divisione di ricerca agricola UNL-IANR e dall’Istituto nazionale per la ricerca e l’istruzione sulla resistenza antimicrobica e dal Nebraska Food for Health Center presso il Dipartimento di scienza e tecnologia alimentare (UNL). Questa ricerca potrebbe essere completata solo utilizzando l’Holland Computing Center (HCC) dell’UNL, che riceve il sostegno della Nebraska Research Initiative. Siamo anche grati di avere accesso, attraverso l’HCC, alle risorse fornite dall’Open Science Grid (OSG), che è supportato dalla National Science Foundation e dall’Office of Science del Dipartimento dell’Energia degli Stati Uniti. Questo lavoro ha utilizzato il software di gestione del flusso di lavoro Pegasus che è finanziato dalla National Science Foundation (sovvenzione n. 1664162).

Materials

amr_data_filtered			https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw			https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output			https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny			https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra			https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC			any high-performance platform
mlst_output			https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output			https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

References

Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
Worby, C. J., Chang, H. -. H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
Zhou, Z., Alikhan, N. -. F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user’s guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
Alikhan, N. -. F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 – Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
MLST. GitHub Available from: https://github.com/tseemann/mist (2020)
ABRicate. GitHub Available from: https://github.com/tseemann/abricate (2020)
R: A language and environment for statistical computing. R Foundation for Statistical Computing Available from: https://cran.r-project.org (2021)
Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
rOpenSci: The skimr package. GitHub Available from: https://github.com/ropensci/skimr/ (2021)
. vegan: Community ecology package. R package version 2.5-5 Available from: https://CRAN.R-project.org/package=vegan (2019)
Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
. ggpubr: “ggplot2” Based Publication Ready Plots. R package version 0.4.0 Available from: https://CRAN.R-project.org/package=ggpubr (2020)
. ggrepel: Automatically Position Non-Overlapping Text Labels with “ggplot2”. R package version 0.9.1 Available from: https://CRAN.R-project.org/package=ggrepel (2021)
Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2 Available from: https://CRAN.R-project.org/package=RColorBrewer (2014)
Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Automatically Generated

Estrazione euristica di genotipi gerarchici e loci genomici accessori in popolazioni batteriche

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Automatically Generated

Estrazione euristica di genotipi gerarchici e loci genomici accessori in popolazioni batteriche

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below