Summary

Minería heurística de genotipos jerárquicos y loci del genoma accesorio en poblaciones bacterianas

Published: December 07, 2021
doi:

Summary

Esta plataforma computacional analítica proporciona orientación práctica para microbiólogos, ecólogos y epidemiólogos interesados en la genómica de poblaciones bacterianas. Específicamente, el trabajo presentado aquí demostró cómo realizar: i) mapeo guiado por filogenia de genotipos jerárquicos; ii) análisis de genotipos basado en la frecuencia; iii) análisis de parentesco y clonalidad; iv) identificación del linaje diferenciador de loci accesorios.

Abstract

El uso rutinario y sistemático de la secuenciación bacteriana del genoma completo (WGS) está mejorando la precisión y la resolución de las investigaciones epidemiológicas llevadas a cabo por los laboratorios de salud pública y las agencias reguladoras. Se pueden utilizar grandes volúmenes de datos de WGS disponibles públicamente para estudiar poblaciones patógenas a gran escala. Recientemente, se publicó una plataforma computacional disponible gratuitamente llamada ProkEvo para permitir análisis genómicos de población basados en jerarquías reproducibles, automatizados y escalables utilizando datos bacterianos de WGS. Esta implementación de ProkEvo demostró la importancia de combinar el mapeo genotípico estándar de poblaciones con la extracción de contenido genómico accesorio para la inferencia ecológica. En particular, el trabajo destacado aquí utilizó resultados derivados de ProkEvo para análisis jerárquicos a escala poblacional utilizando el lenguaje de programación R. El objetivo principal fue proporcionar una guía práctica para microbiólogos, ecólogos y epidemiólogos mostrando cómo: i) utilizar un mapeo guiado por filogenia de genotipos jerárquicos; ii) evaluar las distribuciones de frecuencia de los genotipos como indicador de la aptitud ecológica; iii) determinar las relaciones de parentesco y la diversidad genética utilizando clasificaciones genotípicas específicas; y iv) mapear el linaje diferenciando los loci accesorios. Para mejorar la reproducibilidad y la portabilidad, se utilizaron archivos de rebaja R para demostrar todo el enfoque analítico. El conjunto de datos de ejemplo contenía datos genómicos de 2.365 aislamientos del patógeno zoonótico transmitido por los alimentos Salmonella Newport. El mapeo de genotipos jerárquicos anclados en filogenia (Serovar -> BAPS1 -> ST -> cgMLST) reveló la estructura genética de la población, destacando los tipos de secuencia (ST) como el genotipo diferenciador clave. En los tres linajes más dominantes, ST5 y ST118 compartieron un ancestro común más recientemente que con el filotipo ST45 altamente clonal. Las diferencias basadas en ST se destacaron aún más por la distribución de loci accesorios de resistencia a los antimicrobianos (RAM). Por último, se utilizó una visualización anclada en filogenia para combinar genotipos jerárquicos y contenido de RAM para revelar la estructura de parentesco y las firmas genómicas específicas del linaje. Combinado, este enfoque analítico proporciona algunas pautas para realizar análisis genómicos heurísticos de poblaciones bacterianas utilizando información pangenómica.

Introduction

El creciente uso de la secuenciación bacteriana del genoma completo (WGS) como base para la vigilancia de rutina y la investigación epidemiológica por parte de los laboratorios de salud pública y las agencias reguladoras ha mejorado sustancialmente las investigaciones de brotes de patógenos 1,2,3,4. Como consecuencia, grandes volúmenes de datos WGS no identificados están ahora a disposición del público y pueden utilizarse para estudiar aspectos de la biología de la población de especies patógenas a una escala sin precedentes, incluidos estudios basados en: estructuras de población, frecuencias de genotipos y frecuencias de genes / alelos en múltiples reservorios, regiones geográficas y tipos de entornos5 . Las investigaciones epidemiológicas guiadas por WGS más utilizadas se basan en análisis que utilizan solo el contenido core-genómico compartido, donde el contenido compartido (conservado) solo se utiliza para la clasificación genotípica (por ejemplo, llamadas variantes), y estas variantes se convierten en la base para el análisis epidemiológico y el rastreo 1,2,6,7 . Por lo general, el genotipado basado en el genoma central bacteriano se lleva a cabo con enfoques de tipificación de secuencia de múltiples locus (MLST) utilizando de siete a unos pocos miles de loci 8,9,10. Estas estrategias basadas en MLST abarcan el mapeo de secuencias genómicas preensambladas o ensambladas en bases de datos altamente curadas, combinando así información alélica en unidades genotípicas reproducibles para el análisis epidemiológico y ecológico11,12. Por ejemplo, esta clasificación basada en MLST puede generar información genotípica a dos niveles de resolución: tipos de secuencia de nivel inferior (ST) o linajes ST (7 loci), y variantes MLST del genoma central de nivel superior (cgMLST) (~ 300-3,000 loci)10.

La clasificación genotípica basada en MLST es computacionalmente portátil y altamente reproducible entre laboratorios, por lo que es ampliamente aceptada como un enfoque preciso de subtipificación por debajo del nivel de especie bacteriana13,14. Sin embargo, las poblaciones bacterianas están estructuradas con diversos grados de clonalidad específicos de la especie (es decir, homogeneidad genotípica), patrones complejos de parentesco jerárquico entre genotipos 15,16,17 y una amplia gama de variación en la distribución del contenido genómico accesorio 18,19 . Así, un enfoque más holístico va más allá de las clasificaciones discretas en genotipos MLST e incorpora las relaciones jerárquicas de genotipos a diferentes escalas de resolución, junto con el mapeo del contenido genómico accesorio en clasificaciones genotípicas, lo que facilita la inferencia poblacional 18,20,21 . Además, los análisis también pueden centrarse en patrones compartidos de herencia de loci genómicos accesorios incluso entre genotipos relacionados a distancia21,22. En general, el enfoque combinado permite el interrogatorio agnóstico de las relaciones entre la estructura de la población y la distribución de composiciones genómicas específicas (por ejemplo, loci) entre gradientes geoespaciales o ambientales. Tal enfoque puede proporcionar información fundamental y práctica sobre las características ecológicas de poblaciones específicas que pueden, a su vez, explicar su tropismo y patrones de dispersión a través de reservorios, como animales de alimentación o humanos.

Este enfoque jerárquico orientado a la población basado en sistemas exige grandes volúmenes de datos WGS para obtener suficiente poder estadístico para predecir firmas genómicas distinguibles. En consecuencia, el enfoque requiere una plataforma computacional capaz de procesar muchos miles de genomas bacterianos a la vez. Recientemente, ProkEvo fue desarrollado y es una plataforma bioinformática gratuita, automatizada, portátil y escalable que permite análisis integradores de poblaciones bacterianas basadas en jerarquías, incluido el mapeo pangenómico20. ProkEvo permite el estudio de conjuntos de datos bacterianos a gran escala al tiempo que proporciona un marco para generar hipótesis epidemiológicas y ecológicas comprobables e inferibles y predicciones fenotípicas que pueden ser personalizadas por el usuario. Este trabajo complementa esa canalización al proporcionar una guía sobre cómo utilizar los archivos de salida derivados de ProkEvo como entrada para análisis e interpretación de clasificaciones jerárquicas de poblaciones y minería genómica accesoria. El estudio de caso presentado aquí utilizó la población de Salmonella enterica linaje I zoonótico serovar S. Newport como ejemplo y estaba específicamente dirigido a proporcionar pautas prácticas para microbiólogos, ecólogos y epidemiólogos sobre cómo: i) utilizar un enfoque automatizado dependiente de la filogenia para mapear genotipos jerárquicos; ii) evaluar la distribución de frecuencias de los genotipos como indicador para evaluar la aptitud ecológica; iii) determinar los grados de clonalidad específicos del linaje utilizando enfoques estadísticos independientes; y iv) mapear los loci DE RAM diferenciadores de linaje como ejemplo de cómo extraer contenido genómico accesorio en el contexto de la estructura de la población. En términos más generales, este enfoque analítico proporciona un marco generalizable para realizar un análisis genómico basado en la población a una escala que se puede utilizar para inferir patrones evolutivos y ecológicos independientemente de la especie objetivo.

Protocol

1. Preparar archivos de entrada NOTA: El protocolo está disponible aquí – https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. El protocolo asume que el investigador ha utilizado específicamente ProkEvo (o una canalización comparable) para obtener los resultados necesarios disponibles en este repositorio de Figshare (https://figshare.com/account/projects/116625/articles/15097503 – se requieren credenciales de inicio de sesión – ¡El usuario debe cr…

Representative Results

Al utilizar la plataforma computacional ProkEvo para análisis de genómica de poblaciones, el primer paso en la minería de datos WGS bacteriana consiste en examinar la estructura jerárquica de la población en el contexto de una filogenia del genoma central (Figura 1). En el caso de S. linaje enterico I, como lo ejemplifica el S. Conjunto de datos de Newport, la población está estructurada jerárquicamente de la siguiente manera: serovar (nivel más bajo de r…

Discussion

La utilización de un análisis heurístico y jerárquico de la estructura de la población basado en sistemas proporciona un marco para identificar nuevas firmas genómicas en conjuntos de datos bacterianos que tienen el potencial de explicar patrones ecológicos y epidemiológicos únicos20. Además, el mapeo de datos del genoma accesorio en la estructura de la población se puede utilizar para inferir rasgos adquiridos ancestralmente y / o derivados recientemente que facilitan la propagación d…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue apoyado por fondos proporcionados por la División de Investigación Agrícola de UNL-IANR y el Instituto Nacional de Investigación y Educación sobre la Resistencia a los Antimicrobianos y por el Centro de Alimentos para la Salud de Nebraska en el Departamento de Ciencia y Tecnología de los Alimentos (UNL). Esta investigación solo podría completarse utilizando el Holland Computing Center (HCC) en UNL, que recibe el apoyo de la Iniciativa de Investigación de Nebraska. También estamos agradecidos por tener acceso, a través del HCC, a los recursos proporcionados por Open Science Grid (OSG), que cuenta con el apoyo de la Fundación Nacional de Ciencias y la Oficina de Ciencia del Departamento de Energía de los Estados Unidos. Este trabajo utilizó el software de gestión de flujo de trabajo Pegasus que está financiado por la National Science Foundation (subvención # 1664162).

Materials

amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -. H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -. F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user’s guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -. F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 – Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. MLST. GitHub Available from: https://github.com/tseemann/mist (2020)
  29. ABRicate. GitHub Available from: https://github.com/tseemann/abricate (2020)
  30. R: A language and environment for statistical computing. R Foundation for Statistical Computing Available from: https://cran.r-project.org (2021)
  31. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  32. rOpenSci: The skimr package. GitHub Available from: https://github.com/ropensci/skimr/ (2021)
  33. . vegan: Community ecology package. R package version 2.5-5 Available from: https://CRAN.R-project.org/package=vegan (2019)
  34. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  35. . ggpubr: “ggplot2” Based Publication Ready Plots. R package version 0.4.0 Available from: https://CRAN.R-project.org/package=ggpubr (2020)
  36. . ggrepel: Automatically Position Non-Overlapping Text Labels with “ggplot2”. R package version 0.9.1 Available from: https://CRAN.R-project.org/package=ggrepel (2021)
  37. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  38. . RColorBrewer: ColorBrewer Palettes. R package version 1.1-2 Available from: https://CRAN.R-project.org/package=RColorBrewer (2014)
  39. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  40. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  41. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  42. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  43. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  44. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  45. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  46. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  47. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  48. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  49. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  50. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  51. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  52. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  53. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  54. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  55. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  56. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  57. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  58. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  59. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Play Video

Cite This Article
Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

View Video