Esta plataforma computacional analítica proporciona orientación práctica para microbiólogos, ecólogos y epidemiólogos interesados en la genómica de poblaciones bacterianas. Específicamente, el trabajo presentado aquí demostró cómo realizar: i) mapeo guiado por filogenia de genotipos jerárquicos; ii) análisis de genotipos basado en la frecuencia; iii) análisis de parentesco y clonalidad; iv) identificación del linaje diferenciador de loci accesorios.
El uso rutinario y sistemático de la secuenciación bacteriana del genoma completo (WGS) está mejorando la precisión y la resolución de las investigaciones epidemiológicas llevadas a cabo por los laboratorios de salud pública y las agencias reguladoras. Se pueden utilizar grandes volúmenes de datos de WGS disponibles públicamente para estudiar poblaciones patógenas a gran escala. Recientemente, se publicó una plataforma computacional disponible gratuitamente llamada ProkEvo para permitir análisis genómicos de población basados en jerarquías reproducibles, automatizados y escalables utilizando datos bacterianos de WGS. Esta implementación de ProkEvo demostró la importancia de combinar el mapeo genotípico estándar de poblaciones con la extracción de contenido genómico accesorio para la inferencia ecológica. En particular, el trabajo destacado aquí utilizó resultados derivados de ProkEvo para análisis jerárquicos a escala poblacional utilizando el lenguaje de programación R. El objetivo principal fue proporcionar una guía práctica para microbiólogos, ecólogos y epidemiólogos mostrando cómo: i) utilizar un mapeo guiado por filogenia de genotipos jerárquicos; ii) evaluar las distribuciones de frecuencia de los genotipos como indicador de la aptitud ecológica; iii) determinar las relaciones de parentesco y la diversidad genética utilizando clasificaciones genotípicas específicas; y iv) mapear el linaje diferenciando los loci accesorios. Para mejorar la reproducibilidad y la portabilidad, se utilizaron archivos de rebaja R para demostrar todo el enfoque analítico. El conjunto de datos de ejemplo contenía datos genómicos de 2.365 aislamientos del patógeno zoonótico transmitido por los alimentos Salmonella Newport. El mapeo de genotipos jerárquicos anclados en filogenia (Serovar -> BAPS1 -> ST -> cgMLST) reveló la estructura genética de la población, destacando los tipos de secuencia (ST) como el genotipo diferenciador clave. En los tres linajes más dominantes, ST5 y ST118 compartieron un ancestro común más recientemente que con el filotipo ST45 altamente clonal. Las diferencias basadas en ST se destacaron aún más por la distribución de loci accesorios de resistencia a los antimicrobianos (RAM). Por último, se utilizó una visualización anclada en filogenia para combinar genotipos jerárquicos y contenido de RAM para revelar la estructura de parentesco y las firmas genómicas específicas del linaje. Combinado, este enfoque analítico proporciona algunas pautas para realizar análisis genómicos heurísticos de poblaciones bacterianas utilizando información pangenómica.
El creciente uso de la secuenciación bacteriana del genoma completo (WGS) como base para la vigilancia de rutina y la investigación epidemiológica por parte de los laboratorios de salud pública y las agencias reguladoras ha mejorado sustancialmente las investigaciones de brotes de patógenos 1,2,3,4. Como consecuencia, grandes volúmenes de datos WGS no identificados están ahora a disposición del público y pueden utilizarse para estudiar aspectos de la biología de la población de especies patógenas a una escala sin precedentes, incluidos estudios basados en: estructuras de población, frecuencias de genotipos y frecuencias de genes / alelos en múltiples reservorios, regiones geográficas y tipos de entornos5 . Las investigaciones epidemiológicas guiadas por WGS más utilizadas se basan en análisis que utilizan solo el contenido core-genómico compartido, donde el contenido compartido (conservado) solo se utiliza para la clasificación genotípica (por ejemplo, llamadas variantes), y estas variantes se convierten en la base para el análisis epidemiológico y el rastreo 1,2,6,7 . Por lo general, el genotipado basado en el genoma central bacteriano se lleva a cabo con enfoques de tipificación de secuencia de múltiples locus (MLST) utilizando de siete a unos pocos miles de loci 8,9,10. Estas estrategias basadas en MLST abarcan el mapeo de secuencias genómicas preensambladas o ensambladas en bases de datos altamente curadas, combinando así información alélica en unidades genotípicas reproducibles para el análisis epidemiológico y ecológico11,12. Por ejemplo, esta clasificación basada en MLST puede generar información genotípica a dos niveles de resolución: tipos de secuencia de nivel inferior (ST) o linajes ST (7 loci), y variantes MLST del genoma central de nivel superior (cgMLST) (~ 300-3,000 loci)10.
La clasificación genotípica basada en MLST es computacionalmente portátil y altamente reproducible entre laboratorios, por lo que es ampliamente aceptada como un enfoque preciso de subtipificación por debajo del nivel de especie bacteriana13,14. Sin embargo, las poblaciones bacterianas están estructuradas con diversos grados de clonalidad específicos de la especie (es decir, homogeneidad genotípica), patrones complejos de parentesco jerárquico entre genotipos 15,16,17 y una amplia gama de variación en la distribución del contenido genómico accesorio 18,19 . Así, un enfoque más holístico va más allá de las clasificaciones discretas en genotipos MLST e incorpora las relaciones jerárquicas de genotipos a diferentes escalas de resolución, junto con el mapeo del contenido genómico accesorio en clasificaciones genotípicas, lo que facilita la inferencia poblacional 18,20,21 . Además, los análisis también pueden centrarse en patrones compartidos de herencia de loci genómicos accesorios incluso entre genotipos relacionados a distancia21,22. En general, el enfoque combinado permite el interrogatorio agnóstico de las relaciones entre la estructura de la población y la distribución de composiciones genómicas específicas (por ejemplo, loci) entre gradientes geoespaciales o ambientales. Tal enfoque puede proporcionar información fundamental y práctica sobre las características ecológicas de poblaciones específicas que pueden, a su vez, explicar su tropismo y patrones de dispersión a través de reservorios, como animales de alimentación o humanos.
Este enfoque jerárquico orientado a la población basado en sistemas exige grandes volúmenes de datos WGS para obtener suficiente poder estadístico para predecir firmas genómicas distinguibles. En consecuencia, el enfoque requiere una plataforma computacional capaz de procesar muchos miles de genomas bacterianos a la vez. Recientemente, ProkEvo fue desarrollado y es una plataforma bioinformática gratuita, automatizada, portátil y escalable que permite análisis integradores de poblaciones bacterianas basadas en jerarquías, incluido el mapeo pangenómico20. ProkEvo permite el estudio de conjuntos de datos bacterianos a gran escala al tiempo que proporciona un marco para generar hipótesis epidemiológicas y ecológicas comprobables e inferibles y predicciones fenotípicas que pueden ser personalizadas por el usuario. Este trabajo complementa esa canalización al proporcionar una guía sobre cómo utilizar los archivos de salida derivados de ProkEvo como entrada para análisis e interpretación de clasificaciones jerárquicas de poblaciones y minería genómica accesoria. El estudio de caso presentado aquí utilizó la población de Salmonella enterica linaje I zoonótico serovar S. Newport como ejemplo y estaba específicamente dirigido a proporcionar pautas prácticas para microbiólogos, ecólogos y epidemiólogos sobre cómo: i) utilizar un enfoque automatizado dependiente de la filogenia para mapear genotipos jerárquicos; ii) evaluar la distribución de frecuencias de los genotipos como indicador para evaluar la aptitud ecológica; iii) determinar los grados de clonalidad específicos del linaje utilizando enfoques estadísticos independientes; y iv) mapear los loci DE RAM diferenciadores de linaje como ejemplo de cómo extraer contenido genómico accesorio en el contexto de la estructura de la población. En términos más generales, este enfoque analítico proporciona un marco generalizable para realizar un análisis genómico basado en la población a una escala que se puede utilizar para inferir patrones evolutivos y ecológicos independientemente de la especie objetivo.
La utilización de un análisis heurístico y jerárquico de la estructura de la población basado en sistemas proporciona un marco para identificar nuevas firmas genómicas en conjuntos de datos bacterianos que tienen el potencial de explicar patrones ecológicos y epidemiológicos únicos20. Además, el mapeo de datos del genoma accesorio en la estructura de la población se puede utilizar para inferir rasgos adquiridos ancestralmente y / o derivados recientemente que facilitan la propagación d…
The authors have nothing to disclose.
Este trabajo fue apoyado por fondos proporcionados por la División de Investigación Agrícola de UNL-IANR y el Instituto Nacional de Investigación y Educación sobre la Resistencia a los Antimicrobianos y por el Centro de Alimentos para la Salud de Nebraska en el Departamento de Ciencia y Tecnología de los Alimentos (UNL). Esta investigación solo podría completarse utilizando el Holland Computing Center (HCC) en UNL, que recibe el apoyo de la Iniciativa de Investigación de Nebraska. También estamos agradecidos por tener acceso, a través del HCC, a los recursos proporcionados por Open Science Grid (OSG), que cuenta con el apoyo de la Fundación Nacional de Ciencias y la Oficina de Ciencia del Departamento de Energía de los Estados Unidos. Este trabajo utilizó el software de gestión de flujo de trabajo Pegasus que está financiado por la National Science Foundation (subvención # 1664162).
amr_data_filtered | https://figshare.com/account/projects/116625/articles/14829225?file=28758762 | ||
amr_data_raw | https://figshare.com/account/projects/116625/articles/14829225?file=28547994 | ||
baps_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548003 | ||
Core-genome phylogeny | https://figshare.com/account/projects/116625/articles/14829225?file=28548006 | ||
genome_sra | https://figshare.com/account/projects/116625/articles/14829225?file=28639209 | ||
Linux, Mac, or PC | any high-performance platform | ||
mlst_output | https://figshare.com/account/projects/116625/articles/14829225?file=28547997 | ||
sistr_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548000 | ||
figshare credentials are required for login and have access to the files |