Esta plataforma computacional analítica fornece orientação prática para microbiologistas, ecologistas e epidemiologistas interessados em genômica populacional bacteriana. Especificamente, o trabalho aqui apresentado demonstrou como realizar: i) mapeamento guiado por filogenia de genótipos hierárquicos; ii) análise baseada em frequência de genótipos; iii) análises de parentesco e clonalidade; iv) identificação da linhagem diferenciando loci acessório.
O uso rotineiro e sistemático do sequenciamento de genomas integrais bacterianos (WGS) está aumentando a precisão e a resolução das investigações epidemiológicas realizadas por laboratórios e agências reguladoras de Saúde Pública. Grandes volumes de dados WGS disponíveis publicamente podem ser usados para estudar populações patogênicas em larga escala. Recentemente, uma plataforma computacional livremente disponível chamada ProkEvo foi publicada para permitir análises genômicas populacionais hierárquicas reprodutíveis, automatizadas e escaláveis usando dados wgs bacterianos. Esta implementação do ProkEvo demonstrou a importância de combinar mapeamento genotipado padrão de populações com mineração de conteúdo genômico acessório para inferência ecológica. Em particular, o trabalho aqui destacado utilizou saídas derivadas do ProkEvo para análises hierárquicas em escala populacional usando a linguagem de programação R. O objetivo principal foi fornecer um guia prático para microbiologistas, ecologistas e epidemiologistas, mostrando como: i) utilizar um mapeamento guiado por filogenia de genótipos hierárquicos; ii) avaliar as distribuições de frequência dos genótipos como proxy para a aptidão ecológica; iii) determinar relações de parentesco e diversidade genética utilizando classificações genotipas específicas; e iv) linhagem de mapa diferenciando loci acessório. Para melhorar a reprodutibilidade e a portabilidade, os arquivos de marcação R foram usados para demonstrar toda a abordagem analítica. O conjunto de dados do exemplo continha dados genômicos de 2.365 isolados do patógeno zoonótico Salmonella Newport. O mapeamento ancorado em filogenia de genótipos hierárquicos (Serovar -> BAPS1 -> ST-> cgMLST) revelou a estrutura genética populacional, destacando os tipos de sequência (STs) como o genótipo de diferenciação de pedra-chave. Através das três linhagens mais dominantes, ST5 e ST118 compartilharam um ancestral comum mais recentemente do que com o filotipo st45 altamente clonal. As diferenças baseadas em ST foram ainda destacadas pela distribuição de loci de resistência antimicrobiana acessória (AMR). Por fim, uma visualização ancorada em filogenia foi usada para combinar genótipos hierárquicos e conteúdo AMR para revelar a estrutura de parentesco e assinaturas genômicas específicas da linhagem. Combinada, essa abordagem analítica fornece algumas diretrizes para a realização de análises genômicas populacionais heurísticas da população bacteriana utilizando informações pan-genômicas.
O uso crescente do sequenciamento do genoma bacteriano (WGS) como base para vigilância de rotina e inquérito epidemiológico por laboratórios e agências reguladoras de Saúde Pública aprimorou substancialmente as investigações de surtosde patógenos 1,2,3,4. Como consequência, grandes volumes de dados WGS não identificados estão agora disponíveis publicamente e podem ser usados para estudar aspectos da biologia populacional de espécies patogênicas em escala sem precedentes, incluindo estudos baseados em: estruturas populacionais, frequências de genótipos e frequências de genes/alelos em vários reservatórios, regiões geográficas e tipos de ambientes5 . Os inquéritos epidemiológicos mais utilizados pelo WGS baseiam-se apenas em análises utilizando apenas o conteúdo núcleo-genômico compartilhado, onde o conteúdo compartilhado (conservado) é usado apenas para classificação genotípica (por exemplo, chamada de variante), e essas variantes se tornam a base para análise epidemiológica e rastreamento 1,2,6,7 . Normalmente, o genotipagem baseado em núcleo bacteriano é realizado com abordagens de digitação de sequência de vários lócus (MLST) usando sete a alguns milhares de loci 8,9,10. Essas estratégias baseadas em MLST englobam o mapeamento de sequências genômicas pré-montadas ou montadas em bancos de dados altamente curados, combinando informações alélicas em unidades genotípicas reprodutíveis para análise epidemiológica e ecológica11,12. Por exemplo, esta classificação baseada em MLST pode gerar informações genotípicas em dois níveis de resolução: tipos de sequência de nível inferior (STs) ou linhagens ST (7 loci), e variantes MLST (cgMLST) de genoma-núcleo de nível superior (~ 300-3.000 loci)10.
A classificação genotípica baseada em MLST é computacionalmente portátil e altamente reprodutível entre laboratórios, tornando-a amplamente aceita como uma abordagem de sub-digitação precisa abaixo do nívelde espécies bacterianas 13,14. No entanto, as populações bacterianas são estruturadas com diferentes graus de clonalidade específicos das espécies (ou seja, homogeneidade genotípica), padrões complexos de parentesco hierárquico entre genótipos 15,16,17 e uma ampla gama de variações na distribuição do conteúdo genômico acessório 18,19 . Assim, uma abordagem mais holística vai além de classificações discretas em genótipos MLST e incorpora as relações hierárquicas de genótipos em diferentes escalas de resolução, juntamente com o mapeamento de conteúdo genômico acessório em classificações genotipas genotipas, o que facilita a inferência de base populacional 18,20,21 . Além disso, as análises também podem focar em padrões compartilhados de herança de loci genômico acessório entre mesmo genótipos distantes21,22. No geral, a abordagem combinada permite o interrogatório agnóstico das relações entre a estrutura populacional e a distribuição de composições genômicas específicas (por exemplo, loci) entre gradientes geoespaciais ou ambientais. Tal abordagem pode produzir informações fundamentais e práticas sobre as características ecológicas de populações específicas que podem, por sua vez, explicar seus padrões de tropismo e dispersão entre reservatórios, como animais alimentícios ou humanos.
Esta abordagem hierárquica orientada à população baseada em sistemas exige grandes volumes de dados do WGS para poder estatístico suficiente para prever assinaturas genômicas distintas. Consequentemente, a abordagem requer uma plataforma computacional capaz de processar milhares de genomas bacterianos ao mesmo tempo. Recentemente, o ProkEvo foi desenvolvido e é uma plataforma de bioinformática livremente disponível, automatizada, portátil e escalável que permite análises populacionais bacterianas de base hierárquica integrativa, incluindo mapeamento pan-genômico20. O ProkEvo permite o estudo de conjuntos de dados bacterianos de forma moderada a grande, ao mesmo tempo em que fornece uma estrutura para gerar hipóteses epidemiológicas e ecológicas testáveis e inferíveis e previsões fenotípicas que podem ser personalizadas pelo usuário. Este trabalho complementa esse pipeline ao fornecer um guia sobre como utilizar arquivos de saída derivados do ProkEvo como entrada para análises e interpretação de classificações populacionais hierárquicas e mineração genômica acessório. O estudo de caso aqui apresentado utilizou a população da linhagem Salmonella enterica I zoonotic serovar S. Newport como exemplo e foi especificamente destinada a fornecer diretrizes práticas para microbiologistas, ecologistas e epidemiologistas sobre como: i) usar uma abordagem automatizada dependente de filogenia para mapear genótipos hierárquicos; ii) avaliar a distribuição de frequência dos genótipos como proxy para avaliação da aptidão ecológica; iii) determinar graus específicos de clonalidade de linhagem utilizando abordagens estatísticas independentes; e iv) mapear a linhagem de linhagem amr loci como exemplo de como extrair conteúdo genômico acessório no contexto da estrutura populacional. De forma mais ampla, essa abordagem analítica fornece uma estrutura generalizável para realizar uma análise genômica baseada na população em uma escala que pode ser usada para inferir padrões evolutivos e ecológicos, independentemente das espécies-alvo.
A utilização de uma análise heurística e hierárquica da estrutura populacional baseada em sistemas fornece uma estrutura para identificar novas assinaturas genômicas em conjuntos de dados bacterianos que têm o potencial de explicar padrões ecológicos e epidemiológicos únicos20. Além disso, o mapeamento de dados do genoma acessório na estrutura populacional pode ser usado para inferir traços adquiridos ancestralmente e/ou recém-derivados que facilitem a disseminação de linhagens ST…
The authors have nothing to disclose.
Este trabalho foi apoiado por financiamento da Divisão de Pesquisa Agrícola da UNL-IANR e do Instituto Nacional de Pesquisa e Educação de Resistência Antimicrobiana e pelo Nebraska Food for Health Center do Departamento de Ciência e Tecnologia de Alimentos (UNL). Esta pesquisa só poderia ser concluída utilizando o Holland Computing Center (HCC) na UNL, que recebe apoio da Iniciativa de Pesquisa do Nebraska. Também somos gratos por ter acesso, através do HCC, aos recursos fornecidos pela Open Science Grid (OSG), que é apoiada pela National Science Foundation e pelo Escritório de Ciência do Departamento de Energia dos EUA. Este trabalho utilizou o Software de Gestão de Fluxo de Trabalho pegasus, que é financiado pela Fundação Nacional de Ciência (grant #1664162).
amr_data_filtered | https://figshare.com/account/projects/116625/articles/14829225?file=28758762 | ||
amr_data_raw | https://figshare.com/account/projects/116625/articles/14829225?file=28547994 | ||
baps_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548003 | ||
Core-genome phylogeny | https://figshare.com/account/projects/116625/articles/14829225?file=28548006 | ||
genome_sra | https://figshare.com/account/projects/116625/articles/14829225?file=28639209 | ||
Linux, Mac, or PC | any high-performance platform | ||
mlst_output | https://figshare.com/account/projects/116625/articles/14829225?file=28547997 | ||
sistr_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548000 | ||
figshare credentials are required for login and have access to the files |