Questa piattaforma computazionale analitica fornisce una guida pratica per microbiologi, ecologi ed epidemiologi interessati alla genomica delle popolazioni batteriche. Nello specifico, il lavoro qui presentato ha dimostrato come eseguire: i) mappatura filogenetica di genotipi gerarchici; ii) analisi dei genotipi basata sulla frequenza; iii) analisi di parentela e clonalità; iv) identificazione del lignaggio differenziando i loci accessori.
L’uso sistematico e sistematico del sequenziamento dell’intero genoma batterico (WGS) sta migliorando l’accuratezza e la risoluzione delle indagini epidemiologiche condotte dai laboratori di sanità pubblica e dalle agenzie di regolamentazione. Grandi volumi di dati WGS disponibili pubblicamente possono essere utilizzati per studiare le popolazioni patogene su larga scala. Recentemente, è stata pubblicata una piattaforma computazionale liberamente disponibile chiamata ProkEvo per consentire analisi genomiche di popolazione riproducibili, automatizzate e scalabili basate su gerarchia utilizzando dati WGS batterici. Questa implementazione di ProkEvo ha dimostrato l’importanza di combinare la mappatura genotipica standard delle popolazioni con l’estrazione di contenuti genomici accessori per l’inferenza ecologica. In particolare, il lavoro qui evidenziato ha utilizzato output derivati da ProkEvo per analisi gerarchiche su scala di popolazione utilizzando il linguaggio di programmazione R. L’obiettivo principale era quello di fornire una guida pratica per microbiologi, ecologi ed epidemiologi mostrando come: i) utilizzare una mappatura filogenica dei genotipi gerarchici; ii) valutare le distribuzioni di frequenza dei genotipi come proxy per l’idoneità ecologica; iii) determinare le relazioni di parentela e la diversità genetica utilizzando specifiche classificazioni genotipiche; e iv) mappare il lignaggio differenziando i loci accessori. Per migliorare la riproducibilità e la portabilità, sono stati utilizzati file di markdown R per dimostrare l’intero approccio analitico. Il set di dati di esempio conteneva dati genomici da 2.365 isolati del patogeno zoonotico di origine alimentare Salmonella Newport. La mappatura ancorata alla filogenesi dei genotipi gerarchici (Serovar -> BAPS1 -> ST -> cgMLST) ha rivelato la struttura genetica della popolazione, evidenziando i tipi di sequenza (ST) come genotipo differenziante chiave di volta. Attraverso i tre lignaggi più dominanti, ST5 e ST118 hanno condiviso un antenato comune più recentemente che con il filotipo ST45 altamente clonale. Le differenze basate sulla ST sono state ulteriormente evidenziate dalla distribuzione dei loci di resistenza antimicrobica accessoria (AMR). Infine, è stata utilizzata una visualizzazione ancorata alla filogenesi per combinare genotipi gerarchici e contenuto AMR per rivelare la struttura della parentela e le firme genomiche specifiche del lignaggio. Combinato, questo approccio analitico fornisce alcune linee guida per condurre analisi genomiche euristiche della popolazione batterica utilizzando informazioni pan-genomiche.
Il crescente uso del sequenziamento dell’intero genoma batterico (WGS) come base per la sorveglianza di routine e l’indagine epidemiologica da parte dei laboratori di sanità pubblica e delle agenzie di regolamentazione ha sostanzialmente migliorato le indagini sui focolai di patogeni 1,2,3,4. Di conseguenza, grandi volumi di dati WGS de-identificati sono ora disponibili al pubblico e possono essere utilizzati per studiare aspetti della biologia della popolazione di specie patogene su una scala senza precedenti, compresi studi basati su: strutture di popolazione, frequenze di genotipo e frequenze geniche / alleliche in più serbatoi, regioni geografiche e tipi di ambienti5 . Le indagini epidemiologiche guidate dal WGS più comunemente utilizzate si basano su analisi che utilizzano solo il contenuto genomico di base condiviso, in cui il contenuto condiviso (conservato) da solo viene utilizzato per la classificazione genotipica (ad esempio, la chiamata delle varianti) e queste varianti diventano la base per l’analisi epidemiologica e il tracciamento 1,2,6,7 . Tipicamente, la genotipizzazione basata sul genoma del nucleo batterico viene effettuata con approcci MLST (Multi-locus sequence typing) utilizzando da sette a poche migliaia di loci 8,9,10. Queste strategie basate su MLST comprendono la mappatura di sequenze genomiche preassemblate o assemblate su database altamente curati, combinando così le informazioni alleliche in unità genotipiche riproducibili per l’analisi epidemiologica ed ecologica11,12. Ad esempio, questa classificazione basata su MLST può generare informazioni genotipiche a due livelli di risoluzione: tipi di sequenza di livello inferiore (ST) o lignaggi ST (7 loci) e varianti MLST (cgMLST) del genoma centrale di livello superiore (~ 300-3.000 loci)10.
La classificazione genotipica basata su MLST è computazionalmente portatile e altamente riproducibile tra i laboratori, rendendola ampiamente accettata come un approccio accurato di sottostimolazione al di sotto del livello13,14 delle specie batteriche. Tuttavia, le popolazioni batteriche sono strutturate con vari gradi di clonalità specie-specifici (cioè omogeneità genotipica), modelli complessi di parentela gerarchica tra genotipi 15,16,17 e un’ampia gamma di variazioni nella distribuzione del contenuto genomico accessorio18,19 . Pertanto, un approccio più olistico va oltre le classificazioni discrete nei genotipi MLST e incorpora le relazioni gerarchiche dei genotipi a diverse scale di risoluzione, insieme alla mappatura del contenuto genomico accessorio su classificazioni genotipiche, che facilita l’inferenza basata sulla popolazione 18,20,21 . Inoltre, le analisi possono anche concentrarsi su modelli condivisi di ereditarietà di loci genomici accessori tra genotipi anche lontanamente correlati21,22. Nel complesso, l’approccio combinato consente un’interrogazione agnostica delle relazioni tra la struttura della popolazione e la distribuzione di specifiche composizioni genomiche (ad esempio, loci) tra gradienti geospaziali o ambientali. Un tale approccio può fornire informazioni sia fondamentali che pratiche sulle caratteristiche ecologiche di popolazioni specifiche che possono, a loro volta, spiegare il loro tropismo e i modelli di dispersione tra i bacini idrici, come gli animali alimentari o gli esseri umani.
Questo approccio gerarchico orientato alla popolazione basato su sistemi richiede grandi volumi di dati WGS per una potenza statistica sufficiente a prevedere firme genomiche distinguibili. Di conseguenza, l’approccio richiede una piattaforma computazionale in grado di elaborare molte migliaia di genomi batterici contemporaneamente. Recentemente, ProkEvo è stato sviluppato ed è una piattaforma bioinformatica liberamente disponibile, automatizzata, portatile e scalabile che consente analisi integrative della popolazione batterica basate su gerarchia, inclusa la mappatura pan-genomica20. ProkEvo consente lo studio di set di dati batterici su scala da moderata a grande, fornendo al contempo un quadro per generare ipotesi epidemiologiche ed ecologiche verificabili e deducibili e previsioni fenotipiche che possono essere personalizzate dall’utente. Questo lavoro integra questa pipeline nel fornire una guida su come utilizzare i file di output derivati da ProkEvo come input per l’analisi e l’interpretazione delle classificazioni gerarchiche della popolazione e dell’estrazione genomica accessoria. Il caso di studio qui presentato ha utilizzato la popolazione di Salmonella enterica lignaggio I sierotipo zoonotico S. Newport come esempio ed era specificamente finalizzato a fornire linee guida pratiche per microbiologi, ecologi ed epidemiologi su come: i) utilizzare un approccio automatizzato filogenesi-dipendente per mappare genotipi gerarchici; ii) valutare la distribuzione in frequenza dei genotipi come proxy per valutare l’idoneità ecologica; iii) determinare i gradi di clonalità specifici del lignaggio utilizzando approcci statistici indipendenti; e iv) mappare i loci AMR differenzianti il lignaggio come esempio di come estrarre il contenuto genomico accessorio nel contesto della struttura della popolazione. Più in generale, questo approccio analitico fornisce un quadro generalizzabile per eseguire un’analisi genomica basata sulla popolazione su una scala che può essere utilizzata per dedurre modelli evolutivi ed ecologici indipendentemente dalla specie bersaglio.
L’utilizzo di un’analisi euristica e gerarchica della struttura della popolazione basata su sistemi fornisce un quadro per identificare nuove firme genomiche in set di dati batterici che hanno il potenziale per spiegare modelli ecologici ed epidemiologici unici20. Inoltre, la mappatura dei dati del genoma accessorio sulla struttura della popolazione può essere utilizzata per dedurre tratti ancestrali acquisiti e / o di derivazione recente che facilitano la diffusione di lignaggi ST o varianti cgM…
The authors have nothing to disclose.
Questo lavoro è stato sostenuto da finanziamenti forniti dalla Divisione di ricerca agricola UNL-IANR e dall’Istituto nazionale per la ricerca e l’istruzione sulla resistenza antimicrobica e dal Nebraska Food for Health Center presso il Dipartimento di scienza e tecnologia alimentare (UNL). Questa ricerca potrebbe essere completata solo utilizzando l’Holland Computing Center (HCC) dell’UNL, che riceve il sostegno della Nebraska Research Initiative. Siamo anche grati di avere accesso, attraverso l’HCC, alle risorse fornite dall’Open Science Grid (OSG), che è supportato dalla National Science Foundation e dall’Office of Science del Dipartimento dell’Energia degli Stati Uniti. Questo lavoro ha utilizzato il software di gestione del flusso di lavoro Pegasus che è finanziato dalla National Science Foundation (sovvenzione n. 1664162).
amr_data_filtered | https://figshare.com/account/projects/116625/articles/14829225?file=28758762 | ||
amr_data_raw | https://figshare.com/account/projects/116625/articles/14829225?file=28547994 | ||
baps_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548003 | ||
Core-genome phylogeny | https://figshare.com/account/projects/116625/articles/14829225?file=28548006 | ||
genome_sra | https://figshare.com/account/projects/116625/articles/14829225?file=28639209 | ||
Linux, Mac, or PC | any high-performance platform | ||
mlst_output | https://figshare.com/account/projects/116625/articles/14829225?file=28547997 | ||
sistr_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548000 | ||
figshare credentials are required for login and have access to the files |