Dit analytische computationele platform biedt praktische richtlijnen voor microbiologen, ecologen en epidemiologen die geïnteresseerd zijn in bacteriële populatiegenomica. In het bijzonder demonstreerde het hier gepresenteerde werk hoe uit te voeren: i) fylogenie-geleide mapping van hiërarchische genotypen; ii) op frequentie gebaseerde analyse van genotypen; iii) verwantschaps- en klonaliteitsanalyses; iv) identificatie van afstammingsonderscheidende accessoire loci.
Routinematig en systematisch gebruik van bacteriële whole-genome sequencing (WGS) verbetert de nauwkeurigheid en oplossing van epidemiologisch onderzoek uitgevoerd door volksgezondheidslaboratoria en regelgevende instanties. Grote hoeveelheden openbaar beschikbare WGS-gegevens kunnen worden gebruikt om pathogene populaties op grote schaal te bestuderen. Onlangs werd een vrij beschikbaar computationeel platform genaamd ProkEvo gepubliceerd om reproduceerbare, geautomatiseerde en schaalbare hiërarchische populatie-genomische analyses mogelijk te maken met behulp van bacteriële WGS-gegevens. Deze implementatie van ProkEvo toonde het belang aan van het combineren van standaard genotypische mapping van populaties met mijnbouw van accessoire genomische inhoud voor ecologische gevolgtrekking. In het bijzonder gebruikte het hier belichte werk ProkEvo-afgeleide outputs voor hiërarchische analyses op populatieschaal met behulp van de R-programmeertaal. Het belangrijkste doel was om microbiologen, ecologen en epidemiologen een praktische gids te bieden door te laten zien hoe: i) een fylogenie-geleide mapping van hiërarchische genotypen kan worden gebruikt; ii) frequentieverdelingen van genotypen te beoordelen als een proxy voor ecologische fitheid; iii) verwantschapsrelaties en genetische diversiteit te bepalen met behulp van specifieke genotypische classificaties; en iv) kaartlijn differentiërende accessoire loci. Om de reproduceerbaarheid en draagbaarheid te verbeteren, werden R-afwaarderingsbestanden gebruikt om de volledige analytische benadering te demonstreren. De voorbeelddataset bevatte genomische gegevens van 2.365 isolaten van de zoönotische voedselpathogeen Salmonella Newport. Fylogenie-verankerde mapping van hiërarchische genotypen (Serovar -> BAPS1 -> ST -> cgMLST) onthulde de populatiegenetische structuur, waarbij sequentietypen (ST’s) werden benadrukt als de hoeksteen die het genotype onderscheidt. Over de drie meest dominante afstammingslijnen deelden ST5 en ST118 recenter een gemeenschappelijke voorouder dan met het zeer klonale ST45-fylogenylotype. Op ST gebaseerde verschillen werden verder benadrukt door de verdeling van accessoire antimicrobiële resistentie (AMR) loci. Ten slotte werd een fylogenie-verankerde visualisatie gebruikt om hiërarchische genotypen en AMR-inhoud te combineren om de verwantschapsstructuur en afstammingsspecifieke genomische handtekeningen te onthullen. Gecombineerd biedt deze analytische benadering enkele richtlijnen voor het uitvoeren van heuristische bacteriële populatie genomische analyses met behulp van pan-genomische informatie.
Het toenemende gebruik van bacteriële whole-genome sequencing (WGS) als basis voor routinematige surveillance en epidemiologisch onderzoek door volksgezondheidslaboratoria en regelgevende instanties heeft het onderzoek naar het uitbreken van pathogenen aanzienlijk verbeterd 1,2,3,4. Als gevolg hiervan zijn grote hoeveelheden geanonimiseerde WGS-gegevens nu openbaar beschikbaar en kunnen ze worden gebruikt om aspecten van de populatiebiologie van pathogene soorten op een ongekende schaal te bestuderen, inclusief studies op basis van: populatiestructuren, genotypefrequenties en gen / allelfrequenties in meerdere reservoirs, geografische regio’s en soorten omgevingen5 . De meest gebruikte WGS-geleide epidemiologische onderzoeken zijn gebaseerd op analyses met alleen de gedeelde kern-genomische inhoud, waarbij de gedeelde (geconserveerde) inhoud alleen wordt gebruikt voor genotypische classificatie (bijv. Variant calling), en deze varianten worden de basis voor epidemiologische analyse en tracering 1,2,6,7 . Typisch, bacteriële kern-genoom-gebaseerde genotypering wordt uitgevoerd met multi-locus sequence typing (MLST) benaderingen met behulp van zeven tot een paar duizend loci 8,9,10. Deze MLST-gebaseerde strategieën omvatten het in kaart brengen van voorgeassembleerde of geassembleerde genomische sequenties op sterk samengestelde databases, waardoor allelische informatie wordt gecombineerd tot reproduceerbare genotypische eenheden voor epidemiologische en ecologische analyse11,12. Deze MLST-gebaseerde classificatie kan bijvoorbeeld genotypische informatie genereren op twee resolutieniveaus: sequentietypen op een lager niveau (ST’s) of ST-afstammingslijnen (7 loci) en mlst-varianten (cgMLST) op een hoger niveau (~ 300-3.000 loci)10.
MLST-gebaseerde genotypische classificatie is computationeel draagbaar en zeer reproduceerbaar tussen laboratoria, waardoor het algemeen wordt geaccepteerd als een nauwkeurige subtyperingsbenadering onder het bacteriesoortniveau13,14. Bacteriële populaties zijn echter gestructureerd met soortspecifieke verschillende gradaties van klonaliteit (d.w.z. genotypische homogeniteit), complexe patronen van hiërarchische verwantschap tussen genotypen 15,16,17 en een breed scala aan variatie in de verdeling van accessoire genomische inhoud 18,19 . Een meer holistische benadering gaat dus verder dan discrete classificaties in MLST-genotypen en omvat de hiërarchische relaties van genotypen op verschillende resolutieschalen, samen met het in kaart brengen van accessoire genomische inhoud op genotypische classificaties, wat populatiegebaseerde gevolgtrekkingen 18,20,21 vergemakkelijkt . Bovendien kunnen analyses zich ook richten op gedeelde patronen van overerving van accessoire genomische loci bij zelfs ver verwante genotypen 21,22. Over het algemeen maakt de gecombineerde aanpak agnostische ondervraging mogelijk van relaties tussen populatiestructuur en de verdeling van specifieke genomische samenstellingen (bijv. Loci) over geospatiale of omgevingsgradiënten. Een dergelijke benadering kan zowel fundamentele als praktische informatie opleveren over de ecologische kenmerken van specifieke populaties die op hun beurt hun tropisme en verspreidingspatronen over reservoirs, zoals voedseldieren of mensen, kunnen verklaren.
Deze op systemen gebaseerde hiërarchische populatiegerichte benadering vereist grote hoeveelheden WGS-gegevens voor voldoende statistische kracht om onderscheidbare genomische handtekeningen te voorspellen. Bijgevolg vereist de aanpak een computationeel platform dat in staat is om vele duizenden bacteriële genomen tegelijk te verwerken. Onlangs is ProkEvo ontwikkeld en is het een vrij beschikbaar, geautomatiseerd, draagbaar en schaalbaar bioinformaticaplatform dat integratieve hiërarchische bacteriële populatieanalyses mogelijk maakt, inclusief pan-genomische mapping20. ProkEvo maakt de studie van matige tot grootschalige bacteriële datasets mogelijk en biedt tegelijkertijd een kader om testbare en afleidbare epidemiologische en ecologische hypothesen en fenotypische voorspellingen te genereren die door de gebruiker kunnen worden aangepast. Dit werk vormt een aanvulling op die pijplijn door een gids te bieden voor het gebruik van prokevo-afgeleide outputbestanden als input voor analyses en interpretatie van hiërarchische populatieclassificaties en accessoire genomische mijnbouw. De hier gepresenteerde casestudy maakte gebruik van de populatie van Salmonella enterica-afstamming I zoönotische serovar S. Newport als voorbeeld en was specifiek gericht op het verstrekken van praktische richtlijnen voor microbiologen, ecologen en epidemiologen over hoe: i) een geautomatiseerde fylogenie-afhankelijke benadering te gebruiken om hiërarchische genotypen in kaart te brengen; ii) de frequentieverdeling van genotypen te beoordelen als een proxy voor het evalueren van ecologische fitheid; iii) afstammingsspecifieke graden van klonaliteit te bepalen met behulp van onafhankelijke statistische benaderingen; en iv) amr-loci in kaart te brengen als een voorbeeld van hoe accessoire genomische inhoud kan worden ontginnen in de context van de populatiestructuur. Meer in het algemeen biedt deze analytische benadering een generaliseerbaar kader om een populatiegebaseerde genomische analyse uit te voeren op een schaal die kan worden gebruikt om evolutionaire en ecologische patronen af te leiden, ongeacht de beoogde soort.
Het gebruik van een systeemgebaseerde heuristische en hiërarchische populatiestructuuranalyse biedt een kader om nieuwe genomische handtekeningen in bacteriële datasets te identificeren die het potentieel hebben om unieke ecologische en epidemiologische patronen te verklaren20. Bovendien kan het in kaart brengen van accessoire genoomgegevens op de populatiestructuur worden gebruikt om voorouderlijk verworven en / of recent afgeleide eigenschappen af te leiden die de verspreiding van ST-afstammin…
The authors have nothing to disclose.
Dit werk werd ondersteund door financiering door de UNL-IANR Agricultural Research Division en het National Institute for Antimicrobial Resistance Research and Education en door het Nebraska Food for Health Center van de Food Science and Technology Department (UNL). Dit onderzoek kon alleen worden voltooid door gebruik te maken van het Holland Computing Center (HCC) bij UNL, dat steun krijgt van het Nebraska Research Initiative. We zijn ook dankbaar dat we via de HCC toegang hebben tot middelen die worden geleverd door het Open Science Grid (OSG), dat wordt ondersteund door de National Science Foundation en het Office of Science van het Amerikaanse ministerie van Energie. Dit werk maakte gebruik van de Pegasus Workflow Management Software die wordt gefinancierd door de National Science Foundation (grant #1664162).
amr_data_filtered | https://figshare.com/account/projects/116625/articles/14829225?file=28758762 | ||
amr_data_raw | https://figshare.com/account/projects/116625/articles/14829225?file=28547994 | ||
baps_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548003 | ||
Core-genome phylogeny | https://figshare.com/account/projects/116625/articles/14829225?file=28548006 | ||
genome_sra | https://figshare.com/account/projects/116625/articles/14829225?file=28639209 | ||
Linux, Mac, or PC | any high-performance platform | ||
mlst_output | https://figshare.com/account/projects/116625/articles/14829225?file=28547997 | ||
sistr_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548000 | ||
figshare credentials are required for login and have access to the files |