Diese analytische Berechnungsplattform bietet praktische Anleitungen für Mikrobiologen, Ökologen und Epidemiologen, die sich für die Genomik der Bakterienpopulation interessieren. Insbesondere zeigte die hier vorgestellte Arbeit, wie man Folgendes durchführt: i) phylogenie-geführte Kartierung hierarchischer Genotypen; ii) frequenzbasierte Analyse von Genotypen; iii) Verwandtschafts- und Klonalitätsanalysen; iv) Identifizierung der Abstammungsdifferenzierung der akzessorischen Loci.
Der routinemäßige und systematische Einsatz der bakteriellen Ganzgenomsequenzierung (WGS) verbessert die Genauigkeit und Auflösung epidemiologischer Untersuchungen, die von Laboratorien und Aufsichtsbehörden des öffentlichen Gesundheitswesens durchgeführt werden. Große Mengen öffentlich verfügbarer WGS-Daten können verwendet werden, um pathogene Populationen in großem Maßstab zu untersuchen. Vor kurzem wurde eine frei verfügbare Rechenplattform namens ProkEvo veröffentlicht, um reproduzierbare, automatisierte und skalierbare hierarchisch basierte populationsgenomische Analysen unter Verwendung von bakteriellen WGS-Daten zu ermöglichen. Diese Implementierung von ProkEvo zeigte, wie wichtig es ist, die standardmäßige genotypische Kartierung von Populationen mit dem Abbau des akzessorischen genomischen Inhalts für die ökologische Inferenz zu kombinieren. Insbesondere verwendete die hier hervorgehobene Arbeit ProkEvo-abgeleitete Ausgaben für populationsskalierte hierarchische Analysen unter Verwendung der Programmiersprache R. Das Hauptziel war es, Mikrobiologen, Ökologen und Epidemiologen einen praktischen Leitfaden zur Verfügung zu stellen, indem gezeigt wurde, wie: i) eine phylogeniegesteuerte Kartierung hierarchischer Genotypen zu verwenden; ii) Bewertung der Häufigkeitsverteilungen von Genotypen als Proxy für die ökologische Fitness; iii) Bestimmung der Verwandtschaftsbeziehungen und der genetischen Vielfalt unter Verwendung spezifischer genotypischer Klassifikationen; und iv) Kartenlinie, die die Zubehörloki unterscheidet. Um die Reproduzierbarkeit und Portabilität zu verbessern, wurden R-Markdown-Dateien verwendet, um den gesamten analytischen Ansatz zu demonstrieren. Der Beispieldatensatz enthielt genomische Daten von 2.365 Isolaten des zoonotischen lebensmittelbedingten Erregers Salmonella Newport. Die phylogenieverankerte Kartierung hierarchischer Genotypen (Serovar -> BAPS1 -> ST -> cgMLST) zeigte die genetische Struktur der Population und hob Sequenztypen (STs) als Schlüsselelement zur Unterscheidung des Genotyps hervor. Über die drei dominantesten Linien hinweg teilten ST5 und ST118 in jüngerer Zeit einen gemeinsamen Vorfahren als mit dem hochklonalen ST45-Phylotyp. Die ST-basierten Unterschiede wurden durch die Verteilung der Loci für akzessorische antimikrobielle Resistenzen (AMR) weiter hervorgehoben. Schließlich wurde eine phylogenieverankerte Visualisierung verwendet, um hierarchische Genotypen und AMR-Inhalte zu kombinieren, um die Verwandtschaftsstruktur und die linienspezifischen genomischen Signaturen aufzudecken. In Kombination bietet dieser analytische Ansatz einige Richtlinien für die Durchführung heuristischer genomischer Analysen der Bakterienpopulation unter Verwendung pangenomischer Informationen.
Die zunehmende Verwendung der bakteriellen Sequenzierung des gesamten Genoms (WGS) als Grundlage für die routinemäßige Überwachung und epidemiologische Untersuchung durch Laboratorien und Regulierungsbehörden des öffentlichen Gesundheitswesens hat die Untersuchungen von Krankheitserregern erheblich verbessert 1,2,3,4. Infolgedessen sind große Mengen anonymisierter WGS-Daten nun öffentlich verfügbar und können verwendet werden, um Aspekte der Populationsbiologie pathogener Arten in einem beispiellosen Umfang zu untersuchen, einschließlich Studien auf der Grundlage von: Populationsstrukturen, Genotyphäufigkeiten und Gen- / Allelhäufigkeiten über mehrere Reservoirs, geografische Regionen und Umgebungstypenhinweg 5 . Die am häufigsten verwendeten WGS-geführten epidemiologischen Untersuchungen basieren auf Analysen, die nur den gemeinsamen Kerngenomgehalt verwenden, wobei der gemeinsame (konservierte) Inhalt allein für die genotypische Klassifikation (z. B. Variantenaufruf) verwendet wird, und diese Varianten werden zur Grundlage für die epidemiologische Analyse und Rückverfolgung 1,2,6,7 . Typischerweise wird die bakterielle Kerngenom-basierte Genotypisierung mit Multi-Locus-Sequenztypisierung (MLST) unter Verwendung von sieben bis einigen tausend Loci 8,9,10 durchgeführt. Diese MLST-basierten Strategien umfassen die Kartierung vormontierter oder assemblierter genomischer Sequenzen auf hochkuratierte Datenbanken, wodurch allelische Informationen zu reproduzierbaren genotypischen Einheiten für die epidemiologische und ökologische Analyse kombiniertwerden 11,12. Zum Beispiel kann diese MLST-basierte Klassifikation genotypische Informationen auf zwei Auflösungsebenen generieren: Sequenztypen auf niedrigerer Ebene (STs) oder ST-Linien (7 Loci) und MLST-Varianten (cgMLST) auf höherer Ebene (~ 300-3.000 Loci)10.
Die MLST-basierte genotypische Klassifikation ist rechnerisch tragbar und zwischen Labors hochgradig reproduzierbar, was sie weithin als genauen Subtypisierungsansatz unterhalb der Bakterienartenebene13,14 akzeptiert. Bakterienpopulationen sind jedoch mit artspezifischen unterschiedlichen Klonalitätsgraden (d. h. genotypischer Homogenität), komplexen Mustern hierarchischer Verwandtschaft zwischen den Genotypen 15,16,17 und einer breiten Palette von Variationen in der Verteilung des akzessorischen genomischen Inhalts strukturiert 18,19 . Daher geht ein ganzheitlicherer Ansatz über diskrete Klassifikationen in MLST-Genotypen hinaus und umfasst die hierarchischen Beziehungen von Genotypen auf verschiedenen Auflösungsskalen sowie die Abbildung des akzessorischen genomischen Inhalts auf genotypische Klassifikationen, was eine populationsbasierte Inferenz erleichtert 18,20,21 . Darüber hinaus können sich die Analysen auch auf gemeinsame Vererbungsmuster akzessorischer genomischer Loci bei selbst entfernt verwandten Genotypenkonzentrieren 21,22. Insgesamt ermöglicht der kombinierte Ansatz eine agnostische Abfrage von Beziehungen zwischen der Populationsstruktur und der Verteilung spezifischer genomischer Zusammensetzungen (z. B. Loci) zwischen Geo- oder Umweltgradienten. Ein solcher Ansatz kann sowohl grundlegende als auch praktische Informationen über die ökologischen Eigenschaften bestimmter Populationen liefern, die wiederum ihren Tropismus und ihre Ausbreitungsmuster über Stauseen wie Futtertiere oder Menschen erklären können.
Dieser systembasierte hierarchische populationsorientierte Ansatz erfordert große Mengen an WGS-Daten für eine ausreichende statistische Aussagekraft, um unterscheidbare genomische Signaturen vorherzusagen. Folglich erfordert der Ansatz eine Rechenplattform, die in der Lage ist, viele Tausende von bakteriellen Genomen gleichzeitig zu verarbeiten. Vor kurzem wurde ProkEvo entwickelt und ist eine frei verfügbare, automatisierte, tragbare und skalierbare Bioinformatik-Plattform, die integrative hierarchisch basierte Bakterienpopulationsanalysen, einschließlich pangenomischer Kartierung20, ermöglicht. ProkEvo ermöglicht die Untersuchung von mittelgroßen bis großen bakteriellen Datensätzen und bietet gleichzeitig einen Rahmen für die Erstellung überprüfbarer und inferiierbarer epidemiologischer und ökologischer Hypothesen und phänotypischer Vorhersagen, die vom Benutzer angepasst werden können. Diese Arbeit ergänzt diese Pipeline durch die Bereitstellung eines Leitfadens zur Verwendung von ProkEvo-abgeleiteten Ausgabedateien als Input für Analysen und Interpretationen hierarchischer Populationsklassifikationen und des akzessorischen genomischen Minings. Die hier vorgestellte Fallstudie verwendete die Population der Salmonella enterica-Linie I zoonotischer Serovar S. Newport als Beispiel und zielte speziell darauf ab, praktische Richtlinien für Mikrobiologen, Ökologen und Epidemiologen bereitzustellen, wie: i) einen automatisierten phylogenieabhängigen Ansatz zur Abbildung hierarchischer Genotypen zu verwenden; ii) die Häufigkeitsverteilung von Genotypen als Proxy für die Bewertung der ökologischen Eignung zu bewerten; iii) Bestimmung der linienspezifischen Klonalitätsgrade unter Verwendung unabhängiger statistischer Ansätze; und iv) abbilden liniendifferenzierende AMR-Loci als Beispiel dafür, wie akzessorische genomische Inhalte im Kontext der Populationsstruktur abgebaut werden können. Im weiteren Sinne bietet dieser analytische Ansatz einen verallgemeinerbaren Rahmen für die Durchführung einer populationsbasierten genomischen Analyse in einem Maßstab, der verwendet werden kann, um evolutionäre und ökologische Muster unabhängig von der Zielart abzuleiten.
Die Verwendung einer systembasierten heuristischen und hierarchischen Populationsstrukturanalyse bietet einen Rahmen für die Identifizierung neuartiger genomischer Signaturen in bakteriellen Datensätzen, die das Potenzial haben, einzigartige ökologische und epidemiologische Muster zu erklären20. Darüber hinaus kann die Kartierung von akzessorischen Genomdaten auf die Populationsstruktur verwendet werden, um auf von Vorfahren erworbene und/oder kürzlich abgeleitete Merkmale zu schließen, die…
The authors have nothing to disclose.
Diese Arbeit wurde durch Mittel unterstützt, die von der UNL-IANR Agricultural Research Division und dem National Institute for Antimicrobial Resistance Research and Education sowie vom Nebraska Food for Health Center am Food Science and Technology Department (UNL) zur Verfügung gestellt wurden. Diese Forschung konnte nur durch die Nutzung des Holland Computing Center (HCC) an der UNL abgeschlossen werden, das von der Nebraska Research Initiative unterstützt wird. Wir sind auch dankbar dafür, dass wir über das HCC Zugang zu Ressourcen haben, die vom Open Science Grid (OSG) bereitgestellt werden, das von der National Science Foundation und dem Office of Science des US-Energieministeriums unterstützt wird. Diese Arbeit verwendete die Pegasus Workflow Management Software, die von der National Science Foundation (Grant # 1664162) finanziert wird.
amr_data_filtered | https://figshare.com/account/projects/116625/articles/14829225?file=28758762 | ||
amr_data_raw | https://figshare.com/account/projects/116625/articles/14829225?file=28547994 | ||
baps_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548003 | ||
Core-genome phylogeny | https://figshare.com/account/projects/116625/articles/14829225?file=28548006 | ||
genome_sra | https://figshare.com/account/projects/116625/articles/14829225?file=28639209 | ||
Linux, Mac, or PC | any high-performance platform | ||
mlst_output | https://figshare.com/account/projects/116625/articles/14829225?file=28547997 | ||
sistr_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548000 | ||
figshare credentials are required for login and have access to the files |