Cette plate-forme informatique analytique fournit des conseils pratiques aux microbiologistes, aux écologistes et aux épidémiologistes intéressés par la génomique des populations bactériennes. Plus précisément, les travaux présentés ici ont démontré comment effectuer: i) une cartographie guidée par la phylogénie des génotypes hiérarchiques; ii) l’analyse des génotypes fondée sur la fréquence; iii) analyses de la parenté et de la clonalité; iv) l’identification des loci accessoires différenciant la lignée.
L’utilisation systématique et systématique du séquençage bactérien du génome entier (SGC) améliore l’exactitude et la résolution des enquêtes épidémiologiques menées par les laboratoires de santé publique et les organismes de réglementation. De grands volumes de données WGS accessibles au public peuvent être utilisés pour étudier les populations pathogènes à grande échelle. Récemment, une plate-forme de calcul disponible gratuitement appelée ProkEvo a été publiée pour permettre des analyses génomiques de population reproductibles, automatisées et évolutives basées sur des hiérarchies à l’aide de données WGS bactériennes. Cette mise en œuvre de ProkEvo a démontré l’importance de combiner la cartographie génotypique standard des populations avec l’extraction du contenu génomique accessoire pour l’inférence écologique. En particulier, les travaux mis en évidence ici ont utilisé des résultats dérivés de ProkEvo pour des analyses hiérarchiques à l’échelle de la population utilisant le langage de programmation R. L’objectif principal était de fournir un guide pratique aux microbiologistes, aux écologistes et aux épidémiologistes en montrant comment: i) utiliser une cartographie guidée par la phylogénie des génotypes hiérarchiques; ii) évaluer les distributions de fréquence des génotypes comme approximation de l’aptitude écologique; iii) déterminer les relations de parenté et la diversité génétique à l’aide de classifications génotypiques spécifiques; et iv) la lignée cartographique différenciant les loci accessoires. Pour améliorer la reproductibilité et la portabilité, des fichiers de démarque R ont été utilisés pour démontrer l’ensemble de l’approche analytique. L’exemple d’ensemble de données contenait des données génomiques provenant de 2 365 isolats de l’agent pathogène zoonotique d’origine alimentaire Salmonella Newport. La cartographie ancrée dans la phylogénie des génotypes hiérarchiques (Serovar -> BAPS1 -> ST -> cgMLST) a révélé la structure génétique de la population, mettant en évidence les types de séquences (ST) comme génotype différenciant clé de voûte. Dans les trois lignées les plus dominantes, ST5 et ST118 ont partagé un ancêtre commun plus récemment qu’avec le phylotype ST45 hautement clonal. Les différences fondées sur les ST ont également été mises en évidence par la distribution des loci de résistance aux antimicrobiens accessoires (RAM). Enfin, une visualisation ancrée dans la phylogénie a été utilisée pour combiner les génotypes hiérarchiques et le contenu de la RAM afin de révéler la structure de parenté et les signatures génomiques spécifiques à la lignée. Combinée, cette approche analytique fournit des lignes directrices pour la réalisation d’analyses heuristiques génomiques de populations bactériennes à l’aide d’informations pangénomiques.
L’utilisation croissante du séquençage bactérien du génome entier (SGC) comme base de la surveillance de routine et des enquêtes épidémiologiques par les laboratoires de santé publique et les organismes de réglementation a considérablement amélioré les enquêtes sur les éclosions d’agents pathogènes 1,2,3,4. En conséquence, de grands volumes de données WGS anonymisées sont maintenant accessibles au public et peuvent être utilisés pour étudier des aspects de la biologie des populations d’espèces pathogènes à une échelle sans précédent, y compris des études basées sur : les structures de population, les fréquences de génotype et les fréquences de gènes/allèles dans plusieurs réservoirs, régions géographiques et types d’environnements5 . Les enquêtes épidémiologiques guidées par le WGS les plus couramment utilisées sont basées sur des analyses utilisant uniquement le contenu génomique de base partagé, où le contenu partagé (conservé) seul est utilisé pour la classification génotypique (par exemple, l’appel de variantes), et ces variantes deviennent la base de l’analyse épidémiologique et du traçage 1,2,6,7 . En règle générale, le génotypage basé sur le noyau bactérien est effectué avec des approches de typage de séquence multi-locus (MLST) utilisant sept à quelques milliers de loci 8,9,10. Ces stratégies basées sur mlST englobent la cartographie de séquences génomiques pré-assemblées ou assemblées sur des bases de données hautement organisées, combinant ainsi des informations alléliques en unités génotypiques reproductibles pour l’analyse épidémiologique et écologique11,12. Par exemple, cette classification basée sur MLST peut générer des informations génotypiques à deux niveaux de résolution : les types de séquences de niveau inférieur (ST) ou les lignées ST (7 loci), et les variantes MLST (cgMLST) du génome du noyau supérieur (~ 300-3 000 loci)10.
La classification génotypique basée sur MLST est portable sur le plan informatique et hautement reproductible entre les laboratoires, ce qui la rend largement acceptée comme une approche de sous-typage précise sous le niveaud’espèce bactérienne 13,14. Cependant, les populations bactériennes sont structurées avec des degrés de clonalité variables spécifiques à l’espèce (c.-à-d. homogénéité génotypique), des modèles complexes de parenté hiérarchique entre les génotypes 15,16,17 et un large éventail de variations dans la distribution du contenu génomique accessoire18,19 . Ainsi, une approche plus holistique va au-delà des classifications discrètes dans les génotypes MLST et intègre les relations hiérarchiques des génotypes à différentes échelles de résolution, ainsi que la cartographie du contenu génomique accessoire sur les classifications génotypiques, ce qui facilite l’inférence basée sur la population 18,20,21 . En outre, les analyses peuvent également se concentrer sur les modèles partagés d’hérédité des loci génomiques accessoires parmi les génotypes21,22, même éloignés. Dans l’ensemble, l’approche combinée permet d’interroger de manière agnostique les relations entre la structure de la population et la distribution de compositions génomiques spécifiques (p. ex., loci) parmi les gradients géospatiaux ou environnementaux. Une telle approche peut fournir des informations à la fois fondamentales et pratiques sur les caractéristiques écologiques de populations spécifiques qui peuvent, à leur tour, expliquer leur tropisme et leurs modèles de dispersion dans les réservoirs, tels que les animaux destinés à l’alimentation ou les humains.
Cette approche hiérarchique axée sur la population basée sur les systèmes exige de grands volumes de données WGS pour une puissance statistique suffisante pour prédire des signatures génomiques distinguables. Par conséquent, l’approche nécessite une plate-forme de calcul capable de traiter plusieurs milliers de génomes bactériens à la fois. Récemment, ProkEvo a été développé et est une plate-forme bioinformatique librement disponible, automatisée, portable et évolutive qui permet des analyses de population bactérienne intégrées basées sur la hiérarchie, y compris la cartographie pangénomique20. ProkEvo permet l’étude d’ensembles de données bactériennes à moyenne à grande échelle tout en fournissant un cadre pour générer des hypothèses épidémiologiques et écologiques testables et inférables et des prédictions phénotypiques qui peuvent être personnalisées par l’utilisateur. Ce travail complète ce pipeline en fournissant un guide sur la façon d’utiliser les fichiers de sortie dérivés de ProkEvo comme entrée pour les analyses et l’interprétation des classifications hiérarchiques des populations et l’exploration génomique accessoire. L’étude de cas présentée ici a utilisé la population de Salmonella enterica lignée I zoonotique sérovar S. Newport à titre d’exemple et visait spécifiquement à fournir des lignes directrices pratiques aux microbiologistes, aux écologistes et aux épidémiologistes sur la façon de: i) utiliser une approche automatisée dépendante de la phylogénie pour cartographier les génotypes hiérarchiques; ii) évaluer la distribution de fréquence des génotypes comme approximation pour évaluer l’aptitude écologique; iii) déterminer les degrés de clonalité propres à la lignée à l’aide d’approches statistiques indépendantes; et iv) cartographier les loci de RMI différenciant la lignée comme exemple de la façon d’exploiter le contenu génomique accessoire dans le contexte de la structure de la population. Plus largement, cette approche analytique fournit un cadre généralisable pour effectuer une analyse génomique basée sur la population à une échelle qui peut être utilisée pour déduire des modèles évolutifs et écologiques quelle que soit l’espèce ciblée.
L’utilisation d’une analyse heuristique et hiérarchique de la structure des populations basée sur des systèmes fournit un cadre pour identifier de nouvelles signatures génomiques dans des ensembles de données bactériennes qui ont le potentiel d’expliquer des modèles écologiques et épidémiologiques uniques20. De plus, la cartographie des données génomiques accessoires sur la structure de la population peut être utilisée pour déduire des caractères acquis par l’ancestral et/o…
The authors have nothing to disclose.
Ce travail a été soutenu par un financement fourni par la Division de la recherche agricole de l’UNL-IANR et de l’Institut national de recherche et d’éducation sur la résistance aux antimicrobiens, ainsi que par le Nebraska Food for Health Center du Département des sciences et technologies alimentaires (UNL). Cette recherche n’a pu être complétée qu’en utilisant le Holland Computing Center (HCC) de l’UNL, qui reçoit le soutien de la Nebraska Research Initiative. Nous sommes également reconnaissants d’avoir accès, par l’intermédiaire du HCC, aux ressources fournies par l’Open Science Grid (OSG), qui est soutenu par la National Science Foundation et l’Office of Science du département de l’Énergie des États-Unis. Ce travail a utilisé le logiciel de gestion du flux de travail Pegasus qui est financé par la National Science Foundation (subvention n ° 1664162).
amr_data_filtered | https://figshare.com/account/projects/116625/articles/14829225?file=28758762 | ||
amr_data_raw | https://figshare.com/account/projects/116625/articles/14829225?file=28547994 | ||
baps_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548003 | ||
Core-genome phylogeny | https://figshare.com/account/projects/116625/articles/14829225?file=28548006 | ||
genome_sra | https://figshare.com/account/projects/116625/articles/14829225?file=28639209 | ||
Linux, Mac, or PC | any high-performance platform | ||
mlst_output | https://figshare.com/account/projects/116625/articles/14829225?file=28547997 | ||
sistr_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548000 | ||
figshare credentials are required for login and have access to the files |