Summary

כרייה היוריסטית של גנוטיפים היררכיים וגושים של גנום עזר באוכלוסיות חיידקים

Published: December 07, 2021
doi:

Summary

פלטפורמה חישובית אנליטית זו מספקת הדרכה מעשית למיקרוביולוגים, אקולוגים ואפידמיולוגים המתעניינים בגנומיקה של אוכלוסיית החיידקים. באופן ספציפי, העבודה שהוצגה כאן הדגימה כיצד לבצע: א) מיפוי מונחה פילוגניה של גנוטיפים היררכיים; 2) ניתוח מבוסס תדרים של גנוטיפים; 3) ניתוחי קרבה וקלונליות; 4) זיהוי של שושלת המבדילה בין לוקים לאביזר.

Abstract

שימוש שגרתי ושיטתי בריצוף גנום שלם של חיידקים (WGS) משפר את הדיוק והרזולוציה של חקירות אפידמיולוגיות המבוצעות על ידי מעבדות לבריאות הציבור וסוכנויות רגולטוריות. ניתן להשתמש בכמויות גדולות של נתוני WGS הזמינים לציבור כדי לחקור אוכלוסיות פתוגניות בקנה מידה גדול. לאחרונה פורסמה פלטפורמה חישובית זמינה באופן חופשי בשם ProkEvo כדי לאפשר ניתוחים גנומיים של אוכלוסיות מבוססות היררכיה הניתנות לשחזור, אוטומטיות ומדרגיות באמצעות נתוני WGS של חיידקים. יישום זה של ProkEvo הדגים את החשיבות של שילוב מיפוי גנוטיפי סטנדרטי של אוכלוסיות עם כרייה של תוכן גנומי עזר להסקה אקולוגית. בפרט, העבודה המודגשת כאן השתמשה בתפוקות הנגזרות מ- ProkEvo עבור ניתוחים היררכיים בקנה מידה של אוכלוסייה באמצעות שפת התכנות R. המטרה העיקרית הייתה לספק מדריך מעשי למיקרוביולוגים, אקולוגים ואפידמיולוגים על ידי כך שיראו כיצד: 1) להשתמש במיפוי מונחה פילוגנזה של גנוטיפים היררכיים; 2) להעריך התפלגויות תדרים של גנוטיפים כמייצג לכושר אקולוגי; 3) לקבוע יחסי קרבה ומגוון גנטי באמצעות סיווגים גנוטיפיים ספציפיים; ו-4) שושלת מפה המבדילה בין מוקדי אביזר. כדי לשפר את יכולת השכפול והניידות, נעשה שימוש בקבצי R markdown כדי להדגים את כל הגישה האנליטית. מערך הנתונים לדוגמה הכיל נתונים גנומיים מ-2,365 מבודדים של הפתוגן הזואונוטי סלמונלה ניופורט. מיפוי מעוגן פילוגנזה של גנוטיפים היררכיים (Serovar -> BAPS1 -> ST -> cgMLST) חשף את המבנה הגנטי של האוכלוסייה, והדגיש את סוגי הרצפים (STs) כגנוטיפ המבדיל את אבן המפתח. בשלוש השושלות הדומיננטיות ביותר, ST5 ו-ST118 חלקו אב קדמון משותף לאחרונה יותר מאשר עם הפילוטיפ ST45 הקלוני ביותר. הבדלים מבוססי ST הודגשו עוד יותר על ידי התפלגות מוקדי ההתנגדות האנטי-מיקרוביאלית (AMR) של האביזרים. לבסוף, הדמיה מעוגנת פילוגנית שימשה לשילוב גנוטיפים היררכיים ותכולת AMR כדי לחשוף את מבנה הקרבה ואת החתימות הגנומיות הספציפיות לשושלת. בשילוב, גישה אנליטית זו מספקת כמה קווים מנחים לביצוע ניתוחים גנומיים של אוכלוסיית חיידקים היוריסטיים תוך שימוש במידע פאן-גנומי.

Introduction

השימוש הגובר בריצוף גנום שלם של חיידקים (WGS) כבסיס למעקב שגרתי ולחקירה אפידמיולוגית על ידי מעבדות לבריאות הציבור וסוכנויות רגולטוריות שיפר באופן משמעותי את חקירותההתפרצות של פתוגנים 1,2,3,4. כתוצאה מכך, כמויות גדולות של נתוני WGS שלא זוהו זמינות כעת לציבור וניתן להשתמש בהן כדי לחקור היבטים של ביולוגיה של אוכלוסייה של מינים פתוגניים בקנה מידה חסר תקדים, כולל מחקרים המבוססים על: מבני אוכלוסייה, תדרי גנוטיפ ותדירויות גנים/אללים על פני מאגרים מרובים, אזורים גיאוגרפיים וסוגי סביבות5 . החקירות האפידמיולוגיות הנפוצות ביותר בהנחיית WGS מבוססות על ניתוחים המשתמשים רק בתוכן הליבה-גנומי המשותף, כאשר התוכן המשותף (המשומר) לבדו משמש לסיווג גנוטיפי (למשל, קריאת וריאנטים), וגרסאות אלה הופכות לבסיס לניתוח אפידמיולוגי ולמעקב אחר 1,2,6,7 . בדרך כלל, גנוטיפ מבוסס ליבה-גנום חיידקי מתבצע עם גישות הקלדת רצף רב-לוקוס (MLST) באמצעות שבעה עד כמה אלפי לוקוסים 8,9,10. אסטרטגיות מבוססות MLST אלה כוללות מיפוי של רצפים גנומיים שהורכבו מראש או הורכבו על גבי מסדי נתונים שנאספו במיוחד, ובכך משלבות מידע אלילי ליחידות גנוטיפיות הניתנות לשחזור לצורך ניתוח אפידמיולוגי ואקולוגי11,12. לדוגמה, סיווג מבוסס MLST זה יכול להפיק מידע גנוטיפי בשתי רמות של רזולוציה: סוגי רצף ברמה נמוכה יותר (STs) או ST שושלות (7 loci), וגרסאות גנום ליבה MLST (cgMLST) ברמה גבוהה יותר (~ 300-3,000 loci)10.

הסיווג הגנוטיפי מבוסס MLST הוא נייד מבחינה חישובית וניתן לשחזור רב בין מעבדות, מה שהופך אותו למקובל כגישת תת-הקלדה מדויקת מתחת לרמה של מיני החיידקיםברמה 13,14. עם זאת, אוכלוסיות חיידקים בנויות עם דרגות שונות ספציפיות למין של קלונליות (כלומר, הומוגניות גנוטיפית), דפוסים מורכבים של קרבה היררכית בין גנוטיפים 15,16,17, ומגוון רחב של וריאציות בהתפלגות התוכן הגנומי האביזרי18,19 . לפיכך, גישה הוליסטית יותר חורגת מעבר לסיווגים בדידים לגנוטיפים של MLST ומשלבת את היחסים ההיררכיים של גנוטיפים בקני מידה שונים של רזולוציה, יחד עם מיפוי של תוכן גנומי עזר לסיווגים גנוטיפיים, מה שמאפשר הסקה מבוססת אוכלוסייה 18,20,21 . יתר על כן, ניתוחים יכולים גם להתמקד בדפוסים משותפים של תורשה של לוקוסים גנומיים של אביזרים בין אפילו גנוטיפים הקשורים רחוק21,22. באופן כללי, הגישה המשולבת מאפשרת חקירה אגנוסטית של הקשרים בין מבנה האוכלוסייה לבין התפלגות הרכבים גנומיים ספציפיים (למשל, לוקוסים) בין גרדיאנטים גיאו-מרחביים או סביבתיים. גישה כזו יכולה להניב מידע בסיסי ומעשי כאחד על המאפיינים האקולוגיים של אוכלוסיות ספציפיות שעשויות, בתורן, להסביר את הטרופיזם ודפוסי הפיזור שלהן על פני מאגרים, כגון חיות מזון או בני אדם.

גישה היררכית מבוססת מערכות זו, המוכוונת אוכלוסייה, דורשת כמויות גדולות של נתוני WGS כדי לספק עוצמה סטטיסטית מספקת כדי לחזות חתימות גנומיות הניתנות לחיזוי. כתוצאה מכך, הגישה דורשת פלטפורמה חישובית המסוגלת לעבד אלפים רבים של גנומים חיידקיים בבת אחת. לאחרונה, ProkEvo פותחה והיא פלטפורמת ביואינפורמטיקה זמינה באופן חופשי, אוטומטית, ניידת ומדרגית המאפשרת ניתוחים אינטגרטיביים של אוכלוסיית חיידקים מבוססי היררכיה, כולל מיפוי פאן-גנומי20. ProkEvo מאפשרת לחקור מערכי נתונים חיידקיים בקנה מידה בינוני עד גדול תוך מתן מסגרת ליצירת השערות אפידמיולוגיות ואקולוגיות הניתנות לבדיקה ולהסקה ותחזיות פנוטיפיות שניתן להתאים אישית על ידי המשתמש. עבודה זו משלימה את הצינור הזה במתן מדריך כיצד להשתמש בקבצי פלט שמקורם ב- ProkEvo כקלט לניתוח ופרשנות של סיווגי אוכלוסייה היררכיים וכרייה גנומית אביזרים. מקרה הבוחן שהוצג כאן השתמש באוכלוסיית שושלת סלמונלה אנטריקה I זואונוטית סרובר S. ניופורט כדוגמה ונועדה במיוחד לספק קווים מנחים מעשיים למיקרוביולוגים, אקולוגים ואפידמיולוגים כיצד: 1) להשתמש בגישה אוטומטית התלויה בפילוגנזה כדי למפות גנוטיפים היררכיים; 2) להעריך את התפלגות התדירות של הגנוטיפים כמייצג להערכת כושר אקולוגי; 3) לקבוע דרגות ספציפיות לשושלת של קלונליות באמצעות גישות סטטיסטיות בלתי תלויות; ו-4) למפות מוקדי AMR מבדילי שושלת כדוגמה לאופן שבו ניתן לכרות תוכן גנומי של אביזרים בהקשר של מבנה האוכלוסייה. באופן רחב יותר, גישה אנליטית זו מספקת מסגרת הניתנת להכללה לביצוע ניתוח גנומי מבוסס אוכלוסייה בקנה מידה שניתן להשתמש בו כדי להסיק דפוסים אבולוציוניים ואקולוגיים ללא קשר למין הממוקד.

Protocol

1. הכנת קבצי קלט הערה: הפרוטוקול זמין כאן – https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. הפרוטוקול מניח שהחוקר השתמש באופן ספציפי ב- ProkEvo (או בצינור דומה) כדי לקבל את הפלטים הדרושים הזמינים במאגר Figshare זה (https://figshare.com/account/projects/116625/articles/15097503 – נדרשים אישורי כניסה – על המשתמש …

Representative Results

על ידי שימוש בפלטפורמה החישובית ProkEvo לניתוח גנומיקה של אוכלוסיות, הצעד הראשון בכריית נתוני WGS של חיידקים מורכב מבדיקת מבנה האוכלוסייה ההיררכי בהקשר של פילוגנזה של גנום ליבה (איור 1). במקרה של ס’. שושלת אנטריקה I, כפי שהודגם על ידי S. מערך הנתונים של ניופורט, האוכ?…

Discussion

השימוש בניתוח מבנה אוכלוסייה היוריסטי והיררכי מבוסס מערכות מספק מסגרת לזיהוי חתימות גנומיות חדשניות במערכי נתונים חיידקיים שיש להם פוטנציאל להסביר דפוסים אקולוגיים ואפידמיולוגיים ייחודיים20. בנוסף, ניתן להשתמש במיפוי נתוני הגנום האביזרי על מבנה האוכלוסייה כדי להסיק תכונו?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

עבודה זו נתמכה על ידי מימון שסופק על ידי חטיבת המחקר החקלאי של UNL-IANR והמכון הלאומי למחקר וחינוך נגד עמידות מיקרוביאלית ועל ידי מרכז המזון לבריאות של נברסקה במחלקת המדע והטכנולוגיה של המזון (UNL). ניתן היה להשלים מחקר זה רק על ידי שימוש במרכז המחשוב של הולנד (HCC) ב- UNL, המקבל תמיכה מיוזמת המחקר של נברסקה. אנו מודים גם על כך שיש לנו גישה, באמצעות HCC, למשאבים המסופקים על ידי רשת המדע הפתוחה (OSG), הנתמכת על ידי הקרן הלאומית למדע ומשרד המדע של משרד האנרגיה האמריקאי. עבודה זו השתמשה בתוכנת ניהול זרימת העבודה של פגסוס הממומנת על ידי הקרן הלאומית למדע (מענק #1664162).

Materials

amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -. H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -. F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user’s guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -. F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 – Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. MLST. GitHub Available from: https://github.com/tseemann/mist (2020)
  29. ABRicate. GitHub Available from: https://github.com/tseemann/abricate (2020)
  30. R: A language and environment for statistical computing. R Foundation for Statistical Computing Available from: https://cran.r-project.org (2021)
  31. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  32. rOpenSci: The skimr package. GitHub Available from: https://github.com/ropensci/skimr/ (2021)
  33. . vegan: Community ecology package. R package version 2.5-5 Available from: https://CRAN.R-project.org/package=vegan (2019)
  34. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  35. . ggpubr: “ggplot2” Based Publication Ready Plots. R package version 0.4.0 Available from: https://CRAN.R-project.org/package=ggpubr (2020)
  36. . ggrepel: Automatically Position Non-Overlapping Text Labels with “ggplot2”. R package version 0.9.1 Available from: https://CRAN.R-project.org/package=ggrepel (2021)
  37. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  38. . RColorBrewer: ColorBrewer Palettes. R package version 1.1-2 Available from: https://CRAN.R-project.org/package=RColorBrewer (2014)
  39. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  40. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  41. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  42. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  43. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  44. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  45. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  46. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  47. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  48. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  49. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  50. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  51. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  52. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  53. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  54. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  55. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  56. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  57. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  58. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  59. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Play Video

Cite This Article
Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

View Video