Summary

細菌集団における階層遺伝子型とアクセサリゲノム遺伝子座のヒューリスティックマイニング

Published: December 07, 2021
doi:

Summary

この分析計算プラットフォームは、細菌集団ゲノミクスに関心のある微生物学者、生態学者、疫学者に実用的なガイダンスを提供します。具体的には、ここで提示された研究は、i)階層遺伝子型の系統発生誘導マッピングを実行する方法を示した。ii)遺伝子型の周波数ベースの分析;iii)親族関係とクローン性分析iv)系統鑑別補助遺伝子座の同定。

Abstract

細菌の全ゲノムシーケンシング(WGS)の日常的かつ体系的な使用は、公衆衛生研究所および規制当局によって実施される疫学的調査の精度および分解能を向上させている。公開されている大量のWGSデータは、病原性集団を大規模に研究するために使用することができる。最近、細菌のWGSデータを用いた再現性、自動化、スケーラブルな階層ベースの集団ゲノム解析を可能にするために、ProkEvoと呼ばれる自由に利用可能な計算プラットフォームが公開されました。ProkEvoのこの実装は、集団の標準的な遺伝子型マッピングと、生態学的推論のためのアクセサリーゲノムコンテンツのマイニングを組み合わせることの重要性を実証しました。特に、ここで強調した研究は、Rプログラミング言語を使用した母集団スケールの階層分析にProkEvo派生出力を使用しました。主な目的は、微生物学者、生態学者、疫学者に実用的なガイドを提供することでした。ii)生態学的適合性の代理としての遺伝子型の頻度分布を評価すること。iii)特定の遺伝子型分類を用いて親族関係および遺伝的多様性を決定すること。iv)アクセサリー遺伝子座を区別する系統をマップする。再現性と移植性を高めるために、Rマークダウンファイルを使用して分析アプローチ全体を実証しました。サンプルデータセットには、人獣共通感染症の食品媒介病原体 サルモネラ・ ニューポートの2,365の分離株からのゲノムデータが含まれていました。階層的遺伝子型(Serovar -> BAPS1 -> ST -> cgMLST)の系統発生に基づくマッピングは、集団の遺伝子構造を明らかにし、配列型(ST)を分化遺伝子型の要石として強調した。最も優勢な3つの系統にわたって、ST5とST118はクローン性の高いST45系統型よりも最近になって共通の祖先を共有した。STベースの相違は、補助抗菌薬耐性(AMR)遺伝子座の分布によってさらに強調された。最後に、系統学にアンカーされたビジュアライゼーションを使用して、階層的な遺伝子型とAMRコンテンツを組み合わせて、血縁関係構造と系統特異的なゲノムシグネチャを明らかにしました。この分析アプローチを組み合わせることで、汎ゲノム情報を使用してヒューリスティック細菌集団ゲノム解析を実施するためのガイドラインがいくつか提供されます。

Introduction

公衆衛生研究所および規制当局による日常的なサーベイランスおよび疫学的調査の基礎としての細菌全ゲノムシーケンシング(WGS)の使用の増加は、病原体の発生調査を大幅に強化した1,2,3,4。その結果、大量の非同定WGSデータが現在公開されており、複数の貯水池、地理的領域、および環境の種類にわたる集団構造、遺伝子型頻度、および遺伝子/対立遺伝子頻度に基づく研究を含む、病原性種の集団生物学の側面を前例のない規模で研究するために使用することができます5.最も一般的に使用されるWGS誘導疫学的調査は、共有コアゲノムコンテンツのみを使用した分析に基づいており、共有(保存された)コンテンツのみが遺伝子型分類(例えば、バリアント呼び出し)に使用され、これらのバリアントは疫学的分析およびトレースの基礎となる1267.典型的には、細菌コアゲノムベースのジェノタイピングは、7〜数千の遺伝子座8910を用いてマルチ遺伝子座配列タイピング(MLST)アプローチを用いて実施される。これらのMLSTベースの戦略は、事前に組み立てられたまたは組み立てられたゲノム配列を高度にキュレーションされたデータベースにマッピングし、それによって対立遺伝子情報を疫学的および生態学的分析のための再現可能な遺伝子型単位に組み合わせることを包含する11,12。例えば、このMLSTベースの分類は、低レベルの配列タイプ(ST)またはST系統(7遺伝子座)と、より高いレベルのコアゲノムMLST(cgMLST)バリアント(〜300〜3,000遺伝子座)の2つのレベルの分解能で遺伝子型情報を生成できます10

MLSTベースの遺伝子型分類は、実験室間で計算上移植性が高く、再現性が高いため、細菌種レベル13,14の下の正確なサブタイピングアプローチとして広く受け入れられています。しかしながら、細菌集団は、種固有の様々な程度のクローナリティ(すなわち、遺伝子型の均質性)、遺伝子型間の階層的親族関係の複雑なパターン15,16,17、および付属ゲノム含有量の分布における広範囲の変動18,19によって構造化されている。.したがって、より包括的なアプローチは、離散的な分類を超えてMLST遺伝子型に進み、異なる解像度のスケールでの遺伝子型の階層的関係を組み込み、アクセサリゲノムコンテンツを遺伝子型分類にマッピングし、集団ベースの推論を容易にする18,20,21。.さらに、解析は、遠縁の遺伝子型の間でも、付属ゲノム遺伝子座の遺伝の共有パターンに焦点を当てることもできる21,22。全体として、この組み合わせアプローチは、集団構造と、地理空間的または環境的勾配間の特定のゲノム組成物(例えば、遺伝子座)の分布との間の関係の不可知論的尋問を可能にする。このようなアプローチは、特定の集団の生態学的特徴に関する基本的および実用的な情報の両方をもたらし、その結果、食用動物や人間などの貯水池全体の熱帯および分散パターンを説明することができる。

このシステムベースの階層的集団指向アプローチでは、識別可能なゲノムシグネチャを予測するのに十分な統計的検出力を得るために、大量のWGSデータが必要です。したがって、このアプローチには、何千もの細菌ゲノムを一度に処理できる計算プラットフォームが必要です。最近、ProkEvoが開発され、パンゲノムマッピング20を含む統合的な階層ベースの細菌集団分析を可能にする、自由に利用可能で、自動化され、ポータブルで、スケーラブルなバイオインフォマティクスプラットフォームです。ProkEvoは、中規模から大規模の細菌データセットの研究を可能にしながら、ユーザーがカスタマイズできるテスト可能で推論可能な疫学的および生態学的仮説および表現型予測を生成するためのフレームワークを提供します。この研究は、ProkEvo 由来の出力ファイルを階層的な集団分類とアクセサリゲノムマイニングの分析と解釈のための入力として利用する方法に関するガイドを提供することで、そのパイプラインを補完します。ここで提示された症例研究は、 サルモネラ・エンテリカ 系統I人獣共通感染症血清Sの個体群を利用し た。例としてニューポートは、微生物学者、生態学者、疫学者に、i)階層遺伝子型をマッピングするために自動化された系統発生依存アプローチを使用する方法についての実用的なガイドラインを提供することを特に目的としていました。ii)生態学的適合性を評価するための代理として遺伝子型の頻度分布を評価すること。iii)独立した統計的アプローチを用いて系統特異的なクローン性の程度を決定すること。iv)集団構造の文脈においてアクセサリゲノムコンテンツをマイニングする方法の例として、系統分化性AMR遺伝子座をマッピングする。より広義には、この分析アプローチは、標的種に関係なく進化的および生態学的パターンを推測するために使用できる規模で集団ベースのゲノム解析を実行するための一般化可能なフレームワークを提供する。

Protocol

1. 入力ファイルの準備 メモ: プロトコルはこちらから入手できます – https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code。このプロトコルは、研究者がこのFigshareリポジトリで利用可能な必要な出力を得るためにProkEvo(または同等のパイプライン)を特に使用していることを前提としています(https://figshare.com/account/projects/116625/articles/15097503 – ログイン資格情…

Representative Results

集団ゲノミクス解析に計算プラットフォームProkEvoを利用することで、細菌WGSデータマイニングの最初のステップは、コアゲノム系統発生の文脈で階層的な集団構造を調べることからなる(図1)。 Sの場合。 エンテリカ 系統Iは、Sで例示される 。 ニューポートデータセットは、母集団が以下のように階層的に構造化されている:血清(最低レベルの分解?…

Discussion

システムベースのヒューリスティックおよび階層的集団構造解析の利用は、ユニークな生態学的および疫学的パターンを説明する可能性のある細菌データセット内の新規ゲノムシグネチャを特定するためのフレームワークを提供する20。さらに、集団構造へのアクセサリゲノムデータのマッピングは、貯水池6、2021、…

Disclosures

The authors have nothing to disclose.

Acknowledgements

この研究は、UNL-IANR農業研究部門と国立抗菌薬耐性研究教育研究所、および食品科学技術局(UNL)のネブラスカ州食品保健センターから提供された資金によって支援された。この研究は、ネブラスカ研究イニシアチブの支援を受けているUNLのHolland Computing Center(HCC)を利用することによってのみ完了することができました。また、HCCを通じて、米国国立科学財団と米国エネルギー省の科学局が支援するオープンサイエンスグリッド(OSG)が提供するリソースにアクセスできることにも感謝しています。この研究は、国立科学財団(助成金#1664162)から資金提供を受けているPegasus Workflow Management Softwareを使用した。

Materials

amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -. H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -. F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user’s guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -. F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 – Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. MLST. GitHub Available from: https://github.com/tseemann/mist (2020)
  29. ABRicate. GitHub Available from: https://github.com/tseemann/abricate (2020)
  30. R: A language and environment for statistical computing. R Foundation for Statistical Computing Available from: https://cran.r-project.org (2021)
  31. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  32. rOpenSci: The skimr package. GitHub Available from: https://github.com/ropensci/skimr/ (2021)
  33. . vegan: Community ecology package. R package version 2.5-5 Available from: https://CRAN.R-project.org/package=vegan (2019)
  34. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  35. . ggpubr: “ggplot2” Based Publication Ready Plots. R package version 0.4.0 Available from: https://CRAN.R-project.org/package=ggpubr (2020)
  36. . ggrepel: Automatically Position Non-Overlapping Text Labels with “ggplot2”. R package version 0.9.1 Available from: https://CRAN.R-project.org/package=ggrepel (2021)
  37. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  38. . RColorBrewer: ColorBrewer Palettes. R package version 1.1-2 Available from: https://CRAN.R-project.org/package=RColorBrewer (2014)
  39. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  40. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  41. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  42. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  43. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  44. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  45. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  46. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  47. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  48. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  49. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  50. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  51. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  52. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  53. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  54. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  55. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  56. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  57. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  58. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  59. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Play Video

Cite This Article
Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

View Video