この分析計算プラットフォームは、細菌集団ゲノミクスに関心のある微生物学者、生態学者、疫学者に実用的なガイダンスを提供します。具体的には、ここで提示された研究は、i)階層遺伝子型の系統発生誘導マッピングを実行する方法を示した。ii)遺伝子型の周波数ベースの分析;iii)親族関係とクローン性分析iv)系統鑑別補助遺伝子座の同定。
細菌の全ゲノムシーケンシング(WGS)の日常的かつ体系的な使用は、公衆衛生研究所および規制当局によって実施される疫学的調査の精度および分解能を向上させている。公開されている大量のWGSデータは、病原性集団を大規模に研究するために使用することができる。最近、細菌のWGSデータを用いた再現性、自動化、スケーラブルな階層ベースの集団ゲノム解析を可能にするために、ProkEvoと呼ばれる自由に利用可能な計算プラットフォームが公開されました。ProkEvoのこの実装は、集団の標準的な遺伝子型マッピングと、生態学的推論のためのアクセサリーゲノムコンテンツのマイニングを組み合わせることの重要性を実証しました。特に、ここで強調した研究は、Rプログラミング言語を使用した母集団スケールの階層分析にProkEvo派生出力を使用しました。主な目的は、微生物学者、生態学者、疫学者に実用的なガイドを提供することでした。ii)生態学的適合性の代理としての遺伝子型の頻度分布を評価すること。iii)特定の遺伝子型分類を用いて親族関係および遺伝的多様性を決定すること。iv)アクセサリー遺伝子座を区別する系統をマップする。再現性と移植性を高めるために、Rマークダウンファイルを使用して分析アプローチ全体を実証しました。サンプルデータセットには、人獣共通感染症の食品媒介病原体 サルモネラ・ ニューポートの2,365の分離株からのゲノムデータが含まれていました。階層的遺伝子型(Serovar -> BAPS1 -> ST -> cgMLST)の系統発生に基づくマッピングは、集団の遺伝子構造を明らかにし、配列型(ST)を分化遺伝子型の要石として強調した。最も優勢な3つの系統にわたって、ST5とST118はクローン性の高いST45系統型よりも最近になって共通の祖先を共有した。STベースの相違は、補助抗菌薬耐性(AMR)遺伝子座の分布によってさらに強調された。最後に、系統学にアンカーされたビジュアライゼーションを使用して、階層的な遺伝子型とAMRコンテンツを組み合わせて、血縁関係構造と系統特異的なゲノムシグネチャを明らかにしました。この分析アプローチを組み合わせることで、汎ゲノム情報を使用してヒューリスティック細菌集団ゲノム解析を実施するためのガイドラインがいくつか提供されます。
公衆衛生研究所および規制当局による日常的なサーベイランスおよび疫学的調査の基礎としての細菌全ゲノムシーケンシング(WGS)の使用の増加は、病原体の発生調査を大幅に強化した1,2,3,4。その結果、大量の非同定WGSデータが現在公開されており、複数の貯水池、地理的領域、および環境の種類にわたる集団構造、遺伝子型頻度、および遺伝子/対立遺伝子頻度に基づく研究を含む、病原性種の集団生物学の側面を前例のない規模で研究するために使用することができます5.最も一般的に使用されるWGS誘導疫学的調査は、共有コアゲノムコンテンツのみを使用した分析に基づいており、共有(保存された)コンテンツのみが遺伝子型分類(例えば、バリアント呼び出し)に使用され、これらのバリアントは疫学的分析およびトレースの基礎となる1、2、6、7.典型的には、細菌コアゲノムベースのジェノタイピングは、7〜数千の遺伝子座8、9、10を用いてマルチ遺伝子座配列タイピング(MLST)アプローチを用いて実施される。これらのMLSTベースの戦略は、事前に組み立てられたまたは組み立てられたゲノム配列を高度にキュレーションされたデータベースにマッピングし、それによって対立遺伝子情報を疫学的および生態学的分析のための再現可能な遺伝子型単位に組み合わせることを包含する11,12。例えば、このMLSTベースの分類は、低レベルの配列タイプ(ST)またはST系統(7遺伝子座)と、より高いレベルのコアゲノムMLST(cgMLST)バリアント(〜300〜3,000遺伝子座)の2つのレベルの分解能で遺伝子型情報を生成できます10。
MLSTベースの遺伝子型分類は、実験室間で計算上移植性が高く、再現性が高いため、細菌種レベル13,14の下の正確なサブタイピングアプローチとして広く受け入れられています。しかしながら、細菌集団は、種固有の様々な程度のクローナリティ(すなわち、遺伝子型の均質性)、遺伝子型間の階層的親族関係の複雑なパターン15,16,17、および付属ゲノム含有量の分布における広範囲の変動18,19によって構造化されている。.したがって、より包括的なアプローチは、離散的な分類を超えてMLST遺伝子型に進み、異なる解像度のスケールでの遺伝子型の階層的関係を組み込み、アクセサリゲノムコンテンツを遺伝子型分類にマッピングし、集団ベースの推論を容易にする18,20,21。.さらに、解析は、遠縁の遺伝子型の間でも、付属ゲノム遺伝子座の遺伝の共有パターンに焦点を当てることもできる21,22。全体として、この組み合わせアプローチは、集団構造と、地理空間的または環境的勾配間の特定のゲノム組成物(例えば、遺伝子座)の分布との間の関係の不可知論的尋問を可能にする。このようなアプローチは、特定の集団の生態学的特徴に関する基本的および実用的な情報の両方をもたらし、その結果、食用動物や人間などの貯水池全体の熱帯および分散パターンを説明することができる。
このシステムベースの階層的集団指向アプローチでは、識別可能なゲノムシグネチャを予測するのに十分な統計的検出力を得るために、大量のWGSデータが必要です。したがって、このアプローチには、何千もの細菌ゲノムを一度に処理できる計算プラットフォームが必要です。最近、ProkEvoが開発され、パンゲノムマッピング20を含む統合的な階層ベースの細菌集団分析を可能にする、自由に利用可能で、自動化され、ポータブルで、スケーラブルなバイオインフォマティクスプラットフォームです。ProkEvoは、中規模から大規模の細菌データセットの研究を可能にしながら、ユーザーがカスタマイズできるテスト可能で推論可能な疫学的および生態学的仮説および表現型予測を生成するためのフレームワークを提供します。この研究は、ProkEvo 由来の出力ファイルを階層的な集団分類とアクセサリゲノムマイニングの分析と解釈のための入力として利用する方法に関するガイドを提供することで、そのパイプラインを補完します。ここで提示された症例研究は、 サルモネラ・エンテリカ 系統I人獣共通感染症血清Sの個体群を利用し た。例としてニューポートは、微生物学者、生態学者、疫学者に、i)階層遺伝子型をマッピングするために自動化された系統発生依存アプローチを使用する方法についての実用的なガイドラインを提供することを特に目的としていました。ii)生態学的適合性を評価するための代理として遺伝子型の頻度分布を評価すること。iii)独立した統計的アプローチを用いて系統特異的なクローン性の程度を決定すること。iv)集団構造の文脈においてアクセサリゲノムコンテンツをマイニングする方法の例として、系統分化性AMR遺伝子座をマッピングする。より広義には、この分析アプローチは、標的種に関係なく進化的および生態学的パターンを推測するために使用できる規模で集団ベースのゲノム解析を実行するための一般化可能なフレームワークを提供する。
システムベースのヒューリスティックおよび階層的集団構造解析の利用は、ユニークな生態学的および疫学的パターンを説明する可能性のある細菌データセット内の新規ゲノムシグネチャを特定するためのフレームワークを提供する20。さらに、集団構造へのアクセサリゲノムデータのマッピングは、貯水池6、20、21、…
The authors have nothing to disclose.
この研究は、UNL-IANR農業研究部門と国立抗菌薬耐性研究教育研究所、および食品科学技術局(UNL)のネブラスカ州食品保健センターから提供された資金によって支援された。この研究は、ネブラスカ研究イニシアチブの支援を受けているUNLのHolland Computing Center(HCC)を利用することによってのみ完了することができました。また、HCCを通じて、米国国立科学財団と米国エネルギー省の科学局が支援するオープンサイエンスグリッド(OSG)が提供するリソースにアクセスできることにも感謝しています。この研究は、国立科学財団(助成金#1664162)から資金提供を受けているPegasus Workflow Management Softwareを使用した。
amr_data_filtered | https://figshare.com/account/projects/116625/articles/14829225?file=28758762 | ||
amr_data_raw | https://figshare.com/account/projects/116625/articles/14829225?file=28547994 | ||
baps_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548003 | ||
Core-genome phylogeny | https://figshare.com/account/projects/116625/articles/14829225?file=28548006 | ||
genome_sra | https://figshare.com/account/projects/116625/articles/14829225?file=28639209 | ||
Linux, Mac, or PC | any high-performance platform | ||
mlst_output | https://figshare.com/account/projects/116625/articles/14829225?file=28547997 | ||
sistr_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548000 | ||
figshare credentials are required for login and have access to the files |