이 분석 전산 플랫폼은 박테리아 집단 유전체학에 관심이있는 미생물 학자, 생태 학자 및 역학자에게 실질적인 지침을 제공합니다. 구체적으로, 여기에 제시된 연구는 수행 방법을 보여주었습니다 : i) 계층 적 유전자형의 계통 유도 매핑; ii) 유전자형의 빈도 기반 분석; iii) 친족관계 및 클론성 분석; iv) 혈통 차별화 액세서리 유전자좌의 확인.
박테리아 전체 게놈 시퀀싱 (WGS)의 일상적이고 체계적인 사용은 공중 보건 실험실 및 규제 기관이 수행하는 역학 조사의 정확성과 해상도를 향상시키고 있습니다. 공개적으로 이용 가능한 대량의 WGS 데이터를 사용하여 병원성 집단을 대규모로 연구 할 수 있습니다. 최근에는 박테리아 WGS 데이터를 사용하여 재현 가능하고 자동화되고 확장 가능한 계층 적 기반 집단 게놈 분석을 가능하게하기 위해 ProkEvo라는 자유롭게 사용할 수있는 계산 플랫폼이 게시되었습니다. ProkEvo의 이러한 구현은 생태 추론을위한 액세서리 게놈 콘텐츠의 마이닝과 인구의 표준 유전자형 매핑을 결합하는 것이 중요하다는 것을 보여주었습니다. 특히, 여기서 강조된 연구는 R 프로그래밍 언어를 사용한 인구 규모 계층적 분석을 위해 ProkEvo 파생 출력을 사용했습니다. 주요 목표는 미생물 학자, 생태 학자 및 역학자를위한 실용적인 가이드를 제공하는 것이 었습니다 : i) 계층 적 유전자형의 계통 안내 매핑을 사용하는 방법; ii) 생태적 적합성을 위한 프록시로서 유전자형의 빈도 분포를 평가하고; iii) 특정 유전자형 분류를 사용하여 혈연 관계 및 유전 적 다양성을 결정; iv) 부속 유전자좌를 차별화하는 계보를 지도한다. 재현성과 이식성을 향상시키기 위해 R markdown 파일을 사용하여 전체 분석 접근 방식을 시연했습니다. 예제 데이터 세트에는 동물 유행성 식품 매개 병원균 살모넬라 뉴포트의 2,365 단리물로부터의 게놈 데이터가 포함되었습니다. 계층적 유전자형(Serovar -> BAPS1 -> ST-> cgMLST)의 계통-앵커 매핑은 집단 유전 구조를 밝혀내고, 서열 유형(ST)을 키스톤 분화 유전자형으로 강조했다. 세 가지 가장 지배적 인 혈통에 걸쳐, ST5와 ST118은 고도로 클론 ST45 계통형보다 더 최근에 공통 조상을 공유했습니다. ST-기반 차이는 부속 항미생물 내성 (AMR) 유전자좌의 분포에 의해 더욱 강조되었다. 마지막으로, 계통 고정 시각화를 사용하여 계층 적 유전자형과 AMR 함량을 결합하여 혈연 구조 및 혈통 별 게놈 서명을 밝혀 냈습니다. 결합된이 분석 접근법은 범 게놈 정보를 사용하여 휴리스틱 박테리아 집단 게놈 분석을 수행하기위한 몇 가지 지침을 제공합니다.
공중 보건 실험실 및 규제 기관의 일상적인 감시 및 역학 조사의 기초로 박테리아 전체 게놈 시퀀싱 (WGS)의 사용이 증가함에 따라 병원체 발병 조사 1,2,3,4가 크게 향상되었습니다. 그 결과, 대량의 비식별된 WGS 데이터가 현재 공개적으로 이용 가능하며, 여러 저장소, 지리적 지역 및 환경 유형에 걸친 집단 구조, 유전자형 빈도 및 유전자/대립유전자 빈도에 기초한 연구를 포함하여 전례 없는 규모로 병원성 종의 집단 생물학의 측면을 연구하는 데 사용될 수 있습니다5 . 가장 일반적으로 사용되는 WGS 유도 역학 조사는 공유 코어 게놈 콘텐츠만을 사용하는 분석을 기반으로하며, 공유 (보존 된) 콘텐츠 만으로는 유전자형 분류 (예 : 변형 호출)에 사용되며 이러한 변형은 역학 분석 및 추적 1,2,6,7의 기초가됩니다. . 전형적으로, 박테리아 코어-게놈-기반 유전자형은 7 내지 수천 개의 유전자좌 8,9,10을 사용하는 다중 유전자좌 서열 타이핑(MLST) 접근법으로 수행된다. 이러한 MLST 기반 전략은 고도로 큐레이팅된 데이터베이스 상에 미리 조립되거나 조립된 게놈 서열의 매핑을 포함하며, 이에 따라 대립유전자 정보를 역학 및 생태학적 분석을 위한 재현 가능한 유전자형 단위로 결합한다(11,12). 예를 들어, 이러한 MLST 기반 분류는 두 가지 수준의 분해능에서 유전자형 정보를 생성할 수 있다: 저수준 서열 유형(STs) 또는 ST 계보(7개 유전자좌), 및 상위 레벨 코어-게놈 MLST(cgMLST) 변이체(~300-3,000 유전자좌)10.
MLST 기반 유전자형 분류는 실험실에서 계산적으로 휴대가 용이하고 재현성이 높기 때문에 박테리아 종 수준13,14 아래의 정확한 하위 타이핑 접근법으로 널리 받아 들여지고 있습니다. 그러나, 박테리아 집단은 종-특이적 다양한 정도의 클론성(즉, 유전자형 균질성), 유전자형 15,16,17 사이의 계층적 친족관계의 복잡한 패턴, 및 부속 게놈 함량의 분포에서의 광범위한 변동으로 구조화된다 18,19 . 따라서보다 전체적인 접근 방식은 MLST 유전자형으로의 개별 분류를 넘어 다양한 해상도의 유전자형의 계층 적 관계를 통합하고 액세서리 게놈 내용을 유전자형 분류에 매핑하여 인구 기반 추론을 용이하게합니다 18,20,21 . 더욱이, 분석은 또한 멀리 관련된 유전자형21,22 사이에서 액세서리 게놈 유전자좌의 상속의 공유 패턴에 초점을 맞출 수 있다. 전반적으로, 결합된 접근법은 집단 구조 사이의 관계와 지리공간적 또는 환경적 구배들 사이의 특정 게놈 조성물(예를 들어, 유전자좌)의 분포에 대한 불가지론적 심문을 가능하게 한다. 이러한 접근법은 특정 집단의 생태 학적 특성에 대한 근본적이고 실용적인 정보를 제공 할 수 있으며, 이는 차례로 식량 동물이나 인간과 같은 저수지에 걸친 그들의 트로피즘과 분산 패턴을 설명 할 수 있습니다.
이 시스템 기반 계층적 집단 중심 접근법은 구별 가능한 게놈 서명을 예측하기에 충분한 통계적 능력을 위해 대량의 WGS 데이터를 필요로 한다. 결과적으로이 접근법은 수천 개의 박테리아 게놈을 한 번에 처리 할 수있는 전산 플랫폼을 필요로합니다. 최근에, ProkEvo는 개발되었으며 자유롭게 이용 가능하고, 자동화되고, 휴대가 가능하며, 확장 가능한 생물 정보학 플랫폼으로, 범게놈 매핑(pan-genomic mapping)(20)을 포함한 통합 계층적 기반 박테리아 집단 분석을 가능하게 한다. ProkEvo는 중대형 박테리아 데이터 세트를 연구하는 동시에 사용자가 사용자 정의 할 수있는 검증 가능하고 추론 가능한 역학 및 생태 학적 가설 및 표현형 예측을 생성하는 프레임 워크를 제공합니다. 이 작업은 ProkEvo 파생 출력 파일을 계층 적 집단 분류 및 액세서리 게놈 마이닝의 분석 및 해석을위한 입력으로 활용하는 방법에 대한 가이드를 제공하는 파이프 라인을 보완합니다. 여기에 제시된 사례 연구는 살모넬라 엔테리카 혈통 I zoonotic serovar S의 인구를 활용했습니다. Newport를 예로 들자면, 미생물학자, 생태학자 및 역학자에게 다음과 같은 방법에 대한 실질적인 지침을 제공하는 것을 특별히 목표로 하였다: i) 계층적 유전자형을 매핑하기 위해 자동화된 계통학-의존적 접근법을 사용한다; ii) 생태학적 적합성을 평가하기 위한 프록시로서 유전자형의 빈도 분포를 평가하는 단계; iii) 독립적 인 통계적 접근법을 사용하여 혈통 별 클론성 정도를 결정; iv) 집단 구조의 맥락에서 부속 게놈 함량을 마이닝하는 방법의 예로서 혈통-차별화 AMR 유전자좌를 지도화한다. 보다 광범위하게,이 분석 접근법은 표적 종에 관계없이 진화 및 생태 패턴을 추론하는 데 사용할 수있는 규모로 인구 기반 게놈 분석을 수행하는 일반화 가능한 프레임 워크를 제공합니다.
시스템 기반 휴리스틱 및 계층적 집단 구조 분석의 활용은 독특한 생태학적 및 역학적 패턴(20)을 설명할 수 있는 잠재력을 갖는 박테리아 데이터세트에서 새로운 게놈 서명을 식별하기 위한 프레임워크를 제공한다. 추가적으로, 집단 구조에 대한 부속 게놈 데이터의 매핑은 저장고(6,20,21,45,46)에 걸?…
The authors have nothing to disclose.
이 연구는 UNL-IANR 농업 연구 부서와 국립 항균 내성 연구 및 교육 연구소 및 식품 과학 기술부 (UNL)의 네브래스카 식품 보건 센터에서 제공하는 기금으로 지원되었습니다. 이 연구는 네브래스카 연구 이니셔티브의 지원을받는 UNL의 네덜란드 컴퓨팅 센터 (HCC)를 활용해야만 완료 될 수 있습니다. 우리는 또한 HCC를 통해 국립 과학 재단과 미국 에너지부의 과학 사무소가 지원하는 개방형 과학 그리드 (OSG)가 제공하는 자원에 액세스 할 수있게 해줘서 고맙습니다. 이 작품은 국립 과학 재단 (보조금 #1664162)이 자금을 지원하는 페가수스 워크 플로우 관리 소프트웨어를 사용했습니다.
amr_data_filtered | https://figshare.com/account/projects/116625/articles/14829225?file=28758762 | ||
amr_data_raw | https://figshare.com/account/projects/116625/articles/14829225?file=28547994 | ||
baps_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548003 | ||
Core-genome phylogeny | https://figshare.com/account/projects/116625/articles/14829225?file=28548006 | ||
genome_sra | https://figshare.com/account/projects/116625/articles/14829225?file=28639209 | ||
Linux, Mac, or PC | any high-performance platform | ||
mlst_output | https://figshare.com/account/projects/116625/articles/14829225?file=28547997 | ||
sistr_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548000 | ||
figshare credentials are required for login and have access to the files |