Summary

화학 가교 질량 분광법을 통한 사차 구조 모델링: TX-MS Jupyter 보고서 확장

Published: October 20, 2021
doi:

Summary

표적 가교 질량 분광법은 최대 세 가지 다른 수집 프로토콜을 사용하여 획득한 질량 분광법 데이터를 사용하여 사차 단백질 구조 모델을 생성합니다. Cheetah-MS 웹 서버에서 간소화된 워크플로로 실행되면 결과가 Jupyter 노트북에 보고됩니다. 여기서는 Jupyter 노트북을 보다 심층적인 분석을 위해 확장할 수 있는 방법에 대한 기술적 측면을 보여 줍니다.

Abstract

단백질-단백질 상호작용은 연구하기가 어려울 수 있지만 생물학적 시스템이 어떻게 기능하는지에 대한 통찰력을 제공할 수 있습니다. 사차 단백질 구조 모델링과 화학적 가교 질량 분광법을 결합한 방법인 표적 가교 질량 분광법(TX-MS)은 복잡하고 분별되지 않은 샘플에서 얻은 데이터를 사용하여 고정밀 구조 모델을 생성합니다. 이것은 관심있는 단백질이 더 이상 대량으로 정제 될 필요가 없기 때문에 단백질 복합체 구조 분석의 주요 장애물 중 하나를 제거합니다. Cheetah-MS 웹 서버는 단순화 된 버전의 프로토콜을보다 커뮤니티에서 쉽게 액세스 할 수 있도록 개발되었습니다. 탠덤 MS/MS 데이터를 고려하여 Cheetah-MS는 가장 중요한 분석 결과를 요약한 그래픽 보고서인 Jupyter 노트북을 생성합니다. Jupyter 노트북을 확장하면 더 심층적인 통찰력을 얻을 수 있고 모델 및 이를 지원하는 질량 분석기 데이터를 더 잘 이해할 수 있습니다. 여기에 제시된 기술 프로토콜은 가장 일반적인 확장 기능 중 일부를 보여 주며 얻을 수있는 정보를 설명합니다. 여기에는 탠덤 MS/MS 수집 데이터 및 보고된 사차 모델에 대한 검출된 XL의 전반적인 영향을 분석하는 데 도움이 되는 블록이 포함되어 있습니다. 이러한 분석의 결과는 NGLView를 사용하여 노트북에 내장 된 구조 모델에 적용 할 수 있습니다.

Introduction

단백질-단백질 상호작용은 생물학적 시스템의 구조와 기능을 뒷받침한다. 단백질의 사차 구조에 접근 할 수 있으면 둘 이상의 단백질이 어떻게 상호 작용하여 고차 구조를 형성하는지에 대한 통찰력을 제공 할 수 있습니다. 불행히도, 사차 구조를 얻는 것은 여전히 어렵습니다. 이는 하나 이상의 폴리펩티드를 함유하는 비교적 적은 수의 단백질 데이터뱅크(PDB) 엔트리1에 반영된다. 단백질-단백질 상호작용은 X선 결정학, NMR 및 cryo-EM과 같은 기술로 연구될 수 있지만, 방법이 적용될 수 있는 조건 하에서 충분한 양의 정제된 단백질을 얻는 것은 시간이 많이 소요될 수 있다.

화학 가교 질량 분광법은 질량 분광법을 사용하여 임의로 복잡한 샘플에 대한 데이터를 획득 할 수 있으므로 샘플 준비에 대한 제한이 적고 단백질 – 단백질 상호 작용에 대한 실험 데이터를 얻기 위해 개발되었습니다 2,3,4,5,6,7,8,9 . 그러나, 데이터 분석 및 비교적 적은 수의 가교결합된 펩티드의 조합적 특성은 분석 전에 샘플이 분획될 것을 요구한다. 이러한 단점을 해결하기 위해 우리는 전산 모델링과 화학적 가교 질량 분석법10을 결합한 TX-MS를 개발했습니다. TX-MS는 임의로 복잡한 샘플에 사용될 수 있으며 이전 방법(10)에 비해 훨씬 더 민감하다. 이는 각 MS 스펙트럼을 독립적으로 해석하는 대신 주어진 단백질-단백질 상호작용과 관련된 모든 데이터를 세트로서 스코어링함으로써 이를 달성한다. TX-MS는 또한 고분해능 MS1 (hrMS1), 데이터 의존 획득 (DDA) 및 데이터 독립적 인 획득 (DIA)의 최대 세 가지 MS 수집 프로토콜을 사용하여 여러 관찰을 결합하여 가교 된 펩타이드를 식별 할 수있는 기회를 제공합니다. TX-MS 계산 워크플로는 여러 가지 이유로 복잡합니다. 첫째, 단백질 구조 모델(14,15)을 생성하기 위해 다수의 MS 분석 소프트웨어 프로그램(11,12,13)에 의존한다. 둘째, 데이터의 양이 상당 할 수 있습니다. 셋째, 모델링 단계는 상당한 양의 컴퓨터 처리 능력을 소비할 수 있다.

결과적으로, TX-MS는 컴퓨터 클라우드 또는 클러스터와 같은 대규모 계산 인프라에서 실행되는 Cheetah-MS 웹 서버(16)를 통해 자동화되고 단순화된 계산 워크플로우로서 가장 잘 사용된다. 결과의 해석을 용이하게하기 위해, 우리는 인터랙티브 Jupyter 노트북17을 제작했습니다. 여기서는 Jupyter Notebook 보고서를 확장하여 주어진 결과에 대한 보다 심층적인 분석을 산출하는 방법을 보여 줍니다.

Protocol

1. https://txms.org 에 워크플로를 제출합니다. https://txms.org 로 이동하여 “치타-MS 사용”을 클릭하십시오. 워크플로를 제출하려면 두 개의 PDB 파일과 하나의 MS/MS mzML 또는 MGF 파일을 제공해야 합니다. “샘플 데이터 로드”를 클릭하여 워크플로의 데모 버전을 볼 수도 있습니다.참고: 작업을 제출하는 방법에 대한 자세한 내용은 웹 서버의 매뉴얼 페이지를 참조하십시오. 웹 서버는 다양한 비절단 가능한 가교 에이전트, 최대 12개의 번역 후 수정(PTM), 전산 모델링 및 MS 데이터 분석과 관련된 옵션을 지원합니다. 또한 제출 페이지에 작은 도움말 단추는 각 옵션에 대한 자세한 정보를 표시하도록 설계되었습니다. 2. 치타-MS를 실행합니다. 참고: ProteoWizard MSConvert 소프트웨어19를 사용하여 공급업체별 형식을 mzML 또는 MGF로 변환하십시오. MS 데이터를 https://txms.org 에 업로드합니다. 그런 다음 “파일 선택”을 클릭하고 mzML / MGF 데이터 형식18에 있어야하는 MS 데이터를 선택하십시오.참고: 예제 데이터는 https://txms.org 에서 사용할 수 있습니다. 이러한 데이터는 zenodo.org, DOI 10.5281/zenodo.3361621을 통해 직접 액세스할 수도 있습니다. 두 개의 PDB 파일을 https://txms.org 에 업로드합니다. “파일 선택”을 클릭하고 업로드 할 PDB 파일을 선택하십시오.참고: 실험 구조가 존재하지 않는 경우, 예를 들어 상동체 구조를 사용할 수 있는 경우 SWISS-MODEL 20 또는 de novo 구조 예측을 위해 trRosetta 21,22 또는 Robetta 23,24 웹 서버를 사용하여 모델을 만듭니다. 새 워크플로를 제출합니다. “제출”을 클릭하여 작업 식별자 태그를 받으십시오. 그런 다음 양식을 따라 이 태그를 사용하는 결과 섹션으로 이동합니다.참고: 결과를 계산하는 데 시간이 걸리므로 워크플로가 완료될 때까지 기다렸다가 작업 식별자 태그를 저장하여 결과 페이지로 돌아가십시오. 계산은 원격 계산 인프라에서 수행됩니다. TX-MS를 로컬에서 실행하려면 Hauri et al.10을 참조하십시오. 온라인 뷰어를 사용하여 Jupyter 노트북 보고서를 검사합니다. 그런 다음 작업 식별자 태그를 사용하여 결과 섹션에서 “보고서”로 스크롤합니다. 3. JupyterHub를 설치합니다. https://docs.docker.com/install/ 의 지시에 따라 도커를 설치합니다. Jupyter openBIS25 확장이 있는 JupyterHub 도커 컨테이너를 다운로드합니다. 일반적인 명령은 “docker pull malmstroem/jove:late”이지만 다른 플랫폼에서는 다를 수 있습니다.참고: 컨테이너를 다운로드하는 방법에 대한 일반적인 설명은 https://www.docker.com/get-started 를 참조하십시오. zenodo.org, DOI 10.5281/zenodo.3361621에서 컨테이너를 다운로드할 수도 있습니다.참고: Jupyter openBIS 확장 소스 코드는 https://pypi.org/project/jupyter-openbis-extension/ 에서 확인할 수 있습니다. 도커 컨테이너 시작 : 도커 실행 -p 8178 : 8000 malmstroem / jove : 최신.참고: JupyterHub가 기본적으로 사용하는 포트는 8000입니다. 이 포트는 구성 가능하며 위의 명령을 변경할 경우 그에 따라 조정해야 합니다. 포트 8178은 임의의 선택이며 변경할 수 있습니다. 아래에 제공된 예제 URL은 그에 따라 조정해야 합니다. 다음 주소로 이동합니다: http://127.0.0.1:8178 니다. 사용자 이름 “user”와 암호 “user”를 사용하여 로그인합니다.참고: 주소 http://127.0.0.1 는 도커 컨테이너가 로컬 컴퓨터에서 실행 중임을 의미합니다. 도커 컨테이너가 서버에서 실행되는 경우 서버의 IP 주소 또는 URL(예: https://example.com)을 사용합니다. 도커 컨테이너는 Ubuntu Bionic 18.04, JupyterHub 0.9.6 및 Jupyter openBIS 확장 0.2를 기반으로합니다. 다른 운영 체제에이 기능을 설치할 수는 있지만 테스트되지 않았습니다. 4. 보고서를 다운로드합니다. 새로 만들기를 클릭하여 새 전자 필기장을 만 듭| 파이썬 3은 페이지의 오른쪽 상단 근처에있는 메뉴를 사용합니다. 이렇게하면 제목 없음 (또는 이와 유사한 것)이라는 전자 필기장이있는 새 탭이 열립니다. Jupyter 도구 메뉴에서 “openBIS 연결 구성”을 클릭하십시오. 이름을 입력하십시오 : txms; URL: https://txms.org; 사용자: 게스트; 암호 : guestpasswd. “연결”을 클릭합니다. 새 연결을 선택하고 “연결 선택”을 클릭하십시오. 보고서 템플릿(예: /CHEETAH/WF70)을 검색하고 다운로드를 클릭합니다.참고: Cheetah-MS 웹 서버에서 작업을 실행하여 얻은 결과 및 보고서에 따라 보고서 템플릿을 조정해야 합니다. 셀 |를 클릭하여 보고서를 다시 실행합니다. 모두 실행하십시오. 5. 보고서를 확장합니다. 아래쪽에 새 셀 추가: 셀 | 아래에 삽입하십시오. 원하는 코드를 입력합니다. 예를 들어, 아래의 대표 결과 섹션을 참조하십시오. “Shift-Enter”를 눌러 셀을 실행합니다.

Representative Results

TX-MS는 MS 파생 실험 제약 조건에 의해 지원되는 구조적 출력을 제공합니다. 다양한 MS 데이터 수집 유형을 계산 모델링과 결합하여 작동합니다. 따라서 각 MS 데이터를 개별적으로 구문 분석하고 출력 구조의 시각화를 제공하는 것이 유용합니다. 보충 데이터 1에는 TX-MS 출력으로 생성된 DDA 및 DIA 데이터를 구문 분석할 수 있는 예제 노트북이 포함되어 있습니다. 사용자는 관심있는 XL을 선택할 수 있습니다. 노트북을 실행함으로써, 그 XL의 MS2 스펙트럼은 다른 색상이 첫 번째 펩티드, 두 번째 펩티드 및 조합 단편 이온과 관련된 단편을 구별하는 데 도움이되는 곳에 표시됩니다. XL은 Jupyter 노트북에 내장 된 NGLView 위젯을 사용하여 구조에 매핑 할 수도 있습니다. 이 노트북의 다른 셀은 사용자가 DIA 데이터를 구문 분석하고 시각화하는 데 도움이 될 수 있습니다. 그러나 DIA 데이터를 시각화하는 것은 분석된 데이터를 올바른 형식으로 준비해야 하기 때문에 더 어렵습니다. 그림 1은 M1 및 알부민이 구조에 매핑된 상단 XL을 갖는 예시적인 구조를 보여준다. TX-MS는 hrMS1, DDA 및 DIA 데이터를 구문 분석 한 후 모든 XL을 얻었으며 RosettaDock 프로토콜은 계산 모델을 제공했습니다. 이 보고서는 Jupyter 노트북이므로 유효한 Python 코드를 새 노트북 셀에 추가할 수 있습니다. 예를 들어 아래 코드는 MS2 카운트에 대한 히스토그램을 만들어 기본 데이터에 의해 각 교차 링크가 얼마나 잘 지원되는지 나타냅니다.수입 바다에서 sns로 태어남sns.distplot(ms2[‘count’]); 도 1: 스트렙토코커스 피오게네스 M1 단백질 및 XLs 상에 매핑된 인간 알부민의 구조 모델. M1 단백질은 회색으로 표시되며 호모다이머를 구성합니다. 여섯 알부민 분자는 다양한 파란색 음영의 쌍으로 제시됩니다. 교차 링크와 거리는 검은색 텍스트와 함께 빨간색으로 표시됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 보충 파일. Jupyter 노트북 데이터. 이 파일을 다운로드하려면 여기를 클릭하십시오.

Discussion

현대의 계산 워크플로는 종종 복잡하며, 다양한 공급업체의 여러 도구, 복잡한 상호 종속성, 높은 데이터 볼륨 및 다각적인 결과를 제공합니다. 결과적으로, 결과를 얻기 위해 필요한 모든 단계를 정확하게 문서화하는 것이 점점 더 어려워지고 있으며, 주어진 결과를 재현하는 것이 어려워지고 있습니다. 여기서는 일반 보고서를 생성하는 자동화된 워크플로의 자동화와 용이성을 결합한 일반적인 전략과 재현 가능한 방식으로 보고서를 사용자 지정할 수 있는 유연성을 보여 줍니다.

프로토콜이 작동하려면 세 가지 요구 사항을 충족해야합니다 : 첫째, 분석을 위해 선택된 단백질은 화학 가교 실험이 질량 분광계에 의해 검출 될 수있을 정도로 충분히 높은 농도로 가교 된 종을 생산할 수있는 방식으로 상호 작용해야합니다. 다른 질량 분광계는 서로 다른 수준의 검출을 가지며 가교 시약의 선택뿐만 아니라 획득 프로토콜에 달려 있습니다. TX-MS 프로토콜의 현재 버전은 리신-라이신 호모바이능성 가교 시약인 DSS만을 허용한다. 그럼에도 불구하고 이러한 제한은 주로 기계 학습 단계를 다른 시약에 맞게 조정해야 할 가능성 때문입니다. 이 제한은 두 가지 이상의 가교 시약이 고려 될 수 있기 때문에 Cheetah-MS 웹 서버에서 개선되었지만 세 가지 모두 절단 할 수없는 시약입니다. 둘째, 두 단백질은 실험적으로 결정된 구조를 갖거나 비교 모델링 기술 또는 de novo 기술을 사용하여 모델링되어야 합니다. 모든 단백질이 모델링 될 수있는 것은 아니지만, PDB에서 실험 구조의 개선 된 소프트웨어와 일정한 증착의 조합은 모델링 될 수있는 단백질의 수를 확장시킵니다. 셋째, 상호작용하는 단백질은 TX-MS 및 치타-MS에 의해 사용되는 도킹 알고리즘이 스코어링을 가능하게 하는 적절한 품질의 사차 구조를 생성할 수 있도록 그들의 결합 및 비결합 상태에서 충분히 유사하게 유지되어야 한다. 허용 가능한 품질은 시스템 의존도가 높기 때문에 이러한 요구 사항은 상대적으로 모호하며, 알려진 구조의 작은 단백질은 일반적으로 알려지지 않은 구조의 큰 단백질보다 비교하기가 쉽습니다.

음성 결과의 경우, 먼저 TX-MS가 동일한 폴리펩티드 사슬의 일부인 잔기 사이의 인트라 링크, 가교 결합을 발견하였음을 확인한다. 아무 것도 발견되지 않으면 가장 가능성있는 설명은 샘플 준비 또는 데이터 수집에 문제가 있다는 것입니다. 여러 거리 제약조건이 모델을 지원하지 않는 경우, 모델을 육안으로 검사하여 형태가 가교된 잔기에 의해 지지되는지 확인하십시오. 적어도 하나의 교차 링크를 방해하지 않고 인터랙터 중 하나를 피벗하는 확실한 방법은 없습니다. 주어진 가교 시약에 대해 허용된 거리보다 긴 가교결합이 있는 경우, 가교 데이터를 통합함으로써 인터랙터의 모델링을 개선하려고 노력한다.

선택한 소프트웨어의 감도가 TX-MS의 감도와 비교할 수 있는 경우 대체 소프트웨어 응용 프로그램을 사용하여 동등한 결과를 얻을 수 있습니다. 예를 들어, RosettaDock, HADDOCK 등의 온라인 버전이 있습니다. 또한 xQuest/xProphet5,6, plink7 및 SIM-XL 26을 통해 화학적 가교 데이터를 분석할 수도있습니다.

우리는 TX-MS 및 Cheetah-MS를 새로운 프로젝트27,28,29에 지속적으로 적용함으로써 이러한 접근 방식으로 생성 된 보고서를 개선하여 보고서를 더 크게 만들지 않고도 결과를보다 자세히 분석 할 수 있습니다.

Disclosures

The authors have nothing to disclose.

Acknowledgements

이 작품은 Knut and Alice Wallenberg 재단 (보조금 번호 2016.0023)과 스위스 국립 과학 재단 (보조금 번호. P2ZHP3_191289). 또한 취리히 대학교 S3IT의 컴퓨팅 인프라와 기술 지원에 감사드립니다.

Materials

Two Protein DataBank files of the proteins of interest. N/A N/A Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621
An mzML data file acquired on a sample where the proteins of interest were crosslinked. N/A N/A Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621

References

  1. Berman, H. M., et al. The Protein Data Bank. Acta Crystallographica Section D: Biological Crystallography. 58 (6), 899-907 (2002).
  2. Herzog, F., et al. Structural Probing of a Protein Phosphatase 2A Network by Chemical Cross-Linking and Mass Spectrometry. Science. 337 (6100), 1348-1352 (2012).
  3. Hoopmann, M. R., et al. Kojak: efficient analysis of chemically cross-linked protein complexes. Journal of Proteome Research. 14 (5), 2190-2198 (2015).
  4. Seebacher, J., et al. Protein cross-linking analysis using mass spectrometry, isotope-coded cross-linkers, and integrated computational data processing. Journal of Proteome Research. 5 (9), 2270-2282 (2006).
  5. Rinner, O., et al. Identification of cross-linked peptides from large sequence databases. Nature Methods. 5 (4), 315-318 (2008).
  6. Walzthoeni, T., et al. False discovery rate estimation for cross-linked peptides identified by mass spectrometry. Nature Methods. 9 (9), 901-903 (2012).
  7. Yang, B., et al. Identification of cross-linked peptides from complex samples. Nature Methods. 9 (9), 904-906 (2012).
  8. Chu, F., Baker, P. R., Burlingame, A. L., Chalkley, R. J. Finding Chimeras: a Bioinformatics Strategy for Identification of Cross-linked Peptides. Molecular & Cellular Proteomics. 9 (1), 25-31 (2010).
  9. Holding, A. N., Lamers, M. H., Stephens, E., Skehel, J. M. Hekate: Software Suite for the Mass Spectrometric Analysis and Three-Dimensional Visualization of Cross-Linked Protein Samples. Journal of Proteome Research. 12 (12), 5923-5933 (2013).
  10. Hauri, S., et al. Rapid determination of quaternary protein structures in complex biological samples. Nature Communications. 10 (1), 192 (2019).
  11. Röst, H. L., et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS data. Nature Biotechnology. 32 (3), 219-223 (2014).
  12. Röst, H. L., et al. OpenMS: a flexible open-source software platform for mass spectrometry data analysis. Nature Methods. 13 (9), 741-748 (2016).
  13. Quandt, A., et al. Using synthetic peptides to benchmark peptide identification software and search parameters for MS/MS data analysis. EuPA Open Proteomics. 5, 21-31 (2014).
  14. Bradley, P., et al. Free modeling with Rosetta in CASP6. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 128-134 (2005).
  15. Gray, J. J. High-resolution protein-protein docking. Current Opinion in Structural Biology. 16 (2), 183-193 (2006).
  16. Khakzad, H., et al. Cheetah-MS: a web server to model protein complexes using tandem cross-linking mass spectrometry data. Bioinformatics. , (2021).
  17. Malmström, L. Chapter 15: Computational Proteomics with Jupyter and Python. Methods in Molecular Biology. 15, 237-248 (1977).
  18. Martens, L., et al. mzML–a community standard for mass spectrometry data. Molecular & Cellular Proteomics. 10 (1), (2011).
  19. Chambers, M. C., et al. A cross-platform toolkit for mass spectrometry and proteomics. Nature Biotechnology. 30 (10), 918-920 (2012).
  20. Waterhouse, A., et al. SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic Acids Research. 46 (W1), W296-W303 (2018).
  21. Yang, J., et al. Improved protein structure prediction using predicted interresidue orientations. Proceedings of the National Academy of Sciences. 117 (3), 1496-1503 (2020).
  22. Koehler Leman, J., et al. Macromolecular modeling and design in Rosetta: recent methods and frameworks. Nature Methods. 17 (7), 665-680 (2020).
  23. Chivian, D., et al. Prediction of CASP6 structures using automated Robetta protocols. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 157-166 (2005).
  24. Chivian, D., et al. Automated prediction of CASP-5 structures using the Robetta server. Proteins: Structure, Function, and Bioinformatics. 53 (S6), 524-533 (2003).
  25. Bauch, A., et al. openBIS: a flexible framework for managing and analyzing complex data in biology research. BMC Bioinformatics. 12, 468 (2011).
  26. Lima, D. B., et al. SIM-XL: A powerful and user-friendly tool for peptide cross-linking analysis. Journal of Proteomics. 129, 51-55 (2015).
  27. Happonen, L., et al. A quantitative Streptococcus pyogenes-human protein-protein interaction map reveals localization of opsonizing antibodies. Nature Communications. 10, 2727 (2019).
  28. Khakzad, H., et al. Structural determination of Streptococcus pyogenes M1 protein interactions with human immunoglobulin G using integrative structural biology. PLOS Computational Biology. 17 (1), E1008169 (2021).
  29. Khakzad, H., et al. In vivo cross-linking MS of the complement system MAC assembled on live Gram-positive bacteria. Frontiers in Genetics. 11, (2020).

Play Video

Cite This Article
Khakzad, H., Vermeul, S., Malmström, L. Quaternary Structure Modeling Through Chemical Cross-Linking Mass Spectrometry: Extending TX-MS Jupyter Reports. J. Vis. Exp. (176), e60311, doi:10.3791/60311 (2021).

View Video