概要

Quartäre Strukturmodellierung durch chemische Vernetzungsmassenspektrometrie: Erweiterung der TX-MS Jupyter-Berichte

Published: October 20, 2021
doi:

概要

Die gezielte Vernetzungsmassenspektrometrie erstellt quartäre Proteinstrukturmodelle unter Verwendung von Massenspektrometriedaten, die mit bis zu drei verschiedenen Erfassungsprotokollen erfasst wurden. Wenn sie als vereinfachter Workflow auf dem Cheetah-MS-Webserver ausgeführt werden, werden die Ergebnisse in einem Jupyter Notebook gemeldet. Hier zeigen wir die technischen Aspekte, wie das Jupyter Notebook für eine tiefergehende Analyse erweitert werden kann.

Abstract

Protein-Protein-Interaktionen können schwierig zu untersuchen sein und dennoch Einblicke in die Funktionsweise biologischer Systeme geben. Die Targeted Cross-Linking Mass Spectrotry (TX-MS), eine Methode, die quartäre Proteinstrukturmodellierung und chemische Vernetzungsmassenspektrometrie kombiniert, erstellt hochgenaue Strukturmodelle unter Verwendung von Daten aus komplexen, unfraktionierten Proben. Dies beseitigt eines der Haupthindernisse für die Analyse der Proteinkomplexstruktur, da die interessierenden Proteine nicht mehr in großen Mengen gereinigt werden müssen. Der Cheetah-MS-Webserver wurde entwickelt, um die vereinfachte Version des Protokolls für die Community zugänglicher zu machen. Unter Berücksichtigung der Tandem-MS/MS-Daten erstellt Cheetah-MS ein Jupyter Notebook, einen grafischen Bericht, der die wichtigsten Analyseergebnisse zusammenfasst. Die Erweiterung des Jupyter-Notebooks kann tiefergehende Einblicke liefern und das Modell und die es unterstützenden Massenspektrometriedaten besser verstehen. Das hier vorgestellte technische Protokoll demonstriert einige der gebräuchlichsten Erweiterungen und erklärt, welche Informationen erhalten werden können. Es enthält Blöcke zur Analyse von Tandem-MS/MS-Erfassungsdaten und der Gesamtauswirkungen der detektierten XLs auf die gemeldeten quartären Modelle. Das Ergebnis solcher Analysen kann auf Strukturmodelle angewendet werden, die mit NGLView in das Notebook eingebettet sind.

Introduction

Protein-Protein-Interaktionen untermauern die Struktur und Funktion biologischer Systeme. Der Zugang zu quartären Strukturen von Proteinen kann Erkenntnisse darüber liefern, wie zwei oder mehr Proteine interagieren, um Strukturen höherer Ordnung zu bilden. Leider bleibt die Beschaffung quartärer Strukturen eine Herausforderung. Dies spiegelt sich in der vergleichsweise geringen Anzahl von Protein DataBank (PDB)-Einträgen 1 wider, die mehr als ein Polypeptid enthalten. Protein-Protein-Wechselwirkungen können mit Technologien wie Röntgenkristallographie, NMR und Kryo-EM untersucht werden, aber die Gewinnung einer ausreichenden Menge an gereinigtem Protein unter Bedingungen, unter denen die Methoden angewendet werden können, kann zeitaufwendig sein.

Die chemische Vernetzungsmassenspektrometrie wurde entwickelt, um experimentelle Daten über Protein-Protein-Wechselwirkungen mit weniger Einschränkungen bei der Probenvorbereitung zu erhalten, da mit der Massenspektrometrie Daten über beliebig komplexe Proben erfasstwerden können 2,3,4,5,6,7,8,9 . Der kombinatorische Charakter der Datenanalyse und die relativ geringe Anzahl vernetzter Peptide erfordern jedoch, dass die Proben vor der Analyse fraktioniert werden. Um dieses Manko zu beheben, haben wir TX-MS entwickelt, eine Methode, die computergestützte Modellierung mit chemischer Vernetzungsmassenspektrometrie10 kombiniert. TX-MS kann an beliebig komplexen Proben eingesetzt werden und ist im Vergleich zu bisherigen Methodendeutlich empfindlicher 10. Dies wird erreicht, indem alle Daten, die mit einer bestimmten Protein-Protein-Interaktion verbunden sind, als Menge bewertet werden, anstatt jedes MS-Spektrum unabhängig voneinander zu interpretieren. TX-MS verwendet auch bis zu drei verschiedene MS-Erfassungsprotokolle: hochauflösendes MS1 (hrMS1), datenabhängige Erfassung (DDA) und datenunabhängige Erfassung (DIA), was weitere Möglichkeiten bietet, ein vernetztes Peptid durch die Kombination mehrerer Beobachtungen zu identifizieren. Der TX-MS-Berechnungsworkflow ist aus mehreren Gründen komplex. Erstens stützt es sich auf mehrere MS-Analyse-Softwareprogramme 11,12,13, um Proteinstrukturmodelle 14,15 zu erstellen. Zweitens kann die Datenmenge beträchtlich sein. Drittens kann der Modellierungsschritt erhebliche Mengen an Computerverarbeitungsleistung verbrauchen.

Folglich wird TX-MS am besten als automatisierter, vereinfachter Rechenworkflow über den Cheetah-MS-Webserver16 verwendet, der auf großen Recheninfrastrukturen wie Computer-Clouds oder Clustern ausgeführt wird. Um die Interpretation der Ergebnisse zu erleichtern, haben wir ein interaktives Jupyter Notebook17 produziert. Hier zeigen wir, wie der Jupyter Notebook-Bericht erweitert werden kann, um eine eingehendere Analyse eines bestimmten Ergebnisses zu erhalten.

Protocol

1. Workflow bei https://txms.org einreichen. Gehen Sie zu https://txms.org und klicken Sie auf “Cheetah-MS verwenden”. Um den Workflow zu übermitteln, müssen Sie zwei PDB-Dateien und eine MS/MS mzML- oder MGF-Datei bereitstellen. Sie können auch auf “Beispieldaten laden” klicken, um die Demoversion des Workflows anzuzeigen.HINWEIS: Bitte schauen Sie sich die Handbuchseite des Webservers an, um detaillierte Informationen zum Einreichen eines Auftrags zu erhalten. Der Webserver unterstützt verschiedene nicht spaltbare Cross-Linker-Agenten, bis zu 12 posttranslationale Modifikationen (PTMs), Optionen im Zusammenhang mit Computational Modeling und MS-Datenanalyse. Kleine Hilfeschaltflächen sind auch auf der Senden-Seite gestaltet, um weitere Informationen zu den einzelnen Optionen anzuzeigen. 2. Führen Sie Cheetah-MS aus. HINWEIS: Konvertieren Sie die herstellerspezifischen Formate mit der ProteoWizard MSConvert-Software19 in mzML oder MGF. Laden Sie die MS-Daten in https://txms.org hoch. Klicken Sie dann auf “Datei auswählen” und wählen Sie die MS-Daten aus, die in den mzML/MGF-Datenformaten18 vorliegen müssen.HINWEIS: Beispieldaten sind auf https://txms.org verfügbar. Diese Daten sind auch direkt über zenodo.org, DOI 10.5281/zenodo.3361621, zugänglich. Laden Sie zwei PDB-Dateien in https://txms.org hoch. Klicken Sie auf “Datei auswählen” und wählen Sie die PDB-Dateien aus, die hochgeladen werden sollen.HINWEIS: Wenn keine experimentellen Strukturen vorhanden sind, erstellen Sie Modelle mit z.B. SWISS-MODEL 20, wenn homologe Strukturen verfügbar sind, oder trRosetta21,22 oder Robetta 23,24 Webserver für de novo Strukturvorhersagen. Reichen Sie einen neuen Workflow ein. Klicken Sie auf “Senden”, um ein Job-Identifier-Tag zu erhalten. Folgen Sie dann dem Formular zum Ergebnisabschnitt mit diesem Tag.HINWEIS: Das Berechnen des Ergebnisses nimmt Zeit in Anspruch, also warten Sie bitte, bis der Workflow abgeschlossen ist, und speichern Sie das Job-ID-Tag, um zur Ergebnisseite zurückzukehren. Die Berechnung erfolgt auf einer Remote-Recheninfrastruktur. Wenn Sie TX-MS lokal ausführen möchten, lesen Sie bitte Hauri et al.10. Überprüfen Sie den Jupyter Notebook-Bericht mit dem Online-Viewer. Scrollen Sie dann im Ergebnisbereich mit dem Job-ID-Tag nach unten zu “Report”. 3. Installieren Sie JupyterHub. Installieren Sie Docker wie unter https://docs.docker.com/install/ angegeben. Laden Sie den JupyterHub-Docker-Container mit der Jupyter openBIS25-Erweiterung herunter. Der allgemeine Befehl ist “docker pull malmstroem/jove:latest,”, kann aber auf anderen Plattformen abweichen.HINWEIS: Eine allgemeine Diskussion zum Herunterladen von Containern finden Sie in https://www.docker.com/get-started. Es ist auch möglich, den Container von zenodo.org, DOI 10.5281/zenodo.3361621 herunterzuladen.HINWEIS: Der Quellcode der Jupyter openBIS-Erweiterung ist hier verfügbar: https://pypi.org/project/jupyter-openbis-extension/. Starten Sie den Docker-Container: docker run -p 8178:8000 malmstroem/jove:latest.HINWEIS: Der Port, den JupyterHub standardmäßig verwendet, ist 8000. Dieser Port ist konfigurierbar, und die obigen Befehle müssen entsprechend angepasst werden, wenn sie geändert werden. Port 8178 ist eine willkürliche Wahl und kann geändert werden. Die unten angegebenen Beispiel-URLs müssen entsprechend angepasst werden. Gehen Sie zu der folgenden Adresse: http://127.0.0.1:8178. Melden Sie sich mit dem Benutzernamen “user” und dem Passwort “user” an.HINWEIS: Die Adresse http://127.0.0.1 impliziert, dass der Docker-Container auf dem lokalen Computer ausgeführt wird. Wenn der Docker-Container auf einem Server ausgeführt wird, verwenden Sie die IP-Adresse oder URL des Servers (z. B. https://example.com). Der Docker-Container basiert auf Ubuntu Bionic 18.04, JupyterHub 0.9.6 und Jupyter openBIS-Erweiterung 0.2. Es ist möglich, dies in anderen Betriebssystemen zu installieren, aber dies wurde nicht getestet. 4. Laden Sie den Bericht herunter. Erstellen Sie ein neues Notizbuch, indem Sie auf Neu klicken| Python 3 über das Menü oben rechts auf der Seite. Dadurch wird eine neue Registerkarte mit einem Notizbuch namens Untitled (oder etwas Ähnliches ) geöffnet. Klicken Sie im Jupyter-Werkzeugmenü auf “OpenBIS-Verbindungen konfigurieren”. Geben Sie den Namen ein: txms; URL: https://txms.org; Benutzer: Gast; Passwort: guestpasswd. Klicken Sie auf “Verbinden”. Wählen Sie die neue Verbindung aus und klicken Sie auf “Verbindung auswählen”. Suchen Sie nach der Berichtsvorlage (z. B. /CHEETAH/WF70) und klicken Sie auf Herunterladen.HINWEIS: Sie müssen die Berichtsvorlage basierend auf den Ergebnissen und dem Bericht anpassen, die Sie beim Ausführen Ihres Auftrags auf dem Cheetah-MS-Webserver erhalten haben. Führen Sie den Bericht erneut aus, indem Sie auf Zelle | klicken Führen Sie alle aus. 5. Erweitern Sie den Bericht. Fügen Sie unten eine neue Zelle hinzu: Zelle | Fügen Sie unten ein. Geben Sie den gewünschten Code ein. Ein Beispiel finden Sie im Abschnitt Repräsentative Ergebnisse weiter unten. Führen Sie die Zelle aus, indem Sie “Shift-Enter” drücken.

Representative Results

TX-MS bietet strukturelle Ergebnisse, die durch MS-abgeleitete experimentelle Einschränkungen unterstützt werden. Es funktioniert durch die Kombination verschiedener MS-Datenerfassungstypen mit computergestützter Modellierung. Daher ist es hilfreich, jede MS-Daten separat zu analysieren und die Ausgabestruktur zu visualisieren. Supplementary Data 1 enthält ein Beispiel-Notebook, das DDA- und DIA-Daten, die als TX-MS-Ausgang erzeugt werden, analysieren kann. Benutzer können das XL von Interesse auswählen. Durch das Ausführen des Notebooks wird das MS2-Spektrum dieses XL gezeigt, bei dem verschiedene Farben dazu beitragen, zwischen Fragmenten zu unterscheiden, die mit dem ersten Peptid, dem zweiten Peptid und den kombinatorischen Fragmentionen zusammenhängen. Der XL kann auch mit dem NGLView-Widget, das in ein Jupyter Notebook eingebettet ist, der Struktur zugeordnet werden. Eine weitere Zelle in diesem Notizbuch kann Benutzern helfen, DIA-Daten zu analysieren und zu visualisieren. Die Visualisierung von DIA-Daten ist jedoch schwieriger, da die analysierten Daten im richtigen Format aufbereitet werden müssen. Abbildung 1 zeigt eine Beispielstruktur von M1 und Albumin mit Top-XLs, die auf der Struktur abgebildet sind. TX-MS erhielt alle XLs nach dem Parsen von hrMS1-, DDA- und DIA-Daten, und das RosettaDock-Protokoll lieferte die Berechnungsmodelle. Da es sich bei diesem Bericht um ein Jupyter-Notebook handelt, kann jeder gültige Python-Code zu neuen Notebook-Zellen hinzugefügt werden. Der folgende Code erstellt beispielsweise ein Histogramm über die MS2-Zählungen, das angibt, wie gut jede Querverknüpfung von den zugrunde liegenden Daten unterstützt wird.Import SeaBorn als SNSsns.distplot(ms2[‘count’]); Abbildung 1: Strukturmodell von Streptococcus pyogenes M1 Protein und humanem Albumin mit XLs auf der Struktur abgebildet. Das M1-Protein ist grau dargestellt und stellt ein Homodimer dar. Die sechs Albuminmoleküle werden als Paare in verschiedenen Blautönen präsentiert. Querverbindungen und Entfernungen werden rot mit schwarzem Text angegeben. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen. Ergänzende Datei. Jupyter-Notebook-Daten. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Discussion

Moderne Rechenabläufe sind oft komplex, mit mehreren Tools von vielen verschiedenen Anbietern, komplexen Abhängigkeiten, hohen Datenmengen und vielfältigen Ergebnissen. Folglich wird es immer schwieriger, alle Schritte, die erforderlich sind, um ein Ergebnis zu erhalten, genau zu dokumentieren, was es schwierig macht, das gegebene Ergebnis zu reproduzieren. Hier zeigen wir eine allgemeine Strategie, die die Automatisierung und Leichtigkeit eines automatisierten Workflows, der einen generischen Bericht erstellt, mit der Flexibilität kombiniert, den Bericht reproduzierbar anzupassen.

Drei Anforderungen müssen erfüllt sein, damit das Protokoll funktioniert: Erstens müssen die für die Analyse ausgewählten Proteine so interagieren, dass das chemische Vernetzungsexperiment vernetzte Spezies in einer ausreichend hohen Konzentration erzeugen kann, die vom Massenspektrometer nachgewiesen werden kann; Verschiedene Massenspektrometer haben unterschiedliche Detektionsstufen und sind auch abhängig vom Erfassungsprotokoll sowie der Wahl des Vernetzungsreagenzes. Die aktuelle Version des TX-MS-Protokolls erlaubt nur DSS, ein homobifunktionales Lysin-Lysin-Vernetzungsreagenz. Diese Einschränkung ist jedoch in erster Linie auf die Möglichkeit zurückzuführen, dass der maschinelle Lernschritt für andere Reagenzien angepasst werden müsste. Diese Einschränkung wurde auf dem Cheetah-MS-Webserver verbessert, da zwei weitere Vernetzungsreagenzien in Betracht gezogen werden können, aber alle drei sind nicht spaltbare Reagenzien. Zweitens müssen die beiden Proteine entweder eine experimentell bestimmte Struktur aufweisen oder mit vergleichenden Modellierungstechniken oder De-novo-Techniken modelliert werden. Nicht alle Proteine können modelliert werden, aber eine Kombination aus verbesserter Software und einer konstanten Ablagerung experimenteller Strukturen im PDB erweitert die Anzahl der Proteine, die modelliert werden können. Drittens sollten die interagierenden Proteine in ihren gebundenen und ungebundenen Zuständen ausreichend ähnlich bleiben, so dass die von TX-MS und Cheetah-MS verwendeten Andockalgorithmen quartäre Strukturen von ausreichender Qualität erzeugen können, um ein Scoring zu ermöglichen. Diese Anforderung ist relativ vage, da akzeptable Qualität stark systemabhängig ist, wobei kleinere Proteine bekannter Struktur im Allgemeinen leichter zu vergleichen sind als größere Proteine unbekannter Struktur.

Im Falle eines negativen Ergebnisses überprüfen Sie zunächst, ob TX-MS Intra-Links gefunden hat, Querverbindungen zwischen Resten, die Teil derselben Polypeptidkette sind. Wenn keine entdeckt werden, ist die wahrscheinlichste Erklärung, dass bei der Probenvorbereitung oder der Datenerfassung etwas schief gelaufen ist. Wenn mehrere Abstandsbeschränkungen die Modelle nicht unterstützen, überprüfen Sie die Modelle visuell, um sicherzustellen, dass die Konformation durch vernetzte Rückstände unterstützt wird. Es gibt keine offensichtliche Möglichkeit, einen der Interaktoren zu drehen, ohne mindestens eine Vernetzung zu unterbrechen. Wenn es Querverbindungen gibt, die länger als die zulässige Entfernung für das gegebene Vernetzungsreagenz sind, versuchen Sie, die Modellierung der Interaktoren zu verbessern, indem Sie Vernetzungsdaten einbeziehen.

Es ist möglich, alternative Softwareanwendungen zu verwenden, um gleichwertige Ergebnisse zu erzielen, vorausgesetzt, dass die Empfindlichkeit der gewählten Software mit der Empfindlichkeit von TX-MS vergleichbar ist. Zum Beispiel gibt es Online-Versionen von RosettaDock, HADDOCK und anderen. Es ist auch möglich, chemische Vernetzungsdaten mit xQuest/xProphet5,6, plink7 und SIM-XL26 zu analysieren.

Wir wenden TX-MS und Cheetah-MS kontinuierlich auf neue Projekte27,28,29 an und verbessern dadurch die durch diese Ansätze erstellten Berichte, um eine detailliertere Analyse der Ergebnisse zu ermöglichen, ohne die Berichte zu vergrößern.

開示

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde unterstützt von der Stiftung Knut und Alice Wallenberg (Förderkennzeichen 2016.0023) und dem Schweizerischen Nationalfonds (Förderkennzeichen P2ZHP3_191289). Zudem danken wir S3IT, Universität Zürich, für die rechnerische Infrastruktur und den technischen Support.

Materials

Two Protein DataBank files of the proteins of interest. N/A N/A Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621
An mzML data file acquired on a sample where the proteins of interest were crosslinked. N/A N/A Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621

参考文献

  1. Berman, H. M., et al. The Protein Data Bank. Acta Crystallographica Section D: Biological Crystallography. 58 (6), 899-907 (2002).
  2. Herzog, F., et al. Structural Probing of a Protein Phosphatase 2A Network by Chemical Cross-Linking and Mass Spectrometry. Science. 337 (6100), 1348-1352 (2012).
  3. Hoopmann, M. R., et al. Kojak: efficient analysis of chemically cross-linked protein complexes. Journal of Proteome Research. 14 (5), 2190-2198 (2015).
  4. Seebacher, J., et al. Protein cross-linking analysis using mass spectrometry, isotope-coded cross-linkers, and integrated computational data processing. Journal of Proteome Research. 5 (9), 2270-2282 (2006).
  5. Rinner, O., et al. Identification of cross-linked peptides from large sequence databases. Nature Methods. 5 (4), 315-318 (2008).
  6. Walzthoeni, T., et al. False discovery rate estimation for cross-linked peptides identified by mass spectrometry. Nature Methods. 9 (9), 901-903 (2012).
  7. Yang, B., et al. Identification of cross-linked peptides from complex samples. Nature Methods. 9 (9), 904-906 (2012).
  8. Chu, F., Baker, P. R., Burlingame, A. L., Chalkley, R. J. Finding Chimeras: a Bioinformatics Strategy for Identification of Cross-linked Peptides. Molecular & Cellular Proteomics. 9 (1), 25-31 (2010).
  9. Holding, A. N., Lamers, M. H., Stephens, E., Skehel, J. M. Hekate: Software Suite for the Mass Spectrometric Analysis and Three-Dimensional Visualization of Cross-Linked Protein Samples. Journal of Proteome Research. 12 (12), 5923-5933 (2013).
  10. Hauri, S., et al. Rapid determination of quaternary protein structures in complex biological samples. Nature Communications. 10 (1), 192 (2019).
  11. Röst, H. L., et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS data. Nature Biotechnology. 32 (3), 219-223 (2014).
  12. Röst, H. L., et al. OpenMS: a flexible open-source software platform for mass spectrometry data analysis. Nature Methods. 13 (9), 741-748 (2016).
  13. Quandt, A., et al. Using synthetic peptides to benchmark peptide identification software and search parameters for MS/MS data analysis. EuPA Open Proteomics. 5, 21-31 (2014).
  14. Bradley, P., et al. Free modeling with Rosetta in CASP6. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 128-134 (2005).
  15. Gray, J. J. High-resolution protein-protein docking. Current Opinion in Structural Biology. 16 (2), 183-193 (2006).
  16. Khakzad, H., et al. Cheetah-MS: a web server to model protein complexes using tandem cross-linking mass spectrometry data. バイオインフォマティクス. , (2021).
  17. Malmström, L. Chapter 15: Computational Proteomics with Jupyter and Python. Methods in Molecular Biology. 15, 237-248 (1977).
  18. Martens, L., et al. mzML–a community standard for mass spectrometry data. Molecular & Cellular Proteomics. 10 (1), (2011).
  19. Chambers, M. C., et al. A cross-platform toolkit for mass spectrometry and proteomics. Nature Biotechnology. 30 (10), 918-920 (2012).
  20. Waterhouse, A., et al. SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic Acids Research. 46 (W1), W296-W303 (2018).
  21. Yang, J., et al. Improved protein structure prediction using predicted interresidue orientations. Proceedings of the National Academy of Sciences. 117 (3), 1496-1503 (2020).
  22. Koehler Leman, J., et al. Macromolecular modeling and design in Rosetta: recent methods and frameworks. Nature Methods. 17 (7), 665-680 (2020).
  23. Chivian, D., et al. Prediction of CASP6 structures using automated Robetta protocols. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 157-166 (2005).
  24. Chivian, D., et al. Automated prediction of CASP-5 structures using the Robetta server. Proteins: Structure, Function, and Bioinformatics. 53 (S6), 524-533 (2003).
  25. Bauch, A., et al. openBIS: a flexible framework for managing and analyzing complex data in biology research. BMC Bioinformatics. 12, 468 (2011).
  26. Lima, D. B., et al. SIM-XL: A powerful and user-friendly tool for peptide cross-linking analysis. Journal of Proteomics. 129, 51-55 (2015).
  27. Happonen, L., et al. A quantitative Streptococcus pyogenes-human protein-protein interaction map reveals localization of opsonizing antibodies. Nature Communications. 10, 2727 (2019).
  28. Khakzad, H., et al. Structural determination of Streptococcus pyogenes M1 protein interactions with human immunoglobulin G using integrative structural biology. PLOS Computational Biology. 17 (1), E1008169 (2021).
  29. Khakzad, H., et al. In vivo cross-linking MS of the complement system MAC assembled on live Gram-positive bacteria. Frontiers in Genetics. 11, (2020).

Play Video

記事を引用
Khakzad, H., Vermeul, S., Malmström, L. Quaternary Structure Modeling Through Chemical Cross-Linking Mass Spectrometry: Extending TX-MS Jupyter Reports. J. Vis. Exp. (176), e60311, doi:10.3791/60311 (2021).

View Video