Die gezielte Vernetzungsmassenspektrometrie erstellt quartäre Proteinstrukturmodelle unter Verwendung von Massenspektrometriedaten, die mit bis zu drei verschiedenen Erfassungsprotokollen erfasst wurden. Wenn sie als vereinfachter Workflow auf dem Cheetah-MS-Webserver ausgeführt werden, werden die Ergebnisse in einem Jupyter Notebook gemeldet. Hier zeigen wir die technischen Aspekte, wie das Jupyter Notebook für eine tiefergehende Analyse erweitert werden kann.
Protein-Protein-Interaktionen können schwierig zu untersuchen sein und dennoch Einblicke in die Funktionsweise biologischer Systeme geben. Die Targeted Cross-Linking Mass Spectrotry (TX-MS), eine Methode, die quartäre Proteinstrukturmodellierung und chemische Vernetzungsmassenspektrometrie kombiniert, erstellt hochgenaue Strukturmodelle unter Verwendung von Daten aus komplexen, unfraktionierten Proben. Dies beseitigt eines der Haupthindernisse für die Analyse der Proteinkomplexstruktur, da die interessierenden Proteine nicht mehr in großen Mengen gereinigt werden müssen. Der Cheetah-MS-Webserver wurde entwickelt, um die vereinfachte Version des Protokolls für die Community zugänglicher zu machen. Unter Berücksichtigung der Tandem-MS/MS-Daten erstellt Cheetah-MS ein Jupyter Notebook, einen grafischen Bericht, der die wichtigsten Analyseergebnisse zusammenfasst. Die Erweiterung des Jupyter-Notebooks kann tiefergehende Einblicke liefern und das Modell und die es unterstützenden Massenspektrometriedaten besser verstehen. Das hier vorgestellte technische Protokoll demonstriert einige der gebräuchlichsten Erweiterungen und erklärt, welche Informationen erhalten werden können. Es enthält Blöcke zur Analyse von Tandem-MS/MS-Erfassungsdaten und der Gesamtauswirkungen der detektierten XLs auf die gemeldeten quartären Modelle. Das Ergebnis solcher Analysen kann auf Strukturmodelle angewendet werden, die mit NGLView in das Notebook eingebettet sind.
Protein-Protein-Interaktionen untermauern die Struktur und Funktion biologischer Systeme. Der Zugang zu quartären Strukturen von Proteinen kann Erkenntnisse darüber liefern, wie zwei oder mehr Proteine interagieren, um Strukturen höherer Ordnung zu bilden. Leider bleibt die Beschaffung quartärer Strukturen eine Herausforderung. Dies spiegelt sich in der vergleichsweise geringen Anzahl von Protein DataBank (PDB)-Einträgen 1 wider, die mehr als ein Polypeptid enthalten. Protein-Protein-Wechselwirkungen können mit Technologien wie Röntgenkristallographie, NMR und Kryo-EM untersucht werden, aber die Gewinnung einer ausreichenden Menge an gereinigtem Protein unter Bedingungen, unter denen die Methoden angewendet werden können, kann zeitaufwendig sein.
Die chemische Vernetzungsmassenspektrometrie wurde entwickelt, um experimentelle Daten über Protein-Protein-Wechselwirkungen mit weniger Einschränkungen bei der Probenvorbereitung zu erhalten, da mit der Massenspektrometrie Daten über beliebig komplexe Proben erfasstwerden können 2,3,4,5,6,7,8,9 . Der kombinatorische Charakter der Datenanalyse und die relativ geringe Anzahl vernetzter Peptide erfordern jedoch, dass die Proben vor der Analyse fraktioniert werden. Um dieses Manko zu beheben, haben wir TX-MS entwickelt, eine Methode, die computergestützte Modellierung mit chemischer Vernetzungsmassenspektrometrie10 kombiniert. TX-MS kann an beliebig komplexen Proben eingesetzt werden und ist im Vergleich zu bisherigen Methodendeutlich empfindlicher 10. Dies wird erreicht, indem alle Daten, die mit einer bestimmten Protein-Protein-Interaktion verbunden sind, als Menge bewertet werden, anstatt jedes MS-Spektrum unabhängig voneinander zu interpretieren. TX-MS verwendet auch bis zu drei verschiedene MS-Erfassungsprotokolle: hochauflösendes MS1 (hrMS1), datenabhängige Erfassung (DDA) und datenunabhängige Erfassung (DIA), was weitere Möglichkeiten bietet, ein vernetztes Peptid durch die Kombination mehrerer Beobachtungen zu identifizieren. Der TX-MS-Berechnungsworkflow ist aus mehreren Gründen komplex. Erstens stützt es sich auf mehrere MS-Analyse-Softwareprogramme 11,12,13, um Proteinstrukturmodelle 14,15 zu erstellen. Zweitens kann die Datenmenge beträchtlich sein. Drittens kann der Modellierungsschritt erhebliche Mengen an Computerverarbeitungsleistung verbrauchen.
Folglich wird TX-MS am besten als automatisierter, vereinfachter Rechenworkflow über den Cheetah-MS-Webserver16 verwendet, der auf großen Recheninfrastrukturen wie Computer-Clouds oder Clustern ausgeführt wird. Um die Interpretation der Ergebnisse zu erleichtern, haben wir ein interaktives Jupyter Notebook17 produziert. Hier zeigen wir, wie der Jupyter Notebook-Bericht erweitert werden kann, um eine eingehendere Analyse eines bestimmten Ergebnisses zu erhalten.
Moderne Rechenabläufe sind oft komplex, mit mehreren Tools von vielen verschiedenen Anbietern, komplexen Abhängigkeiten, hohen Datenmengen und vielfältigen Ergebnissen. Folglich wird es immer schwieriger, alle Schritte, die erforderlich sind, um ein Ergebnis zu erhalten, genau zu dokumentieren, was es schwierig macht, das gegebene Ergebnis zu reproduzieren. Hier zeigen wir eine allgemeine Strategie, die die Automatisierung und Leichtigkeit eines automatisierten Workflows, der einen generischen Bericht erstellt, mit der Flexibilität kombiniert, den Bericht reproduzierbar anzupassen.
Drei Anforderungen müssen erfüllt sein, damit das Protokoll funktioniert: Erstens müssen die für die Analyse ausgewählten Proteine so interagieren, dass das chemische Vernetzungsexperiment vernetzte Spezies in einer ausreichend hohen Konzentration erzeugen kann, die vom Massenspektrometer nachgewiesen werden kann; Verschiedene Massenspektrometer haben unterschiedliche Detektionsstufen und sind auch abhängig vom Erfassungsprotokoll sowie der Wahl des Vernetzungsreagenzes. Die aktuelle Version des TX-MS-Protokolls erlaubt nur DSS, ein homobifunktionales Lysin-Lysin-Vernetzungsreagenz. Diese Einschränkung ist jedoch in erster Linie auf die Möglichkeit zurückzuführen, dass der maschinelle Lernschritt für andere Reagenzien angepasst werden müsste. Diese Einschränkung wurde auf dem Cheetah-MS-Webserver verbessert, da zwei weitere Vernetzungsreagenzien in Betracht gezogen werden können, aber alle drei sind nicht spaltbare Reagenzien. Zweitens müssen die beiden Proteine entweder eine experimentell bestimmte Struktur aufweisen oder mit vergleichenden Modellierungstechniken oder De-novo-Techniken modelliert werden. Nicht alle Proteine können modelliert werden, aber eine Kombination aus verbesserter Software und einer konstanten Ablagerung experimenteller Strukturen im PDB erweitert die Anzahl der Proteine, die modelliert werden können. Drittens sollten die interagierenden Proteine in ihren gebundenen und ungebundenen Zuständen ausreichend ähnlich bleiben, so dass die von TX-MS und Cheetah-MS verwendeten Andockalgorithmen quartäre Strukturen von ausreichender Qualität erzeugen können, um ein Scoring zu ermöglichen. Diese Anforderung ist relativ vage, da akzeptable Qualität stark systemabhängig ist, wobei kleinere Proteine bekannter Struktur im Allgemeinen leichter zu vergleichen sind als größere Proteine unbekannter Struktur.
Im Falle eines negativen Ergebnisses überprüfen Sie zunächst, ob TX-MS Intra-Links gefunden hat, Querverbindungen zwischen Resten, die Teil derselben Polypeptidkette sind. Wenn keine entdeckt werden, ist die wahrscheinlichste Erklärung, dass bei der Probenvorbereitung oder der Datenerfassung etwas schief gelaufen ist. Wenn mehrere Abstandsbeschränkungen die Modelle nicht unterstützen, überprüfen Sie die Modelle visuell, um sicherzustellen, dass die Konformation durch vernetzte Rückstände unterstützt wird. Es gibt keine offensichtliche Möglichkeit, einen der Interaktoren zu drehen, ohne mindestens eine Vernetzung zu unterbrechen. Wenn es Querverbindungen gibt, die länger als die zulässige Entfernung für das gegebene Vernetzungsreagenz sind, versuchen Sie, die Modellierung der Interaktoren zu verbessern, indem Sie Vernetzungsdaten einbeziehen.
Es ist möglich, alternative Softwareanwendungen zu verwenden, um gleichwertige Ergebnisse zu erzielen, vorausgesetzt, dass die Empfindlichkeit der gewählten Software mit der Empfindlichkeit von TX-MS vergleichbar ist. Zum Beispiel gibt es Online-Versionen von RosettaDock, HADDOCK und anderen. Es ist auch möglich, chemische Vernetzungsdaten mit xQuest/xProphet5,6, plink7 und SIM-XL26 zu analysieren.
Wir wenden TX-MS und Cheetah-MS kontinuierlich auf neue Projekte27,28,29 an und verbessern dadurch die durch diese Ansätze erstellten Berichte, um eine detailliertere Analyse der Ergebnisse zu ermöglichen, ohne die Berichte zu vergrößern.
The authors have nothing to disclose.
Diese Arbeit wurde unterstützt von der Stiftung Knut und Alice Wallenberg (Förderkennzeichen 2016.0023) und dem Schweizerischen Nationalfonds (Förderkennzeichen P2ZHP3_191289). Zudem danken wir S3IT, Universität Zürich, für die rechnerische Infrastruktur und den technischen Support.
Two Protein DataBank files of the proteins of interest. | N/A | N/A | Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621 |
An mzML data file acquired on a sample where the proteins of interest were crosslinked. | N/A | N/A | Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621 |