Summary

Modélisation de la structure quaternaire par spectrométrie de masse par réticulation chimique: extension des rapports TX-MS Jupyter

Published: October 20, 2021
doi:

Summary

La spectrométrie de masse à réticulation ciblée crée des modèles de structure protéique quaternaire à l’aide de données de spectrométrie de masse acquises à l’aide de jusqu’à trois protocoles d’acquisition différents. Lorsqu’ils sont exécutés en tant que flux de travail simplifié sur le serveur Web Cheetah-MS, les résultats sont signalés dans un bloc-notes Jupyter. Ici, nous démontrons les aspects techniques de la façon dont le Jupyter Notebook peut être étendu pour une analyse plus approfondie.

Abstract

Les interactions protéine-protéine peuvent être difficiles à étudier tout en fournissant des informations sur le fonctionnement des systèmes biologiques. La spectrométrie de masse à réticulation ciblée (TX-MS), une méthode combinant la modélisation de la structure des protéines quaternaires et la spectrométrie de masse à réticulation chimique, crée des modèles de structure de haute précision à l’aide de données obtenues à partir d’échantillons complexes et non fractionnés. Cela élimine l’un des principaux obstacles à l’analyse de la structure des complexes protéiques, car les protéines d’intérêt n’ont plus besoin d’être purifiées en grande quantité. Le serveur Web Cheetah-MS a été développé pour rendre la version simplifiée du protocole plus accessible à la communauté. Compte tenu des données MS/MS en tandem, Cheetah-MS génère un Jupyter Notebook, un rapport graphique résumant les résultats d’analyse les plus importants. L’extension du Jupyter Notebook peut fournir des informations plus approfondies et mieux comprendre le modèle et les données de spectrométrie de masse qui le soutiennent. Le protocole technique présenté ici présente certaines des extensions les plus courantes et explique quelles informations peuvent être obtenues. Il contient des blocs pour aider à analyser les données d’acquisition MS/MS en tandem et l’impact global des XL détectées sur les modèles quaternaires rapportés. Le résultat de ces analyses peut être appliqué aux modèles structurels intégrés dans l’ordinateur portable à l’aide de NGLView.

Introduction

Les interactions protéine-protéine sous-tendent la structure et la fonction des systèmes biologiques. Avoir accès aux structures quaternaires des protéines peut fournir des informations sur la façon dont deux protéines ou plus interagissent pour former des structures d’ordre élevé. Malheureusement, l’obtention de structures quaternaires reste difficile; cela se reflète dans le nombre relativement faible d’entrées1 de la banque de données sur les protéines (PDB) contenant plus d’un polypeptide. Les interactions protéine-protéine peuvent être étudiées avec des technologies telles que la cristallographie aux rayons X, la RMN et la cryo-EM, mais l’obtention d’une quantité suffisante de protéines purifiées dans des conditions où les méthodes peuvent être appliquées peut prendre beaucoup de temps.

La spectrométrie de masse à réticulation chimique a été développée pour obtenir des données expérimentales sur les interactions protéine-protéine avec moins de restrictions sur la préparation des échantillons, car la spectrométrie de masse peut être utilisée pour acquérir des données sur des échantillons arbitrairement complexes 2,3,4,5,6,7,8,9 . Cependant, la nature combinatoire de l’analyse des données et le nombre relativement faible de peptides réticulés exigent que les échantillons soient fractionnés avant l’analyse. Pour remédier à cette lacune, nous avons développé TX-MS, une méthode qui combine la modélisation informatique avec la spectrométrie de masse de réticulation chimique10. TX-MS peut être utilisé sur des échantillons arbitrairement complexes et est significativement plus sensible par rapport aux méthodesprécédentes 10. Il y parvient en notant toutes les données associées à une interaction protéine-protéine donnée sous forme d’ensemble au lieu d’interpréter chaque spectre de SEP indépendamment. TX-MS utilise également jusqu’à trois protocoles d’acquisition de SEP différents : MS1 haute résolution (hrMS1), acquisition dépendante des données (DDA) et acquisition indépendante des données (DIA), offrant ainsi la possibilité d’identifier un peptide réticulé en combinant plusieurs observations. Le flux de travail de calcul TX-MS est complexe pour plusieurs raisons. Premièrement, il s’appuie sur plusieurs logiciels d’analyse de la SEP 11,12,13 pour créer des modèles de structure protéique14,15. Deuxièmement, la quantité de données peut être considérable. Troisièmement, l’étape de modélisation peut consommer des quantités importantes de puissance de traitement informatique.

Par conséquent, TX-MS est mieux utilisé comme un flux de travail de calcul automatisé et simplifié via le serveur Web Cheetah-MS16 qui s’exécute sur de grandes infrastructures de calcul telles que des nuages informatiques ou des clusters. Pour faciliter l’interprétation des résultats, nous avons produit un Jupyter Notebook17 interactif. Ici, nous montrons comment le rapport Jupyter Notebook peut être étendu pour produire une analyse plus approfondie d’un résultat donné.

Protocol

1. Soumettez le flux de travail à https://txms.org. Allez dans https://txms.org et cliquez sur « Utiliser Cheetah-MS. ». Pour soumettre le flux de travail, vous devez fournir deux fichiers PDB et un fichier MS/MS mzML ou MGF. Vous pouvez également cliquer sur « charger des exemples de données » pour voir la version de démonstration du flux de travail.REMARQUE: Veuillez consulter la page de manuel du serveur Web pour obtenir des informations détaillées sur la façon de soumettre une tâche. Le serveur Web prend en charge différents agents de réticulation non clivables, jusqu’à 12 modifications post-traductionnelles (PTM), des options liées à la modélisation informatique et à l’analyse des données MS. De petits boutons d’aide sont également conçus sur la page d’envoi pour afficher plus d’informations concernant chaque option. 2. Exécutez Cheetah-MS. REMARQUE: Convertissez les formats spécifiques au fournisseur en mzML ou MGF à l’aide du logiciel ProteoWizard MSConvert19. Téléchargez les données MS sur https://txms.org. Ensuite, cliquez sur « Choisir un fichier » et sélectionnez les données MS, qui doivent être dans les formats de données mzML / MGF18.REMARQUE : Des exemples de données sont disponibles sur https://txms.org. Ces données sont également directement accessibles via zenodo.org, DOI 10.5281/zenodo.3361621. Téléchargez deux fichiers PDB sur https://txms.org. Cliquez sur « Choisir un fichier » et sélectionnez les fichiers PDB à télécharger.REMARQUE: S’il n’existe aucune structure expérimentale, créez des modèles en utilisant, par exemple, SWISS-MODEL20 si des structures homologues sont disponibles, ou trRosetta21,22 ou Robetta23,24 serveurs Web pour les prédictions de structure de novo. Soumettez un nouveau flux de travail. Cliquez sur « Soumettre » pour recevoir une balise d’identificateur d’emploi. Ensuite, suivez le formulaire jusqu’à la section des résultats à l’aide de cette balise.REMARQUE : Le calcul du résultat prend du temps, veuillez donc attendre la fin du flux de travail et stocker la balise d’identificateur de tâche pour revenir à la page de résultats. Le calcul est effectué sur une infrastructure de calcul à distance. Si vous souhaitez exécuter TX-MS localement, veuillez vous référer à Hauri et al.10. Inspectez le rapport Jupyter Notebook à l’aide de la visionneuse en ligne. Ensuite, faites défiler jusqu’à « Rapport » dans la section des résultats à l’aide de la balise d’identificateur de travail. 3. Installez JupyterHub. Installez docker comme indiqué à https://docs.docker.com/install/. Téléchargez le conteneur docker JupyterHub avec l’extension Jupyter openBIS25. La commande générale est « docker pull malmstroem/jove:latest », mais peut différer sur d’autres plates-formes.REMARQUE: Pour une discussion générale sur la façon de télécharger des conteneurs, veuillez vous référer à https://www.docker.com/get-started. Il est également possible de télécharger le conteneur depuis zenodo.org, DOI 10.5281/zenodo.3361621.REMARQUE: Le code source de l’extension Jupyter openBIS est disponible ici: https://pypi.org/project/jupyter-openbis-extension/. Démarrez le conteneur docker : docker run -p 8178:8000 malmstroem/jove:latest.Remarque : Le port que JupyterHub utilise par défaut est 8000. Ce port est configurable et les commandes ci-dessus doivent être ajustées en conséquence si elles sont modifiées. Le port 8178 est un choix arbitraire et peut être modifié. Les exemples d’URL fournis ci-dessous doivent être ajustés en conséquence. Rendez-vous à l’adresse suivante : http://127.0.0.1:8178. Connectez-vous en utilisant le nom d’utilisateur « utilisateur » et le mot de passe « utilisateur ».Remarque : L’adresse http://127.0.0.1 implique que le conteneur docker est en cours d’exécution sur l’ordinateur local. Si le conteneur docker est exécuté sur un serveur, utilisez l’adresse IP ou l’URL du serveur (par exemple, https://example.com). Le conteneur docker est basé sur Ubuntu Bionic 18.04, JupyterHub 0.9.6 et Jupyter openBIS extension 0.2. Il est possible de l’installer dans d’autres systèmes d’exploitation, mais cela n’a pas été testé. 4. Téléchargez le rapport. Créez un bloc-notes en cliquant sur Nouveau| Python 3 en utilisant le menu situé près de la partie supérieure droite de la page. Cela ouvrira un nouvel onglet avec un bloc-notes appelé Sans titre (ou quelque chose de similaire). Cliquez sur « Configurer les connexions openBIS » dans le menu de l’outil Jupyter. Remplissez le nom: txms; URL: https://txms.org; utilisateur: invité; mot de passe : guestpasswd. Cliquez sur « Connecter ». Choisissez la nouvelle connexion et cliquez sur « Choisir la connexion ». Recherchez le modèle de rapport (par exemple, /CHEETAH/WF70) et cliquez sur Télécharger.REMARQUE: Vous devez ajuster le modèle de rapport en fonction des résultats et du rapport que vous avez obtenus en exécutant votre travail sur le serveur Web Cheetah-MS. Réexécutez le rapport en cliquant sur | de cellule Exécuter tout. 5. Prolonger le rapport. Ajoutez une nouvelle cellule en bas : Cellule | Insérer ci-dessous. Tapez le code souhaité. Pour un exemple, veuillez consulter la section Résultats représentatifs ci-dessous. Exécutez la cellule en appuyant sur « Maj-Entrée ».

Representative Results

TX-MS fournit des extrants structurels soutenus par des contraintes expérimentales dérivées de MS. Il fonctionne en combinant différents types d’acquisition de données MS avec la modélisation informatique. Par conséquent, il est utile d’analyser chaque donnée MS séparément et de fournir une visualisation de la structure de sortie. Les données supplémentaires 1 contiennent un exemple de bloc-notes qui peut analyser les données DDA et DIA produites en tant que sortie TX-MS. Les utilisateurs peuvent sélectionner le XL d’intérêt. En exécutant l’ordinateur portable, le spectre MS2 de ce XL sera montré où différentes couleurs aident à discriminer entre les fragments liés au premier peptide, au deuxième peptide et aux ions fragment combinatoire. Le XL peut également être mappé à la structure à l’aide du widget NGLView intégré dans un bloc-notes Jupyter. Une autre cellule de ce bloc-notes peut aider les utilisateurs à analyser et à visualiser les données DIA. Cependant, la visualisation des données DIA est plus difficile car les données analysées doivent être préparées dans le bon format. La figure 1 montre un exemple de structure de M1 et d’albumine avec les XL supérieurs mappés sur la structure. TX-MS a obtenu toutes les XL après avoir analysé les données hrMS1, DDA et DIA, et le protocole RosettaDock a fourni les modèles de calcul. Comme ce rapport est un bloc-notes Jupyter, tout code Python valide peut être ajouté aux nouvelles cellules du bloc-notes. Par exemple, le code ci-dessous créera un histogramme sur les comptes MS2, indiquant dans quelle mesure chaque réticulation est prise en charge par les données sous-jacentes.importer seaborn en tant que snssns.distplot(ms2[‘count’]); Figure 1 : Modèle structurel de la protéine Streptococcus pyogenes M1 et de l’albumine humaine avec des XL cartographiés sur la structure. La protéine M1 est représentée en gris et constitue un homodimère. Les six molécules d’albumine sont présentées par paires dans différentes nuances de bleu. Les liens croisés et les distances sont donnés en rouge avec du texte noir. Veuillez cliquer ici pour voir une version agrandie de cette figure. Dossier supplémentaire. Données du bloc-notes Jupyter. Veuillez cliquer ici pour télécharger ce fichier.

Discussion

Les flux de travail informatiques modernes sont souvent complexes, avec de multiples outils de nombreux fournisseurs différents, des interdépendances complexes, des volumes de données élevés et des résultats à multiples facettes. Par conséquent, il est de plus en plus difficile de documenter avec précision toutes les étapes nécessaires pour obtenir un résultat, ce qui rend difficile la reproduction du résultat donné. Ici, nous démontrons une stratégie générale qui combine l’automatisation et la facilité d’un flux de travail automatisé qui produit un rapport générique, avec la flexibilité de personnaliser le rapport de manière reproductible.

Trois conditions doivent être remplies pour que le protocole fonctionne: premièrement, les protéines sélectionnées pour l’analyse doivent interagir de manière à ce que l’expérience de réticulation chimique puisse produire des espèces réticulées à une concentration suffisamment élevée pour être détectées par le spectromètre de masse; différents spectromètres de masse ont différents niveaux de détection et dépendent également du protocole d’acquisition ainsi que du choix du réactif de réticulation. La version actuelle du protocole TX-MS ne permet que le DSS, un réactif de réticulation homobifonctionnel lysine-lysine. Néanmoins, cette limitation est principalement due à la possibilité que l’étape d’apprentissage automatique doive être ajustée pour d’autres réactifs. Cette limitation a été améliorée dans le serveur Web Cheetah-MS car deux autres réactifs de réticulation peuvent être envisagés, mais tous les trois sont des réactifs non clivables. Deuxièmement, les deux protéines doivent soit avoir une structure déterminée expérimentalement, soit être modélisées à l’aide de techniques de modélisation comparative ou de techniques de novo . Toutes les protéines ne peuvent pas être modélisées, mais une combinaison de logiciels améliorés et d’un dépôt constant de structures expérimentales dans l’APB augmente le nombre de protéines pouvant être modélisées. Troisièmement, les protéines en interaction doivent rester suffisamment similaires dans leurs états liés et non liés pour que les algorithmes d’amarrage utilisés par TX-MS et Cheetah-MS puissent créer des structures quaternaires de qualité adéquate pour permettre la notation. Cette exigence est relativement vague, car la qualité acceptable dépend fortement du système, où les protéines plus petites de structure connue sont généralement plus faciles à comparer que les protéines plus grandes de structure inconnue.

En cas de résultat négatif, vérifiez d’abord que TX-MS a trouvé des intra-liens, des réticulations entre résidus qui font partie de la même chaîne polypeptidique. Si aucun n’est découvert, l’explication la plus probable est que quelque chose s’est mal passé avec la préparation de l’échantillon ou l’acquisition des données. Si plusieurs contraintes de distance ne prennent pas en charge les modèles, inspectez visuellement les modèles pour vous assurer que la conformation est soutenue par des résidus réticulés. Il n’y a pas de moyen évident de faire pivoter l’un des interacteurs sans perturber au moins une liaison croisée. S’il y a des réticulations plus longues que la distance autorisée pour le réactif de réticulation donné, essayez d’améliorer la modélisation des interacteurs en incorporant des données de réticulation.

Il est possible d’utiliser d’autres applications logicielles pour obtenir des résultats équivalents à condition que la sensibilité du logiciel choisi soit comparable à la sensibilité de TX-MS. Par exemple, il existe des versions en ligne de RosettaDock, HADDOCK et autres. Il est également possible d’analyser des données de réticulation chimique via xQuest/xProphet 5,6, plink7 et SIM-XL26.

Nous appliquons continuellement TX-MS et Cheetah-MS aux nouveaux projets 27,28,29, améliorant ainsi les rapports produits par ces approches pour permettre une analyse plus détaillée des résultats sans agrandir les rapports.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par la Fondation de Knut et Alice Wallenberg (subvention n° 2016.0023) et le Fonds national suisse de la recherche scientifique (subvention n° 2016.0023) P2ZHP3_191289). En outre, nous remercions S3IT, Université de Zurich, pour son infrastructure informatique et son support technique.

Materials

Two Protein DataBank files of the proteins of interest. N/A N/A Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621
An mzML data file acquired on a sample where the proteins of interest were crosslinked. N/A N/A Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621

References

  1. Berman, H. M., et al. The Protein Data Bank. Acta Crystallographica Section D: Biological Crystallography. 58 (6), 899-907 (2002).
  2. Herzog, F., et al. Structural Probing of a Protein Phosphatase 2A Network by Chemical Cross-Linking and Mass Spectrometry. Science. 337 (6100), 1348-1352 (2012).
  3. Hoopmann, M. R., et al. Kojak: efficient analysis of chemically cross-linked protein complexes. Journal of Proteome Research. 14 (5), 2190-2198 (2015).
  4. Seebacher, J., et al. Protein cross-linking analysis using mass spectrometry, isotope-coded cross-linkers, and integrated computational data processing. Journal of Proteome Research. 5 (9), 2270-2282 (2006).
  5. Rinner, O., et al. Identification of cross-linked peptides from large sequence databases. Nature Methods. 5 (4), 315-318 (2008).
  6. Walzthoeni, T., et al. False discovery rate estimation for cross-linked peptides identified by mass spectrometry. Nature Methods. 9 (9), 901-903 (2012).
  7. Yang, B., et al. Identification of cross-linked peptides from complex samples. Nature Methods. 9 (9), 904-906 (2012).
  8. Chu, F., Baker, P. R., Burlingame, A. L., Chalkley, R. J. Finding Chimeras: a Bioinformatics Strategy for Identification of Cross-linked Peptides. Molecular & Cellular Proteomics. 9 (1), 25-31 (2010).
  9. Holding, A. N., Lamers, M. H., Stephens, E., Skehel, J. M. Hekate: Software Suite for the Mass Spectrometric Analysis and Three-Dimensional Visualization of Cross-Linked Protein Samples. Journal of Proteome Research. 12 (12), 5923-5933 (2013).
  10. Hauri, S., et al. Rapid determination of quaternary protein structures in complex biological samples. Nature Communications. 10 (1), 192 (2019).
  11. Röst, H. L., et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS data. Nature Biotechnology. 32 (3), 219-223 (2014).
  12. Röst, H. L., et al. OpenMS: a flexible open-source software platform for mass spectrometry data analysis. Nature Methods. 13 (9), 741-748 (2016).
  13. Quandt, A., et al. Using synthetic peptides to benchmark peptide identification software and search parameters for MS/MS data analysis. EuPA Open Proteomics. 5, 21-31 (2014).
  14. Bradley, P., et al. Free modeling with Rosetta in CASP6. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 128-134 (2005).
  15. Gray, J. J. High-resolution protein-protein docking. Current Opinion in Structural Biology. 16 (2), 183-193 (2006).
  16. Khakzad, H., et al. Cheetah-MS: a web server to model protein complexes using tandem cross-linking mass spectrometry data. Bioinformatics. , (2021).
  17. Malmström, L. Chapter 15: Computational Proteomics with Jupyter and Python. Methods in Molecular Biology. 15, 237-248 (1977).
  18. Martens, L., et al. mzML–a community standard for mass spectrometry data. Molecular & Cellular Proteomics. 10 (1), (2011).
  19. Chambers, M. C., et al. A cross-platform toolkit for mass spectrometry and proteomics. Nature Biotechnology. 30 (10), 918-920 (2012).
  20. Waterhouse, A., et al. SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic Acids Research. 46 (W1), W296-W303 (2018).
  21. Yang, J., et al. Improved protein structure prediction using predicted interresidue orientations. Proceedings of the National Academy of Sciences. 117 (3), 1496-1503 (2020).
  22. Koehler Leman, J., et al. Macromolecular modeling and design in Rosetta: recent methods and frameworks. Nature Methods. 17 (7), 665-680 (2020).
  23. Chivian, D., et al. Prediction of CASP6 structures using automated Robetta protocols. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 157-166 (2005).
  24. Chivian, D., et al. Automated prediction of CASP-5 structures using the Robetta server. Proteins: Structure, Function, and Bioinformatics. 53 (S6), 524-533 (2003).
  25. Bauch, A., et al. openBIS: a flexible framework for managing and analyzing complex data in biology research. BMC Bioinformatics. 12, 468 (2011).
  26. Lima, D. B., et al. SIM-XL: A powerful and user-friendly tool for peptide cross-linking analysis. Journal of Proteomics. 129, 51-55 (2015).
  27. Happonen, L., et al. A quantitative Streptococcus pyogenes-human protein-protein interaction map reveals localization of opsonizing antibodies. Nature Communications. 10, 2727 (2019).
  28. Khakzad, H., et al. Structural determination of Streptococcus pyogenes M1 protein interactions with human immunoglobulin G using integrative structural biology. PLOS Computational Biology. 17 (1), E1008169 (2021).
  29. Khakzad, H., et al. In vivo cross-linking MS of the complement system MAC assembled on live Gram-positive bacteria. Frontiers in Genetics. 11, (2020).

Play Video

Cite This Article
Khakzad, H., Vermeul, S., Malmström, L. Quaternary Structure Modeling Through Chemical Cross-Linking Mass Spectrometry: Extending TX-MS Jupyter Reports. J. Vis. Exp. (176), e60311, doi:10.3791/60311 (2021).

View Video