概要

Modelagem da estrutura quaternária através da espectrometria de massa transversal química: estendendo os relatórios de Jupyter TX-MS

Published: October 20, 2021
doi:

概要

Espectrometria de massa cruzada direcionada cria modelos de estrutura de proteína quaternária usando dados de espectrometria de massa adquiridos usando até três protocolos de aquisição diferentes. Quando executados como um fluxo de trabalho simplificado no servidor web Cheetah-MS, os resultados são relatados em um Notebook Jupyter. Aqui, demonstramos os aspectos técnicos de como o Caderno Jupyter pode ser estendido para uma análise mais aprofundada.

Abstract

As interações proteína-proteína podem ser desafiadoras para estudar, mas fornecem insights sobre como os sistemas biológicos funcionam. Espectrometria de massa cruzada (TX-MS), um método que combina modelagem de estrutura de proteínas quaternárias e espectrometria de massa transversal química, cria modelos de estrutura de alta precisão usando dados obtidos a partir de amostras complexas e não fracionadas. Isso remove um dos principais obstáculos à análise da estrutura complexa proteica, pois as proteínas de interesse não precisam mais ser purificadas em grandes quantidades. O servidor web Cheetah-MS foi desenvolvido para tornar a versão simplificada do protocolo mais acessível à comunidade. Considerando os dados tandem MS/MS, o Cheetah-MS gera um Caderno Jupyter, um relatório gráfico que resume os resultados de análise mais importantes. Estender o Caderno Jupyter pode produzir insights mais aprofundados e entender melhor o modelo e os dados de espectrometria de massa que o suportam. O protocolo técnico aqui apresentado demonstra algumas das extensões mais comuns e explica quais informações podem ser obtidas. Contém blocos para ajudar a analisar os dados de aquisição de MS/MS tandem e o impacto geral dos XLs detectados nos modelos quaternários relatados. O resultado dessas análises pode ser aplicado a modelos estruturais que estão incorporados no notebook usando o NGLView.

Introduction

As interações proteína-proteína sustentam a estrutura e a função dos sistemas biológicos. Ter acesso a estruturas quaternárias de proteínas pode fornecer insights sobre como duas ou mais proteínas interagem para formar estruturas de alta ordem. Infelizmente, a obtenção de estruturas quaternárias permanece desafiadora; isso se reflete no número relativamente pequeno de entradas do Protein DataBank (PDB)1 contendo mais de um polipeptídeo. Interações proteína-proteína podem ser estudadas com tecnologias como cristalografia de raios-X, RMN e crio-EM, mas obter uma quantidade suficiente de proteína purificada em condições onde os métodos podem ser aplicados pode ser demorado.

A espectrometria de massa transversal química foi desenvolvida para obter dados experimentais sobre interações proteína-proteína com menos restrições na preparação da amostra, pois a espectrometria de massa pode ser usada para adquirir dados em amostras arbitrariamente complexas 2,3,4,5,6,7,8,9 . No entanto, a natureza combinatória da análise dos dados e o número relativamente pequeno de peptídeos transversais exigem que as amostras sejam fracionadas antes da análise. Para supridamente essa deficiência, desenvolvemos o TX-MS, um método que combina modelagem computacional com espectrometria de massa transversalquímica 10. O TX-MS pode ser usado em amostras arbitrariamente complexas e é significativamente mais sensível em comparação com os métodos anteriores10. Ele consegue isso pontuando todos os dados associados a uma interação proteína-proteína dada como um conjunto em vez de interpretar cada espectro de MS de forma independente. A TX-MS também usa até três protocolos diferentes de aquisição de MS: MS1 de alta resolução (hrMS1), aquisição dependente de dados (DDA) e aquisição independente de dados (DIA), fornecendo ainda oportunidades para identificar um peptídeo intercriado, combinando múltiplas observações. O fluxo de trabalho computacional TX-MS é complexo por várias razões. Primeiro, conta com vários programas de software de análise de MS 11,12,13 para criar modelos de estrutura proteica14,15. Em segundo lugar, a quantidade de dados pode ser considerável. Em terceiro lugar, a etapa de modelagem pode consumir quantidades significativas de poder de processamento de computador.

Consequentemente, o TX-MS é melhor usado como um fluxo de trabalho computacional automatizado e simplificado através do servidor web Cheetah-MS16 que é executado em grandes infraestruturas computacionais, como nuvens de computador ou clusters. Para facilitar a interpretação dos resultados, produzimos um Notebook Jupyter interativo17. Aqui, demonstramos como o relatório do Caderno Jupyter pode ser estendido para produzir uma análise mais aprofundada de um determinado resultado.

Protocol

1. Submeter fluxo de trabalho em https://txms.org. Vá para https://txms.org e clique em “Use Cheetah-MS”. Para enviar fluxo de trabalho, você precisa fornecer dois arquivos PDB e um arquivo MS/MS mzML ou MGF. Você também pode clicar no “dados de amostra de carga” para ver a versão demonstrada do fluxo de trabalho.NOTA: Por favor, olhe para a página manual do servidor web para obter informações detalhadas sobre como enviar um trabalho. O servidor web suporta diferentes agentes cross-linker não-cleavable, até 12 modificações pós-translacionais (PTMs), opções relacionadas à modelagem computacional e análise de dados de MS. Pequenos botões de ajuda também são projetados na página de envio para mostrar mais informações sobre cada opção. 2. Corra Cheetah-MS. NOTA: Converta os formatos específicos do fornecedor para mzML ou MGF usando o software ProteoWizard MSConvert19. Carregue os dados do MS para https://txms.org. Em seguida, clique em “Escolher arquivo” e selecione os dados ms, que devem estar nos formatos de dados mzML/MGF18.NOTA: Os dados do exemplo estão disponíveis em https://txms.org. Esses dados também são diretamente acessíveis através zenodo.org, DOI 10.5281/zenodo.3361621. Carregue dois arquivos PDB para https://txms.org. Clique em “Escolher arquivo” e selecione os arquivos PDB para carregar.NOTA: Se não houver estruturas experimentais, crie modelos usando, por exemplo, o SWISS-MODEL20 se estruturas de homólogo estiverem disponíveis, ou trRosetta21,22 ou Robetta23,24 servidores web para previsões de estrutura de novo. Envie um novo fluxo de trabalho. Clique em “Enviar” para receber uma tag identificador de trabalho. Em seguida, siga o formulário para a seção de resultados usando esta tag.NOTA: Calcular o resultado leva tempo, então, por favor, aguarde até o término do fluxo de trabalho e armazene a tag identificador de trabalho para retornar à página de resultados. O cálculo é realizado em infraestrutura computacional remota. Se você quiser executar TX-MS localmente, consulte Hauri et al.10. Inspecione o relatório do Caderno Jupyter usando o visualizador online. Em seguida, role para baixo para “Relatar” na seção de resultados usando a tag identificador de trabalho. 3. Instale o JupyterHub. Instale o docker conforme instruído em https://docs.docker.com/install/. Baixe o contêiner docker JupyterHub com a extensão Jupyter openBIS25. O comando geral é “docker pull malmstroem/jove:latest”, mas pode diferir em outras plataformas.NOTA: Para uma discussão geral sobre como baixar contêineres, consulte https://www.docker.com/get-started. Também é possível baixar o contêiner a partir de zenodo.org, DOI 10.5281/zenodo.3361621.NOTA: O código-fonte de extensão jupyter openBIS está disponível aqui: https://pypi.org/project/jupyter-openbis-extension/. Inicie o contêiner docker: docker run -p 8178:8000 malmstroem/jove:latest.NOTA: A porta que o JupyterHub usa por padrão é 8000. Esta porta é configurável, e os comandos acima precisam ser ajustados de acordo se alterados. A porta 8178 é uma escolha arbitrária e pode ser alterada. Os URLs de exemplo fornecidos abaixo precisam ser ajustados em conformidade. Acesse o seguinte endereço: http://127.0.0.1:8178. Faça login usando o nome de usuário “usuário” e a senha “usuário”.NOTA: O endereço http://127.0.0.1 implica que o contêiner docker está sendo executado no computador local. Se o contêiner docker for executado em um servidor, use o endereço IP ou URL do servidor (por exemplo, https://example.com). O contêiner docker é baseado no Ubuntu Bionic 18.04, JupyterHub 0.9.6 e jupyter openBIS extension 0.2. É possível instalá-lo em outros sistemas operacionais, mas isso não foi testado. 4. Baixe o relatório. Crie um novo notebook clicando em Novo| Python 3 usando o menu localizado perto da parte superior direita da página. Isso abrirá uma nova guia com um notebook chamado Untitled (ou algo semelhante). Clique em “Configurar conexões openBIS” no menu da ferramenta Jupyter. Preencha o nome: txms; URL: https://txms.org; usuário: convidado; senha: guestpasswd. Clique em “Conectar”. Escolha a nova conexão e clique em “Escolher conexão”. Pesquise o modelo de relatório (por exemplo, /CHEETAH/WF70) e clique em Baixar.NOTA: Você precisa ajustar o modelo de relatório com base nos resultados e relatar que obteve ao executar seu trabalho no servidor web Cheetah-MS. Reexecute o relatório clicando em Cell | Corra tudo. 5. Estender o relatório. Adicione uma nova célula na parte inferior: | celular Insira abaixo. Digite o código procurado. Por exemplo, consulte a seção Resultados representativos abaixo. Execute a célula pressionando “Shift-Enter”.

Representative Results

O TX-MS fornece saídas estruturais suportadas por restrições experimentais derivadas de MS. Ele funciona combinando diferentes tipos de aquisição de dados de MS com modelagem computacional. Portanto, é útil analisar cada dado ms separadamente e fornecer visualização da estrutura de saída. O Dados Suplementar 1 contém um notebook de exemplo que pode analisar dados DDA e DIA produzidos como saída TX-MS. Os usuários podem selecionar o XL de interesse. Ao executar o notebook, o espectro MS2 desse XL será mostrado onde diferentes cores ajudam a discriminar entre fragmentos relacionados ao primeiro peptídeo, segundo peptídeo e íons de fragmento combinatório. O XL também pode ser mapeado para a estrutura usando o widget NGLView incorporado em um Notebook Jupyter. Outra célula neste notebook pode ajudar os usuários a analisar e visualizar dados do DIA. No entanto, a visualização dos dados do DIA é mais difícil porque os dados analisados precisam ser preparados no formato correto. A Figura 1 mostra uma estrutura de exemplo de M1 e albumina com XLs topo mapeados na estrutura. O TX-MS obteve todos os XLs após a análise dos dados do HRMS1, DDA e DIA, e o protocolo RosettaDock forneceu os modelos computacionais. Como este relatório é um Caderno Jupyter, qualquer código Python válido pode ser adicionado a novas células de notebook. Por exemplo, o código abaixo criará um histograma sobre as contagens de MS2, indicando o quão bem suportado cada cross-link é pelos dados subjacentes.importação seaborn como snssns.distplot(ms2[‘count’); Figura 1: Modelo estrutural de Streptococcus pyogenes M1 proteína e albumina humana com XLs mapeados na estrutura. A proteína M1 é mostrada em cinza e constitui um homodimer. As seis moléculas de albumina são apresentadas como pares em vários tons de azul. Links cruzados e distâncias são dadas em vermelho com texto preto. Clique aqui para ver uma versão maior desta figura. Arquivo Suplementar. Dados do caderno Jupyter. Clique aqui para baixar este Arquivo.

Discussion

Os fluxos de trabalho computacionais modernos são muitas vezes complexos, com múltiplas ferramentas de muitos fornecedores diferentes, interdependências complexas, altos volumes de dados e resultados multifacetados. Consequentemente, é cada vez mais difícil documentar com precisão todas as etapas necessárias para obter um resultado, dificultando a reprodução do resultado dado. Aqui, demonstramos uma estratégia geral que combina a automação e a facilidade de um fluxo de trabalho automatizado que produz um relatório genérico, com a flexibilidade de personalizar o relatório de forma reprodutível.

Três requisitos precisam ser cumpridos para que o protocolo funcione: Primeiro, as proteínas selecionadas para análise precisam interagir de tal forma que o experimento de ligação cruzada química possa produzir espécies transversais em uma concentração suficientemente alta a ser detectada pelo espectrômetro de massa; diferentes espectrômetros de massa têm diferentes níveis de detecção e também dependem do protocolo de aquisição, bem como da escolha do reagente transversal. A versão atual do protocolo TX-MS só permite dss, um reagente homobifuncional de ligação homobifuncional de lise. Ainda assim, essa limitação deve-se principalmente à possibilidade de que a etapa de aprendizagem de máquina precisaria ser ajustada para outros reagentes. Essa limitação foi melhorada no servidor web Cheetah-MS, pois mais dois reagentes de ligação cruzada podem ser considerados, mas todos os três são reagentes não-cleaváveis. Em segundo lugar, as duas proteínas precisam ter uma estrutura experimentalmente determinada ou serem modeladas usando técnicas comparativas de modelagem ou técnicas de novo . Nem todas as proteínas podem ser modeladas, mas uma combinação de software melhorado e uma constante deposição de estruturas experimentais no PDB expande o número de proteínas que podem ser modeladas. Em terceiro lugar, as proteínas interativas devem permanecer suficientemente semelhantes em seus estados vinculados e desvinculados para que os algoritmos de acoplamento em uso por TX-MS e Cheetah-MS possam criar estruturas quaternárias de qualidade adequada para permitir a pontuação. Essa exigência é relativamente vaga, pois a qualidade aceitável é altamente dependente do sistema, onde proteínas menores de estrutura conhecida são geralmente mais fáceis de comparar do que proteínas maiores de estrutura desconhecida.

Em caso de resultado negativo, primeiro verifique se o TX-MS encontrou intra-links, cruzamentos entre resíduos que fazem parte da mesma cadeia de polipeptídeos. Se nenhum for descoberto, a explicação mais provável é que algo deu errado com a preparação da amostra ou a aquisição de dados. Se as restrições de distância múltipla não suportarem os modelos, inspecione visualmente os modelos para garantir que a conformação seja suportada por resíduos intercedidos. Não há uma maneira óbvia de pivotar um dos interajadores sem interromper pelo menos um link cruzado. Se houver cruzamentos mais longos do que a distância permitida para o reagente de ligação cruzada dado, tente melhorar a modelagem dos interactores incorporando dados de ligação cruzada.

É possível usar aplicativos de software alternativos para alcançar resultados equivalentes, desde que a sensibilidade do software escolhido seja comparável à sensibilidade do TX-MS. Por exemplo, há versões online de RosettaDock, HADDOCK e outros. Também é possível analisar dados de cruzamento químico através do xQuest/xProphet 5,6, plink7 e SIM-XL26.

Estamos continuamente aplicando TX-MS e Cheetah-MS em novos projetos 27,28,29, melhorando assim os relatórios produzidos por essas abordagens para permitir uma análise mais detalhada dos resultados sem tornar os relatórios maiores.

開示

The authors have nothing to disclose.

Acknowledgements

Este trabalho foi apoiado pela Fundação de Knut e Alice Wallenberg (bolsa nº 2016.0023) e pela Fundação Nacional de Ciência suíça (bolsa nº. P2ZHP3_191289). Além disso, agradecemos à S3IT, Universidade de Zurique, por sua infraestrutura computacional e suporte técnico.

Materials

Two Protein DataBank files of the proteins of interest. N/A N/A Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621
An mzML data file acquired on a sample where the proteins of interest were crosslinked. N/A N/A Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621

参考文献

  1. Berman, H. M., et al. The Protein Data Bank. Acta Crystallographica Section D: Biological Crystallography. 58 (6), 899-907 (2002).
  2. Herzog, F., et al. Structural Probing of a Protein Phosphatase 2A Network by Chemical Cross-Linking and Mass Spectrometry. Science. 337 (6100), 1348-1352 (2012).
  3. Hoopmann, M. R., et al. Kojak: efficient analysis of chemically cross-linked protein complexes. Journal of Proteome Research. 14 (5), 2190-2198 (2015).
  4. Seebacher, J., et al. Protein cross-linking analysis using mass spectrometry, isotope-coded cross-linkers, and integrated computational data processing. Journal of Proteome Research. 5 (9), 2270-2282 (2006).
  5. Rinner, O., et al. Identification of cross-linked peptides from large sequence databases. Nature Methods. 5 (4), 315-318 (2008).
  6. Walzthoeni, T., et al. False discovery rate estimation for cross-linked peptides identified by mass spectrometry. Nature Methods. 9 (9), 901-903 (2012).
  7. Yang, B., et al. Identification of cross-linked peptides from complex samples. Nature Methods. 9 (9), 904-906 (2012).
  8. Chu, F., Baker, P. R., Burlingame, A. L., Chalkley, R. J. Finding Chimeras: a Bioinformatics Strategy for Identification of Cross-linked Peptides. Molecular & Cellular Proteomics. 9 (1), 25-31 (2010).
  9. Holding, A. N., Lamers, M. H., Stephens, E., Skehel, J. M. Hekate: Software Suite for the Mass Spectrometric Analysis and Three-Dimensional Visualization of Cross-Linked Protein Samples. Journal of Proteome Research. 12 (12), 5923-5933 (2013).
  10. Hauri, S., et al. Rapid determination of quaternary protein structures in complex biological samples. Nature Communications. 10 (1), 192 (2019).
  11. Röst, H. L., et al. OpenSWATH enables automated, targeted analysis of data-independent acquisition MS data. Nature Biotechnology. 32 (3), 219-223 (2014).
  12. Röst, H. L., et al. OpenMS: a flexible open-source software platform for mass spectrometry data analysis. Nature Methods. 13 (9), 741-748 (2016).
  13. Quandt, A., et al. Using synthetic peptides to benchmark peptide identification software and search parameters for MS/MS data analysis. EuPA Open Proteomics. 5, 21-31 (2014).
  14. Bradley, P., et al. Free modeling with Rosetta in CASP6. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 128-134 (2005).
  15. Gray, J. J. High-resolution protein-protein docking. Current Opinion in Structural Biology. 16 (2), 183-193 (2006).
  16. Khakzad, H., et al. Cheetah-MS: a web server to model protein complexes using tandem cross-linking mass spectrometry data. バイオインフォマティクス. , (2021).
  17. Malmström, L. Chapter 15: Computational Proteomics with Jupyter and Python. Methods in Molecular Biology. 15, 237-248 (1977).
  18. Martens, L., et al. mzML–a community standard for mass spectrometry data. Molecular & Cellular Proteomics. 10 (1), (2011).
  19. Chambers, M. C., et al. A cross-platform toolkit for mass spectrometry and proteomics. Nature Biotechnology. 30 (10), 918-920 (2012).
  20. Waterhouse, A., et al. SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic Acids Research. 46 (W1), W296-W303 (2018).
  21. Yang, J., et al. Improved protein structure prediction using predicted interresidue orientations. Proceedings of the National Academy of Sciences. 117 (3), 1496-1503 (2020).
  22. Koehler Leman, J., et al. Macromolecular modeling and design in Rosetta: recent methods and frameworks. Nature Methods. 17 (7), 665-680 (2020).
  23. Chivian, D., et al. Prediction of CASP6 structures using automated Robetta protocols. Proteins: Structure, Function, and Bioinformatics. 61 (S7), 157-166 (2005).
  24. Chivian, D., et al. Automated prediction of CASP-5 structures using the Robetta server. Proteins: Structure, Function, and Bioinformatics. 53 (S6), 524-533 (2003).
  25. Bauch, A., et al. openBIS: a flexible framework for managing and analyzing complex data in biology research. BMC Bioinformatics. 12, 468 (2011).
  26. Lima, D. B., et al. SIM-XL: A powerful and user-friendly tool for peptide cross-linking analysis. Journal of Proteomics. 129, 51-55 (2015).
  27. Happonen, L., et al. A quantitative Streptococcus pyogenes-human protein-protein interaction map reveals localization of opsonizing antibodies. Nature Communications. 10, 2727 (2019).
  28. Khakzad, H., et al. Structural determination of Streptococcus pyogenes M1 protein interactions with human immunoglobulin G using integrative structural biology. PLOS Computational Biology. 17 (1), E1008169 (2021).
  29. Khakzad, H., et al. In vivo cross-linking MS of the complement system MAC assembled on live Gram-positive bacteria. Frontiers in Genetics. 11, (2020).

Play Video

記事を引用
Khakzad, H., Vermeul, S., Malmström, L. Quaternary Structure Modeling Through Chemical Cross-Linking Mass Spectrometry: Extending TX-MS Jupyter Reports. J. Vis. Exp. (176), e60311, doi:10.3791/60311 (2021).

View Video