Espectrometria de massa cruzada direcionada cria modelos de estrutura de proteína quaternária usando dados de espectrometria de massa adquiridos usando até três protocolos de aquisição diferentes. Quando executados como um fluxo de trabalho simplificado no servidor web Cheetah-MS, os resultados são relatados em um Notebook Jupyter. Aqui, demonstramos os aspectos técnicos de como o Caderno Jupyter pode ser estendido para uma análise mais aprofundada.
As interações proteína-proteína podem ser desafiadoras para estudar, mas fornecem insights sobre como os sistemas biológicos funcionam. Espectrometria de massa cruzada (TX-MS), um método que combina modelagem de estrutura de proteínas quaternárias e espectrometria de massa transversal química, cria modelos de estrutura de alta precisão usando dados obtidos a partir de amostras complexas e não fracionadas. Isso remove um dos principais obstáculos à análise da estrutura complexa proteica, pois as proteínas de interesse não precisam mais ser purificadas em grandes quantidades. O servidor web Cheetah-MS foi desenvolvido para tornar a versão simplificada do protocolo mais acessível à comunidade. Considerando os dados tandem MS/MS, o Cheetah-MS gera um Caderno Jupyter, um relatório gráfico que resume os resultados de análise mais importantes. Estender o Caderno Jupyter pode produzir insights mais aprofundados e entender melhor o modelo e os dados de espectrometria de massa que o suportam. O protocolo técnico aqui apresentado demonstra algumas das extensões mais comuns e explica quais informações podem ser obtidas. Contém blocos para ajudar a analisar os dados de aquisição de MS/MS tandem e o impacto geral dos XLs detectados nos modelos quaternários relatados. O resultado dessas análises pode ser aplicado a modelos estruturais que estão incorporados no notebook usando o NGLView.
As interações proteína-proteína sustentam a estrutura e a função dos sistemas biológicos. Ter acesso a estruturas quaternárias de proteínas pode fornecer insights sobre como duas ou mais proteínas interagem para formar estruturas de alta ordem. Infelizmente, a obtenção de estruturas quaternárias permanece desafiadora; isso se reflete no número relativamente pequeno de entradas do Protein DataBank (PDB)1 contendo mais de um polipeptídeo. Interações proteína-proteína podem ser estudadas com tecnologias como cristalografia de raios-X, RMN e crio-EM, mas obter uma quantidade suficiente de proteína purificada em condições onde os métodos podem ser aplicados pode ser demorado.
A espectrometria de massa transversal química foi desenvolvida para obter dados experimentais sobre interações proteína-proteína com menos restrições na preparação da amostra, pois a espectrometria de massa pode ser usada para adquirir dados em amostras arbitrariamente complexas 2,3,4,5,6,7,8,9 . No entanto, a natureza combinatória da análise dos dados e o número relativamente pequeno de peptídeos transversais exigem que as amostras sejam fracionadas antes da análise. Para supridamente essa deficiência, desenvolvemos o TX-MS, um método que combina modelagem computacional com espectrometria de massa transversalquímica 10. O TX-MS pode ser usado em amostras arbitrariamente complexas e é significativamente mais sensível em comparação com os métodos anteriores10. Ele consegue isso pontuando todos os dados associados a uma interação proteína-proteína dada como um conjunto em vez de interpretar cada espectro de MS de forma independente. A TX-MS também usa até três protocolos diferentes de aquisição de MS: MS1 de alta resolução (hrMS1), aquisição dependente de dados (DDA) e aquisição independente de dados (DIA), fornecendo ainda oportunidades para identificar um peptídeo intercriado, combinando múltiplas observações. O fluxo de trabalho computacional TX-MS é complexo por várias razões. Primeiro, conta com vários programas de software de análise de MS 11,12,13 para criar modelos de estrutura proteica14,15. Em segundo lugar, a quantidade de dados pode ser considerável. Em terceiro lugar, a etapa de modelagem pode consumir quantidades significativas de poder de processamento de computador.
Consequentemente, o TX-MS é melhor usado como um fluxo de trabalho computacional automatizado e simplificado através do servidor web Cheetah-MS16 que é executado em grandes infraestruturas computacionais, como nuvens de computador ou clusters. Para facilitar a interpretação dos resultados, produzimos um Notebook Jupyter interativo17. Aqui, demonstramos como o relatório do Caderno Jupyter pode ser estendido para produzir uma análise mais aprofundada de um determinado resultado.
Os fluxos de trabalho computacionais modernos são muitas vezes complexos, com múltiplas ferramentas de muitos fornecedores diferentes, interdependências complexas, altos volumes de dados e resultados multifacetados. Consequentemente, é cada vez mais difícil documentar com precisão todas as etapas necessárias para obter um resultado, dificultando a reprodução do resultado dado. Aqui, demonstramos uma estratégia geral que combina a automação e a facilidade de um fluxo de trabalho automatizado que produz um relatório genérico, com a flexibilidade de personalizar o relatório de forma reprodutível.
Três requisitos precisam ser cumpridos para que o protocolo funcione: Primeiro, as proteínas selecionadas para análise precisam interagir de tal forma que o experimento de ligação cruzada química possa produzir espécies transversais em uma concentração suficientemente alta a ser detectada pelo espectrômetro de massa; diferentes espectrômetros de massa têm diferentes níveis de detecção e também dependem do protocolo de aquisição, bem como da escolha do reagente transversal. A versão atual do protocolo TX-MS só permite dss, um reagente homobifuncional de ligação homobifuncional de lise. Ainda assim, essa limitação deve-se principalmente à possibilidade de que a etapa de aprendizagem de máquina precisaria ser ajustada para outros reagentes. Essa limitação foi melhorada no servidor web Cheetah-MS, pois mais dois reagentes de ligação cruzada podem ser considerados, mas todos os três são reagentes não-cleaváveis. Em segundo lugar, as duas proteínas precisam ter uma estrutura experimentalmente determinada ou serem modeladas usando técnicas comparativas de modelagem ou técnicas de novo . Nem todas as proteínas podem ser modeladas, mas uma combinação de software melhorado e uma constante deposição de estruturas experimentais no PDB expande o número de proteínas que podem ser modeladas. Em terceiro lugar, as proteínas interativas devem permanecer suficientemente semelhantes em seus estados vinculados e desvinculados para que os algoritmos de acoplamento em uso por TX-MS e Cheetah-MS possam criar estruturas quaternárias de qualidade adequada para permitir a pontuação. Essa exigência é relativamente vaga, pois a qualidade aceitável é altamente dependente do sistema, onde proteínas menores de estrutura conhecida são geralmente mais fáceis de comparar do que proteínas maiores de estrutura desconhecida.
Em caso de resultado negativo, primeiro verifique se o TX-MS encontrou intra-links, cruzamentos entre resíduos que fazem parte da mesma cadeia de polipeptídeos. Se nenhum for descoberto, a explicação mais provável é que algo deu errado com a preparação da amostra ou a aquisição de dados. Se as restrições de distância múltipla não suportarem os modelos, inspecione visualmente os modelos para garantir que a conformação seja suportada por resíduos intercedidos. Não há uma maneira óbvia de pivotar um dos interajadores sem interromper pelo menos um link cruzado. Se houver cruzamentos mais longos do que a distância permitida para o reagente de ligação cruzada dado, tente melhorar a modelagem dos interactores incorporando dados de ligação cruzada.
É possível usar aplicativos de software alternativos para alcançar resultados equivalentes, desde que a sensibilidade do software escolhido seja comparável à sensibilidade do TX-MS. Por exemplo, há versões online de RosettaDock, HADDOCK e outros. Também é possível analisar dados de cruzamento químico através do xQuest/xProphet 5,6, plink7 e SIM-XL26.
Estamos continuamente aplicando TX-MS e Cheetah-MS em novos projetos 27,28,29, melhorando assim os relatórios produzidos por essas abordagens para permitir uma análise mais detalhada dos resultados sem tornar os relatórios maiores.
The authors have nothing to disclose.
Este trabalho foi apoiado pela Fundação de Knut e Alice Wallenberg (bolsa nº 2016.0023) e pela Fundação Nacional de Ciência suíça (bolsa nº. P2ZHP3_191289). Além disso, agradecemos à S3IT, Universidade de Zurique, por sua infraestrutura computacional e suporte técnico.
Two Protein DataBank files of the proteins of interest. | N/A | N/A | Example files available on txms.org and zenodo.org, DOI 10.5281/zenodo.3361621 |
An mzML data file acquired on a sample where the proteins of interest were crosslinked. | N/A | N/A | Example files available on txms.org or zenodo.org, DOI 10.5281/zenodo.3361621 |