Descrevemos uma metodologia baseada na diversificação de sequências para estimar as preferências de aminoácidos de sítios de ligação multiespecíficos em interações proteína-proteína (PPIs). Nessa estratégia, milhares de potenciais ligantes peptídicos são gerados e rastreados in silico, superando assim algumas limitações dos métodos experimentais disponíveis.
Muitas interações proteína-proteína envolvem a ligação de segmentos curtos de proteínas a domínios de ligação a peptídeos. Normalmente, tais interações requerem o reconhecimento de motivos lineares com conservação variável. A combinação de regiões altamente conservadas e mais variáveis nos mesmos ligantes geralmente contribui para a multiespecificidade da ligação, uma propriedade comum de enzimas e proteínas de sinalização celular. A caracterização das preferências de aminoácidos dos domínios de ligação a peptídeos é importante para o projeto de mediadores de interações proteína-proteína (PPIs). Os métodos computacionais são uma alternativa eficiente às técnicas experimentais muitas vezes caras e complicadas, permitindo o projeto de potenciais mediadores que podem ser posteriormente validados em experimentos a jusante. Aqui, descrevemos uma metodologia usando a aplicação Pepspec do pacote de modelagem molecular Rosetta para prever as preferências de aminoácidos dos domínios de ligação a peptídeos. Essa metodologia é útil quando a estrutura da proteína receptora e a natureza do ligante peptídico são conhecidas ou podem ser inferidas. A metodologia começa com uma âncora bem caracterizada do ligante, que é estendida pela adição aleatória de resíduos de aminoácidos. A afinidade de ligação dos peptídeos gerados dessa maneira é então avaliada por docking de peptídeos de backbone flexível para selecionar os peptídeos com as melhores pontuações de ligação previstas. Esses peptídeos são então usados para calcular as preferências de aminoácidos e, opcionalmente, calcular uma matriz posição-peso (PWM) que pode ser usada em estudos posteriores. Para ilustrar a aplicação dessa metodologia, usamos a interação entre subunidades do fator regulador de interferon humano 5 (IRF5), anteriormente conhecido por ser multiespecífico, mas globalmente guiado por um motivo conservado curto chamado pLxIS. As preferências estimadas de aminoácidos foram consistentes com o conhecimento prévio sobre a superfície de ligação do IRF5. As posições ocupadas por resíduos de serina fosforilável exibiram uma alta frequência de aspartato e glutamato, provavelmente porque suas cadeias laterais carregadas negativamente são semelhantes à fosfoserina.
A interação entre duas proteínas geralmente envolve a ligação de segmentos curtos de aminoácidos a domínios de ligação a peptídeos, assemelhando-se a interfaces proteína-peptídeo. As proteínas receptoras envolvidas em tais interações proteína-proteína (PPI) geralmente têm a capacidade de reconhecer um certo conjunto de sequências de ligantes sobrepostas, mas divergentes, uma propriedade conhecida como multiespecificidade 1,2. O reconhecimento multiespecífico é uma característica de muitas proteínas celulares, mas é particularmente notável em enzimas e proteínas de sinalização celular3. As proteínas que interagem com sítios de ligação multiespecíficos geralmente têm uma combinação de regiões mais e menos conservadas em sua sequência 4,5,6. Nesse cenário, os motivos de sequência mais conservados estão envolvidos em interações moleculares rigorosas. Por outro lado, as sequências mais variáveis interagem com superfícies de alguma forma permissivas no local de ligação ao receptor. Normalmente, esses segmentos menos conservados, mas ainda funcionalmente relevantes, são loops sem padrões de estrutura secundária definidos ou têm conformações ainda mais dinâmicas, como as típicas de proteínas intrinsecamente desordenadas7.
A identificação de potenciais ligantes peptídicos de sítios de ligação é geralmente o primeiro passo no projeto de mediadores capazes de interferir nos PPIs correspondentes8. No entanto, muitas vezes é improvável encontrar um único resíduo de aminoácido mais frequente na maioria das posições de sequência em ligantes de sítios de ligação multiespecíficos. Em vez disso, esses locais podem ter preferências particulares por uma classe específica de aminoácidos de acordo com suas propriedades químicas, por exemplo, aminoácidos ácidos e carregados negativamente, como aspartato ou glutamato, aminoácidos aromáticos volumosos, como fenilalanina, ou resíduos mais hidrofóbicos, como aminoácidos alifáticos alanina, valina, leucina ou isoleucina3. Vários métodos experimentais podem fornecer informações sobre as preferências de aminoácidos dos locais de ligação às proteínas, incluindo evolução dirigida9, mutagênese de varredura de múltiplos códons10 e varredura mutacional profunda11. Todos esses métodos seguem a abordagem de diversificação de sequência, que se baseia na introdução de mutações nos ligantes originais e na análise de seu efeito na função da proteína receptora (ver Bratulic e Badran12 para uma revisão abrangente). No entanto, esses métodos geralmente exigem o levantamento de grandes bibliotecas de sequências, o que os torna mais complicados, caros e demorados.
Métodos computacionais para inferir as preferências de aminoácidos de sítios de ligação multiespecíficos têm o potencial de contornar as limitações dos métodos de laboratório úmido. Dentre estes, a abordagem de diversificação da sequência in silico avalia o impacto energético de uma ampla gama de substituições de aminoácidos na sequência do ligante como forma de caracterizar a plasticidade estrutural do PPI13. Este método começa com a estrutura ou modelo do ligante peptídico ligado ao local de ligação do receptor e, posteriormente, introduz mutações na sequência do ligante. As funções estatísticas e de pontuação de energia são então usadas para avaliar o impacto dessas mutações na estabilidade e na afinidade de ligação. O conjunto de sequências de ligantes de melhor pontuação resultantes da fase de avaliação pode então ser usado para calcular as preferências de aminoácidos. Essa estratégia tem o potencial de processar um número muito alto de sequências de ligantes de maneira eficiente. Portanto, ele pode fornecer uma inferência mais completa e consistente das preferências de aminoácidos em comparação com aquelas calculadas a partir do número mais limitado de sequências que geralmente podem ser processadas em abordagens de laboratório úmido.
A aplicação Pepspec do conjunto de modelagem molecular Rosetta14 é uma ferramenta que realiza a diversificação de sequências como uma etapa fundamental de seu modo de design de peptídeos. Esta aplicação requer uma estrutura ou modelo da proteína receptora com um peptídeo ligado a um único resíduo de aminoácido de comprimento, que é usado como âncora para as próximas etapas. A sequência do peptídeo ligado é então estendida (se necessário) e diversificada para gerar um grande número de ligantes peptídicos putativos. A afinidade de ligação desses peptídeos é então avaliada por acoplamento de peptídeos de backbone flexível para selecionar aqueles com as melhores pontuações de ligação previstas. Embora a principal saída desta aplicação sejam os melhores candidatos a peptídeos selecionados no final da fase de projeto, o conjunto muito maior de peptídeos aceitos durante esta fase também pode ser usado para calcular as preferências de aminoácidos do local de ligação alvo. As preferências de aminoácidos são calculadas como a frequência de cada resíduo de aminoácido por posição da sequência de ligantes representada como uma matriz de peso de posição (PWM) ou como um logotipo de sequência mais visual.
Neste artigo, descrevemos um protocolo para estimar as preferências de aminoácidos da superfície de ligação de uma proteína receptora envolvida em um PPI. O protocolo é focado em PPIs nos quais um segmento linear do ligante de proteína é conhecido por se ligar à proteína receptora, de modo que o cenário pode ser modelado como uma interface proteína-peptídeo. Nesse cenário, os motivos conservados do ligante normalmente interagem com bolsas definidas no local de ligação do receptor, embora todo o segmento do ligante envolvido no PPI possa conter regiões menos conservadas. Um fluxograma resumindo as principais etapas do protocolo é mostrado na Figura 1. O protocolo começa com a estrutura 3D do complexo proteína-proteína e reduz ainda mais a proteína ligante para o potencial segmento de melhor interação, deixando a proteína receptora intacta. O segmento de melhor interação é inferido usando o servidor BUDE Alanine Scan15, que conduz mutagênese computacional de varredura de alanina para identificar resíduos de pontos quentes entre as duas proteínas que interagem. Nesta abordagem, os resíduos do ligante são substituídos individualmente por alanina, e a mudança estimada na energia livre ou estabilidade do complexo (ΔΔG) é então usada para inferir a relevância do resíduo correspondente para o PPI alvo. Uma vez inferido o segmento de melhor interação, seu complexo com a proteína receptora é usado como a estrutura de base submetida ao Pepspec para realizar a diversificação de sequências.
Figura 1: Visão geral das principais etapas do protocolo proposto neste trabalho. Os números correspondem aos números das etapas na seção de protocolo. As figuras foram feitas com o complexo proteína-proteína usado como exemplo descrito no texto. Neste complexo, a cadeia de proteínas considerada como o receptor é mostrada em rosa, enquanto a cadeia considerada como o ligante é mostrada em azul claro com seu segmento de melhor interação previsto destacado em vermelho. Clique aqui para ver uma versão maior desta figura.
Uma das limitações do protocolo sugerido é a necessidade de uma estrutura resolvida da interface proteína-peptídeo. O protocolo pode, alternativamente, começar com um modelo da interface proteína-peptídeo alvo, embora as etapas específicas de modelagem não sejam descritas aqui. Além disso, embora o protocolo possa ser conduzido em um computador pessoal executando qualquer sistema operacional, um ambiente Linux é necessário para as etapas que envolvem os aplicativos Rosetta. Um cluster de computadores também é altamente recomendado para a etapa de diversificação de sequências devido ao grande número de iterações normalmente executadas pelo Pepspec.
A aplicação do protocolo sugerido é ilustrada com a estimativa das preferências de aminoácidos da superfície de ligação do IRF5, um membro da família do fator regulador do interferon humano (IRF). Escolhemos essa proteína como exemplo porque, durante sua ativação, duas subunidades se ligam para formar um dímero cuja estrutura é bem caracterizada16. Nos dímeros IRF, a ligação pode ser modelada como uma interface proteína-peptídeo na qual uma subunidade fornece a superfície de ligação e a outra interage através de uma região contendo um motivo conservado curto chamado pLxIS17,18. Além disso, a ligação às subunidades IRF é multiespecífica; portanto, eles podem formar homodímeros, heterodímeros e complexos com outras proteínas celulares conhecidas como coativadores18.
O presente artigo descreve um protocolo para estimar as preferências de aminoácidos de sítios de ligação potencialmente multiespecíficos com base na diversificação de sequências in silico. Poucas ferramentas computacionais foram desenvolvidas para estimar as preferências de aminoácidos das interfaces proteína-peptídeo 14,25,26. Essas ferramentas têm natureza preditiva, mas diferem …
The authors have nothing to disclose.
O apoio financeiro do Sistema Nacional de Investigación (SNI) (processos SNI-043-2023 e SNI-170-2021), Secretaría Nacional de Ciencia, Tecnología e Innovación (SENACYT) do Panamá e Instituto para la Formación y Aprovechamiento de Recursos Humanos (IFARHU) são agradecidos. Os autores gostariam de agradecer ao Dr. Miguel Rodríguez pela revisão cuidadosa do manuscrito.
BUDE Alanine Scan Server | University of Edinburgh | https://pragmaticproteindesign.bio.ed.ac.uk/balas/ | doi: 10.1021/acschembio.9b00560 |
Rosetta Modeling Software | Rosetta Commons | https://www.rosettacommons.org/software | doi: 10.1002/prot.22851 |
UCSF Chimera | University of California San Francisco | https://www.cgl.ucsf.edu/chimera/ | doi: 10.1002/jcc.20084 |