Descriviamo una metodologia basata sulla diversificazione delle sequenze per stimare le preferenze amminoacidiche dei siti di legame multispecifici nelle interazioni proteina-proteina (PPI). In questa strategia, migliaia di potenziali ligandi peptidici vengono generati e sottoposti a screening in silico, superando così alcune limitazioni dei metodi sperimentali disponibili.
Molte interazioni proteina-proteina coinvolgono il legame di brevi segmenti proteici ai domini di legame dei peptidi. Di solito, tali interazioni richiedono il riconoscimento di motivi lineari con conservazione variabile. La combinazione di regioni altamente conservate e più variabili negli stessi ligandi spesso contribuisce alla multispecificità del legame, una proprietà comune degli enzimi e delle proteine di segnalazione cellulare. La caratterizzazione delle preferenze amminoacidiche dei domini di legame dei peptidi è importante per la progettazione di mediatori delle interazioni proteina-proteina (PPI). I metodi computazionali sono un’alternativa efficiente alle tecniche sperimentali, spesso costose e ingombranti, consentendo la progettazione di potenziali mediatori che possono essere successivamente convalidati in esperimenti a valle. Qui, abbiamo descritto una metodologia che utilizza l’applicazione Pepspec del pacchetto di modellazione molecolare Rosetta per prevedere le preferenze amminoacidiche dei domini di legame peptidico. Questa metodologia è utile quando la struttura della proteina recettore e la natura del ligando peptidico sono entrambe note o possono essere dedotte. La metodologia inizia con un’ancora ben caratterizzata dal ligando, che viene estesa aggiungendo in modo casuale residui di amminoacidi. L’affinità di legame dei peptidi generati in questo modo viene quindi valutata mediante docking del peptide della spina dorsale flessibile al fine di selezionare i peptidi con i migliori punteggi di legame previsti. Questi peptidi vengono quindi utilizzati per calcolare le preferenze degli amminoacidi e per calcolare facoltativamente una matrice posizione-peso (PWM) che può essere utilizzata in ulteriori studi. Per illustrare l’applicazione di questa metodologia, abbiamo utilizzato l’interazione tra subunità del fattore regolatore dell’interferone umano 5 (IRF5), precedentemente noto per essere multispecifico ma globalmente guidato da un breve motivo conservato chiamato pLxIS. Le preferenze stimate per gli amminoacidi erano coerenti con le conoscenze precedenti sulla superficie di legame di IRF5. Le posizioni occupate da residui di serina fosforilabili hanno mostrato un’alta frequenza di aspartato e glutammato, probabilmente perché le loro catene laterali caricate negativamente sono simili alla fosfosserina.
L’interazione tra due proteine spesso comporta il legame di brevi segmenti di amminoacidi a domini di legame peptidico, simili alle interfacce proteina-peptide. Le proteine recettoriali coinvolte in tali interazioni proteina-proteina (PPI) hanno spesso la capacità di riconoscere un certo insieme di sequenze di ligandi sovrapposte ma divergenti, una proprietà nota come multispecificità 1,2. Il riconoscimento multispecifico è una caratteristica di molte proteine cellulari, ma è particolarmente notevole negli enzimi e nelle proteine di segnalazione cellulare3. Le proteine che interagiscono con i siti di legame multispecifici hanno spesso una combinazione di regioni più e meno conservate nella loro sequenza 4,5,6. In questo scenario, i motivi di sequenza più conservati sono coinvolti in interazioni molecolari rigorose. Al contrario, le sequenze più variabili interagiscono con superfici in qualche modo permissive nel sito di legame del recettore. Di solito, questi segmenti meno conservati ma ancora funzionalmente rilevanti sono loop privi di modelli di struttura secondaria definiti o hanno conformazioni ancora più dinamiche, come quelle tipiche delle proteine intrinsecamente disordinate7.
L’identificazione di potenziali ligandi peptidici dei siti di legame è solitamente il primo passo nella progettazione di mediatori in grado di interferire con i corrispondenti PPI8. Tuttavia, è spesso improbabile trovare un singolo residuo di amminoacidi più frequente nella maggior parte delle posizioni di sequenza nei ligandi dei siti di legame multispecifici. Invece, questi siti possono avere particolari preferenze per una specifica classe di amminoacidi in base alle loro proprietà chimiche, ad esempio, amminoacidi acidi e caricati negativamente come l’aspartato o il glutammato, amminoacidi aromatici voluminosi come la fenilalanina o residui più idrofobici come gli amminoacidi alifatici alanina, valina, leucina o isoleucina3. Diversi metodi sperimentali possono fornire informazioni sulle preferenze aminoacidiche dei siti di legame delle proteine, tra cui l’evoluzione diretta9, la mutagenesi a scansione multi-codone10 e la scansione mutazionale profonda11. Tutti questi metodi seguono l’approccio della diversificazione delle sequenze, che si basa sull’introduzione di mutazioni nei ligandi originali e sull’ulteriore analisi del loro effetto sulla funzione della proteina recettore (vedi Bratulic e Badran12 per una revisione completa). Tuttavia, questi metodi spesso richiedono l’indagine di librerie di sequenze di grandi dimensioni, il che li rende più ingombranti, costosi e dispendiosi in termini di tempo.
I metodi computazionali per dedurre le preferenze amminoacidiche dei siti di legame multispecifici hanno il potenziale per aggirare i limiti dei metodi di laboratorio umido. Tra questi, l’approccio di diversificazione della sequenza in silico valuta l’impatto energetico di un’ampia gamma di sostituti di amminoacidi nella sequenza del ligando come un modo per caratterizzare la plasticità strutturale del PPI13. Questo metodo inizia con la struttura o il modello del ligando peptidico legato al sito di legame del recettore e successivamente introduce mutazioni nella sequenza del ligando. Le funzioni statistiche e di punteggio energetico vengono quindi utilizzate per valutare l’impatto di queste mutazioni sulla stabilità e sull’affinità di legame. L’insieme delle sequenze di ligandi con il miglior punteggio risultanti dalla fase di valutazione può quindi essere utilizzato per calcolare le preferenze degli amminoacidi. Questa strategia ha il potenziale per elaborare un numero molto elevato di sequenze di ligando in modo efficiente. Pertanto, può fornire un’inferenza più completa e coerente delle preferenze amminoacidiche rispetto a quelle calcolate dal numero più limitato di sequenze che di solito possono essere elaborate negli approcci di laboratorio umido.
L’applicazione Pepspec della suite di modellazione molecolare Rosetta14 è uno strumento che esegue la diversificazione delle sequenze come passaggio chiave della sua modalità di progettazione dei peptidi. Questa applicazione richiede una struttura o un modello della proteina del recettore con un peptide legato fino a un singolo residuo di amminoacido in lunghezza, che viene utilizzato come ancoraggio per i passaggi successivi. La sequenza del peptide legato viene quindi estesa (se necessario) e diversificata per generare un gran numero di ligandi peptidici putativi. L’affinità di legame di questi peptidi viene quindi valutata mediante docking del peptide della spina dorsale flessibile al fine di selezionare quelli con i migliori punteggi di legame previsti. Sebbene l’output principale di questa applicazione siano i migliori peptidi candidati selezionati alla fine della fase di progettazione, l’insieme molto più ampio di peptidi accettati durante questa fase può essere utilizzato anche per calcolare le preferenze amminoacidiche del sito di legame target. Le preferenze degli amminoacidi sono calcolate come la frequenza di ciascun residuo di amminoacido per posizione della sequenza del ligando, rappresentata come una matrice di peso della posizione (PWM) o come un logo di sequenza più visivo.
In questo articolo, descriviamo un protocollo per stimare le preferenze aminoacidiche della superficie di legame di una proteina recettore coinvolta in un PPI. Il protocollo è focalizzato su PPI in cui è noto che un segmento lineare della proteina-ligando si lega alla proteina recettore, quindi lo scenario può essere modellato come un’interfaccia proteina-peptide. In questo scenario, i motivi conservati del ligando interagiscono tipicamente con tasche definite nel sito di legame del recettore, sebbene l’intero segmento del ligando coinvolto nel PPI possa contenere regioni meno conservate. Nella Figura 1 è mostrato un diagramma di flusso che riassume le fasi principali del protocollo. Il protocollo inizia con la struttura 3D del complesso proteina-proteina e riduce ulteriormente la proteina ligando al segmento potenzialmente più interagente, lasciando intatta la proteina recettore. Il segmento con la migliore interazione viene dedotto utilizzando il server BUDE Alanine Scan15, che conduce la mutagenesi computazionale della scansione dell’alanina per identificare i residui di punti caldi tra le due proteine interagenti. In questo approccio, i residui del ligando vengono sostituiti individualmente dall’alanina e la variazione stimata dell’energia libera o della stabilità del complesso (ΔΔG) viene quindi utilizzata per dedurre la rilevanza del residuo corrispondente per il PPI target. Una volta dedotto il segmento con la migliore interazione, il suo complesso con la proteina recettore viene utilizzato come struttura di base sottoposta a Pepspec per eseguire la diversificazione della sequenza.
Figura 1: Panoramica delle fasi principali del protocollo proposto in questo lavoro. I numeri corrispondono ai numeri di passaggio nella sezione del protocollo. Le figure sono state realizzate con il complesso proteina-proteina utilizzato come esempio descritto nel testo. In questo complesso, la catena proteica considerata come recettore è mostrata in rosa, mentre la catena considerata come ligando è mostrata in azzurro con il suo segmento di migliore interazione previsto evidenziato in rosso. Clicca qui per visualizzare una versione più grande di questa figura.
Uno dei limiti del protocollo suggerito è la necessità di una struttura risolta dell’interfaccia proteina-peptide. In alternativa, il protocollo può iniziare con un modello dell’interfaccia proteina-peptide bersaglio, sebbene le fasi specifiche della modellazione non siano descritte nel presente documento. Inoltre, sebbene il protocollo possa essere eseguito su un personal computer con qualsiasi sistema operativo, è necessario un ambiente Linux per i passaggi che coinvolgono le applicazioni Rosetta. Un cluster di computer è anche altamente raccomandato per la fase di diversificazione delle sequenze a causa del gran numero di iterazioni tipicamente eseguite da Pepspec.
L’applicazione del protocollo suggerito è illustrata con la stima delle preferenze aminoacidiche della superficie di offerta di IRF5, un membro della famiglia dei fattori regolatori dell’interferone umano (IRF). Abbiamo scelto questa proteina come esempio perché, durante la sua attivazione, due subunità si legano per formare un dimero la cui struttura è ben caratterizzata16. Nei dimeri IRF, il legame può essere modellato come un’interfaccia proteina-peptide in cui una subunità fornisce la superficie di legame e l’altra interagisce attraverso una regione contenente un breve motivo conservato chiamato pLxIS17,18. Inoltre, il legame con le subunità IRF è multispecifico; Pertanto, possono formare omodimeri, eterodimeri e complessi con altre proteine cellulari note come coattivatori18.
Il presente articolo descrive un protocollo per stimare le preferenze amminoacidiche di siti di legame potenzialmente multispecifici basato sulla diversificazione di sequenze in silico. Pochi strumenti computazionali sono stati sviluppati per stimare le preferenze amminoacidiche delle interfacce proteina-peptide 14,25,26. Questi strumenti hanno una natura predittiva, ma differiscono per gli algo…
The authors have nothing to disclose.
Si ringrazia il sostegno finanziario del Sistema Nacional de Investigación (SNI) (numeri di sovvenzione SNI-043-2023 e SNI-170-2021), della Secretaría Nacional de Ciencia, Tecnología e Innovación (SENACYT) di Panama e dell’Instituto para la Formación y Aprovechamiento de Recursos Humanos (IFARHU). Gli autori ringraziano il Dr. Miguel Rodríguez per l’attenta revisione del manoscritto.
BUDE Alanine Scan Server | University of Edinburgh | https://pragmaticproteindesign.bio.ed.ac.uk/balas/ | doi: 10.1021/acschembio.9b00560 |
Rosetta Modeling Software | Rosetta Commons | https://www.rosettacommons.org/software | doi: 10.1002/prot.22851 |
UCSF Chimera | University of California San Francisco | https://www.cgl.ucsf.edu/chimera/ | doi: 10.1002/jcc.20084 |