Nous décrivons une méthodologie basée sur la diversification des séquences pour estimer les préférences en acides aminés des sites de liaison multispécifiques dans les interactions protéine-protéine (IPP). Dans cette stratégie, des milliers de ligands peptidiques potentiels sont générés et criblés in silico, surmontant ainsi certaines limites des méthodes expérimentales disponibles.
De nombreuses interactions protéine-protéine impliquent la liaison de courts segments de protéines à des domaines de liaison aux peptides. Habituellement, de telles interactions nécessitent la reconnaissance de motifs linéaires à conservation variable. La combinaison de régions hautement conservées et plus variables dans les mêmes ligands contribue souvent à la multispécificité de la liaison, une propriété commune des enzymes et des protéines de signalisation cellulaire. La caractérisation des préférences en acides aminés des domaines de liaison aux peptides est importante pour la conception de médiateurs des interactions protéine-protéine (IPP). Les méthodes de calcul sont une alternative efficace aux techniques expérimentales souvent coûteuses et lourdes, permettant de concevoir des médiateurs potentiels qui peuvent ensuite être validés dans des expériences en aval. Ici, nous avons décrit une méthodologie utilisant l’application Pepspec du package de modélisation moléculaire Rosetta pour prédire les préférences en acides aminés des domaines de liaison aux peptides. Cette méthodologie est utile lorsque la structure de la protéine réceptrice et la nature du ligand peptidique sont toutes deux connues ou peuvent être déduites. La méthodologie commence par une ancre bien caractérisée du ligand, qui est prolongée par l’ajout aléatoire de résidus d’acides aminés. L’affinité de liaison des peptides générés de cette manière est ensuite évaluée par l’amarrage des peptides de squelette flexible afin de sélectionner les peptides avec les meilleurs scores de liaison prédits. Ces peptides sont ensuite utilisés pour calculer les préférences en acides aminés et pour calculer éventuellement une matrice position-poids (PWM) qui peut être utilisée dans d’autres études. Pour illustrer l’application de cette méthodologie, nous avons utilisé l’interaction entre les sous-unités du facteur de régulation 5 de l’interféron humain (IRF5), précédemment connu pour être multispécifique mais globalement guidé par un motif court conservé appelé pLxIS. Les préférences estimées en acides aminés étaient cohérentes avec les connaissances antérieures sur la surface de liaison d’IRF5. Les positions occupées par les résidus de sérine phosphorylables présentaient une fréquence élevée d’aspartate et de glutamate, probablement parce que leurs chaînes latérales chargées négativement sont similaires à celles de la phosphosérine.
L’interaction entre deux protéines implique souvent la liaison de courts segments d’acides aminés à des domaines de liaison peptidiques, ressemblant à des interfaces protéine-peptide. Les protéines réceptrices impliquées dans de telles interactions protéine-protéine (IPP) ont souvent la capacité de reconnaître un certain ensemble de séquences de ligands qui se chevauchent mais divergent, une propriété connue sous le nom de multispécificité 1,2. La reconnaissance multispécifique est une caractéristique de nombreuses protéines cellulaires, mais elle est particulièrement remarquable dans les enzymes et les protéines de signalisation cellulaire3. Les protéines qui interagissent avec des sites de liaison multispécifiques ont souvent une combinaison de régions plus ou moins conservées dans leur séquence 4,5,6. Dans ce scénario, les motifs de séquence les plus conservés sont impliqués dans des interactions moléculaires strictes. À l’inverse, les séquences les plus variables interagissent avec des surfaces permissives dans le site de liaison du récepteur. Habituellement, ces segments moins conservés mais toujours pertinents sur le plan fonctionnel sont des boucles dépourvues de modèles de structure secondaire définis ou ont des conformations encore plus dynamiques, telles que celles typiques des protéines intrinsèquement désordonnées7.
L’identification de ligands peptidiques potentiels de sites de liaison est généralement la première étape de la conception de médiateurs capables d’interférer avec les IPP correspondants8. Cependant, il est souvent peu probable de trouver un seul résidu d’acide aminé le plus fréquent à la plupart des positions de séquence dans les ligands des sites de liaison multispécifiques. Au lieu de cela, ces sites peuvent avoir des préférences particulières pour une classe spécifique d’acides aminés en fonction de leurs propriétés chimiques, par exemple, les acides aminés acides et chargés négativement tels que l’aspartate ou le glutamate, les acides aminés aromatiques volumineux tels que la phénylalanine ou les résidus plus hydrophobes tels que les acides aminés aliphatiques alanine, valine, leucine ou isoleucine3. Plusieurs méthodes expérimentales peuvent fournir des informations sur les préférences en acides aminés des sites de liaison aux protéines, notamment l’évolution dirigée9, la mutagenèse à balayage multi-codons10 et le balayage mutationnel profond11. Toutes ces méthodes suivent l’approche de la diversification des séquences, qui est basée sur l’introduction de mutations dans les ligands originaux et l’analyse plus approfondie de leur effet sur la fonction de la protéine réceptrice (voir Bratulic et Badran12 pour une revue complète). Cependant, ces méthodes nécessitent souvent l’étude de grandes bibliothèques de séquences, ce qui les rend plus lourdes, plus coûteuses et plus longues.
Les méthodes informatiques permettant de déduire les préférences en acides aminés des sites de liaison multispécifiques ont le potentiel de contourner les limites des méthodes de laboratoire humide. Parmi celles-ci, l’approche de diversification de séquences in silico évalue l’impact énergétique d’une large gamme de remplacements d’acides aminés dans la séquence de ligands afin de caractériser la plasticité structurale de l’IPP13. Cette méthode commence par la structure ou le modèle du ligand peptidique lié au site de liaison du récepteur et introduit ensuite des mutations dans la séquence du ligand. Des fonctions statistiques et de scoring énergétique sont ensuite utilisées pour évaluer l’impact de ces mutations sur la stabilité et l’affinité de liaison. L’ensemble des séquences de ligands les mieux notées résultant de la phase d’évaluation peut ensuite être utilisé pour calculer les préférences en acides aminés. Cette stratégie a le potentiel de traiter un très grand nombre de séquences de ligands de manière efficace. Par conséquent, il peut fournir une inférence plus complète et cohérente des préférences en acides aminés par rapport à celles calculées à partir du nombre plus limité de séquences qui peuvent généralement être traitées dans les approches de laboratoire humide.
L’application Pepspec de la suite de modélisation moléculaireRosetta 14 est un outil qui effectue la diversification des séquences comme une étape clé de son mode de conception peptidique. Cette application nécessite une structure ou un modèle de la protéine réceptrice avec un peptide lié jusqu’à un seul résidu d’acide aminé de longueur, qui est utilisé comme point d’ancrage pour les étapes suivantes. La séquence du peptide lié est ensuite étendue (si nécessaire) et diversifiée pour générer un grand nombre de ligands peptidiques peptidiques présumés. L’affinité de liaison de ces peptides est ensuite évaluée par l’amarrage de peptides de squelette flexible afin de sélectionner ceux dont les scores de liaison sont les mieux prédits. Bien que le principal résultat de cette application soit les meilleurs candidats peptidiques sélectionnés à la fin de la phase de conception, l’ensemble beaucoup plus large de peptides acceptés au cours de cette phase peut également être utilisé pour calculer les préférences en acides aminés du site de liaison cible. Les préférences en acides aminés sont calculées comme la fréquence de chaque résidu d’acide aminé par position de la séquence de ligand, représentée soit par une matrice de poids de position (PWM), soit par un logo de séquence plus visuel.
Dans cet article, nous décrivons un protocole permettant d’estimer les préférences en acides aminés de la surface de liaison d’une protéine réceptrice impliquée dans un IPP. Le protocole se concentre sur les IPP dans lesquels un segment linéaire du ligand protéique est connu pour se lier à la protéine réceptrice, de sorte que le scénario peut être modélisé comme une interface protéine-peptide. Dans ce scénario, les motifs conservés du ligand interagissent généralement avec des poches définies dans le site de liaison du récepteur, bien que l’ensemble du segment du ligand impliqué dans l’IPP puisse contenir des régions moins conservées. La figure 1 présente un organigramme résumant les principales étapes du protocole. Le protocole commence par la structure 3D du complexe protéine-protéine et réduit davantage la protéine ligand au segment potentiel qui interagit le mieux, laissant la protéine réceptrice intacte. Le segment qui interagit le mieux est déduit en utilisant le serveur BUDE Alanine Scan15, qui effectue une mutagenèse computationnelle par balayage de l’alanine pour identifier les résidus de points chauds entre les deux protéines en interaction. Dans cette approche, les résidus du ligand sont remplacés individuellement par l’alanine, et la variation estimée de l’énergie libre ou de la stabilité du complexe (ΔΔG) est ensuite utilisée pour déduire la pertinence du résidu correspondant pour l’IPP cible. Une fois que le segment qui interagit le mieux est déduit, son complexe avec la protéine réceptrice est utilisé comme structure de base soumise à Pepspec pour effectuer la diversification de la séquence.
Figure 1 : Vue d’ensemble des principales étapes du protocole proposé dans ce travail. Les numéros correspondent aux numéros d’étape dans la section protocole. Les figures ont été faites avec le complexe protéine-protéine utilisé comme exemple décrit dans le texte. Dans ce complexe, la chaîne protéique considérée comme le récepteur est représentée en rose, tandis que la chaîne considérée comme le ligand est représentée en bleu clair avec son segment prédit qui interagit le mieux mis en évidence en rouge. Veuillez cliquer ici pour voir une version agrandie de cette figure.
L’une des limites du protocole suggéré est l’exigence d’une structure résolue de l’interface protéine-peptide. Le protocole peut également commencer par un modèle de l’interface protéine-peptide cible, bien que les étapes de modélisation spécifiques ne soient pas décrites dans le présent document. De plus, bien que le protocole puisse être exécuté sur un ordinateur personnel exécutant n’importe quel système d’exploitation, un environnement Linux est nécessaire pour les étapes impliquant les applications Rosetta. Un cluster d’ordinateurs est également fortement recommandé pour l’étape de diversification de séquences en raison du grand nombre d’itérations généralement effectuées par Pepspec.
L’application du protocole suggéré est illustrée par l’estimation des préférences en acides aminés de la surface d’attente d’IRF5, un membre de la famille des facteurs de régulation de l’interféron humain (IRF). Nous avons choisi cette protéine comme exemple car, lors de son activation, deux sous-unités se lient pour former un dimère dont la structure est bien caractérisée16. Dans les dimères IRF, la liaison peut être modélisée comme une interface protéine-peptide dans laquelle une sous-unité fournit la surface de liaison et l’autre interagit à travers une région contenant un court motif conservé appelé pLxIS17,18. De plus, la liaison aux sous-unités IRF est multispécifique ; Par conséquent, ils peuvent former des homodimères, des hétérodimères et des complexes avec d’autres protéines cellulaires appelées coactivateurs18.
Le présent article décrit un protocole permettant d’estimer les préférences en acides aminés de sites de liaison potentiellement multispécifiques basés sur la diversification de séquences in silico. Peu d’outils informatiques ont été développés pour estimer les préférences en acides aminés des interfaces protéine-peptide 14,25,26. Ces outils ont un caractère prédictif, mais…
The authors have nothing to disclose.
Nous remercions vivement le Sistema Nacional de Investigación (SNI) (subventions SNI-043-2023 et SNI-170-2021), le Secretaría Nacional de Ciencia, le Tecnología e Innovación (SENACYT) du Panama et l’Instituto para la Formación y Aprovechamiento de Recursos Humanos (IFARHU). Les auteurs tiennent à remercier le Dr Miguel Rodríguez pour l’examen minutieux du manuscrit.
BUDE Alanine Scan Server | University of Edinburgh | https://pragmaticproteindesign.bio.ed.ac.uk/balas/ | doi: 10.1021/acschembio.9b00560 |
Rosetta Modeling Software | Rosetta Commons | https://www.rosettacommons.org/software | doi: 10.1002/prot.22851 |
UCSF Chimera | University of California San Francisco | https://www.cgl.ucsf.edu/chimera/ | doi: 10.1002/jcc.20084 |