Summary

Curadoria de Bibliotecas Químicas Computacionais Demonstradas com alfa-aminoácidos

Published: April 13, 2022
doi:

Summary

O objetivo deste protocolo é gerar e curadoria eficientemente de bibliotecas de estruturas de pequenas moléculas usando software de código aberto.

Abstract

A exaustiva geração de estruturas moleculares tem inúmeras aplicações químicas e bioquímicas, como design de drogas, construção de banco de dados molecular, exploração de bioquímicas alternativas e muito mais. Matematicamente falando, estes são geradores gráficos com restrições químicas. No campo, o gerador mais eficiente atualmente (MOLGEN) é um produto comercial, limitando seu uso. Alternativa a isso, outro gerador de estrutura molecular, o MAYGEN, é uma ferramenta recente de código aberto com eficiência comparável ao MOLGEN e a capacidade dos usuários de aumentar seu desempenho adicionando novos recursos. Um dos campos de pesquisa que podem se beneficiar desse desenvolvimento é a astrobiologia; geradores de estrutura permitem aos pesquisadores complementar dados experimentais com possibilidades computacionais para bioquímica alternativa. Este protocolo detalha um caso de uso para geração de estrutura em astrobiologia, ou seja, a geração e curadoria de bibliotecas alfa-aminoácidos. Utilizando geradores de estrutura de código aberto e ferramentas de cheminformática, as práticas aqui descritas podem ser implementadas além da astrobiologia para a criação e curadoria de bibliotecas de estruturas químicas de baixo custo para qualquer questão de pesquisa.

Introduction

A geração de estrutura molecular serve como uma aplicação prática do problema geral da geração de gráficos exaustivos; dado vários nós (átomos) e restrições em sua conectividade (por exemplo, valências, multiplicidades de vínculo, subestruturas desejadas/indesejadas), quantos gráficos conectados (moléculas) são possíveis? Os geradores de estrutura têm visto ampla aplicação na descoberta de medicamentos e desenvolvimento farmacêutico, onde podem criar vastas bibliotecas de novas estruturas para a triagem de silico 1.

O primeiro gerador de estrutura, CONGEN, foi desenvolvido para o primeiro projeto de inteligência artificial em química orgânica, DENDRAL2 (abreviação de DENDRitic ALgorithm). Vários sucessores de software do DENDRAL foram relatados na literatura; no entanto, nem todos foram mantidos ou eficientes. Atualmente, MOLGEN3 é o gerador de estrutura molecular de última geração. Infelizmente para a maioria dos usuários em potencial, ele é de origem fechada e requer uma taxa de licenciamento. Assim, tem havido a necessidade de um gerador eficiente de estrutura de código aberto que possa facilmente se adaptar a aplicações específicas. Um desafio para um gerador de estrutura eficiente é gerenciar a explosão combinatória; à medida que o tamanho de uma fórmula molecular aumenta, o tamanho do espaço de busca química aumenta exponencialmente. Uma revisão recente explora ainda mais a história e os desafios da geração de estrutura molecular4.

Antes de 2021, o Gerador de Moléculas Paralelas (PMG)5 era o gerador de estrutura de código aberto mais rápido, mas ainda era mais lento que o MOLGEN por ordens de magnitude. MAYGEN6 é aproximadamente 47 vezes mais rápido que o PMG e cerca de 3 vezes mais lento que o MOLGEN, tornando o MAYGEN o gerador de estrutura de código aberto mais rápido e eficiente disponível. Comparações mais detalhadas e testes de benchmarking podem ser encontrados no artigo que introduz o MAYGEN6. Uma característica fundamental do programa é seu teste lexicográfico baseado em pedidos para estruturas canônicas, um método ordenado de geração de gráficos baseado no algoritmo Schreier-Sims7 . O software pode ser facilmente integrado em outros projetos e aprimorado para as necessidades dos usuários.

Como MOLGEN e PMG, maygen pega uma fórmula molecular definida pelo usuário e gera todas as estruturas possíveis para essa fórmula. Por exemplo, se um usuário executa MAYGEN com a fórmula C5H12, MAYGEN irá gerar todas as estruturas possíveis contendo cinco átomos de carbono e doze átomos de hidrogênio. Ao contrário de seu PMG de código aberto, o MAYGEN também pode acomodar fórmulas moleculares “difusas” que usam intervalos em vez de números discretos para a contagem de cada elemento. Por exemplo, se um usuário executa MAYGEN com a fórmula C5-7H12-15, maygen irá gerar todas as estruturas possíveis que contêm entre cinco e sete átomos de carbono e doze e quinze átomos de hidrogênio, permitindo uma simples geração de estruturas com uma ampla gama de composições atômicas.

A astrobiologia é um desses campos que podem se beneficiar de geradores de estrutura molecular. Um tópico popular na astrobiologia é a evolução do alfabeto aminoácido compartilhado por toda a vida já extorquida na Terra. Uma das características definidoras do Último Ancestral Universal Comum (LUCA) é o uso de vinte aminoácidos geneticamente codificados para a construção de proteínas 8,9. Com base em meta-análises do trabalho em múltiplos campos 10,11,12, aproximadamente 10 desses aminoácidos (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) prontamente se formam sob condições abióticas e provavelmente compõem o alfabeto aminoácido de organismos pré-LUCA. Com o tempo, esse alfabeto “precoce” foi expandido em resposta a diferentes necessidades estruturais e funcionais. Por exemplo, uma revisão recente do Moosmann13 afirma que a adição de membros mais recentes dos aminoácidos geneticamente codificados (ou seja, Met, Tyr e Trp) permitiu a sobrevivência em ambientes ricos em oxigênio, impedindo a proliferação intracelular de espécies reativas de oxigênio.

Um conjunto crescente de técnicas de química analítica permite uma visão das estruturas de aminoácidos que podem se formar sob condições abióticas. Uma revisão recente14 de Simkus e outros detalha os métodos usados para detectar numerosos compostos orgânicos em meteoritos, bem como compostos orgânicos de simulações in vitro de ambientes terrestres primitivos 15,16,17. A geração sistemática de estruturas químicas permite que os pesquisadores explorem além dos compostos orgânicos detectados por meio da instrumentação, povoando o espaço estrutural em torno de “ilhas” estruturais identificadas pela química analítica. No caso dos aminoácidos “precoces”, essa geração sistemática de estrutura mostra possíveis químicas proteicas disponíveis para a vida precoce sem limitar a exploração a estruturas que foram detectadas experimentalmente sob condições de síntese abiótica. Com kits de ferramentas de cheminformática de código aberto e geradores de estrutura eficientes como o MAYGEN, criar e explorar novas bibliotecas de estruturas químicas agora é mais fácil do que nunca e pode orientar investigações mais detalhadas sobre químicas alternativas da vida.

Protocol

NOTA: Consulte a Figura 1 para obter um resumo do protocolo e da Tabela de Materiais para obter detalhes sobre o software utilizado. Figura 1: Fluxograma sumário do protocolo. Clique aqui para ver uma versão maior desta figura. 1. Downloads de software e arquivos NOTA: Todos os programas são gratuitos para uso individual e podem ser executados em um computador pessoal. Crie um novo diretório para este projeto. Coloque os arquivos e executáveis aqui para fácil acesso. Baixe e instale os pacotes de software necessários. Baixe a versão mais recente do MAYGEN como um arquivo .jar.NOTA: A MAYGEN está disponível gratuitamente como um arquivo .jar de https://github.com/MehmetAzizYirik/MAYGEN/releases Baixe e instale o software de gerenciamento de pacotes Conda e o kit de ferramentas cheminformatics RDKit18.NOTA: O RDKit filtrará as estruturas moleculares produzidas pela MAYGEN e funciona melhor em um ambiente Conda. Instruções para baixar a plataforma Conda podem ser encontradas em https://conda.io/projects/conda/en/latest/user-guide/install/index.html. As instruções de instalação e configuração do ambiente rdkit podem ser encontradas em https://www.rdkit.org/docs/Install.html. Instale o RDKit no ambiente Conda principal em vez de um ambiente RDKit separado através do prompt Anaconda. Nos sistemas Windows, procure por “Anaconda prompt” e clique no atalho resultante para ser executado. Nos sistemas MacOS e Linux, interaja com a Conda através do terminal sem executar nenhum programa adicional. Em seguida, digite o seguinte comando e pressione Enter para executar e responda sim a todas as perguntas que surgirem durante a instalação:conda instalar -c rdkit rdkit.Embora existam muitos programas de cálculo de descritores disponíveis livremente, este exemplo usa PaDEL-Descriptor19, uma calculadora livre e rápida para descritores moleculares e impressões digitais. Baixe e salve o arquivo .jar na pasta do projeto.NOTA: PaDEL-Descriptor pode ser baixado gratuitamente de http://www.yapcwsoft.com/dd/padeldescriptor/. Baixe os notebooks Jupyter e arquivos de texto de padrões de subestrutura de Arquivos Suplementares 1-5.NOTA: Os notebooks Jupyter também podem ser baixados na seguinte página do GitHub: https://github.com/cmayerb1/AA-structure-manip. 2. Geração de estrutura usando MAYGEN Em um prompt de comando, navegue até o diretório contendo o arquivo MAYGEN .jar executável. Para cada fórmula química de interesse, execute MAYGEN usando o seguinte comando:java -jar [MAYGEN .jar nome do arquivo] -f [fórmula química] -v -o [pasta para saída MAYGEN] -m -sdf.NOTA: Isso salvará um arquivo .sdf na pasta designada, nomeada após a fórmula usada. Se a fórmula for uma fórmula difusa em vez de uma fórmula discreta, substitua a bandeira -f por uma bandeira difusa e inclua quaisquer intervalos de elementos entre suportes (por exemplo, use C[5-7]H[12-15] para garantir que todas as estruturas geradas tenham entre 5 e 7 átomos de carbono e entre 12 e 15 átomos de hidrogênio). 3. Filtrar compostos com subestruturas indesejadas Abra um prompt Anaconda (veja o passo 1.2.2.1) e navegue até a pasta contendo os notebooks Jupyter baixados do Arquivo Suplementar 1. Abra o notebook Jupyter para filtragem de subestrutura usando o seguinte comando:notebook jupyter [nome do arquivo do notebook] Na célula designada no início do notebook, insira o caminho completo do arquivo de arquivo do arquivo .sdf de entrada (gerado pelo MAYGEN), o caminho completo do arquivo de arquivo .sdf de saída desejado e o caminho do arquivo do arquivo “badlist” como strings (dentro daspas). Consulte o Arquivo Suplementar 2 para um exemplo de uma lista ruim. Se algumas subestruturas na biblioteca filtrada (uma lista boa) forem mantidas, crie um arquivo .txt de padrões SMARTS20 para essas subestruturas (uma lista boa) e coloque o caminho do arquivo goodlist na linha designada no início do notebook. Consulte o Arquivo Suplementar 3 para um exemplo de uma boa lista. Reinicie o kernel do notebook e execute todas as células (do menu na parte superior, selecione Kernel, Restart & Run All) para obter um arquivo .sdf com o nome desejado na pasta de saída especificada. Repita as duas etapas anteriores para cada arquivo de estrutura gerado pelo MAYGEN na etapa 2. 4. (Opcional) Modificações adicionais da estrutura NOTA: Estes são realizados neste exemplo, mas podem não ser necessários para a curadoria de outras bibliotecas. Substituição de pseudoatom.NOTA: Aqui, um pseudoatomo é um átomo único usado para representar uma subestrutura maior compartilhada por todas as estruturas geradas, reduzindo assim o tempo de geração da MAYGEN. Consulte o Arquivo Suplementar 4 para um exemplo de substituição de pseudoatom. Abra um prompt Anaconda (veja o passo 1.2.2.1) e navegue até a pasta que contém os notebooks Jupyter. Abra o notebook Jupyter para substituição de pseudoatom:notebook jupyter [nome do arquivo do notebook] Na célula designada no início do notebook, digite o caminho completo do arquivo de arquivo do arquivo de entrada .sdf e o caminho completo do arquivo de arquivo do arquivo de saída .sdf desejado como strings (dentro daspas). Reinicie o kernel do notebook e execute todas as células para obter um arquivo .sdf com o nome desejado na pasta de saída especificada. Cobertura de aminoácido n- e C-terminiNOTA: Este procedimento é específico para alfa-aminoácidos, adicionando tampas moleculares aos ossos de alfa-aminoácidos. Consulte o arquivo suplementar 5 para obter um exemplo de cobertura de aminoácidos. Abra um prompt Anaconda (veja o passo 1.2.2.1) e navegue até a pasta que contém os notebooks Jupyter. Abra o caderno Jupyter para tampar aminoácidos:notebook jupyter [nome do arquivo do notebook] Na célula designada no início do notebook, digite o caminho completo do arquivo de arquivo do arquivo de entrada .sdf e o caminho completo do arquivo de arquivo do arquivo de saída .sdf desejado como strings (dentro daspas). Reinicie o kernel do notebook e execute todas as células para obter um arquivo .sdf com o nome desejado na pasta de saída especificada. 5. Geração de descritores Antes da geração de descritor, coloque todos os arquivos .sdf para os quais os descritores devem ser calculados em uma única pasta.NOTA: Se ainda não estiver pronto, dê a esses arquivos nomes descritivos para fácil filtragem após a geração do descritor. Abra um prompt de comando e navegue até a pasta que contém o arquivo PaDEL-Descriptor .jar. Execute PaDEL-Descriptor para os arquivos .sdf coletados usando o seguinte comando:java -jar PaDEL-Descriptor.jar -dir [diretório dos arquivos .sdf] -arquivo [caminho de arquivo de um arquivo .csv para resultados] -2d -retainorder -usefilenameasmolnameNOTA: O arquivo de resultados terá o nome da molécula na primeira coluna e cada descritor nas colunas subsequentes. Exporte esses dados para qualquer software de planilha para análise posterior.

Representative Results

Biblioteca Fórmula Restrições adicionais Aminoácidos codificados “precoces” Tempo de geração (ms) Estruturas Inicial Final 1 Gly C2H5NO2 incluir subestrutura de Gly Gly 192 84 1 2 VAIL PC0-3H3-9 Val, Ala, Ile, Leu 172 70 22 3 DEST PC0-3O1-2H3-5 Asp, Glu, Ser, Thr 481 1928 254 4 Pró C2-5NO2H7-11 Inclua subestrutura N-meGly ou N-meAla Pró 4035 79777 16 5 VAIL_S PSC0-2H3-7 122 65 31 6 DEST_S PSC0-2O1-2H3 349 1075 79 7 Pro_S C2-4SNO2H7-9 Inclua subestrutura N-meGly ou N-meAla 3999 75734 10 Tabela 1: Bibliotecas compostas utilizadas neste exemplo. Bibliotecas construídas a partir da fórmula 1-4 (Gly, VAIL, DEST e Pro) são baseadas em fórmulas difusas publicadas anteriormente dos aminoácidos codificados “precoces”21, enquanto bibliotecas construídas a partir da fórmula 5-7 (VAIL_S, DEST_S e Pro_S) são baseadas em variantes de fórmulas 2-4 que imaginam um enxofre divalent substituindo um dos átomos de carbono. As contagens de estruturas refletem o número de moléculas geradas pela MAYGEN para cada fórmula (“Inicial”) e o número de moléculas restantes após filtrar aquelas com subestruturas indesejadas (“Final”). Abreviaturas: VAIL = valina, alanina, isoleucina, leucina; DEST = ácido aspático, ácido glutamico, serina, threonina; X_S = Enxofre divalent substitui um dos carbonos na biblioteca X; N-meX = N-metilX. Os métodos gerais acima foram aplicados às fórmulas com base nos aminoácidos codificados “precoces”, seguindo o procedimento das estruturas de Meringer et al.21 Badlist foram retiradas desta mesma fonte e convertidas em strings SMARTS para representar facilmente padrões subestruturais. Duas subestruturas mal-listadas não foram utilizadas neste exemplo: a estrutura 018 (CH 3-CH-N) correspondia a quase isômeros de proline que não eram eles mesmos instáveis; estrutura 106 (R-C-C-OH, onde a subestrutura R=alanina anexando-se ao beta-carbono) correspondeu ao ácido glutamico, um aminoácido codificado. Além dessas fórmulas químicas, foram criadas variantes com enxofre divalent tomando o lugar de um átomo de carbono e dois átomos de hidrogênio. Por razões de desempenho, várias dessas fórmulas usam um átomo de fósforo trivalente (por exemplo, um “pseudoatom”) como um substituto para o beta-carbono de uma subestrutura alanina. A Tabela 1 lista as bibliotecas geradas neste exemplo, as fórmulas utilizadas para gerá-las e o número de compostos contidos dentro. Os nomes da biblioteca baseiam-se nos aminoácidos codificados dos quais são derivados: utilizando a abreviação de 3 letras (Gly = glycine, Pro = proline) ou abreviação de letra única (VAIL = Valina, Alanina, Isoleucina, Leucina; DEST = Ácido aspático, ácido glutamico, sereno, threonine). O sufixo “_S” indica que um enxofre foi substituído por um carbono na fórmula da biblioteca original (por exemplo, VAIL_S é construída com a mesma fórmula difusa que a VAIL, mas com um enxofre divalent substituindo um dos carbonos). Após a geração de estrutura com o MAYGEN, as bibliotecas resultantes foram filtradas de compostos contendo pelo menos uma subestrutura contida na lista ruim. Após esta filtragem, quaisquer átomos de fósforo foram substituídos por uma subestrutura alanina. Em seguida, foram criadas versões “tampadas” de todas as estruturas, com um grupo de acetil adicionado ao N-terminus e um grupo de amido de n-metil adicionado ao C-terminus. Isso foi feito para remover o efeito sobre a hidroofobidade dos grupos livres de amina e ácido carboxílico na espinha dorsal alfa-aminoácido. PaDEL-Descriptor foi usado para calcular XLogP para todas as estruturas tampadas e volume de van der Waals calculado (VABC) para todas as estruturas não tampadas. A Figura 2 mostra o espaço químico das bibliotecas filtradas, conforme definido pelos descritores VABC e XLogP. Aqui, a gama de possíveis valores de logP aumenta com volume molecular, mesmo dentro de bibliotecas que carecem explicitamente de sidechains hidrofílicos (por exemplo, VAIL, Pro). Aminoácidos codificados com sidechains de hidrocarbonetos eram mais hidrofóbicos do que a maioria dos outros aminoácidos de um volume comparável de sua respectiva biblioteca. Este também parece ser o caso para Met e Cys em comparação com outros membros da biblioteca VAIL_S com volumes semelhantes. Aminoácidos codificados com cadeias laterais hidroxil (Ser e Thr) estavam entre os menores membros da biblioteca DEST, com Asp apenas ligeiramente maior que o Thr. As figuras 3 e figura 4 mostram os impactos no volume e no logP quando um enxofre divalent substitui um carbono em uma cadeia lateral alfa-aminoácido. A substituição de enxofre levou a um ligeiro aumento no volume molecular em todas as bibliotecas (Figura 3). O efeito da substituição de enxofre no logP não é tão homogêneo quanto para o volume (Figura 4). O logP médio da biblioteca VAIL_S é ligeiramente menor do que o da biblioteca VAIL, mas esse efeito não é visto em nenhum dos outros pares de biblioteca (DEST e DEST_S, Pro e Pro_S). A Figura 5 quantifica os efeitos na geração estrutural de um pseudoatom em busca de uma subestrutura comum; aqui, um P trivalente substituído por uma moiety alanina durante a geração de estrutura. O uso de um pseudoatom na geração de estruturas diminuiu consideravelmente o número de estruturas geradas por ~3 ordens de magnitude (Figura 5A) e o tempo total necessário para gerar essas estruturas por 1-2 ordens de magnitude (Figura 5B). Figura 2: Espaço químico de todas as bibliotecas de aminoácidos filtradas. Marcadores negros representam aminoácidos de bibliotecas sem enxofre; marcadores amarelos representam aminoácidos de bibliotecas enriquecidas com enxofre. Círculos: VAIL e VAIL_S; quadrados: DEST e DEST_S; triângulos: Pro e Pro_S; estrelas: aminoácidos codificados. Observe que os dois aminoácidos codificados contendo enxofre (Met e Cys) não são considerados aminoácidos “precoces”, mas estão presentes na biblioteca VAIL_S. Abreviaturas: XLogP = coeficiente de partição; VAIL = valina, alanina, isoleucina, leucina; DEST = ácido aspático, ácido glutamico, serina, threonina; X_S = Enxofre divalent substitui um dos carbonos na biblioteca X. Por favor, clique aqui para ver uma versão maior desta figura. Figura 3: Volumes médios de van der Waals (em Å3) de bibliotecas com e sem enxofre. As barras pretas representam os volumes médios de bibliotecas sem enxofre (VAIL, DEST, Pro), enquanto as barras amarelas representam volumes médios das versões substituídas por enxofre dessas bibliotecas (VAIL_S, DEST_S, Pro_S). As barras de erro mostram desvio padrão. Abreviaturas: VAIL = valina, alanina, isoleucina, leucina; DEST = ácido aspático, ácido glutamico, serina, threonina; X_S = Enxofre divalent substitui um dos carbonos na biblioteca X. Por favor, clique aqui para ver uma versão maior desta figura. Figura 4: Valores XLogP médios de bibliotecas com e sem enxofre. As barras pretas representam bibliotecas sem enxofre (VAIL, DEST, Pro), enquanto as barras amarelas representam versões substituídas por enxofre dessas bibliotecas (VAIL_S, DEST_S, Pro_S). As barras de erro mostram desvio padrão. Abreviaturas: XLogP = coeficiente de partição; VAIL = valina, alanina, isoleucina, leucina; DEST = ácido aspático, ácido glutamico, serina, threonina; X_S = Enxofre divalent substitui um dos carbonos na biblioteca X. Por favor, clique aqui para ver uma versão maior desta figura. Figura 5: Efeitos de um pseudoatoma trivalente na geração de estrutura MAYGEN. Todos os testes foram feitos em um PC com um processador Intel i7-7700HQ a 2,8 GHz, 16 GB de RAM, sem estruturas de salvamento para um arquivo e a opção -m de usar multithreading. Testes usando um pseudoatom usaram as fórmulas difusas como descrito na Tabela 1. Para testes sem pseudoatoma, as fórmulas difusas utilizadas foram as mesmas descritas na Tabela 1 com as seguintes alterações: P foi substituído por N; a contagem de carbono foi aumentada em 3; a contagem de hidrogênio foi aumentada em 7; a contagem de oxigênio foi aumentada em 2. Bares negros mostram bibliotecas geradas com um pseudoatoma; barras cinza mostrar bibliotecas geradas sem um pseudoatom. (A) Número de estruturas geradas utilizando as fórmulas difusas utilizadas para construir as bibliotecas VAIL e DEST com e sem um fósforo trivalente substituindo por uma subestrutura alanina. (B) Tempo (em ms) necessário para construir as bibliotecas VAIL e DEST com e sem um fósforo trivalente substituindo por uma subestrutura alanina. Abreviaturas: VAIL = valina, alanina, isoleucina, leucina; DEST = ácido aspático, ácido glutamico, serina, threonina. Clique aqui para ver uma versão maior desta figura. Arquivo Suplementar 1: Caderno de triagem de subestrutura. Clique aqui para baixar este Arquivo. Arquivo suplementar 2: Amostra má lista. Clique aqui para baixar este Arquivo. Arquivo suplementar 3: Boa lista de amostras. Clique aqui para baixar este Arquivo. Arquivo Suplementar 4: Caderno de substituição de pseudoatom. Clique aqui para baixar este Arquivo. Arquivo suplementar 5: Caderno de tampa de aminoácidos. Clique aqui para baixar este Arquivo.

Discussion

Uma característica dos aminoácidos “precoces” é a falta de enxofre. As meta-análises mencionadas anteriormente geralmente consideram que os aminoácidos codificados contendo enxofre (Cys e Met) foram adições relativamente tardias ao código genético, conclusões apoiadas pela falta de aminoácidos contendo enxofre em meteoritos e experimentos com tubos de faísca. No entanto, compostos organosulfur são facilmente detectados em cometas e meteoritos22, e reanalise de experimentos de tubos de faísca usando gás H2S encontrados aminoácidos e outros compostos orgânicos contendo enxofre16. Ao considerar um alfabeto de aminoácido alternativo, vale a pena explorar um alfabeto de aminoácidos alternativo, um enriquecido em enxofre.

No protocolo acima, a geração de estruturas e a filtragem de subestruturas são consideradas etapas críticas; dependendo da composição da biblioteca de estrutura terminada, um pesquisador só pode precisar realizar essas duas etapas. Instruções e softwares para ações adicionais (substituição de pseudoatom e adição de subestruturas (neste caso, cobertura de aminoácidos)) são incluídos para cálculo de descritor mais relevante (o capping garante que os cálculos XLogP sejam influenciados pela sidechain e não pelos grupos de amina ou carboxíl) e pela geração mais rápida da estrutura através do uso de um pseudoatom, que é discutido com mais detalhes abaixo. Além disso, o cálculo do descritor é feito aqui como uma maneira fácil de visualizar a diversidade das estruturas geradas e comparar os efeitos do enriquecimento de enxofre nas bibliotecas acabadas.

Enquanto padel-descriptor pode calcular milhares de propriedades moleculares, volume molecular (como calculado van der Waals volume) e coeficiente de partição (como XLogP) foram usados aqui por duas razões distintas. Primeiro, esses dois descritores medem propriedades moleculares (tamanho e hidrofobiidade, respectivamente) que são familiares à maioria dos químicos e biólogos. Em segundo lugar, no caso dos aminoácidos, essas duas propriedades são significativas. Durante décadas, o tamanho do aminoácido e a hidroofobidade foram conhecidos por influenciar a termodinâmica da proteína dobrável23. Essas duas propriedades ajudam a explicar as frequências de substituição de aminoácidos que foram parte integrante da compreensão da evolução da proteína24.

O exemplo acima mostra que, nos dois descritores estudados (volume molecular e hidrofóbica), substituir um enxofre divalento por um carbono e dois hidrogênios não produz mudanças significativas. O leve aumento não significativo no volume molecular médio da substituição de enxofre (Figura 3) pode ser atribuído ao maior raio covalente do enxofre (~103 pm) em comparação com sp3 (~75 pm) ou sp2 (~73 pm) carbono25. Da mesma forma, a substituição de enxofre tem efeito mínimo sobre a média XLogP (Figura 4). O maior efeito foi entre as bibliotecas VAIL e VAIL_S, provavelmente devido a uma combinação da biblioteca VAIL ser especialmente hidrofóbica (as sidechains são apenas hidrocarbonetos) e grupos de sulfhydryl sendo muito mais ácidos do que os grupos de metila que eles substituiriam. O efeito mínimo da substituição de enxofre é aparente na Figura 2, onde bibliotecas com substituição de enxofre ocupam o mesmo espaço químico que bibliotecas análogas sem substituição de enxofre.

A diminuição do número de estruturas (Figura 5A) e do tempo necessário para gerar essas estruturas (Figura 5B) ao usar um pseudoatoma não é surpreendente. O uso de um pseudoatoma reduz o número de átomos pesados que precisam ser incorporados em um gráfico químico, reduzindo o número de nódulos gráficos e produzindo reduções exponenciais no tempo de geração e no número de estruturas. Aqui, a escolha do fósforo trivalente como pseudoóatoma decorre da bioquímica básica (adição pós-transatacional de grupos fosfatos, nenhum aminoácido geneticamente codificado contém fósforo) e a valência do átomo que o substituiria (um fósforo trivalente pode ser facilmente substituído por um carbono tetravalente que é singly ligado a outro átomo ou grupo de átomos). Embora o código fornecido para substituição de pseudoatoms seja específico para substituir um fósforo trivalente por uma subestrutura alanina, os usuários podem personalizar o código para trabalhar com diferentes pseudoatomas ou subestruturas de substituição, potencialmente usando pseudoatomas múltiplos durante a geração inicial da estrutura seguida pela substituição de cada pseudoatom por uma subestrutura molecular maior.

Métodos de geração de estruturas semelhantes aos empregados pelo MAYGEN (e outros métodos, como redes neurais) já são usados na descoberta de medicamentos para gerar bibliotecas compostas para a triagem de silico ; uma revisão recente4 discute esses métodos com mais detalhes. Como esses métodos são destinados principalmente à criação de moléculas semelhantes a medicamentos, existem algumas limitações em sua capacidade de gerar moléculas, como o uso de propriedades biológicas ou farmacêuticas para limitar as estruturas criadas (inversa QSPR/QSAR) ou a criação de estruturas a partir de um número predefinido de blocos de construção de subestrutura. Como a astrobiologia está mais focada na multiplicidade de compostos orgânicos que podem se formar abioticamente e menos em qualquer produto final ou em suas propriedades, a exaustiva geração de estruturas da MAYGEN é ideal para criar bibliotecas estruturais para abordar questões astrobiológicas. A abordagem da filtragem de subestrutura descrita aqui (realizada após a geração de estrutura através de um programa externo) difere do programa concorrente MOLGEN, na qual a filtragem da subestrutura do MOLGEN ocorre durante a geração da estrutura. Como o MAYGEN é de código aberto, não só é mais acessível do que o MOLGEN devido ao custo de licenciamento da MOLGEN, mas os indivíduos poderiam implementar novos recursos, como filtragem de subestrutura durante a geração de estruturas.

Como escrito, o protocolo descrito aqui é focado na geração e curadoria de bibliotecas de relativamente pequenos alfa-aminoácidos. Para gerar diferentes bibliotecas, os usuários podem dar diferentes fórmulas moleculares ao MAYGEN, alterar a filtragem da subestrutura alterando o tamanho máximo permitido do anel e a valência de títulos, ou editar os arquivos goodlist e badlist para adicionar ou remover padrões de subestrutura. Modificações de protocolo que envolvem a mudança de forma como átomos e subestruturas são adicionados ou substituídos (substituição de pseudoatom e cobertura molecular) são viáveis, mas exigirão mais atenção às restrições de valência para evitar erros de RDKit sobre valências incorretas em estruturas modificadas.

O protocolo detalhado acima é projetado para pequenos alfa-aminoácidos. No entanto, o formato geral (geração abrangente de estrutura usando pseudoatomas, seguido de filtragem de subestrutura e modificações moleculares) é altamente flexível para compostos além de pequenos aminoácidos. Mesmo na astrobiologia, um procedimento recente semelhante usando MOLGEN foi usado para investigar isômeros constitucionais de ácidos nucleicos26. Além das ferramentas descritas acima, a MAYGEN pode ser emparelhada com outras ferramentas de cheminformática de código aberto para tornar a criação e análise de novas estruturas químicas acessíveis e acessíveis a uma ampla gama de campos de pesquisa.

Disclosures

The authors have nothing to disclose.

Acknowledgements

May reconhece financiamento da Fundação Carl-Zeiss. Todos os números foram gerados usando o Microsoft Excel.

Materials

conda v. 4.10.3 https://www.anaconda.com/products/individual
Java 17 https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8 https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21 http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11 included in Anaconda environment
RDKit v. 2020.09.1.0 https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

References

  1. Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -. L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
  2. Buchanan, B. G., Feigenbaum, E. A., Webber, B. L., Nilsson, N. J. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. , 313-322 (1981).
  3. Gugisch, R., Basak, S. C., Restrepo, G., Villaveces, J. L., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. , 113-138 (2015).
  4. Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
  5. Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
  6. Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
  7. Sims, C. C., Leech, J. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. , 169-183 (1970).
  8. Mat, W. -. K., Xue, H., Wong, J. T. -. F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
  9. Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
  10. Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
  11. Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
  12. Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
  13. Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
  14. Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
  15. Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
  16. Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
  17. Bada, J. L. New insights into prebiotic chemistry from Stanley Miller’s spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
  18. Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
  19. SMARTS – A language for describing molecular patterns. Daylight Chemical Information Systems, Inc Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019)
  20. Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
  21. Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
  22. Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
  23. Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
  24. Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
  25. Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Play Video

Cite This Article
Mayer-Bacon, C., Yirik, M. A. Curation of Computational Chemical Libraries Demonstrated with Alpha-Amino Acids. J. Vis. Exp. (182), e63632, doi:10.3791/63632 (2022).

View Video