O objetivo deste protocolo é gerar e curadoria eficientemente de bibliotecas de estruturas de pequenas moléculas usando software de código aberto.
A exaustiva geração de estruturas moleculares tem inúmeras aplicações químicas e bioquímicas, como design de drogas, construção de banco de dados molecular, exploração de bioquímicas alternativas e muito mais. Matematicamente falando, estes são geradores gráficos com restrições químicas. No campo, o gerador mais eficiente atualmente (MOLGEN) é um produto comercial, limitando seu uso. Alternativa a isso, outro gerador de estrutura molecular, o MAYGEN, é uma ferramenta recente de código aberto com eficiência comparável ao MOLGEN e a capacidade dos usuários de aumentar seu desempenho adicionando novos recursos. Um dos campos de pesquisa que podem se beneficiar desse desenvolvimento é a astrobiologia; geradores de estrutura permitem aos pesquisadores complementar dados experimentais com possibilidades computacionais para bioquímica alternativa. Este protocolo detalha um caso de uso para geração de estrutura em astrobiologia, ou seja, a geração e curadoria de bibliotecas alfa-aminoácidos. Utilizando geradores de estrutura de código aberto e ferramentas de cheminformática, as práticas aqui descritas podem ser implementadas além da astrobiologia para a criação e curadoria de bibliotecas de estruturas químicas de baixo custo para qualquer questão de pesquisa.
A geração de estrutura molecular serve como uma aplicação prática do problema geral da geração de gráficos exaustivos; dado vários nós (átomos) e restrições em sua conectividade (por exemplo, valências, multiplicidades de vínculo, subestruturas desejadas/indesejadas), quantos gráficos conectados (moléculas) são possíveis? Os geradores de estrutura têm visto ampla aplicação na descoberta de medicamentos e desenvolvimento farmacêutico, onde podem criar vastas bibliotecas de novas estruturas para a triagem de silico 1.
O primeiro gerador de estrutura, CONGEN, foi desenvolvido para o primeiro projeto de inteligência artificial em química orgânica, DENDRAL2 (abreviação de DENDRitic ALgorithm). Vários sucessores de software do DENDRAL foram relatados na literatura; no entanto, nem todos foram mantidos ou eficientes. Atualmente, MOLGEN3 é o gerador de estrutura molecular de última geração. Infelizmente para a maioria dos usuários em potencial, ele é de origem fechada e requer uma taxa de licenciamento. Assim, tem havido a necessidade de um gerador eficiente de estrutura de código aberto que possa facilmente se adaptar a aplicações específicas. Um desafio para um gerador de estrutura eficiente é gerenciar a explosão combinatória; à medida que o tamanho de uma fórmula molecular aumenta, o tamanho do espaço de busca química aumenta exponencialmente. Uma revisão recente explora ainda mais a história e os desafios da geração de estrutura molecular4.
Antes de 2021, o Gerador de Moléculas Paralelas (PMG)5 era o gerador de estrutura de código aberto mais rápido, mas ainda era mais lento que o MOLGEN por ordens de magnitude. MAYGEN6 é aproximadamente 47 vezes mais rápido que o PMG e cerca de 3 vezes mais lento que o MOLGEN, tornando o MAYGEN o gerador de estrutura de código aberto mais rápido e eficiente disponível. Comparações mais detalhadas e testes de benchmarking podem ser encontrados no artigo que introduz o MAYGEN6. Uma característica fundamental do programa é seu teste lexicográfico baseado em pedidos para estruturas canônicas, um método ordenado de geração de gráficos baseado no algoritmo Schreier-Sims7 . O software pode ser facilmente integrado em outros projetos e aprimorado para as necessidades dos usuários.
Como MOLGEN e PMG, maygen pega uma fórmula molecular definida pelo usuário e gera todas as estruturas possíveis para essa fórmula. Por exemplo, se um usuário executa MAYGEN com a fórmula C5H12, MAYGEN irá gerar todas as estruturas possíveis contendo cinco átomos de carbono e doze átomos de hidrogênio. Ao contrário de seu PMG de código aberto, o MAYGEN também pode acomodar fórmulas moleculares “difusas” que usam intervalos em vez de números discretos para a contagem de cada elemento. Por exemplo, se um usuário executa MAYGEN com a fórmula C5-7H12-15, maygen irá gerar todas as estruturas possíveis que contêm entre cinco e sete átomos de carbono e doze e quinze átomos de hidrogênio, permitindo uma simples geração de estruturas com uma ampla gama de composições atômicas.
A astrobiologia é um desses campos que podem se beneficiar de geradores de estrutura molecular. Um tópico popular na astrobiologia é a evolução do alfabeto aminoácido compartilhado por toda a vida já extorquida na Terra. Uma das características definidoras do Último Ancestral Universal Comum (LUCA) é o uso de vinte aminoácidos geneticamente codificados para a construção de proteínas 8,9. Com base em meta-análises do trabalho em múltiplos campos 10,11,12, aproximadamente 10 desses aminoácidos (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) prontamente se formam sob condições abióticas e provavelmente compõem o alfabeto aminoácido de organismos pré-LUCA. Com o tempo, esse alfabeto “precoce” foi expandido em resposta a diferentes necessidades estruturais e funcionais. Por exemplo, uma revisão recente do Moosmann13 afirma que a adição de membros mais recentes dos aminoácidos geneticamente codificados (ou seja, Met, Tyr e Trp) permitiu a sobrevivência em ambientes ricos em oxigênio, impedindo a proliferação intracelular de espécies reativas de oxigênio.
Um conjunto crescente de técnicas de química analítica permite uma visão das estruturas de aminoácidos que podem se formar sob condições abióticas. Uma revisão recente14 de Simkus e outros detalha os métodos usados para detectar numerosos compostos orgânicos em meteoritos, bem como compostos orgânicos de simulações in vitro de ambientes terrestres primitivos 15,16,17. A geração sistemática de estruturas químicas permite que os pesquisadores explorem além dos compostos orgânicos detectados por meio da instrumentação, povoando o espaço estrutural em torno de “ilhas” estruturais identificadas pela química analítica. No caso dos aminoácidos “precoces”, essa geração sistemática de estrutura mostra possíveis químicas proteicas disponíveis para a vida precoce sem limitar a exploração a estruturas que foram detectadas experimentalmente sob condições de síntese abiótica. Com kits de ferramentas de cheminformática de código aberto e geradores de estrutura eficientes como o MAYGEN, criar e explorar novas bibliotecas de estruturas químicas agora é mais fácil do que nunca e pode orientar investigações mais detalhadas sobre químicas alternativas da vida.
Uma característica dos aminoácidos “precoces” é a falta de enxofre. As meta-análises mencionadas anteriormente geralmente consideram que os aminoácidos codificados contendo enxofre (Cys e Met) foram adições relativamente tardias ao código genético, conclusões apoiadas pela falta de aminoácidos contendo enxofre em meteoritos e experimentos com tubos de faísca. No entanto, compostos organosulfur são facilmente detectados em cometas e meteoritos22, e reanalise de experimentos de tubos de faísca usando gás H2S encontrados aminoácidos e outros compostos orgânicos contendo enxofre16. Ao considerar um alfabeto de aminoácido alternativo, vale a pena explorar um alfabeto de aminoácidos alternativo, um enriquecido em enxofre.
No protocolo acima, a geração de estruturas e a filtragem de subestruturas são consideradas etapas críticas; dependendo da composição da biblioteca de estrutura terminada, um pesquisador só pode precisar realizar essas duas etapas. Instruções e softwares para ações adicionais (substituição de pseudoatom e adição de subestruturas (neste caso, cobertura de aminoácidos)) são incluídos para cálculo de descritor mais relevante (o capping garante que os cálculos XLogP sejam influenciados pela sidechain e não pelos grupos de amina ou carboxíl) e pela geração mais rápida da estrutura através do uso de um pseudoatom, que é discutido com mais detalhes abaixo. Além disso, o cálculo do descritor é feito aqui como uma maneira fácil de visualizar a diversidade das estruturas geradas e comparar os efeitos do enriquecimento de enxofre nas bibliotecas acabadas.
Enquanto padel-descriptor pode calcular milhares de propriedades moleculares, volume molecular (como calculado van der Waals volume) e coeficiente de partição (como XLogP) foram usados aqui por duas razões distintas. Primeiro, esses dois descritores medem propriedades moleculares (tamanho e hidrofobiidade, respectivamente) que são familiares à maioria dos químicos e biólogos. Em segundo lugar, no caso dos aminoácidos, essas duas propriedades são significativas. Durante décadas, o tamanho do aminoácido e a hidroofobidade foram conhecidos por influenciar a termodinâmica da proteína dobrável23. Essas duas propriedades ajudam a explicar as frequências de substituição de aminoácidos que foram parte integrante da compreensão da evolução da proteína24.
O exemplo acima mostra que, nos dois descritores estudados (volume molecular e hidrofóbica), substituir um enxofre divalento por um carbono e dois hidrogênios não produz mudanças significativas. O leve aumento não significativo no volume molecular médio da substituição de enxofre (Figura 3) pode ser atribuído ao maior raio covalente do enxofre (~103 pm) em comparação com sp3 (~75 pm) ou sp2 (~73 pm) carbono25. Da mesma forma, a substituição de enxofre tem efeito mínimo sobre a média XLogP (Figura 4). O maior efeito foi entre as bibliotecas VAIL e VAIL_S, provavelmente devido a uma combinação da biblioteca VAIL ser especialmente hidrofóbica (as sidechains são apenas hidrocarbonetos) e grupos de sulfhydryl sendo muito mais ácidos do que os grupos de metila que eles substituiriam. O efeito mínimo da substituição de enxofre é aparente na Figura 2, onde bibliotecas com substituição de enxofre ocupam o mesmo espaço químico que bibliotecas análogas sem substituição de enxofre.
A diminuição do número de estruturas (Figura 5A) e do tempo necessário para gerar essas estruturas (Figura 5B) ao usar um pseudoatoma não é surpreendente. O uso de um pseudoatoma reduz o número de átomos pesados que precisam ser incorporados em um gráfico químico, reduzindo o número de nódulos gráficos e produzindo reduções exponenciais no tempo de geração e no número de estruturas. Aqui, a escolha do fósforo trivalente como pseudoóatoma decorre da bioquímica básica (adição pós-transatacional de grupos fosfatos, nenhum aminoácido geneticamente codificado contém fósforo) e a valência do átomo que o substituiria (um fósforo trivalente pode ser facilmente substituído por um carbono tetravalente que é singly ligado a outro átomo ou grupo de átomos). Embora o código fornecido para substituição de pseudoatoms seja específico para substituir um fósforo trivalente por uma subestrutura alanina, os usuários podem personalizar o código para trabalhar com diferentes pseudoatomas ou subestruturas de substituição, potencialmente usando pseudoatomas múltiplos durante a geração inicial da estrutura seguida pela substituição de cada pseudoatom por uma subestrutura molecular maior.
Métodos de geração de estruturas semelhantes aos empregados pelo MAYGEN (e outros métodos, como redes neurais) já são usados na descoberta de medicamentos para gerar bibliotecas compostas para a triagem de silico ; uma revisão recente4 discute esses métodos com mais detalhes. Como esses métodos são destinados principalmente à criação de moléculas semelhantes a medicamentos, existem algumas limitações em sua capacidade de gerar moléculas, como o uso de propriedades biológicas ou farmacêuticas para limitar as estruturas criadas (inversa QSPR/QSAR) ou a criação de estruturas a partir de um número predefinido de blocos de construção de subestrutura. Como a astrobiologia está mais focada na multiplicidade de compostos orgânicos que podem se formar abioticamente e menos em qualquer produto final ou em suas propriedades, a exaustiva geração de estruturas da MAYGEN é ideal para criar bibliotecas estruturais para abordar questões astrobiológicas. A abordagem da filtragem de subestrutura descrita aqui (realizada após a geração de estrutura através de um programa externo) difere do programa concorrente MOLGEN, na qual a filtragem da subestrutura do MOLGEN ocorre durante a geração da estrutura. Como o MAYGEN é de código aberto, não só é mais acessível do que o MOLGEN devido ao custo de licenciamento da MOLGEN, mas os indivíduos poderiam implementar novos recursos, como filtragem de subestrutura durante a geração de estruturas.
Como escrito, o protocolo descrito aqui é focado na geração e curadoria de bibliotecas de relativamente pequenos alfa-aminoácidos. Para gerar diferentes bibliotecas, os usuários podem dar diferentes fórmulas moleculares ao MAYGEN, alterar a filtragem da subestrutura alterando o tamanho máximo permitido do anel e a valência de títulos, ou editar os arquivos goodlist e badlist para adicionar ou remover padrões de subestrutura. Modificações de protocolo que envolvem a mudança de forma como átomos e subestruturas são adicionados ou substituídos (substituição de pseudoatom e cobertura molecular) são viáveis, mas exigirão mais atenção às restrições de valência para evitar erros de RDKit sobre valências incorretas em estruturas modificadas.
O protocolo detalhado acima é projetado para pequenos alfa-aminoácidos. No entanto, o formato geral (geração abrangente de estrutura usando pseudoatomas, seguido de filtragem de subestrutura e modificações moleculares) é altamente flexível para compostos além de pequenos aminoácidos. Mesmo na astrobiologia, um procedimento recente semelhante usando MOLGEN foi usado para investigar isômeros constitucionais de ácidos nucleicos26. Além das ferramentas descritas acima, a MAYGEN pode ser emparelhada com outras ferramentas de cheminformática de código aberto para tornar a criação e análise de novas estruturas químicas acessíveis e acessíveis a uma ampla gama de campos de pesquisa.
The authors have nothing to disclose.
May reconhece financiamento da Fundação Carl-Zeiss. Todos os números foram gerados usando o Microsoft Excel.
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |