El propósito de este protocolo es generar y curar de manera eficiente bibliotecas de estructuras de moléculas pequeñas utilizando software de código abierto.
La generación exhaustiva de estructuras moleculares tiene numerosas aplicaciones químicas y bioquímicas, como el diseño de fármacos, la construcción de bases de datos moleculares, la exploración de bioquímicas alternativas y muchas más. Matemáticamente hablando, estos son generadores de gráficos con restricciones químicas. En el campo, el generador más eficiente actualmente (MOLGEN) es un producto comercial, lo que limita su uso. Alternativa a eso, otro generador de estructura molecular, MAYGEN, es una herramienta reciente de código abierto con una eficiencia comparable a MOLGEN y la capacidad de los usuarios para aumentar su rendimiento mediante la adición de nuevas características. Uno de los campos de investigación que pueden beneficiarse de este desarrollo es la astrobiología; Los generadores de estructura permiten a los investigadores complementar los datos experimentales con posibilidades computacionales para la bioquímica alternativa. Este protocolo detalla un caso de uso para la generación de estructuras en astrobiología, a saber, la generación y curación de bibliotecas de alfa-aminoácidos. Utilizando generadores de estructuras de código abierto y herramientas de quimioinformática, las prácticas descritas aquí se pueden implementar más allá de la astrobiología para la creación y curación de bibliotecas de estructuras químicas de bajo costo para cualquier pregunta de investigación.
La generación de estructuras moleculares sirve como una aplicación práctica del problema general de la generación exhaustiva de grafos; dados varios nodos (átomos) y restricciones en su conectividad (por ejemplo, valencias, multiplicidades de enlaces, subestructuras deseadas / no deseadas), ¿cuántos gráficos conectados (moléculas) son posibles? Los generadores de estructuras han visto una amplia aplicación en el descubrimiento de fármacos y el desarrollo farmacéutico, donde pueden crear vastas bibliotecas de estructuras novedosas para el cribado in silico 1.
El primer generador de estructuras, CONGEN, fue desarrollado para el primer proyecto de inteligencia artificial en química orgánica, DENDRAL2 (abreviatura de DENDRitic ALgorithm). Varios sucesores de software de DENDRAL fueron reportados en la literatura; sin embargo, no todos fueron mantenidos o eficientes. Actualmente, MOLGEN3 es el generador de estructura molecular de última generación. Desafortunadamente para la mayoría de los usuarios potenciales, es de código cerrado y requiere una tarifa de licencia. Por lo tanto, ha habido la necesidad de un generador de estructura de código abierto eficiente que pueda adaptarse fácilmente a aplicaciones específicas. Un desafío para un generador de estructura eficiente es la gestión de la explosión combinatoria; a medida que aumenta el tamaño de una fórmula molecular, el tamaño del espacio de búsqueda química aumenta exponencialmente. Una revisión reciente explora más a fondo la historia y los desafíos de la generación de estructura molecular4.
Antes de 2021, el Parallel Molecule Generator (PMG)5 era el generador de estructura de código abierto más rápido, pero aún era más lento que MOLGEN en órdenes de magnitud. MAYGEN6 es aproximadamente 47 veces más rápido que PMG y alrededor de 3 veces más lento que MOLGEN, lo que convierte a MAYGEN en el generador de estructuras de código abierto más rápido y eficiente disponible. Se pueden encontrar comparaciones más detalladas y pruebas de evaluación comparativa en el documento que presenta MAYGEN6. Una característica clave del programa es su prueba lexicográfica basada en el ordenamiento para estructuras canónicas, un método ordenado de generación de gráficos basado en el algoritmo Schreier-Sims7 . El software se puede integrar fácilmente en otros proyectos y mejorar para las necesidades de los usuarios.
Al igual que MOLGEN y PMG, MAYGEN toma una fórmula molecular definida por el usuario y genera todas las estructuras posibles para esa fórmula. Por ejemplo, si un usuario ejecuta MAYGEN con la fórmula C5H12, MAYGEN generará todas las estructuras posibles que contengan cinco átomos de carbono y doce átomos de hidrógeno. A diferencia de su contraparte de código abierto PMG, MAYGEN también puede acomodar fórmulas moleculares “difusas” que usan intervalos en lugar de números discretos para el recuento de cada elemento. Por ejemplo, si un usuario ejecuta MAYGEN con la fórmula C5-7H12-15, MAYGEN generará todas las estructuras posibles que contengan entre cinco y siete átomos de carbono y doce y quince átomos de hidrógeno, lo que permitirá la generación simple de estructuras con una amplia gama de composiciones atómicas.
La astrobiología es uno de esos campos que puede beneficiarse de los generadores de estructura molecular. Un tema popular en astrobiología es la evolución del alfabeto de aminoácidos compartido por toda la vida existente en la Tierra. Una de las características definitorias del Último Ancestro Común Universal (LUCA) es su uso de veinte aminoácidos codificados genéticamente para la construcción de proteínas 8,9. Sobre la base de meta-análisis de trabajo en múltiples campos 10,11,12, aproximadamente 10 de estos aminoácidos (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) se forman fácilmente en condiciones abióticas y probablemente constituyeron el alfabeto de aminoácidos de los organismos pre-LUCA. Con el tiempo, este alfabeto “temprano” se expandió en respuesta a diferentes necesidades estructurales y funcionales. Por ejemplo, una revisión reciente de Moosmann13 afirma que la adición de miembros más recientes de los aminoácidos codificados genéticamente (a saber, Met, Tyr y Trp) permitió la supervivencia en ambientes ricos en oxígeno al prevenir la proliferación intracelular de especies reactivas de oxígeno.
Un conjunto cada vez mayor de técnicas de química analítica permite comprender las estructuras de aminoácidos que pueden formarse en condiciones abióticas. Una revisión reciente14 realizada por Simkus y otros detalla los métodos utilizados para detectar numerosos compuestos orgánicos en meteoritos, así como compuestos orgánicos de simulaciones in vitro de entornos terrestres tempranos 15,16,17. La generación sistemática de estructuras químicas permite a los investigadores explorar más allá de los compuestos orgánicos detectados a través de la instrumentación, poblando el espacio estructural alrededor de las “islas” estructurales identificadas por la química analítica. En el caso de los aminoácidos “tempranos”, esta generación sistemática de estructuras muestra posibles químicas de proteínas disponibles para la vida temprana sin limitar la exploración a estructuras que han sido detectadas experimentalmente en condiciones de síntesis abiótica. Con kits de herramientas de química de código abierto y generadores de estructuras eficientes como MAYGEN, crear y explorar nuevas bibliotecas de estructuras químicas es ahora más fácil que nunca y puede guiar investigaciones más detalladas sobre químicas alternativas de la vida.
Una característica de los aminoácidos “tempranos” es la falta de azufre. Los meta-análisis mencionados anteriormente generalmente consideran que los aminoácidos codificados que contienen azufre (Cys y Met) han sido adiciones relativamente tardías al código genético, conclusiones respaldadas por la falta de aminoácidos que contienen azufre en meteoritos y experimentos de tubos de chispa. Sin embargo, los compuestos organosulfurados se detectan fácilmente en cometas y meteoritos22, y el reanálisis de experimentos de tubos de chispa utilizando gas H2S encontró aminoácidos y otros compuestos orgánicos que contienen azufre16. Al considerar un alfabeto alternativo de aminoácidos, vale la pena explorar uno enriquecido en azufre.
En el protocolo anterior, la generación de estructuras y el filtrado de subestructuras se consideran pasos críticos; dependiendo de la composición de la biblioteca de estructuras terminada, es posible que un investigador solo necesite realizar esos dos pasos. Se incluyen instrucciones y software para acciones adicionales (reemplazo de pseudoátomos y adición de subestructuras (en este caso, taponamiento de aminoácidos)) para un cálculo descriptor más relevante (el taponamiento garantiza que los cálculos de XLogP estén influenciados por la cadena lateral y no por la columna vertebral de los grupos amina o carboxilo) y una generación de estructura más rápida mediante el uso de un pseudoátomo, que se analiza con más detalle a continuación. Además, el cálculo del descriptor se realiza aquí como una forma fácil de visualizar la diversidad de las estructuras generadas y comparar los efectos del enriquecimiento de azufre en las bibliotecas terminadas.
Mientras que PaDEL-Descriptor puede calcular miles de propiedades moleculares, el volumen molecular (como volumen calculado van der Waals) y el coeficiente de partición (como XLogP) se utilizaron aquí por dos razones distintas. En primer lugar, estos dos descriptores miden las propiedades moleculares (tamaño e hidrofobicidad, respectivamente) que son familiares para la mayoría de los químicos y biólogos. En segundo lugar, en el caso de los aminoácidos, estas dos propiedades son significativas. Durante décadas, se supo que el tamaño de los aminoácidos y la hidrofobicidad influían en la termodinámica del plegamiento de proteínas23. Estas dos propiedades ayudan a explicar las frecuencias de sustitución de aminoácidos que han sido fundamentales para comprender la evolución de las proteínas24.
El ejemplo anterior muestra que, en los dos descriptores estudiados (volumen molecular e hidrofobicidad), la sustitución de un azufre divalente por un carbono y dos hidrógenos no produce cambios significativos. El ligero aumento no significativo en el volumen molecular medio de la sustitución de azufre (Figura 3) podría atribuirse al radio covalente más grande del azufre (~ 103 pm) en comparación con el carbono25 sp3 (~ 75 pm) o sp2 (~ 73 pm). Del mismo modo, la sustitución de azufre tiene un efecto mínimo sobre la media de XLogP (Figura 4). El mayor efecto fue entre las bibliotecas VAIL y VAIL_S, probablemente debido a que una combinación de la biblioteca VAIL es especialmente hidrofóbica (las cadenas laterales son solo hidrocarburos) y los grupos sulfhidrilo son mucho más ácidos que los grupos metilo que reemplazarían. El efecto mínimo de la sustitución de azufre es evidente en la Figura 2, donde las bibliotecas con sustitución de azufre ocupan el mismo espacio químico que las bibliotecas análogas sin sustitución de azufre.
La disminución en el número de estructuras (Figura 5A) y el tiempo necesario para generar esas estructuras (Figura 5B) cuando se utiliza un pseudoátomo no es sorprendente. El uso de un pseudoátomo reduce el número de átomos pesados que deben incorporarse a un gráfico químico, reduciendo el número de nodos de grafos y produciendo disminuciones exponenciales en el tiempo de generación y el número de estructuras. Aquí, la elección del fósforo trivalente como pseudoátomo se deriva de la bioquímica básica (en ausencia de adición posttraduccional de grupos fosfato, ningún aminoácido codificado genéticamente contiene fósforo) y la valencia del átomo que lo reemplazaría (un fósforo trivalente puede reemplazarse fácilmente con un carbono tetravalente que está unido individualmente a otro átomo o grupo de átomos). Si bien el código proporcionado para la sustitución de pseudoátomos es específico para reemplazar un fósforo trivalente con una subestructura de alanina, los usuarios pueden personalizar el código para que funcione con diferentes pseudoátomos o subestructuras de reemplazo, potencialmente utilizando múltiples pseudoátomos durante la generación inicial de la estructura seguido de reemplazar cada pseudoátomo con una subestructura molecular más grande.
Los métodos de generación de estructuras similares a los empleados por MAYGEN (y otros métodos como las redes neuronales) ya se utilizan en el descubrimiento de fármacos para generar bibliotecas de compuestos para el cribado in silico ; una revisión reciente4 discute estos métodos con más detalle. Como estos métodos están destinados principalmente a la creación de moléculas similares a las de un fármaco, existen algunas limitaciones en su capacidad para generar moléculas, como el uso de propiedades biológicas o farmacéuticas para limitar las estructuras creadas (QSPR / QSAR inverso) o la creación de estructuras a partir de un número preestablecido de bloques de construcción de subestructuras. Como la astrobiología se centra más en la multitud de compuestos orgánicos que pueden formarse abióticamente y menos en cualquier producto final o sus propiedades, la generación exhaustiva de estructuras de MAYGEN es ideal para crear bibliotecas de estructuras para abordar cuestiones astrobiológicas. El enfoque para el filtrado de subestructuras descrito aquí (realizado después de la generación de estructuras a través de un programa externo) difiere del programa competidor MOLGEN en que el filtrado de subestructuras de MOLGEN ocurre durante la generación de estructuras. Como MAYGEN es de código abierto, no solo es más accesible que MOLGEN debido al costo de licencia de MOLGEN, sino que las personas podrían implementar nuevas características, como el filtrado de subestructuras durante la generación de estructuras.
Como está escrito, el protocolo descrito aquí se centra en generar y curar bibliotecas de alfa-aminoácidos relativamente pequeños. Para generar diferentes bibliotecas, los usuarios pueden dar diferentes fórmulas moleculares a MAYGEN, cambiar el filtrado de la subestructura cambiando el tamaño máximo permitido del anillo y la valencia de enlace, o editar los archivos goodlist y badlist para agregar o eliminar patrones de subestructura. Las modificaciones de protocolo que implican cambiar la forma en que se agregan o reemplazan los átomos y las subestructuras (sustitución de pseudoátomos y taponamiento molecular) son factibles, pero requerirán más atención a las restricciones de valencia para evitar errores RDKit sobre valencias incorrectas en estructuras modificadas.
El protocolo detallado anteriormente está diseñado para pequeños alfa-aminoácidos. Sin embargo, el formato general (generación integral de estructuras utilizando pseudoátomos, seguido de filtrado de subestructuras y modificaciones moleculares) es altamente flexible para compuestos más allá de aminoácidos pequeños. Incluso en astrobiología, se utilizó un procedimiento reciente similar utilizando MOLGEN para investigar isómeros constitucionales de ácidos nucleicos26. Además de las herramientas descritas anteriormente, MAYGEN se puede combinar con otras herramientas de quimioinformática de código abierto para hacer que la creación y el análisis de nuevas estructuras químicas sean asequibles y accesibles para una amplia gama de campos de investigación.
The authors have nothing to disclose.
MAY reconoce la financiación de la Fundación Carl-Zeiss. Todas las cifras se generaron utilizando Microsoft Excel.
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |