Summary

Curación de bibliotecas químicas computacionales demostradas con alfa-aminoácidos

Published: April 13, 2022
doi:

Summary

El propósito de este protocolo es generar y curar de manera eficiente bibliotecas de estructuras de moléculas pequeñas utilizando software de código abierto.

Abstract

La generación exhaustiva de estructuras moleculares tiene numerosas aplicaciones químicas y bioquímicas, como el diseño de fármacos, la construcción de bases de datos moleculares, la exploración de bioquímicas alternativas y muchas más. Matemáticamente hablando, estos son generadores de gráficos con restricciones químicas. En el campo, el generador más eficiente actualmente (MOLGEN) es un producto comercial, lo que limita su uso. Alternativa a eso, otro generador de estructura molecular, MAYGEN, es una herramienta reciente de código abierto con una eficiencia comparable a MOLGEN y la capacidad de los usuarios para aumentar su rendimiento mediante la adición de nuevas características. Uno de los campos de investigación que pueden beneficiarse de este desarrollo es la astrobiología; Los generadores de estructura permiten a los investigadores complementar los datos experimentales con posibilidades computacionales para la bioquímica alternativa. Este protocolo detalla un caso de uso para la generación de estructuras en astrobiología, a saber, la generación y curación de bibliotecas de alfa-aminoácidos. Utilizando generadores de estructuras de código abierto y herramientas de quimioinformática, las prácticas descritas aquí se pueden implementar más allá de la astrobiología para la creación y curación de bibliotecas de estructuras químicas de bajo costo para cualquier pregunta de investigación.

Introduction

La generación de estructuras moleculares sirve como una aplicación práctica del problema general de la generación exhaustiva de grafos; dados varios nodos (átomos) y restricciones en su conectividad (por ejemplo, valencias, multiplicidades de enlaces, subestructuras deseadas / no deseadas), ¿cuántos gráficos conectados (moléculas) son posibles? Los generadores de estructuras han visto una amplia aplicación en el descubrimiento de fármacos y el desarrollo farmacéutico, donde pueden crear vastas bibliotecas de estructuras novedosas para el cribado in silico 1.

El primer generador de estructuras, CONGEN, fue desarrollado para el primer proyecto de inteligencia artificial en química orgánica, DENDRAL2 (abreviatura de DENDRitic ALgorithm). Varios sucesores de software de DENDRAL fueron reportados en la literatura; sin embargo, no todos fueron mantenidos o eficientes. Actualmente, MOLGEN3 es el generador de estructura molecular de última generación. Desafortunadamente para la mayoría de los usuarios potenciales, es de código cerrado y requiere una tarifa de licencia. Por lo tanto, ha habido la necesidad de un generador de estructura de código abierto eficiente que pueda adaptarse fácilmente a aplicaciones específicas. Un desafío para un generador de estructura eficiente es la gestión de la explosión combinatoria; a medida que aumenta el tamaño de una fórmula molecular, el tamaño del espacio de búsqueda química aumenta exponencialmente. Una revisión reciente explora más a fondo la historia y los desafíos de la generación de estructura molecular4.

Antes de 2021, el Parallel Molecule Generator (PMG)5 era el generador de estructura de código abierto más rápido, pero aún era más lento que MOLGEN en órdenes de magnitud. MAYGEN6 es aproximadamente 47 veces más rápido que PMG y alrededor de 3 veces más lento que MOLGEN, lo que convierte a MAYGEN en el generador de estructuras de código abierto más rápido y eficiente disponible. Se pueden encontrar comparaciones más detalladas y pruebas de evaluación comparativa en el documento que presenta MAYGEN6. Una característica clave del programa es su prueba lexicográfica basada en el ordenamiento para estructuras canónicas, un método ordenado de generación de gráficos basado en el algoritmo Schreier-Sims7 . El software se puede integrar fácilmente en otros proyectos y mejorar para las necesidades de los usuarios.

Al igual que MOLGEN y PMG, MAYGEN toma una fórmula molecular definida por el usuario y genera todas las estructuras posibles para esa fórmula. Por ejemplo, si un usuario ejecuta MAYGEN con la fórmula C5H12, MAYGEN generará todas las estructuras posibles que contengan cinco átomos de carbono y doce átomos de hidrógeno. A diferencia de su contraparte de código abierto PMG, MAYGEN también puede acomodar fórmulas moleculares “difusas” que usan intervalos en lugar de números discretos para el recuento de cada elemento. Por ejemplo, si un usuario ejecuta MAYGEN con la fórmula C5-7H12-15, MAYGEN generará todas las estructuras posibles que contengan entre cinco y siete átomos de carbono y doce y quince átomos de hidrógeno, lo que permitirá la generación simple de estructuras con una amplia gama de composiciones atómicas.

La astrobiología es uno de esos campos que puede beneficiarse de los generadores de estructura molecular. Un tema popular en astrobiología es la evolución del alfabeto de aminoácidos compartido por toda la vida existente en la Tierra. Una de las características definitorias del Último Ancestro Común Universal (LUCA) es su uso de veinte aminoácidos codificados genéticamente para la construcción de proteínas 8,9. Sobre la base de meta-análisis de trabajo en múltiples campos 10,11,12, aproximadamente 10 de estos aminoácidos (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) se forman fácilmente en condiciones abióticas y probablemente constituyeron el alfabeto de aminoácidos de los organismos pre-LUCA. Con el tiempo, este alfabeto “temprano” se expandió en respuesta a diferentes necesidades estructurales y funcionales. Por ejemplo, una revisión reciente de Moosmann13 afirma que la adición de miembros más recientes de los aminoácidos codificados genéticamente (a saber, Met, Tyr y Trp) permitió la supervivencia en ambientes ricos en oxígeno al prevenir la proliferación intracelular de especies reactivas de oxígeno.

Un conjunto cada vez mayor de técnicas de química analítica permite comprender las estructuras de aminoácidos que pueden formarse en condiciones abióticas. Una revisión reciente14 realizada por Simkus y otros detalla los métodos utilizados para detectar numerosos compuestos orgánicos en meteoritos, así como compuestos orgánicos de simulaciones in vitro de entornos terrestres tempranos 15,16,17. La generación sistemática de estructuras químicas permite a los investigadores explorar más allá de los compuestos orgánicos detectados a través de la instrumentación, poblando el espacio estructural alrededor de las “islas” estructurales identificadas por la química analítica. En el caso de los aminoácidos “tempranos”, esta generación sistemática de estructuras muestra posibles químicas de proteínas disponibles para la vida temprana sin limitar la exploración a estructuras que han sido detectadas experimentalmente en condiciones de síntesis abiótica. Con kits de herramientas de química de código abierto y generadores de estructuras eficientes como MAYGEN, crear y explorar nuevas bibliotecas de estructuras químicas es ahora más fácil que nunca y puede guiar investigaciones más detalladas sobre químicas alternativas de la vida.

Protocol

NOTA: Consulte la Figura 1 para obtener un resumen del protocolo y la Tabla de materiales para obtener detalles sobre el software utilizado. Figura 1: Diagrama de flujo resumido del protocolo. Haga clic aquí para ver una versión más grande de esta figura. 1. Descargas de software y archivos NOTA: Todos los programas son gratuitos para uso individual y se pueden ejecutar en una computadora personal. Cree un nuevo directorio para este proyecto. Coloque los archivos y ejecutables aquí para facilitar el acceso. Descargue e instale los paquetes de software necesarios. Descargue la última versión de MAYGEN como archivo .jar.NOTA: MAYGEN está disponible gratuitamente como un archivo .jar de https://github.com/MehmetAzizYirik/MAYGEN/releases Descargue e instale el software de gestión de paquetes Conda y el kit de herramientas de química informática RDKit18.NOTA: RDKit filtrará las estructuras moleculares producidas por MAYGEN y funciona mejor en un entorno Conda. Las instrucciones para descargar la plataforma Conda se pueden encontrar en https://conda.io/projects/conda/en/latest/user-guide/install/index.html. Las instrucciones de instalación y configuración del entorno de RDKit se pueden encontrar en https://www.rdkit.org/docs/Install.html. Instale RDKit en el entorno principal de Conda en lugar de un entorno RDKit independiente a través del símbolo del sistema Anaconda. En sistemas Windows, busque “Anaconda prompt” y haga clic en el acceso directo resultante para ejecutar. En sistemas MacOS y Linux, interactúe con Conda a través del terminal sin ejecutar ningún programa adicional. A continuación, escriba el siguiente comando y presione Entrar para ejecutar, y responda sí a cualquier pregunta que surja durante la instalación:conda install -c rdkit rdkit.Si bien hay muchos programas de cálculo de descriptores disponibles gratuitamente, este ejemplo utiliza PaDEL-Descriptor19, una calculadora gratuita y rápida para descriptores moleculares y huellas dactilares. Descargue y guarde el archivo .jar en la carpeta del proyecto.NOTA: PaDEL-Descriptor se puede descargar de forma gratuita desde http://www.yapcwsoft.com/dd/padeldescriptor/. Descargue los blocs de notas de Jupyter y los archivos de texto de los patrones de subestructura de Los archivos suplementarios 1-5.NOTA: Los blocs de notas de Jupyter también se pueden descargar desde la siguiente página de GitHub: https://github.com/cmayerb1/AA-structure-manip. 2. Generación de estructuras utilizando MAYGEN En un símbolo del sistema, navegue hasta el directorio que contiene el archivo ejecutable MAYGEN .jar. Para cada fórmula química de interés, ejecute MAYGEN utilizando el siguiente comando:java -jar [MAYGEN .jar nombre de archivo] -f [fórmula química] -v -o [carpeta para la salida maygen] -m -sdf.Nota : esto guardará un archivo .sdf en la carpeta designada, con el nombre de la fórmula utilizada. Si la fórmula es una fórmula difusa en lugar de una fórmula discreta, reemplace la bandera -f por una bandera -difusa y encierre los intervalos de cualquier elemento entre paréntesis (por ejemplo, use C[5-7]H[12-15] para asegurarse de que todas las estructuras generadas tengan entre 5 y 7 átomos de carbono y entre 12 y 15 átomos de hidrógeno). 3. Filtrar compuestos con subestructuras no deseadas Abra un mensaje de Anaconda (consulte el paso 1.2.2.1) y navegue hasta la carpeta que contiene los blocs de notas de Jupyter descargados del archivo complementario 1. Abra el bloc de notas de Jupyter para el filtrado de subestructuras mediante el siguiente comando:jupyter notebook [nombre de archivo del bloc de notas] En la celda designada al principio del bloc de notas, introduzca la ruta de archivo completa del archivo de .sdf de entrada (generada por MAYGEN), la ruta de archivo completa del archivo de salida de .sdf deseado y la ruta de archivo del archivo “badlist” como cadenas (entre comillas). Consulte el archivo complementario 2 para ver un ejemplo de una lista incorrecta. Si se van a conservar algunas subestructuras de la biblioteca filtrada (una lista de buenos), cree un archivo .txt de patrones SMARTS20 para esas subestructuras (una lista de buenos) y coloque la ruta del archivo de lista de mercancías en la línea designada al principio del bloc de notas. Consulte el Archivo suplementario 3 para ver un ejemplo de una lista de buenos. Reinicie el kernel del bloc de notas y ejecute todas las celdas (desde el menú de la parte superior , seleccione Kernel, Reiniciar y Ejecutar todo) para obtener un archivo .sdf con el nombre deseado en la carpeta de salida especificada. Repita los dos pasos anteriores para cada archivo de estructura generado por MAYGEN en el paso 2. 4. (Opcional) Modificaciones adicionales de la estructura Nota : estos se realizan en este ejemplo, pero pueden no ser necesarios para la curaduría de otras bibliotecas. Reemplazo de pseudoátomos.NOTA: Aquí, un pseudoátomo es un átomo único utilizado para representar una subestructura más grande compartida por todas las estructuras generadas, reduciendo así el tiempo de generación de MAYGEN. Consulte el Archivo suplementario 4 para ver un ejemplo de reemplazo de pseudoátomos. Abra un mensaje de Anaconda (consulte el paso 1.2.2.1) y navegue hasta la carpeta que contiene los blocs de notas de Jupyter. Abra el cuaderno jupyter para el reemplazo de pseudoátomos:jupyter notebook [nombre de archivo del bloc de notas] En la celda designada al principio del bloc de notas, introduzca la ruta de archivo completa del archivo de .sdf de entrada y la ruta de archivo completa del archivo de salida de .sdf deseado como cadenas (entre comillas). Reinicie el kernel del bloc de notas y ejecute todas las celdas para obtener un archivo .sdf con el nombre deseado en la carpeta de salida especificada. Tapamiento de aminoácidos N- y C-terminiNOTA: Este procedimiento es específico para los alfa-aminoácidos, agregando tapas moleculares a los N- y C-termini de las columnas vertebrales de alfa-aminoácidos. Consulte el Archivo Suplementario 5 para ver un ejemplo de tapamiento de aminoácidos. Abra un mensaje de Anaconda (consulte el paso 1.2.2.1) y navegue hasta la carpeta que contiene los blocs de notas de Jupyter. Abra el cuaderno jupyter para el taponamiento de aminoácidos:jupyter notebook [nombre de archivo del bloc de notas] En la celda designada al principio del bloc de notas, introduzca la ruta de archivo completa del archivo de .sdf de entrada y la ruta de archivo completa del archivo de salida de .sdf deseado como cadenas (entre comillas). Reinicie el kernel del bloc de notas y ejecute todas las celdas para obtener un archivo .sdf con el nombre deseado en la carpeta de salida especificada. 5. Generación de descriptores Antes de la generación de descriptores, coloque todos los archivos .sdf para los que se van a calcular los descriptores en una sola carpeta.NOTA: Si aún no ha terminado, asigne a estos archivos nombres descriptivos para facilitar el filtrado después de la generación del descriptor. Abra un símbolo del sistema y navegue hasta la carpeta que contiene el archivo PaDEL-Descriptor .jar. Ejecute PaDEL-Descriptor para los archivos .sdf recopilados mediante el siguiente comando:java -jar PaDEL-Descriptor.jar -dir [directorio de los archivos .sdf] -file [ruta de archivo de un archivo .csv para resultados] -2d -retainorder -usefilenameasmolnameNOTA: El archivo de resultados tendrá el nombre de la molécula en la primera columna y cada descriptor en las columnas siguientes. Exporte estos datos a cualquier software de hoja de cálculo para su posterior análisis.

Representative Results

Biblioteca Fórmula Restricciones adicionales Aminoácidos codificados “tempranos” Tiempo de generación (ms) Estructuras Inicial Final 1 Gly C2H5NO2 incluir subestructura Gly Gly 192 84 1 2 VAIL PC0-3H3-9 Val, Ala, Ile, Leu 172 70 22 3 DEST PC0-3O1-2H3-5 Asp, Glu, Ser, Thr 481 1928 254 4 Pro C2-5NO2H7-11 Incluir subestructura N-meGly o N-meAla Pro 4035 79777 16 5 VAIL_S PSC0-2H3-7 122 65 31 6 DEST_S PSC0-2O1-2H3 349 1075 79 7 Pro_S C2-4SNO2H7-9 Incluir subestructura N-meGly o N-meAla 3999 75734 10 Tabla 1: Bibliotecas compuestas utilizadas en este ejemplo. Las bibliotecas construidas a partir de fórmulas 1-4 (Gly, VAIL, DEST y Pro) se basan en fórmulas difusas publicadas previamente de los aminoácidos codificados “tempranos”21, mientras que las bibliotecas construidas a partir de fórmulas 5-7 (VAIL_S, DEST_S y Pro_S) se basan en variantes de fórmulas 2-4 que imaginan un azufre divalente reemplazando uno de los átomos de carbono. Los recuentos de estructura reflejan el número de moléculas generadas por MAYGEN para cada fórmula (“Inicial”) y el número de moléculas restantes después de filtrar aquellas con subestructuras no deseadas (“Final”). Abreviaturas: VAIL = valina, alanina, isoleucina, leucina; DEST = ácido aspártico, ácido glutámico, serina, treonina; X_S = azufre divalente reemplaza uno de los carbonos en la biblioteca X; N-meX = N-metilX. Los métodos generales anteriores se aplicaron a fórmulas basadas en los aminoácidos codificados “tempranos”, siguiendo el procedimiento de Meringer et al.21 Las estructuras de Badlist se tomaron de esta misma fuente y se convirtieron en cadenas SMARTS para representar fácilmente patrones subestructurales. En este ejemplo no se utilizaron dos subestructuras de listas incorrectas: la estructura 018 (CH 3-CH-N) coincidía con los isómeros cercanos de la prolina que no eran inestables; La estructura 106 (R-C-C-OH, donde R = subestructura de alanina que se une al beta-carbono) coincidió con el ácido glutámico, un aminoácido codificado. Además de estas fórmulas químicas, se crearon variantes con azufre divalente que toman el lugar de un átomo de carbono y dos átomos de hidrógeno. Por razones de rendimiento, varias de estas fórmulas utilizan un átomo de fósforo trivalente (por ejemplo, un “pseudoátomo”) como sustituto del beta-carbono de una subestructura de alanina. En la Tabla 1 se enumeran las bibliotecas generadas en este ejemplo, las fórmulas utilizadas para generarlas y el número de compuestos que contiene. Los nombres de las bibliotecas se basan en los aminoácidos codificados de los que se derivan: ya sea utilizando la abreviatura de 3 letras (Gly = glicina, Pro = prolina) o la abreviatura de una sola letra (VAIL = valina, alanina, isoleucina, leucina; DEST = Ácido aspártico, ácido glutámico, serina, treonina). El sufijo “_S” indica que un azufre fue sustituido por un carbono en la fórmula de la biblioteca original (por ejemplo, VAIL_S está construido con la misma fórmula difusa que VAIL, pero con un azufre divalente que reemplaza a uno de los carbonos). Después de la generación de estructuras con MAYGEN, las bibliotecas resultantes se filtraron de compuestos que contenían al menos una subestructura contenida en la lista de errores. Después de este filtrado, cualquier átomo de fósforo fue reemplazado por una subestructura de alanina. A continuación, se crearon versiones “tapadas” de todas las estructuras, con un grupo acetilo agregado al N-terminal y un grupo N-metilamida agregado al C-terminal. Esto se hizo para eliminar el efecto sobre la hidrofobicidad de los grupos de amina libre y ácido carboxílico en la columna vertebral de alfa-aminoácidos. PaDEL-Descriptor se utilizó para calcular XLogP para todas las estructuras tapadas y calculó el volumen de van der Waals (VABC) para todas las estructuras sin límite. La Figura 2 muestra el espacio químico de las bibliotecas filtradas, tal como lo definen los descriptores VABC y XLogP. Aquí, el rango de posibles valores logP aumenta con el volumen molecular, incluso dentro de bibliotecas que carecen explícitamente de cadenas laterales hidrófilas (por ejemplo, VAIL, Pro). Los aminoácidos codificados con cadenas laterales de hidrocarburos eran más hidrófobos que la mayoría de los otros aminoácidos de un volumen comparable de su respectiva biblioteca. Este también parece ser el caso de Met y Cys en comparación con otros miembros de la biblioteca VAIL_S con volúmenes similares. Los aminoácidos codificados con cadenas laterales de hidroxilo (Ser y Thr) se encontraban entre los miembros más pequeños de la biblioteca DEST, con Asp solo un poco más grande que Thr. La Figura 3 y la Figura 4 muestran los impactos en el volumen y el logP cuando un azufre divalente reemplaza a un carbono en una cadena lateral de alfa-aminoácidos. La sustitución de azufre condujo a un ligero aumento en el volumen molecular en todas las bibliotecas (Figura 3). El efecto de la sustitución de azufre sobre el logP no es tan homogéneo como para el volumen (Figura 4). El logP medio de la biblioteca VAIL_S es ligeramente inferior al de la biblioteca VAIL, pero este efecto no se observa en ninguno de los otros pares de bibliotecas (DEST y DEST_S, Pro y Pro_S). La Figura 5 cuantifica los efectos sobre la generación de estructuras de un pseudoátomo que sustituye a una subestructura común; aquí, una P trivalente sustituyó a una fracción de alanina durante la generación de la estructura. El uso de un pseudoátomo en la generación de estructuras disminuyó en gran medida el número de estructuras generadas por ~ 3 órdenes de magnitud (Figura 5A) y el tiempo total necesario para generar esas estructuras en 1-2 órdenes de magnitud (Figura 5B). Figura 2: Espacio químico de todas las bibliotecas de aminoácidos filtrados. Los marcadores negros representan aminoácidos de bibliotecas sin azufre; los marcadores amarillos representan aminoácidos de bibliotecas enriquecidas con azufre. Círculos: VAIL y VAIL_S; cuadrados: DEST y DEST_S; triángulos: Pro y Pro_S; estrellas: aminoácidos codificados. Tenga en cuenta que los dos aminoácidos codificados que contienen azufre (Met y Cys) no se consideran aminoácidos “tempranos”, pero están presentes en la biblioteca VAIL_S. Abreviaturas: XLogP = coeficiente de reparto; VAIL = valina, alanina, isoleucina, leucina; DEST = ácido aspártico, ácido glutámico, serina, treonina; X_S = El azufre divalente reemplaza a uno de los carbonos en la biblioteca X. Haga clic aquí para ver una versión más grande de esta figura. Figura 3: Volúmenes medios de van der Waals (en Å3) de bibliotecas con y sin azufre. Las barras negras representan los volúmenes medios de las bibliotecas sin azufre (VAIL, DEST, Pro), mientras que las barras amarillas representan los volúmenes medios de las versiones sustituidas por azufre de esas bibliotecas (VAIL_S, DEST_S, Pro_S). Las barras de error muestran la desviación estándar. Abreviaturas: VAIL = valina, alanina, isoleucina, leucina; DEST = ácido aspártico, ácido glutámico, serina, treonina; X_S = El azufre divalente reemplaza a uno de los carbonos en la biblioteca X. Haga clic aquí para ver una versión más grande de esta figura. Figura 4: Valores medios de XLogP de bibliotecas con y sin azufre. Las barras negras representan bibliotecas sin azufre (VAIL, DEST, Pro), mientras que las barras amarillas representan versiones sustituidas por azufre de esas bibliotecas (VAIL_S, DEST_S, Pro_S). Las barras de error muestran la desviación estándar. Abreviaturas: XLogP = coeficiente de reparto; VAIL = valina, alanina, isoleucina, leucina; DEST = ácido aspártico, ácido glutámico, serina, treonina; X_S = El azufre divalente reemplaza a uno de los carbonos en la biblioteca X. Haga clic aquí para ver una versión más grande de esta figura. Figura 5: Efectos de un pseudoátomo trivalente en la generación de la estructura MAYGEN. Todas las pruebas se realizaron en una PC con un procesador Intel i7-7700HQ a 2,8 GHz, 16 GB de RAM, sin guardar estructuras en un archivo y la opción -m para usar multithreading. Las pruebas que utilizaron un pseudoátomo utilizaron las fórmulas difusas como se describe en la Tabla 1. Para las pruebas sin pseudoátomo, las fórmulas difusas utilizadas fueron las mismas que se describen en la Tabla 1 con los siguientes cambios: P se reemplazó por N; los recuentos de carbono se incrementaron en 3; los recuentos de hidrógeno se incrementaron en 7; los recuentos de oxígeno se incrementaron en 2. Las barras negras muestran bibliotecas generadas con un pseudoátomo; las barras grises muestran bibliotecas generadas sin un pseudoátomo. (A) Número de estructuras generadas utilizando las fórmulas difusas utilizadas para construir las bibliotecas VAIL y DEST con y sin fósforo trivalente sustituyendo a una subestructura de alanina. (B) Tiempo (en ms) necesario para construir las bibliotecas VAIL y DEST con y sin un fósforo trivalente que sustituya a una subestructura de alanina. Abreviaturas: VAIL = valina, alanina, isoleucina, leucina; DEST = ácido aspártico, ácido glutámico, serina, treonina. Haga clic aquí para ver una versión más grande de esta figura. Archivo suplementario 1: Cuaderno de detección de subestructuras. Haga clic aquí para descargar este archivo. Archivo suplementario 2: Lista de errores de muestra. Haga clic aquí para descargar este archivo. Archivo suplementario 3: Lista de buenas muestras. Haga clic aquí para descargar este archivo. Archivo suplementario 4: Cuaderno de reemplazo de pseudoátomos. Haga clic aquí para descargar este archivo. Archivo suplementario 5: Cuaderno de tapado de aminoácidos. Haga clic aquí para descargar este archivo.

Discussion

Una característica de los aminoácidos “tempranos” es la falta de azufre. Los meta-análisis mencionados anteriormente generalmente consideran que los aminoácidos codificados que contienen azufre (Cys y Met) han sido adiciones relativamente tardías al código genético, conclusiones respaldadas por la falta de aminoácidos que contienen azufre en meteoritos y experimentos de tubos de chispa. Sin embargo, los compuestos organosulfurados se detectan fácilmente en cometas y meteoritos22, y el reanálisis de experimentos de tubos de chispa utilizando gas H2S encontró aminoácidos y otros compuestos orgánicos que contienen azufre16. Al considerar un alfabeto alternativo de aminoácidos, vale la pena explorar uno enriquecido en azufre.

En el protocolo anterior, la generación de estructuras y el filtrado de subestructuras se consideran pasos críticos; dependiendo de la composición de la biblioteca de estructuras terminada, es posible que un investigador solo necesite realizar esos dos pasos. Se incluyen instrucciones y software para acciones adicionales (reemplazo de pseudoátomos y adición de subestructuras (en este caso, taponamiento de aminoácidos)) para un cálculo descriptor más relevante (el taponamiento garantiza que los cálculos de XLogP estén influenciados por la cadena lateral y no por la columna vertebral de los grupos amina o carboxilo) y una generación de estructura más rápida mediante el uso de un pseudoátomo, que se analiza con más detalle a continuación. Además, el cálculo del descriptor se realiza aquí como una forma fácil de visualizar la diversidad de las estructuras generadas y comparar los efectos del enriquecimiento de azufre en las bibliotecas terminadas.

Mientras que PaDEL-Descriptor puede calcular miles de propiedades moleculares, el volumen molecular (como volumen calculado van der Waals) y el coeficiente de partición (como XLogP) se utilizaron aquí por dos razones distintas. En primer lugar, estos dos descriptores miden las propiedades moleculares (tamaño e hidrofobicidad, respectivamente) que son familiares para la mayoría de los químicos y biólogos. En segundo lugar, en el caso de los aminoácidos, estas dos propiedades son significativas. Durante décadas, se supo que el tamaño de los aminoácidos y la hidrofobicidad influían en la termodinámica del plegamiento de proteínas23. Estas dos propiedades ayudan a explicar las frecuencias de sustitución de aminoácidos que han sido fundamentales para comprender la evolución de las proteínas24.

El ejemplo anterior muestra que, en los dos descriptores estudiados (volumen molecular e hidrofobicidad), la sustitución de un azufre divalente por un carbono y dos hidrógenos no produce cambios significativos. El ligero aumento no significativo en el volumen molecular medio de la sustitución de azufre (Figura 3) podría atribuirse al radio covalente más grande del azufre (~ 103 pm) en comparación con el carbono25 sp3 (~ 75 pm) o sp2 (~ 73 pm). Del mismo modo, la sustitución de azufre tiene un efecto mínimo sobre la media de XLogP (Figura 4). El mayor efecto fue entre las bibliotecas VAIL y VAIL_S, probablemente debido a que una combinación de la biblioteca VAIL es especialmente hidrofóbica (las cadenas laterales son solo hidrocarburos) y los grupos sulfhidrilo son mucho más ácidos que los grupos metilo que reemplazarían. El efecto mínimo de la sustitución de azufre es evidente en la Figura 2, donde las bibliotecas con sustitución de azufre ocupan el mismo espacio químico que las bibliotecas análogas sin sustitución de azufre.

La disminución en el número de estructuras (Figura 5A) y el tiempo necesario para generar esas estructuras (Figura 5B) cuando se utiliza un pseudoátomo no es sorprendente. El uso de un pseudoátomo reduce el número de átomos pesados que deben incorporarse a un gráfico químico, reduciendo el número de nodos de grafos y produciendo disminuciones exponenciales en el tiempo de generación y el número de estructuras. Aquí, la elección del fósforo trivalente como pseudoátomo se deriva de la bioquímica básica (en ausencia de adición posttraduccional de grupos fosfato, ningún aminoácido codificado genéticamente contiene fósforo) y la valencia del átomo que lo reemplazaría (un fósforo trivalente puede reemplazarse fácilmente con un carbono tetravalente que está unido individualmente a otro átomo o grupo de átomos). Si bien el código proporcionado para la sustitución de pseudoátomos es específico para reemplazar un fósforo trivalente con una subestructura de alanina, los usuarios pueden personalizar el código para que funcione con diferentes pseudoátomos o subestructuras de reemplazo, potencialmente utilizando múltiples pseudoátomos durante la generación inicial de la estructura seguido de reemplazar cada pseudoátomo con una subestructura molecular más grande.

Los métodos de generación de estructuras similares a los empleados por MAYGEN (y otros métodos como las redes neuronales) ya se utilizan en el descubrimiento de fármacos para generar bibliotecas de compuestos para el cribado in silico ; una revisión reciente4 discute estos métodos con más detalle. Como estos métodos están destinados principalmente a la creación de moléculas similares a las de un fármaco, existen algunas limitaciones en su capacidad para generar moléculas, como el uso de propiedades biológicas o farmacéuticas para limitar las estructuras creadas (QSPR / QSAR inverso) o la creación de estructuras a partir de un número preestablecido de bloques de construcción de subestructuras. Como la astrobiología se centra más en la multitud de compuestos orgánicos que pueden formarse abióticamente y menos en cualquier producto final o sus propiedades, la generación exhaustiva de estructuras de MAYGEN es ideal para crear bibliotecas de estructuras para abordar cuestiones astrobiológicas. El enfoque para el filtrado de subestructuras descrito aquí (realizado después de la generación de estructuras a través de un programa externo) difiere del programa competidor MOLGEN en que el filtrado de subestructuras de MOLGEN ocurre durante la generación de estructuras. Como MAYGEN es de código abierto, no solo es más accesible que MOLGEN debido al costo de licencia de MOLGEN, sino que las personas podrían implementar nuevas características, como el filtrado de subestructuras durante la generación de estructuras.

Como está escrito, el protocolo descrito aquí se centra en generar y curar bibliotecas de alfa-aminoácidos relativamente pequeños. Para generar diferentes bibliotecas, los usuarios pueden dar diferentes fórmulas moleculares a MAYGEN, cambiar el filtrado de la subestructura cambiando el tamaño máximo permitido del anillo y la valencia de enlace, o editar los archivos goodlist y badlist para agregar o eliminar patrones de subestructura. Las modificaciones de protocolo que implican cambiar la forma en que se agregan o reemplazan los átomos y las subestructuras (sustitución de pseudoátomos y taponamiento molecular) son factibles, pero requerirán más atención a las restricciones de valencia para evitar errores RDKit sobre valencias incorrectas en estructuras modificadas.

El protocolo detallado anteriormente está diseñado para pequeños alfa-aminoácidos. Sin embargo, el formato general (generación integral de estructuras utilizando pseudoátomos, seguido de filtrado de subestructuras y modificaciones moleculares) es altamente flexible para compuestos más allá de aminoácidos pequeños. Incluso en astrobiología, se utilizó un procedimiento reciente similar utilizando MOLGEN para investigar isómeros constitucionales de ácidos nucleicos26. Además de las herramientas descritas anteriormente, MAYGEN se puede combinar con otras herramientas de quimioinformática de código abierto para hacer que la creación y el análisis de nuevas estructuras químicas sean asequibles y accesibles para una amplia gama de campos de investigación.

Disclosures

The authors have nothing to disclose.

Acknowledgements

MAY reconoce la financiación de la Fundación Carl-Zeiss. Todas las cifras se generaron utilizando Microsoft Excel.

Materials

conda v. 4.10.3 https://www.anaconda.com/products/individual
Java 17 https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8 https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21 http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11 included in Anaconda environment
RDKit v. 2020.09.1.0 https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

References

  1. Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -. L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
  2. Buchanan, B. G., Feigenbaum, E. A., Webber, B. L., Nilsson, N. J. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. , 313-322 (1981).
  3. Gugisch, R., Basak, S. C., Restrepo, G., Villaveces, J. L., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. , 113-138 (2015).
  4. Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
  5. Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
  6. Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
  7. Sims, C. C., Leech, J. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. , 169-183 (1970).
  8. Mat, W. -. K., Xue, H., Wong, J. T. -. F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
  9. Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
  10. Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
  11. Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
  12. Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
  13. Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
  14. Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
  15. Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
  16. Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
  17. Bada, J. L. New insights into prebiotic chemistry from Stanley Miller’s spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
  18. Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
  19. SMARTS – A language for describing molecular patterns. Daylight Chemical Information Systems, Inc Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019)
  20. Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
  21. Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
  22. Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
  23. Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
  24. Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
  25. Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Play Video

Cite This Article
Mayer-Bacon, C., Yirik, M. A. Curation of Computational Chemical Libraries Demonstrated with Alpha-Amino Acids. J. Vis. Exp. (182), e63632, doi:10.3791/63632 (2022).

View Video