Summary

Cura di librerie chimiche computazionali dimostrate con alfa-amminoacidi

Published: April 13, 2022
doi:

Summary

Lo scopo di questo protocollo è quello di generare e curare in modo efficiente librerie di strutture a piccole molecole utilizzando software open source.

Abstract

La generazione esaustiva di strutture molecolari ha numerose applicazioni chimiche e biochimiche come la progettazione di farmaci, la costruzione di database molecolari, l’esplorazione di biochimiche alternative e molte altre. Matematicamente parlando, questi sono generatori di grafi con vincoli chimici. Sul campo, il generatore più efficiente attualmente (MOLGEN) è un prodotto commerciale, limitandone l’uso. In alternativa, un altro generatore di strutture molecolari, MAYGEN, è un recente strumento open source con un’efficienza paragonabile a MOLGEN e la capacità per gli utenti di aumentare le sue prestazioni aggiungendo nuove funzionalità. Uno dei campi di ricerca che possono beneficiare di questo sviluppo è l’astrobiologia; i generatori di strutture consentono ai ricercatori di integrare i dati sperimentali con possibilità computazionali per la biochimica alternativa. Questo protocollo descrive in dettaglio un caso d’uso per la generazione di strutture in astrobiologia, vale a dire la generazione e la cura di librerie di alfa-amminoacidi. Utilizzando generatori di strutture open source e strumenti cheminformatici, le pratiche qui descritte possono essere implementate oltre l’astrobiologia per la creazione e la cura a basso costo di librerie di strutture chimiche per qualsiasi domanda di ricerca.

Introduction

La generazione di strutture molecolari serve come applicazione pratica del problema generale della generazione esaustiva di grafi; dati diversi nodi (atomi) e vincoli sulla loro connettività (ad esempio, valenze, molteplicità di legame, sottostrutture desiderate / indesiderate), quanti grafi connessi (molecole) sono possibili? I generatori di strutture hanno visto un’ampia applicazione nella scoperta di farmaci e nello sviluppo farmaceutico, dove possono creare vaste librerie di nuove strutture per lo screening in silico 1.

Il primo generatore di strutture, CONGEN, è stato sviluppato per il primo progetto di intelligenza artificiale in chimica organica, DENDRAL2 (abbreviazione di DENDRitic ALgorithm). Diversi successori software di DENDRAL sono stati riportati in letteratura; tuttavia, non tutti sono stati mantenuti o efficienti. Attualmente, MOLGEN3 è il generatore di strutture molecolari all’avanguardia. Sfortunatamente per la maggior parte dei potenziali utenti, è closed-source e richiede un costo di licenza. Pertanto, c’è stata la necessità di un efficiente generatore di strutture open source in grado di adattarsi facilmente ad applicazioni specifiche. Una sfida per un generatore di strutture efficiente è la gestione dell’esplosione combinatoria; all’aumentare delle dimensioni di una formula molecolare, la dimensione dello spazio di ricerca chimica aumenta in modo esponenziale. Una recente revisione esplora ulteriormente la storia e le sfide della generazione4 della struttura molecolare.

Prima del 2021, il Parallel Molecule Generator (PMG)5 era il più veloce generatore di strutture open source, ma era ancora più lento di MOLGEN di ordini di grandezza. MAYGEN6 è circa 47 volte più veloce di PMG e circa 3 volte più lento di MOLGEN, rendendo MAYGEN il generatore di strutture open source più veloce ed efficiente disponibile. Confronti più dettagliati e test di benchmarking possono essere trovati nel documento che introduce MAYGEN6. Una caratteristica chiave del programma è il suo test lessicografico basato sull’ordinamento per le strutture canoniche, un metodo ordinato di generazione di grafi basato sull’algoritmo Schreier-Sims7 . Il software può essere facilmente integrato in altri progetti e migliorato per le esigenze degli utenti.

Come MOLGEN e PMG, MAYGEN prende una formula molecolare definita dall’utente e genera tutte le strutture possibili per quella formula. Ad esempio, se un utente esegue MAYGEN con la formula C5H12, MAYGEN genererà tutte le possibili strutture contenenti cinque atomi di carbonio e dodici atomi di idrogeno. A differenza della sua controparte open source PMG, MAYGEN può anche ospitare formule molecolari “fuzzy” che utilizzano intervalli invece di numeri discreti per il conteggio di ciascun elemento. Ad esempio, se un utente esegue MAYGEN con la formula C5-7H12-15, MAYGEN genererà tutte le possibili strutture che contengono da cinque a sette atomi di carbonio e dodici e quindici atomi di idrogeno, consentendo una semplice generazione di strutture con una vasta gamma di composizioni atomiche.

L’astrobiologia è uno di questi campi che può beneficiare di generatori di strutture molecolari. Un argomento popolare in astrobiologia è l’evoluzione dell’alfabeto degli amminoacidi condiviso da tutta la vita esistente sulla Terra. Una delle caratteristiche distintive dell’Ultimo Antenato Comune Universale (LUCA) è il suo uso di venti amminoacidi geneticamente codificati per la costruzione di proteine 8,9. Sulla base di meta-analisi del lavoro in più campi 10,11,12, circa 10 di questi amminoacidi (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) si formano facilmente in condizioni abiotiche e probabilmente costituiscono l’alfabeto aminoacidico degli organismi pre-LUCA. Nel corso del tempo, questo alfabeto “precoce” è stato ampliato in risposta a diverse esigenze strutturali e funzionali. Ad esempio, una recente revisione di Moosmann13 afferma che l’aggiunta di membri più recenti degli amminoacidi geneticamente codificati (vale a dire Met, Tyr e Trp) ha permesso la sopravvivenza in ambienti ricchi di ossigeno impedendo la proliferazione intracellulare di specie reattive dell’ossigeno.

Una suite in continua crescita di tecniche di chimica analitica consente di comprendere le strutture degli amminoacidi che possono formarsi in condizioni abiotiche. Una recente revisione14 di Simkus e altri descrive in dettaglio i metodi utilizzati per rilevare numerosi composti organici nei meteoriti, così come i composti organici provenienti da simulazioni in vitro degli ambienti terrestri primordiali 15,16,17. La generazione sistematica di strutture chimiche consente ai ricercatori di esplorare oltre i composti organici rilevati tramite strumentazione, popolando lo spazio strutturale attorno alle “isole” strutturali identificate dalla chimica analitica. Nel caso degli amminoacidi “precoci”, questa generazione sistematica di strutture mostra possibili sostanze chimiche proteiche disponibili per la vita precoce senza limitare l’esplorazione a strutture che sono state rilevate sperimentalmente in condizioni di sintesi abiotica. Con toolkit di cheminformatica open source e generatori di strutture efficienti come MAYGEN, creare ed esplorare nuove librerie di strutture chimiche è ora più facile che mai e può guidare indagini più dettagliate su sostanze chimiche alternative della vita.

Protocol

NOTA: vedere la Figura 1 per un riepilogo del protocollo e la Tabella dei materiali per i dettagli sul software utilizzato. Figura 1: Diagramma di flusso riepilogativo del protocollo. Fare clic qui per visualizzare una versione più grande di questa figura. 1. Download di software e file NOTA: Tutti i programmi sono gratuiti per uso individuale e possono essere eseguiti su un personal computer. Creare una nuova directory per questo progetto. Posiziona i file e gli eseguibili qui per un facile accesso. Scaricare e installare i pacchetti software necessari. Scarica l’ultima versione di MAYGEN come file .jar.NOTA: MAYGEN è disponibile gratuitamente come file .jar da https://github.com/MehmetAzizYirik/MAYGEN/releases Scarica e installa il software di gestione dei pacchetti Conda e il toolkit di cheminformatica RDKit18.NOTA: RDKit filtrerà le strutture molecolari prodotte da MAYGEN e funzionerà meglio in un ambiente Conda. Le istruzioni per scaricare la piattaforma Conda sono disponibili all’https://conda.io/projects/conda/en/latest/user-guide/install/index.html. Le istruzioni per l’installazione e la configurazione dell’ambiente rdKit sono disponibili all https://www.rdkit.org/docs/Install.html. Installare RDKit nell’ambiente Conda principale anziché in un ambiente RDKit separato tramite il prompt Anaconda. Sui sistemi Windows, cerca “Prompt Anaconda” e fai clic sul collegamento risultante da eseguire. Sui sistemi MacOS e Linux, interagisci con Conda attraverso il terminale senza eseguire programmi aggiuntivi. Quindi, digitare il seguente comando e premere Invio per eseguire e rispondere sì a tutte le domande che si presentano durante l’installazione:conda install -c rdkit rdkit.Mentre ci sono molti programmi di calcolo dei descrittori disponibili gratuitamente, questo esempio utilizza PaDEL-Descriptor19, un calcolatore gratuito e veloce per descrittori molecolari e impronte digitali. Scaricare e salvare il file .jar nella cartella del progetto.NOTA: PaDEL-Descriptor può essere scaricato gratuitamente da http://www.yapcwsoft.com/dd/padeldescriptor/. Scarica i quaderni Jupyter e i file di testo dei modelli di sottostruttura dai file supplementari 1-5.NOTA: i notebook Jupyter possono anche essere scaricati dalla seguente pagina GitHub: https://github.com/cmayerb1/AA-structure-manip. 2. Generazione di strutture con MAYGEN In un prompt dei comandi, passare alla directory contenente il file eseguibile MAYGEN .jar. Per ogni formula chimica di interesse, eseguire MAYGEN utilizzando il seguente comando:java -jar [MAYGEN .jar nome file] -f [formula chimica] -v -o [cartella per l’output MAYGEN] -m -sdf.Nota : in questo modo verrà salvato un file .sdf nella cartella designata, denominata in base alla formula utilizzata. Se la formula è una formula fuzzy invece di una formula discreta, sostituire il flag -f con un flag -fuzzy e racchiudere tutti gli intervalli di elementi tra parentesi (ad esempio, utilizzare C[5-7]H[12-15] per garantire che tutte le strutture generate abbiano tra 5 e 7 atomi di carbonio e tra 12 e 15 atomi di idrogeno). 3. Composti filtranti con sottostrutture indesiderate Aprire un prompt di Anaconda (vedere il passaggio 1.2.2.1) e passare alla cartella contenente i blocchi appunti Jupyter scaricati dal file supplementare 1. Aprire il blocco appunti Jupyter per il filtro delle sottostrutture utilizzando il comando seguente:jupyter notebook [nome file notebook] Nella cella designata all’inizio del blocco appunti, immettere il percorso completo del file .sdf di input (generato da MAYGEN), il percorso completo del file di output .sdf desiderato e il percorso del file “badlist” come stringhe (tra virgolette). Vedere File supplementare 2 per un esempio di badlist. Se alcune sottostrutture nella libreria filtrata (una goodlist) devono essere mantenute, creare un file .txt di modelli SMARTS20 per tali sottostrutture (una goodlist) e inserire il percorso del file goodlist nella riga designata all’inizio del blocco appunti. Vedere File supplementare 3 per un esempio di goodlist. Riavviare il kernel del notebook ed eseguire tutte le celle (dal menu in alto, selezionare Kernel, Restart & Run All) per ottenere un file .sdf con il nome desiderato nella cartella di output specificata. Ripetere i due passaggi precedenti per ogni file di struttura generato da MAYGEN nel passaggio 2. 4. (Facoltativo) Ulteriori modifiche alla struttura NOTA: questi vengono eseguiti in questo esempio, ma potrebbero non essere necessari per la cura di altre librerie. Sostituzione dello pseudoatomo.NOTA: Qui, uno pseudoatomo è un atomo unico usato per rappresentare una sottostruttura più grande condivisa da tutte le strutture generate, riducendo così il tempo di generazione di MAYGEN. Vedere il file supplementare 4 per un esempio di sostituzione dello pseudoatomo. Aprire un prompt di Anaconda (vedere il passaggio 1.2.2.1) e passare alla cartella contenente i blocchi appunti jupyter. Aprire il notebook Jupyter per la sostituzione dello pseudoatomo:jupyter notebook [nome file notebook] Nella cella designata all’inizio del blocco appunti, immettere il percorso completo del file di input .sdf e il percorso completo del file di output .sdf desiderato come stringhe (tra virgolette). Riavviare il kernel del notebook ed eseguire tutte le celle per ottenere un file .sdf con il nome desiderato nella cartella di output specificata. Tappatura degli aminoacidi N- e C-terminiNOTA: Questa procedura è specifica per gli alfa-amminoacidi, aggiungendo tappi molecolari ai termini N- e C-termini delle dorsali degli alfa-amminoacidi. Vedere il file supplementare 5 per un esempio di capping degli aminoacidi. Aprire un prompt di Anaconda (vedere il passaggio 1.2.2.1) e passare alla cartella contenente i blocchi appunti jupyter. Apri il notebook Jupyter per la tappatura degli aminoacidi:jupyter notebook [nome file notebook] Nella cella designata all’inizio del blocco appunti, immettere il percorso completo del file di input .sdf e il percorso completo del file di output .sdf desiderato come stringhe (tra virgolette). Riavviare il kernel del notebook ed eseguire tutte le celle per ottenere un file .sdf con il nome desiderato nella cartella di output specificata. 5. Generazione del descrittore Prima della generazione del descrittore, inserire tutti i file .sdf per i quali i descrittori devono essere calcolati in un’unica cartella.NOTA: se non è già stato fatto, assegnare a questi file nomi descrittivi per un facile filtraggio dopo la generazione del descrittore. Aprire un prompt dei comandi e passare alla cartella contenente il file .jar PaDEL-Descriptor. Eseguire PaDEL-Descriptor per i file .sdf raccolti utilizzando il seguente comando:java -jar PaDEL-Descriptor.jar -dir [directory dei file .sdf] -file [percorso file di un file .csv per i risultati] -2d -retainorder -usefilenameasmolnameNOTA: il file dei risultati avrà il nome della molecola nella prima colonna e ogni descrittore nelle colonne successive. Esporta questi dati in qualsiasi software per fogli di calcolo per ulteriori analisi.

Representative Results

Biblioteca Formula Vincoli aggiuntivi Amminoacidi codificati “precoci” Tempo di generazione (ms) Strutture Iniziale Finale 1 Gly · C2H5NO2 includere la sottostruttura Gly Gly · 192 84 1 2 MANCIA PC0-3H3-9 Val, Ala, Ile, Leu 172 70 22 3 DEST · PC0-3O1-2H3-5 Asp, Glu, Ser, Thr 481 1928 254 4 Pro C2-5NO2H7-11 Includi sottostruttura N-meGly o N-meAla Pro 4035 79777 16 5 VAIL_S PSC0-2H3-7 122 65 31 6 DEST_S PSC0-2O1-2H3 349 1075 79 7 Pro_S C2-4SNO2H7-9 Includi sottostruttura N-meGly o N-meAla 3999 75734 10 Tabella 1: Librerie composte utilizzate in questo esempio. Le librerie costruite dalle formule 1-4 (Gly, VAIL, DEST e Pro) si basano su formule fuzzy precedentemente pubblicate degli amminoacidi codificati “primi”21, mentre le librerie costruite dalle formule 5-7 (VAIL_S, DEST_S e Pro_S) si basano su varianti delle formule 2-4 che immaginano uno zolfo bivalente che sostituisce uno degli atomi di carbonio. I conteggi delle strutture riflettono il numero di molecole generate da MAYGEN per ogni formula (“Iniziale”) e il numero di molecole rimanenti dopo aver filtrato quelle con sottostrutture indesiderate (“Finale”). Abbreviazioni: VAIL = valina, alanina, isoleucina, leucina; DEST = acido aspartico, acido glutammico, serina, treonina; X_S = Lo zolfo bivalente sostituisce uno dei carboni nella libreria X; N-meX = N-metilX. I metodi generali di cui sopra sono stati applicati a formule basate sugli amminoacidi codificati “precoci”, seguendo la procedura di Meringer et al.21 Le strutture badlist sono state prese da questa stessa fonte e convertite in stringhe SMARTS per rappresentare facilmente modelli substrutturali. Due sottostrutture badlist non sono state utilizzate in questo esempio: la struttura 018 (CH 3-CH-N) corrispondeva a quasi isomeri di prolina che non erano essi stessi instabili; la struttura 106 (R-C-C-OH, dove R=alanina sottostruttura che si attacca al beta-carbonio) corrispondeva all’acido glutammico, un amminoacido codificato. Oltre a queste formule chimiche, sono state create varianti con zolfo bivalente che prendono il posto di un atomo di carbonio e due atomi di idrogeno. Per motivi di prestazioni, molte di queste formule utilizzano un atomo di fosforo trivalente (ad esempio, uno “pseudoatomo”) come sostituto del beta-carbonio di una sottostruttura di alanina. Nella tabella 1 sono elencate le librerie generate in questo esempio, le formule utilizzate per generarle e il numero di composti contenuti all’interno. I nomi delle biblioteche si basano sugli amminoacidi codificati da cui derivano: usando l’abbreviazione di 3 lettere (Gly = glicina, Pro = prolina) o l’abbreviazione a lettera singola (VAIL = Valina, Alanina, Isoleucina, Leucina; DEST = Acido aspartico, Acido glutammico, Serina, Treonina). Il suffisso “_S” indica che uno zolfo è stato sostituito da un carbonio nella formula della biblioteca originale (ad esempio, VAIL_S è costruito con la stessa formula fuzzy di VAIL, ma con uno zolfo bivalente che sostituisce uno dei carboni). Dopo la generazione della struttura con MAYGEN, le librerie risultanti sono state filtrate da composti contenenti almeno una sottostruttura contenuta nella badlist. A seguito di questo filtraggio, tutti gli atomi di fosforo sono stati sostituiti con una sottostruttura di alanina. Successivamente, sono state create versioni “limitate” di tutte le strutture, con un gruppo acetilico aggiunto al N-terminale e un gruppo N-metilammidico aggiunto al C-terminale. Questo è stato fatto per rimuovere l’effetto sull’idrofobicità dei gruppi di ammine libere e acidi carbossilici nella spina dorsale dell’alfa-amminoacido. PaDEL-Descriptor è stato utilizzato per calcolare XLogP per tutte le strutture con tappo e calcolato il volume di van der Waals (VABC) per tutte le strutture senza tappo. La Figura 2 mostra lo spazio chimico delle librerie filtrate, come definito dai descrittori VABC e XLogP. Qui, la gamma di possibili valori logP aumenta con il volume molecolare, anche all’interno di librerie che mancano esplicitamente di sidechain idrofile (ad esempio, VAIL, Pro). Gli amminoacidi codificati con catene laterali di idrocarburi erano più idrofobi della maggior parte degli altri amminoacidi di un volume comparabile dalla rispettiva libreria. Questo sembra essere anche il caso di Met e Cys rispetto ad altri membri della biblioteca VAIL_S con volumi simili. Gli amminoacidi codificati con catene laterali ossidriliche (Ser e Thr) erano tra i membri più piccoli della libreria DEST, con Asp solo leggermente più grande di Thr. La Figura 3 e la Figura 4 mostrano gli impatti sul volume e sul logP quando uno zolfo bivalente sostituisce un carbonio in una catena laterale di alfa-amminoacidi. La sostituzione dello zolfo ha portato ad un leggero aumento del volume molecolare in tutte le librerie (Figura 3). L’effetto della sostituzione dello zolfo sul logP non è così omogeneo come per il volume (Figura 4). Il logP medio della libreria VAIL_S è leggermente inferiore a quello della libreria VAIL, ma questo effetto non si vede in nessuna delle altre coppie di librerie (DEST e DEST_S, Pro e Pro_S). La Figura 5 quantifica gli effetti sulla generazione della struttura di uno pseudoatomo che sostituisce una sottostruttura comune; qui, una P trivalente sostituì una porzione di alanina durante la generazione della struttura. L’uso di uno pseudoatomo nella generazione di strutture ha notevolmente ridotto il numero di strutture generate da ~ 3 ordini di grandezza (Figura 5A) e il tempo totale necessario per generare tali strutture di 1-2 ordini di grandezza (Figura 5B). Figura 2: Spazio chimico di tutte le librerie di aminoacidi filtrati. I marcatori neri rappresentano amminoacidi provenienti da librerie senza zolfo; i marcatori gialli rappresentano gli amminoacidi delle librerie arricchite di zolfo. Cerchi: VAIL e VAIL_S; quadrati: DEST e DEST_S; triangoli: Pro e Pro_S; stelle: amminoacidi codificati. Si noti che i due amminoacidi codificati contenenti zolfo (Met e Cys) non sono considerati amminoacidi “precoci” ma sono presenti nella libreria VAIL_S. Abbreviazioni: XLogP = coefficiente di ripartizione; VAIL = valina, alanina, isoleucina, leucina; DEST = acido aspartico, acido glutammico, serina, treonina; X_S = Lo zolfo bivalente sostituisce uno dei carboni nella libreria X. Fare clic qui per visualizzare una versione più grande di questa figura. Figura 3: Volumi medi di van der Waals (in Å3) di biblioteche con e senza zolfo. Le barre nere rappresentano i volumi medi delle biblioteche senza zolfo (VAIL, DEST, Pro), mentre le barre gialle rappresentano i volumi medi delle versioni sostituite dallo zolfo di tali librerie (VAIL_S, DEST_S, Pro_S). Le barre di errore mostrano la deviazione standard. Abbreviazioni: VAIL = valina, alanina, isoleucina, leucina; DEST = acido aspartico, acido glutammico, serina, treonina; X_S = Lo zolfo bivalente sostituisce uno dei carboni nella libreria X. Fare clic qui per visualizzare una versione più grande di questa figura. Figura 4: Valori XLogP medi delle librerie con e senza zolfo. Le barre nere rappresentano le librerie senza zolfo (VAIL, DEST, Pro), mentre le barre gialle rappresentano le versioni sostituite dallo zolfo di tali librerie (VAIL_S, DEST_S, Pro_S). Le barre di errore mostrano la deviazione standard. Abbreviazioni: XLogP = coefficiente di ripartizione; VAIL = valina, alanina, isoleucina, leucina; DEST = acido aspartico, acido glutammico, serina, treonina; X_S = Lo zolfo bivalente sostituisce uno dei carboni nella libreria X. Fare clic qui per visualizzare una versione più grande di questa figura. Figura 5: Effetti di uno pseudoatomo trivalente sulla generazione della struttura MAYGEN. Tutti i test sono stati eseguiti su un PC con un processore Intel i7-7700HQ a 2,8 GHz, 16 GB di RAM, nessuna struttura di salvataggio in un file e l’opzione -m per utilizzare il multithreading. I test che utilizzano uno pseudoatomo hanno utilizzato le formule fuzzy come descritto nella Tabella 1. Per le prove senza pseudoatomo, le formule fuzzy utilizzate erano le stesse descritte nella tabella 1 con le seguenti modifiche: P è stato sostituito con N; i conteggi di carbonio sono stati aumentati di 3; i conteggi di idrogeno sono stati aumentati di 7; la conta di ossigeno è stata aumentata di 2. Le barre nere mostrano le librerie generate con uno pseudoatomo; le barre grigie mostrano le librerie generate senza uno pseudoatomo. (A) Numero di strutture generate utilizzando le formule fuzzy utilizzate per costruire le librerie VAIL e DEST con e senza fosforo trivalente che sostituisce una sottostruttura di alanina. (B) Tempo (in ms) necessario per costruire le librerie VAIL e DEST con e senza fosforo trivalente in sostituzione di una sottostruttura di alanina. Abbreviazioni: VAIL = valina, alanina, isoleucina, leucina; DEST = acido aspartico, acido glutammico, serina, treonina. Fare clic qui per visualizzare una versione più grande di questa figura. File supplementare 1: Quaderno di screening della sottostruttura. Fare clic qui per scaricare questo file. File supplementare 2: Esempio di badlist. Fare clic qui per scaricare questo file. File supplementare 3: Esempio di goodlist. Fare clic qui per scaricare questo file. File supplementare 4: Notebook sostitutivo pseudoatomatico. Fare clic qui per scaricare questo file. File supplementare 5: Quaderno di tappo degli aminoacidi. Fare clic qui per scaricare questo file.

Discussion

Una caratteristica degli amminoacidi “precoci” è la mancanza di zolfo. Le meta-analisi menzionate in precedenza generalmente considerano gli amminoacidi codificati contenenti zolfo (Cys e Met) come aggiunte relativamente tardive al codice genetico, conclusioni supportate dalla mancanza di amminoacidi contenenti zolfo nei meteoriti e negli esperimenti sul tubo di scintilla. Tuttavia, i composti organosolforati sono facilmente rilevabili nelle comete e nei meteoriti22 e la rianalisi degli esperimenti del tubo di scintilla utilizzando il gas H2S ha trovato amminoacidi e altri composti organici contenenti zolfo16. Quando si considera un alfabeto di aminoacidi alternativo, vale la pena esplorare uno arricchito in zolfo.

Nel protocollo di cui sopra, la generazione della struttura e il filtraggio della sottostruttura sono considerati passaggi critici; a seconda della composizione della libreria di strutture finite, un ricercatore potrebbe aver bisogno solo di eseguire questi due passaggi. Le istruzioni e il software per azioni aggiuntive (sostituzione dello pseudoatomo e aggiunta di sottostrutture (in questo caso, capping di amminoacidi)) sono inclusi per un calcolo del descrittore più pertinente (il capping assicura che i calcoli XLogP siano influenzati dalla catena laterale e non dalla spina dorsale ammina o gruppi carbossilici) e una generazione più rapida della struttura tramite l’uso di uno pseudoatomo, che è discusso più dettagliatamente di seguito. Inoltre, il calcolo del descrittore viene eseguito qui come un modo semplice per visualizzare la diversità delle strutture generate e confrontare gli effetti dell’arricchimento dello zolfo nelle librerie finite.

Mentre Il descrittore PaDEL può calcolare migliaia di proprietà molecolari, il volume molecolare (come calcolato il volume di van der Waals) e il coefficiente di partizione (come XLogP) sono stati utilizzati qui per due motivi distinti. In primo luogo, questi due descrittori misurano le proprietà molecolari (dimensioni e idrofobicità, rispettivamente) che sono familiari alla maggior parte dei chimici e dei biologi. In secondo luogo, nel caso degli amminoacidi, queste due proprietà sono significative. Per decenni, le dimensioni degli amminoacidi e l’idrofobicità erano note per influenzare la termodinamica del ripiegamento delle proteine23. Queste due proprietà aiutano a spiegare le frequenze di sostituzione degli aminoacidi che sono state parte integrante della comprensione dell’evoluzione delle proteine24.

L’esempio precedente mostra che, nei due descrittori studiati (volume molecolare e idrofobicità), la sostituzione di uno zolfo bivalente con un carbonio e due idrogeni non produce cambiamenti significativi. Il leggero e non significativo aumento del volume molecolare medio dalla sostituzione dello zolfo (Figura 3) potrebbe essere attribuito al raggio covalente più ampio dello zolfo (~ 103 pm) rispetto a sp3 (~ 75 pm) o sp2 (~ 73 pm) carbonio25. Allo stesso modo, la sostituzione dello zolfo ha un effetto minimo sull’XLogP medio (Figura 4). L’effetto maggiore è stato tra le librerie VAIL e VAIL_S, probabilmente a causa di una combinazione della libreria VAIL che è particolarmente idrofoba (le catene laterali sono solo idrocarburi) e i gruppi sulfidrilici sono molto più acidi dei gruppi metilici che sostituirebbero. L’effetto minimo della sostituzione dello zolfo è evidente nella Figura 2, dove le librerie con sostituzione dello zolfo occupano lo stesso spazio chimico delle librerie analoghe senza sostituzione dello zolfo.

La diminuzione del numero di strutture (Figura 5A) e del tempo necessario per generare tali strutture (Figura 5B) quando si utilizza uno pseudoatomo non sorprende. L’uso di uno pseudoatomo riduce il numero di atomi pesanti che devono essere incorporati in un grafico chimico, riducendo il numero di nodi del grafo e producendo diminuzioni esponenziali nel tempo di generazione e nel numero di strutture. Qui, la scelta del fosforo trivalente come pseudoatomo deriva dalla biochimica di base (in assenza di aggiunta post-traduzionale di gruppi fosfato, nessun amminoacidi geneticamente codificato contiene fosforo) e dalla valenza dell’atomo che lo sostituirebbe (un fosforo trivalente può essere facilmente sostituito con un carbonio tetravalente che è singolarmente legato a un altro atomo o gruppo di atomi). Mentre il codice fornito per la sostituzione degli pseudoatomi è specifico per sostituire un fosforo trivalente con una sottostruttura di alanina, gli utenti possono personalizzare il codice per lavorare con diversi pseudoatomi o sottostrutture di sostituzione, potenzialmente utilizzando più pseudoatomi durante la generazione iniziale della struttura seguita dalla sostituzione di ogni pseudoatomo con una sottostruttura molecolare più grande.

Metodi di generazione di strutture simili a quelli impiegati da MAYGEN (e altri metodi come le reti neurali) sono già utilizzati nella scoperta di farmaci per generare librerie di composti per lo screening in silico ; una recente revisione4 discute questi metodi in modo più dettagliato. Poiché questi metodi sono destinati principalmente alla creazione di molecole simili a farmaci, ci sono alcune limitazioni sulla loro capacità di generare molecole, come l’utilizzo di proprietà biologiche o farmaceutiche per limitare le strutture create (QSPR / QSAR inverso) o la creazione di strutture da un numero preimpostato di blocchi di costruzione della sottostruttura. Poiché l’astrobiologia si concentra maggiormente sulla moltitudine di composti organici che possono formarsi abioticamente e meno su qualsiasi prodotto finale o sulle loro proprietà, la generazione esaustiva di strutture di MAYGEN è ideale per creare librerie di strutture per affrontare questioni astrobiologiche. L’approccio al filtraggio della sottostruttura qui descritto (eseguito dopo la generazione della struttura tramite un programma esterno) differisce dal programma concorrente MOLGEN in quanto il filtraggio della sottostruttura di MOLGEN avviene durante la generazione della struttura. Poiché MAYGEN è open source, non solo è più accessibile di MOLGEN a causa del costo di licenza di MOLGEN, ma gli individui potrebbero implementare nuove funzionalità come il filtraggio della sottostruttura durante la generazione della struttura.

Come scritto, il protocollo qui descritto si concentra sulla generazione e la cura di librerie di alfa-amminoacidi relativamente piccoli. Per generare librerie diverse, gli utenti possono fornire diverse formule molecolari a MAYGEN, modificare il filtro della sottostruttura modificando la dimensione massima consentita dell’anello e la valenza del legame o modificare i file goodlist e badlist per aggiungere o rimuovere i modelli di sottostruttura. Le modifiche del protocollo che comportano la modifica del modo in cui atomi e sottostrutture vengono aggiunti o sostituiti (sostituzione pseudoatomatica e capping molecolare) sono fattibili, ma richiederanno maggiore attenzione alle restrizioni di valenza per evitare errori RDKit su valenze errate in strutture modificate.

Il protocollo sopra descritto è progettato per piccoli alfa-amminoacidi. Tuttavia, il formato generale (generazione completa della struttura utilizzando pseudoatomi, seguita da filtraggio della sottostruttura e modifiche molecolari) è altamente flessibile per i composti oltre i piccoli amminoacidi. Anche in astrobiologia, una procedura recente simile che utilizza MOLGEN è stata utilizzata per studiare gli isomeri costituzionali degli acidi nucleici26. Oltre agli strumenti sopra descritti, MAYGEN può essere abbinato ad altri strumenti cheminformatici open source per rendere la creazione e l’analisi di nuove strutture chimiche accessibili e accessibili a una vasta gamma di campi di ricerca.

Disclosures

The authors have nothing to disclose.

Acknowledgements

MAY riconosce il finanziamento da parte della Carl-Zeiss-Foundation. Tutte le cifre sono state generate utilizzando Microsoft Excel.

Materials

conda v. 4.10.3 https://www.anaconda.com/products/individual
Java 17 https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8 https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21 http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11 included in Anaconda environment
RDKit v. 2020.09.1.0 https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

References

  1. Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -. L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
  2. Buchanan, B. G., Feigenbaum, E. A., Webber, B. L., Nilsson, N. J. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. , 313-322 (1981).
  3. Gugisch, R., Basak, S. C., Restrepo, G., Villaveces, J. L., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. , 113-138 (2015).
  4. Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
  5. Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
  6. Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
  7. Sims, C. C., Leech, J. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. , 169-183 (1970).
  8. Mat, W. -. K., Xue, H., Wong, J. T. -. F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
  9. Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
  10. Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
  11. Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
  12. Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
  13. Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
  14. Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
  15. Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
  16. Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
  17. Bada, J. L. New insights into prebiotic chemistry from Stanley Miller’s spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
  18. Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
  19. SMARTS – A language for describing molecular patterns. Daylight Chemical Information Systems, Inc Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019)
  20. Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
  21. Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
  22. Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
  23. Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
  24. Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
  25. Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Play Video

Cite This Article
Mayer-Bacon, C., Yirik, M. A. Curation of Computational Chemical Libraries Demonstrated with Alpha-Amino Acids. J. Vis. Exp. (182), e63632, doi:10.3791/63632 (2022).

View Video