Lo scopo di questo protocollo è quello di generare e curare in modo efficiente librerie di strutture a piccole molecole utilizzando software open source.
La generazione esaustiva di strutture molecolari ha numerose applicazioni chimiche e biochimiche come la progettazione di farmaci, la costruzione di database molecolari, l’esplorazione di biochimiche alternative e molte altre. Matematicamente parlando, questi sono generatori di grafi con vincoli chimici. Sul campo, il generatore più efficiente attualmente (MOLGEN) è un prodotto commerciale, limitandone l’uso. In alternativa, un altro generatore di strutture molecolari, MAYGEN, è un recente strumento open source con un’efficienza paragonabile a MOLGEN e la capacità per gli utenti di aumentare le sue prestazioni aggiungendo nuove funzionalità. Uno dei campi di ricerca che possono beneficiare di questo sviluppo è l’astrobiologia; i generatori di strutture consentono ai ricercatori di integrare i dati sperimentali con possibilità computazionali per la biochimica alternativa. Questo protocollo descrive in dettaglio un caso d’uso per la generazione di strutture in astrobiologia, vale a dire la generazione e la cura di librerie di alfa-amminoacidi. Utilizzando generatori di strutture open source e strumenti cheminformatici, le pratiche qui descritte possono essere implementate oltre l’astrobiologia per la creazione e la cura a basso costo di librerie di strutture chimiche per qualsiasi domanda di ricerca.
La generazione di strutture molecolari serve come applicazione pratica del problema generale della generazione esaustiva di grafi; dati diversi nodi (atomi) e vincoli sulla loro connettività (ad esempio, valenze, molteplicità di legame, sottostrutture desiderate / indesiderate), quanti grafi connessi (molecole) sono possibili? I generatori di strutture hanno visto un’ampia applicazione nella scoperta di farmaci e nello sviluppo farmaceutico, dove possono creare vaste librerie di nuove strutture per lo screening in silico 1.
Il primo generatore di strutture, CONGEN, è stato sviluppato per il primo progetto di intelligenza artificiale in chimica organica, DENDRAL2 (abbreviazione di DENDRitic ALgorithm). Diversi successori software di DENDRAL sono stati riportati in letteratura; tuttavia, non tutti sono stati mantenuti o efficienti. Attualmente, MOLGEN3 è il generatore di strutture molecolari all’avanguardia. Sfortunatamente per la maggior parte dei potenziali utenti, è closed-source e richiede un costo di licenza. Pertanto, c’è stata la necessità di un efficiente generatore di strutture open source in grado di adattarsi facilmente ad applicazioni specifiche. Una sfida per un generatore di strutture efficiente è la gestione dell’esplosione combinatoria; all’aumentare delle dimensioni di una formula molecolare, la dimensione dello spazio di ricerca chimica aumenta in modo esponenziale. Una recente revisione esplora ulteriormente la storia e le sfide della generazione4 della struttura molecolare.
Prima del 2021, il Parallel Molecule Generator (PMG)5 era il più veloce generatore di strutture open source, ma era ancora più lento di MOLGEN di ordini di grandezza. MAYGEN6 è circa 47 volte più veloce di PMG e circa 3 volte più lento di MOLGEN, rendendo MAYGEN il generatore di strutture open source più veloce ed efficiente disponibile. Confronti più dettagliati e test di benchmarking possono essere trovati nel documento che introduce MAYGEN6. Una caratteristica chiave del programma è il suo test lessicografico basato sull’ordinamento per le strutture canoniche, un metodo ordinato di generazione di grafi basato sull’algoritmo Schreier-Sims7 . Il software può essere facilmente integrato in altri progetti e migliorato per le esigenze degli utenti.
Come MOLGEN e PMG, MAYGEN prende una formula molecolare definita dall’utente e genera tutte le strutture possibili per quella formula. Ad esempio, se un utente esegue MAYGEN con la formula C5H12, MAYGEN genererà tutte le possibili strutture contenenti cinque atomi di carbonio e dodici atomi di idrogeno. A differenza della sua controparte open source PMG, MAYGEN può anche ospitare formule molecolari “fuzzy” che utilizzano intervalli invece di numeri discreti per il conteggio di ciascun elemento. Ad esempio, se un utente esegue MAYGEN con la formula C5-7H12-15, MAYGEN genererà tutte le possibili strutture che contengono da cinque a sette atomi di carbonio e dodici e quindici atomi di idrogeno, consentendo una semplice generazione di strutture con una vasta gamma di composizioni atomiche.
L’astrobiologia è uno di questi campi che può beneficiare di generatori di strutture molecolari. Un argomento popolare in astrobiologia è l’evoluzione dell’alfabeto degli amminoacidi condiviso da tutta la vita esistente sulla Terra. Una delle caratteristiche distintive dell’Ultimo Antenato Comune Universale (LUCA) è il suo uso di venti amminoacidi geneticamente codificati per la costruzione di proteine 8,9. Sulla base di meta-analisi del lavoro in più campi 10,11,12, circa 10 di questi amminoacidi (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) si formano facilmente in condizioni abiotiche e probabilmente costituiscono l’alfabeto aminoacidico degli organismi pre-LUCA. Nel corso del tempo, questo alfabeto “precoce” è stato ampliato in risposta a diverse esigenze strutturali e funzionali. Ad esempio, una recente revisione di Moosmann13 afferma che l’aggiunta di membri più recenti degli amminoacidi geneticamente codificati (vale a dire Met, Tyr e Trp) ha permesso la sopravvivenza in ambienti ricchi di ossigeno impedendo la proliferazione intracellulare di specie reattive dell’ossigeno.
Una suite in continua crescita di tecniche di chimica analitica consente di comprendere le strutture degli amminoacidi che possono formarsi in condizioni abiotiche. Una recente revisione14 di Simkus e altri descrive in dettaglio i metodi utilizzati per rilevare numerosi composti organici nei meteoriti, così come i composti organici provenienti da simulazioni in vitro degli ambienti terrestri primordiali 15,16,17. La generazione sistematica di strutture chimiche consente ai ricercatori di esplorare oltre i composti organici rilevati tramite strumentazione, popolando lo spazio strutturale attorno alle “isole” strutturali identificate dalla chimica analitica. Nel caso degli amminoacidi “precoci”, questa generazione sistematica di strutture mostra possibili sostanze chimiche proteiche disponibili per la vita precoce senza limitare l’esplorazione a strutture che sono state rilevate sperimentalmente in condizioni di sintesi abiotica. Con toolkit di cheminformatica open source e generatori di strutture efficienti come MAYGEN, creare ed esplorare nuove librerie di strutture chimiche è ora più facile che mai e può guidare indagini più dettagliate su sostanze chimiche alternative della vita.
Una caratteristica degli amminoacidi “precoci” è la mancanza di zolfo. Le meta-analisi menzionate in precedenza generalmente considerano gli amminoacidi codificati contenenti zolfo (Cys e Met) come aggiunte relativamente tardive al codice genetico, conclusioni supportate dalla mancanza di amminoacidi contenenti zolfo nei meteoriti e negli esperimenti sul tubo di scintilla. Tuttavia, i composti organosolforati sono facilmente rilevabili nelle comete e nei meteoriti22 e la rianalisi degli esperimenti del tubo di scintilla utilizzando il gas H2S ha trovato amminoacidi e altri composti organici contenenti zolfo16. Quando si considera un alfabeto di aminoacidi alternativo, vale la pena esplorare uno arricchito in zolfo.
Nel protocollo di cui sopra, la generazione della struttura e il filtraggio della sottostruttura sono considerati passaggi critici; a seconda della composizione della libreria di strutture finite, un ricercatore potrebbe aver bisogno solo di eseguire questi due passaggi. Le istruzioni e il software per azioni aggiuntive (sostituzione dello pseudoatomo e aggiunta di sottostrutture (in questo caso, capping di amminoacidi)) sono inclusi per un calcolo del descrittore più pertinente (il capping assicura che i calcoli XLogP siano influenzati dalla catena laterale e non dalla spina dorsale ammina o gruppi carbossilici) e una generazione più rapida della struttura tramite l’uso di uno pseudoatomo, che è discusso più dettagliatamente di seguito. Inoltre, il calcolo del descrittore viene eseguito qui come un modo semplice per visualizzare la diversità delle strutture generate e confrontare gli effetti dell’arricchimento dello zolfo nelle librerie finite.
Mentre Il descrittore PaDEL può calcolare migliaia di proprietà molecolari, il volume molecolare (come calcolato il volume di van der Waals) e il coefficiente di partizione (come XLogP) sono stati utilizzati qui per due motivi distinti. In primo luogo, questi due descrittori misurano le proprietà molecolari (dimensioni e idrofobicità, rispettivamente) che sono familiari alla maggior parte dei chimici e dei biologi. In secondo luogo, nel caso degli amminoacidi, queste due proprietà sono significative. Per decenni, le dimensioni degli amminoacidi e l’idrofobicità erano note per influenzare la termodinamica del ripiegamento delle proteine23. Queste due proprietà aiutano a spiegare le frequenze di sostituzione degli aminoacidi che sono state parte integrante della comprensione dell’evoluzione delle proteine24.
L’esempio precedente mostra che, nei due descrittori studiati (volume molecolare e idrofobicità), la sostituzione di uno zolfo bivalente con un carbonio e due idrogeni non produce cambiamenti significativi. Il leggero e non significativo aumento del volume molecolare medio dalla sostituzione dello zolfo (Figura 3) potrebbe essere attribuito al raggio covalente più ampio dello zolfo (~ 103 pm) rispetto a sp3 (~ 75 pm) o sp2 (~ 73 pm) carbonio25. Allo stesso modo, la sostituzione dello zolfo ha un effetto minimo sull’XLogP medio (Figura 4). L’effetto maggiore è stato tra le librerie VAIL e VAIL_S, probabilmente a causa di una combinazione della libreria VAIL che è particolarmente idrofoba (le catene laterali sono solo idrocarburi) e i gruppi sulfidrilici sono molto più acidi dei gruppi metilici che sostituirebbero. L’effetto minimo della sostituzione dello zolfo è evidente nella Figura 2, dove le librerie con sostituzione dello zolfo occupano lo stesso spazio chimico delle librerie analoghe senza sostituzione dello zolfo.
La diminuzione del numero di strutture (Figura 5A) e del tempo necessario per generare tali strutture (Figura 5B) quando si utilizza uno pseudoatomo non sorprende. L’uso di uno pseudoatomo riduce il numero di atomi pesanti che devono essere incorporati in un grafico chimico, riducendo il numero di nodi del grafo e producendo diminuzioni esponenziali nel tempo di generazione e nel numero di strutture. Qui, la scelta del fosforo trivalente come pseudoatomo deriva dalla biochimica di base (in assenza di aggiunta post-traduzionale di gruppi fosfato, nessun amminoacidi geneticamente codificato contiene fosforo) e dalla valenza dell’atomo che lo sostituirebbe (un fosforo trivalente può essere facilmente sostituito con un carbonio tetravalente che è singolarmente legato a un altro atomo o gruppo di atomi). Mentre il codice fornito per la sostituzione degli pseudoatomi è specifico per sostituire un fosforo trivalente con una sottostruttura di alanina, gli utenti possono personalizzare il codice per lavorare con diversi pseudoatomi o sottostrutture di sostituzione, potenzialmente utilizzando più pseudoatomi durante la generazione iniziale della struttura seguita dalla sostituzione di ogni pseudoatomo con una sottostruttura molecolare più grande.
Metodi di generazione di strutture simili a quelli impiegati da MAYGEN (e altri metodi come le reti neurali) sono già utilizzati nella scoperta di farmaci per generare librerie di composti per lo screening in silico ; una recente revisione4 discute questi metodi in modo più dettagliato. Poiché questi metodi sono destinati principalmente alla creazione di molecole simili a farmaci, ci sono alcune limitazioni sulla loro capacità di generare molecole, come l’utilizzo di proprietà biologiche o farmaceutiche per limitare le strutture create (QSPR / QSAR inverso) o la creazione di strutture da un numero preimpostato di blocchi di costruzione della sottostruttura. Poiché l’astrobiologia si concentra maggiormente sulla moltitudine di composti organici che possono formarsi abioticamente e meno su qualsiasi prodotto finale o sulle loro proprietà, la generazione esaustiva di strutture di MAYGEN è ideale per creare librerie di strutture per affrontare questioni astrobiologiche. L’approccio al filtraggio della sottostruttura qui descritto (eseguito dopo la generazione della struttura tramite un programma esterno) differisce dal programma concorrente MOLGEN in quanto il filtraggio della sottostruttura di MOLGEN avviene durante la generazione della struttura. Poiché MAYGEN è open source, non solo è più accessibile di MOLGEN a causa del costo di licenza di MOLGEN, ma gli individui potrebbero implementare nuove funzionalità come il filtraggio della sottostruttura durante la generazione della struttura.
Come scritto, il protocollo qui descritto si concentra sulla generazione e la cura di librerie di alfa-amminoacidi relativamente piccoli. Per generare librerie diverse, gli utenti possono fornire diverse formule molecolari a MAYGEN, modificare il filtro della sottostruttura modificando la dimensione massima consentita dell’anello e la valenza del legame o modificare i file goodlist e badlist per aggiungere o rimuovere i modelli di sottostruttura. Le modifiche del protocollo che comportano la modifica del modo in cui atomi e sottostrutture vengono aggiunti o sostituiti (sostituzione pseudoatomatica e capping molecolare) sono fattibili, ma richiederanno maggiore attenzione alle restrizioni di valenza per evitare errori RDKit su valenze errate in strutture modificate.
Il protocollo sopra descritto è progettato per piccoli alfa-amminoacidi. Tuttavia, il formato generale (generazione completa della struttura utilizzando pseudoatomi, seguita da filtraggio della sottostruttura e modifiche molecolari) è altamente flessibile per i composti oltre i piccoli amminoacidi. Anche in astrobiologia, una procedura recente simile che utilizza MOLGEN è stata utilizzata per studiare gli isomeri costituzionali degli acidi nucleici26. Oltre agli strumenti sopra descritti, MAYGEN può essere abbinato ad altri strumenti cheminformatici open source per rendere la creazione e l’analisi di nuove strutture chimiche accessibili e accessibili a una vasta gamma di campi di ricerca.
The authors have nothing to disclose.
MAY riconosce il finanziamento da parte della Carl-Zeiss-Foundation. Tutte le cifre sono state generate utilizzando Microsoft Excel.
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |