Het doel van dit protocol is om efficiënt kleine molecuulstructuurbibliotheken te genereren en te beheren met behulp van open-source software.
Uitputtende generatie van moleculaire structuren heeft tal van chemische en biochemische toepassingen zoals medicijnontwerp, moleculaire databaseconstructie, verkenning van alternatieve biochemici en nog veel meer. Wiskundig gezien zijn dit grafiekgeneratoren met chemische beperkingen. In het veld is de meest efficiënte generator momenteel (MOLGEN) een commercieel product, waardoor het gebruik ervan wordt beperkt. Een andere moleculaire structuurgenerator, MAYGEN, is een recente open-source tool met een efficiëntie die vergelijkbaar is met MOLGEN en de capaciteit voor gebruikers om de prestaties te verbeteren door nieuwe functies toe te voegen. Een van de onderzoeksgebieden die baat kunnen hebben bij deze ontwikkeling is astrobiologie; structuurgeneratoren stellen onderzoekers in staat om experimentele gegevens aan te vullen met computationele mogelijkheden voor alternatieve biochemie. Dit protocol beschrijft één use case voor het genereren van structuren in de astrobiologie, namelijk het genereren en cureren van alfa-aminozuurbibliotheken. Met behulp van open-source structuurgeneratoren en cheminformatics-tools kunnen de hier beschreven praktijken buiten de astrobiologie worden geïmplementeerd voor het goedkoop maken en cureren van chemische structuurbibliotheken voor elke onderzoeksvraag.
Moleculaire structuurgeneratie dient als een praktische toepassing van het algemene probleem van uitputtende grafiekgeneratie; gezien verschillende knooppunten (atomen) en beperkingen op hun connectiviteit (bijv. Valenties, bindingsmultipliciteiten, gewenste / ongewenste substructuren), hoeveel verbonden grafieken (moleculen) zijn mogelijk? Structuurgeneratoren hebben uitgebreide toepassing gezien in medicijnontdekking en farmaceutische ontwikkeling, waar ze enorme bibliotheken met nieuwe structuren kunnen creëren voor in silico-screening 1.
De eerste structuurgenerator, CONGEN, werd ontwikkeld voor het eerste kunstmatige intelligentieproject in de organische chemie, DENDRAL2 (afkorting van DENDRitic ALgorithm). Verschillende software-opvolgers van DENDRAL werden in de literatuur vermeld; ze waren echter niet allemaal onderhouden of efficiënt. Momenteel is MOLGEN3 de state-of-the-art moleculaire structuurgenerator. Helaas voor de meeste potentiële gebruikers is het closed-source en vereist het een licentievergoeding. Er is dus behoefte aan een efficiënte open-source structuurgenerator die zich gemakkelijk kan aanpassen aan specifieke toepassingen. Een uitdaging voor een efficiënte structuurgenerator is het beheren van combinatorische explosies; naarmate de grootte van een molecuulformule toeneemt, neemt de grootte van de chemische zoekruimte exponentieel toe. Een recent overzicht onderzoekt verder de geschiedenis en uitdagingen van moleculaire structuurgeneratie4.
Vóór 2021 was de Parallel Molecule Generator (PMG)5 de snelste open-source structuurgenerator, maar deze was nog steeds langzamer dan MOLGEN in ordes van grootte. MAYGEN6 is ongeveer 47 keer sneller dan PMG en ongeveer 3 keer langzamer dan MOLGEN, waardoor MAYGEN de snelste en meest efficiënte open-source structuurgenerator is die beschikbaar is. Meer gedetailleerde vergelijkingen en benchmarkingtests zijn te vinden in de paper die MAYGEN6 introduceert. Een belangrijk kenmerk van het programma is de lexicografische ordeningstest voor canonieke structuren, een geordende methode voor het genereren van grafieken op basis van het Schreier-Sims7-algoritme . De software kan eenvoudig worden geïntegreerd in andere projecten en worden verbeterd voor de behoeften van de gebruikers.
Net als MOLGEN en PMG neemt MAYGEN een door de gebruiker gedefinieerde molecuulformule en genereert alle mogelijke structuren voor die formule. Als een gebruiker bijvoorbeeld MAYGEN uitvoert met de formule C5H12, genereert MAYGEN alle mogelijke structuren die vijf koolstofatomen en twaalf waterstofatomen bevatten. In tegenstelling tot zijn open-source tegenhanger PMG, kan MAYGEN ook “fuzzy” moleculaire formules bevatten die intervallen gebruiken in plaats van discrete getallen voor de telling van elk element. Als een gebruiker bijvoorbeeld MAYGEN uitvoert met de formule C5-7H12-15, genereert MAYGEN alle mogelijke structuren die tussen de vijf en zeven koolstofatomen en twaalf en vijftien waterstofatomen bevatten, waardoor eenvoudige generatie van structuren met een breed scala aan atomaire samenstellingen mogelijk is.
Astrobiologie is zo’n veld dat kan profiteren van moleculaire structuurgeneratoren. Een populair onderwerp in de astrobiologie is de evolutie van het aminozuuralfabet dat wordt gedeeld door al het bestaande leven op aarde. Een van de bepalende kenmerken van de Last Universal Common Ancestor (LUCA) is het gebruik van twintig genetisch gecodeerde aminozuren voor eiwitconstructie 8,9. Op basis van meta-analyses van werk op meerdere gebiedenvormen 10,11,12, ongeveer 10 van deze aminozuren (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) gemakkelijk onder abiotische omstandigheden en vormen waarschijnlijk het aminozuuralfabet van pre-LUCA-organismen. In de loop van de tijd werd dit “vroege” alfabet uitgebreid als reactie op verschillende structurele en functionele behoeften. Een recente review van Moosmann13 beweert bijvoorbeeld dat de toevoeging van meer recente leden van de genetisch gecodeerde aminozuren (namelijk Met, Tyr en Trp) het mogelijk maakte om te overleven in zuurstofrijke omgevingen door de intracellulaire proliferatie van reactieve zuurstofsoorten te voorkomen.
Een steeds groter wordende reeks analytische chemietechnieken biedt inzicht in de aminozuurstructuren die zich onder abiotische omstandigheden kunnen vormen. Een recente review14 door Simkus en anderen beschrijft de methoden die worden gebruikt om talrijke organische verbindingen in meteorieten te detecteren, evenals organische verbindingen uit in vitro simulaties van vroege aardse omgevingen 15,16,17. Systematische generatie van chemische structuren stelt onderzoekers in staat om verder te gaan dan de organische verbindingen die via instrumentatie worden gedetecteerd, waarbij de structurele ruimte rond structurele “eilanden” wordt bevolkt die door analytische chemie zijn geïdentificeerd. In het geval van de “vroege” aminozuren toont deze systematische structuurgeneratie mogelijke eiwitchemie die beschikbaar is voor het vroege leven zonder de exploratie te beperken tot structuren die experimenteel zijn gedetecteerd onder abiotische syntheseomstandigheden. Met open-source cheminformatics toolkits en efficiënte structuurgeneratoren zoals MAYGEN is het maken en verkennen van nieuwe chemische structuurbibliotheken nu eenvoudiger dan ooit tevoren en kan het meer gedetailleerde onderzoeken naar alternatieve chemische stoffen van het leven begeleiden.
Een kenmerk van de “vroege” aminozuren is een gebrek aan zwavel. De eerder genoemde meta-analyses beschouwen de zwavelhoudende gecodeerde aminozuren (Cys en Met) over het algemeen als relatief late toevoegingen aan de genetische code, conclusies ondersteund door het ontbreken van zwavelhoudende aminozuren in meteorieten en vonkbuisexperimenten. Organozwavelverbindingen worden echter gemakkelijk gedetecteerd in kometen en meteorieten22, en heranalyse van vonkbuisexperimenten met behulp van H2S-gas vond aminozuren en andere organische verbindingen die zwavelbevatten 16. Bij het overwegen van een alternatief aminozuuralfabet, is een verrijkt met zwavel het verkennen waard.
In het bovenstaande protocol worden structuurgeneratie en substructuurfiltering beschouwd als kritieke stappen; afhankelijk van de samenstelling van de voltooide structuurbibliotheek, hoeft een onderzoeker mogelijk alleen die twee stappen uit te voeren. Instructies en software voor aanvullende acties (pseudoatom vervanging en toevoeging van substructuren (in dit geval aminozuur capping)) zijn opgenomen voor meer relevante descriptorberekening (capping zorgt ervoor dat XLogP-berekeningen worden beïnvloed door de sidechain en niet door de backbone-amine- of carboxylgroepen) en snellere structuurgeneratie via het gebruik van een pseudoatom, die hieronder in meer detail wordt besproken. Bovendien wordt hier descriptorberekening uitgevoerd als een eenvoudige manier om de diversiteit van de gegenereerde structuren te visualiseren en de effecten van zwavelverrijking in de voltooide bibliotheken te vergelijken.
Terwijl PaDEL-Descriptor duizenden moleculaire eigenschappen kan berekenen, werden moleculair volume (zoals berekend van der Waals volume) en verdelingscoëfficiënt (als XLogP) hier om twee verschillende redenen gebruikt. Ten eerste meten deze twee descriptoren moleculaire eigenschappen (respectievelijk grootte en hydrofobiciteit) die bekend zijn bij de meeste chemici en biologen. Ten tweede, in het geval van aminozuren, zijn deze twee eigenschappen significant. Decennialang was bekend dat aminozuurgrootte en hydrofobiciteit de thermodynamica van eiwitvouwing beïnvloeden23. Deze twee eigenschappen helpen bij het verklaren van aminozuursubstitutiefrequenties die een integraal onderdeel zijn geweest van het begrijpen van eiwitevolutie24.
Het bovenstaande voorbeeld laat zien dat in de twee bestudeerde descriptoren (moleculair volume en hydrofobiciteit) het vervangen van een tweewaardige zwavel door een koolstof en twee waterstofatomen geen significante veranderingen oplevert. De lichte, niet-significante toename van het gemiddelde moleculaire volume van zwavelsubstitutie (figuur 3) kan worden toegeschreven aan de grotere covalente straal van zwavel (~ 103 pm) in vergelijking met sp3 (~ 75 pm) of sp2 (~ 73 pm) koolstof25. Evenzo heeft zwavelsubstitutie een minimaal effect op de gemiddelde XLogP (figuur 4). Het grootste effect was tussen de VAIL- en VAIL_S bibliotheken, waarschijnlijk als gevolg van een combinatie van de VAIL-bibliotheek die vooral hydrofoob is (de sidechains zijn alleen koolwaterstoffen) en sulfhydrylgroepen die veel zuurder zijn dan de methylgroepen die ze zouden vervangen. Het minimale effect van zwavelsubstitutie is duidelijk in figuur 2, waar bibliotheken met zwavelsubstitutie dezelfde chemische ruimte innemen als analoge bibliotheken zonder zwavelsubstitutie.
De afname van het aantal structuren (figuur 5A) en de tijd die nodig is om die structuren te genereren (figuur 5B) bij het gebruik van een pseudoatom is niet verrassend. Het gebruik van een pseudoatom vermindert het aantal zware atomen dat in een chemische grafiek moet worden opgenomen, waardoor het aantal grafiekknooppunten wordt verminderd en exponentiële afnames in de generatietijd en het aantal structuren worden gegenereerd. Hier komt de keuze voor driewaardig fosfor als pseudoatom voort uit de basisbiochemie (afwezige posttranslationele toevoeging van fosfaatgroepen, geen genetisch gecodeerde aminozuren bevatten fosfor) en de valentie van het atoom dat het zou vervangen (een driewaardig fosfor kan gemakkelijk worden vervangen door een tetravalente koolstof die afzonderlijk is gebonden aan een ander atoom of een groep atomen). Hoewel de verstrekte code voor pseudoatomsubstitutie specifiek is voor het vervangen van een driewaardig fosfor door een alaninesubstructuur, kunnen gebruikers de code aanpassen om te werken met verschillende pseudoatomen of vervangende substructuren, mogelijk met behulp van meerdere pseudoatomen tijdens de eerste structuurgeneratie, gevolgd door het vervangen van elke pseudoatom door een grotere moleculaire substructuur.
Methoden voor het genereren van structuren die vergelijkbaar zijn met die van MAYGEN (en andere methoden zoals neurale netwerken) worden al gebruikt bij het ontdekken van geneesmiddelen om samengestelde bibliotheken te genereren voor in silico-screening ; een recente review4 bespreekt deze methoden in meer detail. Aangezien deze methoden voornamelijk bedoeld zijn voor het creëren van medicijnachtige moleculen, zijn er enkele beperkingen op hun vermogen om moleculen te genereren, zoals het gebruik van biologische of farmaceutische eigenschappen om de gecreëerde structuren te beperken (inverse QSPR / QSAR) of het creëren van structuren uit een vooraf ingesteld aantal substructuurbouwstenen. Omdat astrobiologie meer gericht is op de veelheid aan organische verbindingen die zich abiotisch kunnen vormen en minder op eindproducten of hun eigenschappen, is de uitputtende structuurgeneratie van MAYGEN ideaal voor het maken van structuurbibliotheken om astrobiologische vragen aan te pakken. De hier beschreven benadering van substructuurfiltering (uitgevoerd na het genereren van structuren via een extern programma) verschilt van het concurrerende programma MOLGEN doordat molgen’s substructuurfiltering plaatsvindt tijdens het genereren van structuren. Omdat MAYGEN open-source is, is het niet alleen toegankelijker dan MOLGEN vanwege de licentiekosten van MOLGEN, maar individuen kunnen ook nieuwe functies implementeren, zoals substructuurfiltering tijdens het genereren van structuren.
Zoals geschreven, is het hier beschreven protocol gericht op het genereren en beheren van bibliotheken van relatief kleine alfa-aminozuren. Om verschillende bibliotheken te genereren, kunnen gebruikers verschillende molecuulformules aan MAYGEN geven, de substructuurfiltering wijzigen door de maximaal toegestane ringgrootte en bindingsvalentie te wijzigen, of de goodlist- en badlist-bestanden bewerken om substructuurpatronen toe te voegen of te verwijderen. Protocolwijzigingen waarbij de manier waarop atomen en substructuren worden toegevoegd of vervangen (pseudoatom-substitutie en moleculaire capping) worden gewijzigd, zijn haalbaar, maar vereisen meer aandacht voor valentiebeperkingen om RDKit-fouten over onjuiste valenties in gewijzigde structuren te voorkomen.
Het hierboven beschreven protocol is ontworpen voor kleine alfa-aminozuren. Het algemene formaat (uitgebreide structuurgeneratie met behulp van pseudoatomen, gevolgd door substructuurfiltering en moleculaire modificaties) is echter zeer flexibel voor verbindingen die verder gaan dan kleine aminozuren. Zelfs in de astrobiologie werd een vergelijkbare recente procedure met MOLGEN gebruikt om constitutionele isomeren van nucleïnezuren te onderzoeken26. Naast de hierboven beschreven tools, kan MAYGEN worden gecombineerd met andere open-source cheminformatics-tools om het maken en analyseren van nieuwe chemische structuren betaalbaar en toegankelijk te maken voor een breed scala aan onderzoeksgebieden.
The authors have nothing to disclose.
MAY erkent financiering door de Carl-Zeiss-Foundation. Alle cijfers zijn gegenereerd met behulp van Microsoft Excel.
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |