Der Zweck dieses Protokolls ist es, niedermolekulare Strukturbibliotheken mit Open-Source-Software effizient zu generieren und zu kuratieren.
Die umfassende Generierung molekularer Strukturen hat zahlreiche chemische und biochemische Anwendungen wie Arzneimitteldesign, molekulare Datenbankkonstruktion, Erforschung alternativer Biochemien und vieles mehr. Mathematisch gesehen handelt es sich dabei um Graphgeneratoren mit chemischen Einschränkungen. Im Feld ist der derzeit effizienteste Generator (MOLGEN) ein kommerzielles Produkt, das seine Verwendung einschränkt. Alternativ dazu ist ein weiterer Molekularstrukturgenerator, MAYGEN, ein aktuelles Open-Source-Tool mit einer mit MOLGEN vergleichbaren Effizienz und der Fähigkeit der Benutzer, seine Leistung durch Hinzufügen neuer Funktionen zu steigern. Eines der Forschungsfelder, die von dieser Entwicklung profitieren können, ist die Astrobiologie; Strukturgeneratoren ermöglichen es Forschern, experimentelle Daten mit Rechenmöglichkeiten für alternative Biochemie zu ergänzen. Dieses Protokoll beschreibt einen Anwendungsfall für die Strukturgenerierung in der Astrobiologie, nämlich die Erzeugung und Kuration von Alpha-Aminosäure-Bibliotheken. Mit Hilfe von Open-Source-Strukturgeneratoren und Cheminformatik-Tools können die hier beschriebenen Praktiken über die Astrobiologie hinaus für die kostengünstige Erstellung und Kuratierung chemischer Strukturbibliotheken für jede Forschungsfrage implementiert werden.
Die Erzeugung molekularer Strukturen dient als praktische Anwendung des allgemeinen Problems der erschöpfenden Graphenerzeugung; Wie viele zusammenhängende Graphen (Moleküle) sind bei mehreren Knoten (Atomen) und Einschränkungen ihrer Konnektivität (z. B. Valenzen, Bindungsmultiplizen, erwünschte/unerwünschte Unterstrukturen) möglich? Strukturgeneratoren haben umfangreiche Anwendungen in der Arzneimittelforschung und pharmazeutischen Entwicklung gefunden, wo sie riesige Bibliotheken neuartiger Strukturen für das In-silico-Screening erstellen können 1.
Der erste Strukturgenerator, CONGEN, wurde für das erste künstliche Intelligenzprojekt in der organischen Chemie, DENDRAL 2 (kurz für DENDRitic ALgorithm), entwickelt. Mehrere Software-Nachfolger von DENDRAL wurden in der Literatur berichtet; Allerdings waren nicht alle von ihnen gepflegt oder effizient. Derzeit istMOLGEN 3 der hochmoderne Molekularstrukturgenerator. Leider ist es für die meisten potenziellen Benutzer Closed-Source und erfordert eine Lizenzgebühr. Daher bestand der Bedarf an einem effizienten Open-Source-Strukturgenerator, der sich leicht an bestimmte Anwendungen anpassen kann. Eine Herausforderung für einen effizienten Strukturgenerator ist das Management der kombinatorischen Explosion; Wenn die Größe einer Summenformel zunimmt, nimmt die Größe des chemischen Suchraums exponentiell zu. Eine kürzlich durchgeführte Überprüfung untersucht die Geschichte und die Herausforderungen der Molekularstrukturbildung4 weiter.
Vor 2021 war der Parallel Molecule Generator (PMG)5 der schnellste Open-Source-Strukturgenerator, aber er war immer noch um Größenordnungen langsamer als MOLGEN. MAYGEN6 ist etwa 47-mal schneller als PMG und etwa 3-mal langsamer als MOLGEN, was MAYGEN zum schnellsten und effizientesten Open-Source-Strukturgenerator auf dem Markt macht. Detailliertere Vergleiche und Benchmarking-Tests finden Sie in dem Papier, das MAYGEN6 vorstellt. Ein wesentliches Merkmal des Programms ist der lexikographische Ordnungstest für kanonische Strukturen, eine geordnete Graphgenerierungsmethode, die auf dem Schreier-Sims7-Algorithmus basiert. Die Software kann einfach in andere Projekte integriert und für die Bedürfnisse der Benutzer erweitert werden.
Wie MOLGEN und PMG nimmt MAYGEN eine benutzerdefinierte Summenformel und generiert alle Strukturen, die für diese Formel möglich sind. Wenn ein Benutzer beispielsweise MAYGEN mit der Formel C5H12 ausführt, erzeugt MAYGEN alle möglichen Strukturen, die fünf Kohlenstoffatome und zwölf Wasserstoffatome enthalten. Im Gegensatz zu seinem Open-Source-Pendant PMG kann MAYGEN auch “unscharfe” Summenformeln aufnehmen, die Intervalle anstelle von diskreten Zahlen für die Anzahl jedes Elements verwenden. Wenn beispielsweise ein Benutzer MAYGEN mit der Formel C5-7H12-15 ausführt, erzeugt MAYGEN alle möglichen Strukturen, die zwischen fünf und sieben Kohlenstoffatome und zwölf und fünfzehn Wasserstoffatome enthalten, was eine einfache Erzeugung von Strukturen mit einer Vielzahl von atomaren Zusammensetzungen ermöglicht.
Die Astrobiologie ist ein solches Feld, das von molekularen Strukturgeneratoren profitieren kann. Ein beliebtes Thema in der Astrobiologie ist die Entwicklung des Aminosäurealphabets, das von allem existierenden Leben auf der Erde geteilt wird. Eines der bestimmenden Merkmale des Last Universal Common Ancestor (LUCA) ist die Verwendung von zwanzig genetisch kodierten Aminosäuren für den Proteinaufbau 8,9. Basierend auf Meta-Analysen von Arbeiten in mehreren Bereichen 10,11,12 bilden sich etwa 10 dieser Aminosäuren (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) leicht unter abiotischen Bedingungen und bilden wahrscheinlich das Aminosäurealphabet von Prä-LUCA-Organismen. Im Laufe der Zeit wurde dieses “frühe” Alphabet als Reaktion auf unterschiedliche strukturelle und funktionale Bedürfnisse erweitert. Zum Beispiel behauptet eine kürzlich von Moosmann13 durchgeführte Überprüfung, dass die Zugabe neuerer Mitglieder der genetisch kodierten Aminosäuren (nämlich Met, Tyr und Trp) das Überleben in sauerstoffreichen Umgebungen ermöglichte, indem die intrazelluläre Proliferation von reaktiven Sauerstoffspezies verhindert wurde.
Eine ständig wachsende Reihe von analytischen chemischen Techniken ermöglicht einen Einblick in die Aminosäurestrukturen, die sich unter abiotischen Bedingungen bilden können. Eine kürzlich von Simkus und anderen durchgeführte Überprüfung 14 beschreibt die Methoden, die zum Nachweis zahlreicher organischer Verbindungen in Meteoriten sowie organischer Verbindungen aus In-vitro-Simulationen früher Erdumgebungenverwendet werden 15,16,17. Die systematische Erzeugung chemischer Strukturen ermöglicht es den Forschern, über die durch Instrumente nachgewiesenen organischen Verbindungen hinauszugehen und den strukturellen Raum um strukturelle “Inseln” zu bevölkern, die von der analytischen Chemie identifiziert wurden. Im Falle der “frühen” Aminosäuren zeigt diese systematische Strukturgenerierung mögliche Proteinchemien, die dem frühen Leben zur Verfügung stehen, ohne die Erforschung auf Strukturen zu beschränken, die unter abiotischen Synthesebedingungen experimentell nachgewiesen wurden. Mit Open-Source-Cheminformatik-Toolkits und effizienten Strukturgeneratoren wie MAYGEN ist die Erstellung und Erforschung neuartiger chemischer Strukturbibliotheken jetzt einfacher als je zuvor und kann detailliertere Untersuchungen alternativer Chemien des Lebens ermöglichen.
Ein Merkmal der “frühen” Aminosäuren ist ein Mangel an Schwefel. Die zuvor erwähnten Metaanalysen betrachten die schwefelhaltigen kodierten Aminosäuren (Cys und Met) im Allgemeinen als relativ späte Ergänzungen des genetischen Codes, Schlussfolgerungen, die durch den Mangel an schwefelhaltigen Aminosäuren in Meteoriten und Funkenröhrenexperimenten unterstützt werden. Schwefelorganische Verbindungen werden jedoch leicht in Kometen und Meteoriten 22 nachgewiesen, und eine erneute Analyse von Funkenröhrenexperimenten mitH2S-Gas ergab Aminosäuren und andere organische Verbindungen, die Schwefel16 enthalten. Wenn man ein alternatives Aminosäurealphabet in Betracht zieht, ist es eine Erkundung wert, wenn man ein mit Schwefel angereichertes Alphabet in Betracht zieht.
Im obigen Protokoll werden Strukturgenerierung und Unterstrukturfilterung als kritische Schritte betrachtet; Abhängig von der Zusammensetzung der fertigen Strukturbibliothek muss ein Forscher möglicherweise nur diese beiden Schritte ausführen. Anweisungen und Software für zusätzliche Aktionen (Pseudoatomersatz und Addition von Substrukturen (in diesem Fall Aminosäure-Capping)) sind enthalten für eine relevantere Deskriptorberechnung (Capping stellt sicher, dass XLogP-Berechnungen von der Seitenkette und nicht von den Backbone-Amin- oder Carboxylgruppen beeinflusst werden) und schnellere Strukturgenerierung durch die Verwendung eines Pseudoatoms, was im Folgenden näher erläutert wird. Darüber hinaus wird hier eine Deskriptorberechnung durchgeführt, um die Vielfalt der erzeugten Strukturen zu visualisieren und die Auswirkungen der Schwefelanreicherung in den fertigen Bibliotheken zu vergleichen.
Während PaDEL-Deskriptor Tausende von molekularen Eigenschaften berechnen kann, wurden hier das molekulare Volumen (wie berechnetes Van-der-Waals-Volumen) und der Verteilungskoeffizient (als XLogP) aus zwei verschiedenen Gründen verwendet. Erstens messen diese beiden Deskriptoren molekulare Eigenschaften (Größe bzw. Hydrophobie), die den meisten Chemikern und Biologen vertraut sind. Zweitens sind diese beiden Eigenschaften im Falle von Aminosäuren signifikant. Jahrzehntelang war bekannt, dass Aminosäuregröße und Hydrophobie die Thermodynamik der Proteinfaltungbeeinflussen 23. Diese beiden Eigenschaften helfen, die Aminosäuresubstitutionsfrequenzen zu erklären, die für das Verständnis der Proteinevolution von wesentlicher Bedeutung waren24.
Das obige Beispiel zeigt, dass in den beiden untersuchten Deskriptoren (molekulares Volumen und Hydrophobie) der Ersatz eines Kohlenstoffs und zweier Wasserstoffe durch einen zweiwertigen Schwefel keine signifikanten Veränderungen ergibt. Der leichte, nicht signifikante Anstieg des mittleren molekularen Volumens durch Schwefelsubstitution (Abbildung 3) könnte auf den größeren kovalenten Radius von Schwefel (~ 103 pm) im Vergleich zu sp 3 (~75 pm) oder sp2 (~ 73 pm) Kohlenstoff25 zurückgeführt werden. Ebenso hat die Schwefelsubstitution nur minimale Auswirkungen auf den mittleren XLogP (Abbildung 4). Der größte Effekt war zwischen den AIL- und VAIL_S-Bibliotheken, wahrscheinlich aufgrund einer Kombination aus der AIL-Bibliothek, die besonders hydrophob ist (die Seitenketten sind nur Kohlenwasserstoffe) und Sulfhydrylgruppen, die viel saurer sind als die Methylgruppen, die sie ersetzen würden. Der minimale Effekt der Schwefelsubstitution zeigt sich in Abbildung 2, wo Bibliotheken mit Schwefelsubstitution den gleichen chemischen Raum einnehmen wie analoge Bibliotheken ohne Schwefelsubstitution.
Die Abnahme der Anzahl der Strukturen (Abbildung 5A) und der Zeit, die benötigt wird, um diese Strukturen zu erzeugen (Abbildung 5B), wenn ein Pseudoatom verwendet wird, ist nicht überraschend. Die Verwendung eines Pseudoatoms reduziert die Anzahl der schweren Atome, die in einen chemischen Graphen eingebaut werden müssen, reduziert die Anzahl der Graphknoten und führt zu einer exponentiellen Abnahme der Erzeugungszeit und der Anzahl der Strukturen. Hier ergibt sich die Wahl des dreiwertigen Phosphors als Pseudoatom aus der grundlegenden Biochemie (ohne posttranslationale Addition von Phosphatgruppen, keine genetisch kodierten Aminosäuren enthalten Phosphor) und der Wertigkeit des Atoms, das ihn ersetzen würde (ein dreiwertiger Phosphor kann leicht durch einen vierwertigen Kohlenstoff ersetzt werden, der einzeln an ein anderes Atom oder eine Gruppe von Atomen gebunden ist). Während der bereitgestellte Code für die Pseudoatomsubstitution spezifisch für das Ersetzen eines dreiwertigen Phosphors durch eine Alanin-Unterstruktur ist, können Benutzer den Code anpassen, um mit verschiedenen Pseudoatomen oder Ersatzsubstrukturen zu arbeiten, wobei möglicherweise mehrere Pseudoatome während der anfänglichen Strukturgenerierung verwendet werden, gefolgt von jedem Pseudoatom durch eine größere molekulare Unterstruktur.
Strukturgenerierungsmethoden, die denen von MAYGEN (und anderen Methoden wie neuronalen Netzen) ähneln, werden bereits in der Arzneimittelforschung verwendet, um Verbindungsbibliotheken für das In-silico-Screening zu generieren; In einem kürzlich erschienenen Review 4 werden diese Methoden ausführlicher erläutert. Da diese Methoden in erster Linie für die Erzeugung von arzneimittelähnlichen Molekülen gedacht sind, gibt es einige Einschränkungen ihrer Fähigkeit, Moleküle zu erzeugen, wie z.B. die Verwendung biologischer oder pharmazeutischer Eigenschaften, um die erzeugten Strukturen zu begrenzen (inverse QSPR / QSAR) oder die Schaffung von Strukturen aus einer voreingestellten Anzahl von Unterstrukturbausteinen. Da sich die Astrobiologie mehr auf die Vielzahl organischer Verbindungen konzentriert, die sich abiotisch bilden können, und weniger auf Endprodukte oder deren Eigenschaften, ist die umfassende Strukturgenerierung von MAYGEN ideal für die Erstellung von Strukturbibliotheken zur Beantwortung astrobiologischer Fragen. Der hier beschriebene Ansatz zur Substrukturfilterung (durchgeführt nach Strukturgenerierung über ein externes Programm) unterscheidet sich vom Konkurrenzprogramm MOLGEN dadurch, dass die Substrukturfilterung von MOLGEN während der Strukturgenerierung erfolgt. Da MAYGEN Open-Source ist, ist es aufgrund der Lizenzkosten von MOLGEN nicht nur zugänglicher als MOLGEN, sondern Einzelpersonen könnten auch neue Funktionen wie die Unterstrukturfilterung während der Strukturgenerierung implementieren.
Wie geschrieben, konzentriert sich das hier beschriebene Protokoll auf die Generierung und Kuratierung von Bibliotheken mit relativ kleinen Alpha-Aminosäuren. Um verschiedene Bibliotheken zu generieren, können Benutzer MAYGEN verschiedene Summenformeln geben, die Unterstrukturfilterung ändern, indem sie die maximal zulässige Ringgröße und Bindungsvalenz ändern, oder die Goodlist- und Badlist-Dateien bearbeiten, um Unterstrukturmuster hinzuzufügen oder zu entfernen. Protokolländerungen, bei denen geändert wird, wie Atome und Substrukturen hinzugefügt oder ersetzt werden (Pseudoatomsubstitution und molekulare Kappung), sind machbar, erfordern jedoch mehr Aufmerksamkeit für Valenzbeschränkungen, um RDKit-Fehler über falsche Valenzen in modifizierten Strukturen zu vermeiden.
Das oben beschriebene Protokoll ist für kleine Alpha-Aminosäuren konzipiert. Das allgemeine Format (umfassende Strukturgenerierung unter Verwendung von Pseudoatomen, gefolgt von Substrukturfilterung und molekularen Modifikationen) ist jedoch für Verbindungen jenseits kleiner Aminosäuren hochflexibel. Sogar in der Astrobiologie wurde ein ähnliches neueres Verfahren mit MOLGEN verwendet, um konstitutionelle Isomere von Nukleinsäurenzu untersuchen 26. Zusätzlich zu den oben beschriebenen Werkzeugen kann MAYGEN mit anderen Open-Source-Cheminformatik-Tools kombiniert werden, um die Erstellung und Analyse neuartiger chemischer Strukturen für eine breite Palette von Forschungsbereichen erschwinglich und zugänglich zu machen.
The authors have nothing to disclose.
MAY würdigt die Förderung durch die Carl-Zeiss-Stiftung. Alle Zahlen wurden mit Microsoft Excel generiert.
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |