Summary

Kuration von computergestützten chemischen Bibliotheken mit alpha-Aminosäuren demonstriert

Published: April 13, 2022
doi:

Summary

Der Zweck dieses Protokolls ist es, niedermolekulare Strukturbibliotheken mit Open-Source-Software effizient zu generieren und zu kuratieren.

Abstract

Die umfassende Generierung molekularer Strukturen hat zahlreiche chemische und biochemische Anwendungen wie Arzneimitteldesign, molekulare Datenbankkonstruktion, Erforschung alternativer Biochemien und vieles mehr. Mathematisch gesehen handelt es sich dabei um Graphgeneratoren mit chemischen Einschränkungen. Im Feld ist der derzeit effizienteste Generator (MOLGEN) ein kommerzielles Produkt, das seine Verwendung einschränkt. Alternativ dazu ist ein weiterer Molekularstrukturgenerator, MAYGEN, ein aktuelles Open-Source-Tool mit einer mit MOLGEN vergleichbaren Effizienz und der Fähigkeit der Benutzer, seine Leistung durch Hinzufügen neuer Funktionen zu steigern. Eines der Forschungsfelder, die von dieser Entwicklung profitieren können, ist die Astrobiologie; Strukturgeneratoren ermöglichen es Forschern, experimentelle Daten mit Rechenmöglichkeiten für alternative Biochemie zu ergänzen. Dieses Protokoll beschreibt einen Anwendungsfall für die Strukturgenerierung in der Astrobiologie, nämlich die Erzeugung und Kuration von Alpha-Aminosäure-Bibliotheken. Mit Hilfe von Open-Source-Strukturgeneratoren und Cheminformatik-Tools können die hier beschriebenen Praktiken über die Astrobiologie hinaus für die kostengünstige Erstellung und Kuratierung chemischer Strukturbibliotheken für jede Forschungsfrage implementiert werden.

Introduction

Die Erzeugung molekularer Strukturen dient als praktische Anwendung des allgemeinen Problems der erschöpfenden Graphenerzeugung; Wie viele zusammenhängende Graphen (Moleküle) sind bei mehreren Knoten (Atomen) und Einschränkungen ihrer Konnektivität (z. B. Valenzen, Bindungsmultiplizen, erwünschte/unerwünschte Unterstrukturen) möglich? Strukturgeneratoren haben umfangreiche Anwendungen in der Arzneimittelforschung und pharmazeutischen Entwicklung gefunden, wo sie riesige Bibliotheken neuartiger Strukturen für das In-silico-Screening erstellen können 1.

Der erste Strukturgenerator, CONGEN, wurde für das erste künstliche Intelligenzprojekt in der organischen Chemie, DENDRAL 2 (kurz für DENDRitic ALgorithm), entwickelt. Mehrere Software-Nachfolger von DENDRAL wurden in der Literatur berichtet; Allerdings waren nicht alle von ihnen gepflegt oder effizient. Derzeit istMOLGEN 3 der hochmoderne Molekularstrukturgenerator. Leider ist es für die meisten potenziellen Benutzer Closed-Source und erfordert eine Lizenzgebühr. Daher bestand der Bedarf an einem effizienten Open-Source-Strukturgenerator, der sich leicht an bestimmte Anwendungen anpassen kann. Eine Herausforderung für einen effizienten Strukturgenerator ist das Management der kombinatorischen Explosion; Wenn die Größe einer Summenformel zunimmt, nimmt die Größe des chemischen Suchraums exponentiell zu. Eine kürzlich durchgeführte Überprüfung untersucht die Geschichte und die Herausforderungen der Molekularstrukturbildung4 weiter.

Vor 2021 war der Parallel Molecule Generator (PMG)5 der schnellste Open-Source-Strukturgenerator, aber er war immer noch um Größenordnungen langsamer als MOLGEN. MAYGEN6 ist etwa 47-mal schneller als PMG und etwa 3-mal langsamer als MOLGEN, was MAYGEN zum schnellsten und effizientesten Open-Source-Strukturgenerator auf dem Markt macht. Detailliertere Vergleiche und Benchmarking-Tests finden Sie in dem Papier, das MAYGEN6 vorstellt. Ein wesentliches Merkmal des Programms ist der lexikographische Ordnungstest für kanonische Strukturen, eine geordnete Graphgenerierungsmethode, die auf dem Schreier-Sims7-Algorithmus basiert. Die Software kann einfach in andere Projekte integriert und für die Bedürfnisse der Benutzer erweitert werden.

Wie MOLGEN und PMG nimmt MAYGEN eine benutzerdefinierte Summenformel und generiert alle Strukturen, die für diese Formel möglich sind. Wenn ein Benutzer beispielsweise MAYGEN mit der Formel C5H12 ausführt, erzeugt MAYGEN alle möglichen Strukturen, die fünf Kohlenstoffatome und zwölf Wasserstoffatome enthalten. Im Gegensatz zu seinem Open-Source-Pendant PMG kann MAYGEN auch “unscharfe” Summenformeln aufnehmen, die Intervalle anstelle von diskreten Zahlen für die Anzahl jedes Elements verwenden. Wenn beispielsweise ein Benutzer MAYGEN mit der Formel C5-7H12-15 ausführt, erzeugt MAYGEN alle möglichen Strukturen, die zwischen fünf und sieben Kohlenstoffatome und zwölf und fünfzehn Wasserstoffatome enthalten, was eine einfache Erzeugung von Strukturen mit einer Vielzahl von atomaren Zusammensetzungen ermöglicht.

Die Astrobiologie ist ein solches Feld, das von molekularen Strukturgeneratoren profitieren kann. Ein beliebtes Thema in der Astrobiologie ist die Entwicklung des Aminosäurealphabets, das von allem existierenden Leben auf der Erde geteilt wird. Eines der bestimmenden Merkmale des Last Universal Common Ancestor (LUCA) ist die Verwendung von zwanzig genetisch kodierten Aminosäuren für den Proteinaufbau 8,9. Basierend auf Meta-Analysen von Arbeiten in mehreren Bereichen 10,11,12 bilden sich etwa 10 dieser Aminosäuren (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) leicht unter abiotischen Bedingungen und bilden wahrscheinlich das Aminosäurealphabet von Prä-LUCA-Organismen. Im Laufe der Zeit wurde dieses “frühe” Alphabet als Reaktion auf unterschiedliche strukturelle und funktionale Bedürfnisse erweitert. Zum Beispiel behauptet eine kürzlich von Moosmann13 durchgeführte Überprüfung, dass die Zugabe neuerer Mitglieder der genetisch kodierten Aminosäuren (nämlich Met, Tyr und Trp) das Überleben in sauerstoffreichen Umgebungen ermöglichte, indem die intrazelluläre Proliferation von reaktiven Sauerstoffspezies verhindert wurde.

Eine ständig wachsende Reihe von analytischen chemischen Techniken ermöglicht einen Einblick in die Aminosäurestrukturen, die sich unter abiotischen Bedingungen bilden können. Eine kürzlich von Simkus und anderen durchgeführte Überprüfung 14 beschreibt die Methoden, die zum Nachweis zahlreicher organischer Verbindungen in Meteoriten sowie organischer Verbindungen aus In-vitro-Simulationen früher Erdumgebungenverwendet werden 15,16,17. Die systematische Erzeugung chemischer Strukturen ermöglicht es den Forschern, über die durch Instrumente nachgewiesenen organischen Verbindungen hinauszugehen und den strukturellen Raum um strukturelle “Inseln” zu bevölkern, die von der analytischen Chemie identifiziert wurden. Im Falle der “frühen” Aminosäuren zeigt diese systematische Strukturgenerierung mögliche Proteinchemien, die dem frühen Leben zur Verfügung stehen, ohne die Erforschung auf Strukturen zu beschränken, die unter abiotischen Synthesebedingungen experimentell nachgewiesen wurden. Mit Open-Source-Cheminformatik-Toolkits und effizienten Strukturgeneratoren wie MAYGEN ist die Erstellung und Erforschung neuartiger chemischer Strukturbibliotheken jetzt einfacher als je zuvor und kann detailliertere Untersuchungen alternativer Chemien des Lebens ermöglichen.

Protocol

HINWEIS: Eine Zusammenfassung des Protokolls und der Materialtabelle finden Sie in Abbildung 1 für Details zur verwendeten Software. Abbildung 1: Zusammenfassendes Flussdiagramm des Protokolls. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen. 1. Software- und Datei-Downloads HINWEIS: Alle Programme sind für den individuellen Gebrauch kostenlos und können auf einem PC ausgeführt werden. Erstellen Sie ein neues Verzeichnis für dieses Projekt. Platzieren Sie die Dateien und ausführbaren Dateien hier für einen einfachen Zugriff. Laden Sie die erforderlichen Softwarepakete herunter und installieren Sie sie. Laden Sie die neueste Version von MAYGEN als .jar Datei herunter.HINWEIS: MAYGEN ist als .jar Datei von https://github.com/MehmetAzizYirik/MAYGEN/releases frei verfügbar Laden Sie die Paketverwaltungssoftware Conda und das Chemieinformatik-Toolkit RDKit18 herunter und installieren Sie sie.HINWEIS: RDKit filtert die von MAYGEN erzeugten molekularen Strukturen und läuft am besten in einer Conda-Umgebung. Eine Anleitung zum Herunterladen der Conda-Plattform finden Sie unter https://conda.io/projects/conda/en/latest/user-guide/install/index.html. Anweisungen zur Installation und Einrichtung der Umgebung von RDKit finden Sie unter https://www.rdkit.org/docs/Install.html. Installieren Sie RDKit in der Conda-Hauptumgebung anstelle einer separaten RDKit-Umgebung über die Anaconda-Eingabeaufforderung. Suchen Sie auf Windows-Systemen nach “Anaconda-Eingabeaufforderung” und klicken Sie auf die resultierende Verknüpfung, um ausgeführt zu werden. Interagieren Sie auf MacOS- und Linux-Systemen mit Conda über das Terminal, ohne zusätzliche Programme auszuführen. Geben Sie als Nächstes den folgenden Befehl ein, drücken Sie die EINGABETASTE , um ausgeführt zu werden, und beantworten Sie alle Fragen, die während der Installation auftreten, mit Ja:conda install -c rdkit rdkit.Während es viele frei verfügbare Deskriptorberechnungsprogramme gibt, verwendet dieses Beispiel PaDEL-Descriptor19, einen kostenlosen und schnellen Rechner für molekulare Deskriptoren und Fingerabdrücke. Laden Sie die .jar Datei herunter und speichern Sie sie im Projektordner.HINWEIS: PaDEL-Descriptor kann kostenlos von http://www.yapcwsoft.com/dd/padeldescriptor/ heruntergeladen werden. Laden Sie die Jupyter-Notebooks und Textdateien mit Unterkonstruktionsmustern aus den Supplemental Files 1-5 herunter.HINWEIS: Jupyter-Notebooks können auch von der folgenden GitHub-Seite heruntergeladen werden: https://github.com/cmayerb1/AA-structure-manip. 2. Strukturgenerierung mit MAYGEN Navigieren Sie in einer Eingabeaufforderung zu dem Verzeichnis, das die ausführbare Datei MAYGEN .jar enthält. Führen Sie für jede chemische Formel von Interesse MAYGEN mit dem folgenden Befehl aus:java -jar [MAYGEN .jar Dateiname] -f [chemische Formel] -v -o [Ordner für MAYGEN-Ausgabe] -m -sdf.HINWEIS: Dadurch wird eine .sdf Datei im angegebenen Ordner gespeichert, der nach der verwendeten Formel benannt ist. Wenn es sich bei der Formel um eine unscharfe Formel anstelle einer diskreten Formel handelt, ersetzen Sie das – f-Flag durch ein -fuzzy-Flag und schließen Sie alle Elementintervalle in Klammern ein (z. B. verwenden Sie C[5-7]H[12-15], um sicherzustellen, dass alle erzeugten Strukturen zwischen 5 und 7 Kohlenstoffatome und zwischen 12 und 15 Wasserstoffatome aufweisen). 3. Compounds mit unerwünschten Unterstrukturen filtern Öffnen Sie eine Anaconda-Eingabeaufforderung (siehe Schritt 1.2.2.1) und navigieren Sie zu dem Ordner, der die Jupyter-Notebooks enthält, die aus der Zusatzdatei 1 heruntergeladen wurden. Öffnen Sie das Jupyter-Notizbuch für die Unterstrukturfilterung mit dem folgenden Befehl:Jupyter Notebook [Notebook-Dateiname] Geben Sie in der dafür vorgesehenen Zelle am Anfang des Notebooks den vollständigen Dateipfad der Eingabe- .sdf Datei (generiert von MAYGEN), den vollständigen Dateipfad der gewünschten .sdf Ausgabedatei und den Dateipfad der Datei “badlist” als Zeichenfolgen (in Anführungszeichen) ein. Ein Beispiel für eine Badlist finden Sie unter Ergänzende Datei 2. Wenn einige Unterstrukturen in der gefilterten Bibliothek (eine Goodlist) beibehalten werden sollen, erstellen Sie für diese Unterstrukturen eine .txt Datei mit SMARTS-Mustern20 (eine Goodlist) und setzen Sie den Goodlist-Dateipfad in die angegebene Zeile am Anfang des Notebooks. Ein Beispiel für eine gute Liste finden Sie unter Ergänzende Datei 3. Starten Sie den Notebook-Kernel neu und führen Sie alle Zellen aus (wählen Sie im Menü oben Kernel, Restart & Run All), um eine .sdf Datei mit dem gewünschten Namen im angegebenen Ausgabeordner zu erhalten. Wiederholen Sie die beiden vorherigen Schritte für jede von MAYGEN generierte Strukturdatei in Schritt 2. 4. (Optional) Zusätzliche Strukturänderungen HINWEIS: Diese werden in diesem Beispiel ausgeführt, sind aber möglicherweise nicht für die Kuratierung anderer Bibliotheken erforderlich. Pseudoatom-Ersatz.HINWEIS: Hier ist ein Pseudoatom ein einzigartiges Atom, das verwendet wird, um eine größere Unterstruktur darzustellen, die von allen erzeugten Strukturen gemeinsam genutzt wird, wodurch die Erzeugungszeit von MAYGEN reduziert wird. Siehe Ergänzende Datei 4 für ein Beispiel für den Ersatz von Pseudoatomen. Öffnen Sie eine Anaconda-Eingabeaufforderung (siehe Schritt 1.2.2.1) und navigieren Sie zu dem Ordner, der die Jupyter-Notebooks enthält. Öffnen Sie das Jupyter-Notizbuch für den Ersatz von Pseudoatomen:Jupyter Notebook [Notebook-Dateiname] Geben Sie in der dafür vorgesehenen Zelle am Anfang des Notebooks den vollständigen Dateipfad der Eingabe- .sdf Datei und den vollständigen Dateipfad der gewünschten .sdf Ausgabedatei als Zeichenfolgen (in Anführungszeichen) ein. Starten Sie den Notebook-Kernel neu, und führen Sie alle Zellen aus, um eine .sdf Datei mit dem gewünschten Namen im angegebenen Ausgabeordner abzurufen. Aminosäure-N- und C-Termini-VerschließungHINWEIS: Dieses Verfahren ist spezifisch für Alpha-Aminosäuren und fügt molekulare Kappen zu den N- und C-Termini von Alpha-Aminosäure-Rückgraten hinzu. Siehe Supplemental File 5 für ein Beispiel für Aminosäure-Capping. Öffnen Sie eine Anaconda-Eingabeaufforderung (siehe Schritt 1.2.2.1) und navigieren Sie zu dem Ordner, der die Jupyter-Notebooks enthält. Öffnen Sie das Jupyter-Notizbuch für Aminosäure-Capping:Jupyter Notebook [Notebook-Dateiname] Geben Sie in der dafür vorgesehenen Zelle am Anfang des Notebooks den vollständigen Dateipfad der Eingabe- .sdf Datei und den vollständigen Dateipfad der gewünschten .sdf Ausgabedatei als Zeichenfolgen (in Anführungszeichen) ein. Starten Sie den Notebook-Kernel neu, und führen Sie alle Zellen aus, um eine .sdf Datei mit dem gewünschten Namen im angegebenen Ausgabeordner abzurufen. 5. Deskriptorgenerierung Legen Sie vor der Deskriptorgenerierung alle Dateien, für .sdf die Deskriptoren berechnet werden sollen, in einem einzigen Ordner ab.HINWEIS: Falls noch nicht geschehen, geben Sie diesen Dateien beschreibende Namen für eine einfache Filterung nach der Deskriptorgenerierung. Öffnen Sie eine Eingabeaufforderung und navigieren Sie zu dem Ordner, der die Datei PaDEL-Descriptor .jar enthält. Führen Sie PaDEL-Descriptor für die gesammelten .sdf Dateien mit dem folgenden Befehl aus:java -jar PaDEL-Descriptor.jar -dir [Verzeichnis der .sdf Dateien] -file [Dateipfad einer .csv Datei für Ergebnisse] -2d -retainorder -usefilenameasmolnameHINWEIS: Die Ergebnisdatei enthält den Molekülnamen in der ersten Spalte und jeden Deskriptor in den folgenden Spalten. Exportieren Sie diese Daten zur weiteren Analyse in eine beliebige Tabellenkalkulationssoftware.

Representative Results

Bibliothek Formel Zusätzliche Einschränkungen “Frühe” codierte Aminosäuren Erzeugungszeit (ms) Strukturen Initial Finale 1 Gly | C 2 H5NR.2 Gly-Unterkonstruktion einschließen Gly | 192 84 1 2 VAIL PC 0-3 Std.3-9 Val, Ala, Ile, Leu 172 70 22 3 DEST PC0-3O1-2 H 3-5 Asp, Glu, Ser, Thr 481 1928 254 4 Profi C 2-5 NR.2H7-11 N-meGly- oder N-meAla-Unterkonstruktion einschließen Profi 4035 79777 16 5 VAIL_S PSC0-2H3-7 122 65 31 6 DEST_S PSC0-2 O 1-2H3 349 1075 79 7 Pro_S C 2-4 SNO2H7-9 N-meGly- oder N-meAla-Unterkonstruktion einschließen 3999 75734 10 Tabelle 1: In diesem Beispiel verwendete Verbundbibliotheken Bibliotheken, die aus den Formeln 1-4 (Gly, VAIL, DEST und Pro) erstellt wurden, basieren auf zuvor veröffentlichten Fuzzy-Formeln der “frühen” codierten Aminosäuren21, während Bibliotheken, die aus den Formeln 5-7 (VAIL_S, DEST_S und Pro_S) erstellt wurden, auf Varianten der Formeln 2-4 basieren, die sich einen zweiwertigen Schwefel vorstellen, der eines der Kohlenstoffatome ersetzt. Die Strukturanzahl spiegelt die Anzahl der von MAYGEN für jede Formel erzeugten Moleküle (“Initial”) und die Anzahl der Moleküle wider, die nach dem Herausfiltern derjenigen mit unerwünschten Unterstrukturen verbleiben (“Final”). Abkürzungen: VAIL = Valin, Alanin, Isoleucin, Leucin; DEST = Asparaginsäure, Glutaminsäure, Serin, Threonin; X_S = Zweiwertiger Schwefel ersetzt einen der Kohlenstoffe in Bibliothek X; N-meX = N-methylX. Die oben genannten allgemeinen Methoden wurden auf Formeln angewendet, die auf den “frühen” codierten Aminosäuren basieren, nach dem Verfahren von Meringer et al.21 Badlist-Strukturen, die aus derselben Quelle entnommen und in SMARTS-Strings konvertiert wurden, um Substrukturmuster leicht darzustellen. Zwei Badlist-Unterstrukturen wurden in diesem Beispiel nicht verwendet: Struktur 018 (CH 3-CH-N) entsprach Beinahe-Isomeren von Prolin, die selbst nicht instabil waren; Struktur 106 (R-C-C-OH, wobei die am Beta-Kohlenstoff anhaftende R=Alanin-Unterstruktur) entsprach der Glutaminsäure, einer codierten Aminosäure. Zusätzlich zu diesen chemischen Formeln wurden Varianten mit zweiwertigem Schwefel geschaffen, die an die Stelle eines Kohlenstoffatoms und zweier Wasserstoffatome treten. Aus Leistungsgründen verwenden einige dieser Formeln ein dreiwertiges Phosphoratom (z. B. ein “Pseudoatom”) als Ersatz für den Beta-Kohlenstoff einer Alanin-Unterstruktur. In Tabelle 1 sind die in diesem Beispiel generierten Bibliotheken, die Formeln, mit denen sie generiert wurden, und die Anzahl der darin enthaltenen Verbindungen aufgeführt. Bibliotheksnamen basieren auf den codierten Aminosäuren, von denen sie abgeleitet sind: entweder mit der 3-Buchstaben-Abkürzung (Gly = Glycin, Pro = Prolin) oder der Ein-Buchstaben-Abkürzung (VAIL = Valin, Alanin, Isoleucin, Leucin; DEST = Asparaginsäure, Glutaminsäure, Serin, Threonin). Das Suffix “_S” zeigt an, dass ein Schwefel in der Formel der ursprünglichen Bibliothek durch einen Kohlenstoff ersetzt wurde (z. B. wird VAIL_S mit der gleichen Fuzzy-Formel wie VAIL gebaut, aber mit einem zweiwertigen Schwefel, der einen der Kohlenstoffe ersetzt). Nach der Strukturgenerierung mit MAIGEN wurden die resultierenden Bibliotheken nach Verbindungen gefiltert, die mindestens eine in der Badlist enthaltene Unterstruktur enthielten. Nach dieser Filterung wurden alle Phosphoratome durch eine Alanin-Unterstruktur ersetzt. Als nächstes wurden “gekappte” Versionen aller Strukturen erstellt, wobei dem N-Terminus eine Acetylgruppe und dem C-Terminus eine N-Methylamidgruppe hinzugefügt wurde. Dies wurde getan, um die Wirkung auf die Hydrophobie der freien Amin- und Carbonsäuregruppen im Alpha-Aminosäure-Rückgrat zu beseitigen. PaDEL-Descriptor wurde verwendet, um XLogP für alle gekappten Strukturen zu berechnen und das Van-der-Waals-Volumen (VABC) für alle ungedeckelten Strukturen zu berechnen. Abbildung 2 zeigt den chemischen Raum der gefilterten Bibliotheken, wie er durch VABC- und XLogP-Deskriptoren definiert wird. Hier steigt der Bereich der möglichen logP-Werte mit dem molekularen Volumen, selbst innerhalb von Bibliotheken, denen explizit hydrophile Seitenketten fehlen (z.B. VAIL, Pro). Kodierte Aminosäuren mit Kohlenwasserstoff-Seitenketten waren hydrophober als die meisten anderen Aminosäuren eines vergleichbaren Volumens aus ihrer jeweiligen Bibliothek. Dies scheint auch bei Met und Cys im Vergleich zu anderen Mitgliedern der VAIL_S Bibliothek mit ähnlichen Bänden der Fall zu sein. Kodierte Aminosäuren mit Hydroxylseitenketten (Ser und Thr) gehörten zu den kleinsten Mitgliedern der DEST-Bibliothek, wobei Asp nur geringfügig größer als Thr war. Abbildung 3 und Abbildung 4 zeigen die Auswirkungen auf Volumen und logP, wenn ein zweiwertiger Schwefel einen Kohlenstoff in einer Alpha-Aminosäure-Seitenkette ersetzt. Die Schwefelsubstitution führte in allen Bibliotheken zu einem leichten Anstieg des molekularen Volumens (Abbildung 3). Der Effekt der Schwefelsubstitution auf logP ist nicht so homogen wie beim Volumen (Abbildung 4). Der mittlere logP der VAIL_S Bibliothek ist etwas niedriger als der der SAIL-Bibliothek, aber dieser Effekt ist bei keinem der anderen Bibliothekspaare (DEST und DEST_S, Pro und Pro_S) zu beobachten. Abbildung 5 quantifiziert die Auswirkungen eines Pseudoatoms, das für eine gemeinsame Unterstruktur steht, auf die Strukturerzeugung; hier ersetzt ein dreiwertiges P eine Alanineinheit während der Strukturgenerierung. Die Verwendung eines Pseudoatoms bei der Strukturgenerierung verringerte die Anzahl der um ~ 3 Größenordnungen erzeugten Strukturen (Abbildung 5A) und die Gesamtzeit, die benötigt wurde, um diese Strukturen um 1-2 Größenordnungen zu erzeugen (Abbildung 5B). Abbildung 2: Chemischer Raum aller filtrierten Aminosäurebibliotheken. Schwarze Marker stellen Aminosäuren aus Bibliotheken ohne Schwefel dar; Gelbe Marker stellen Aminosäuren aus schwefelangereicherten Bibliotheken dar. Kreise: VAIL und VAIL_S; Plätze: DEST und DEST_S; Dreiecke: Pro und Pro_S; Sterne: kodierte Aminosäuren. Beachten Sie, dass die beiden schwefelhaltigen codierten Aminosäuren (Met und Cys) nicht als “frühe” Aminosäuren betrachtet werden, sondern in der VAIL_S Bibliothek vorhanden sind. Abkürzungen: XLogP = Verteilungskoeffizient; VAIL = Valin, Alanin, Isoleucin, Leucin; DEST = Asparaginsäure, Glutaminsäure, Serin, Threonin; X_S = Divalenter Schwefel ersetzt einen der Kohlenstoffe in Bibliothek X. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen. Abbildung 3: Mittlere Van-der-Waals-Bände (in Å3) von Bibliotheken mit und ohne Schwefel. Schwarze Balken stellen die mittleren Volumina von Bibliotheken ohne Schwefel dar (VAIL, DEST, Pro), während gelbe Balken die mittleren Volumina der schwefelsubstituierten Versionen dieser Bibliotheken darstellen (VAIL_S, DEST_S, Pro_S). Fehlerindikatoren zeigen Standardabweichung an. Abkürzungen: VAIL = Valin, Alanin, Isoleucin, Leucin; DEST = Asparaginsäure, Glutaminsäure, Serin, Threonin; X_S = Zweiwertiger Schwefel ersetzt einen der Kohlenstoffe in Bibliothek X. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen. Abbildung 4: Mittlere XLogP-Werte von Bibliotheken mit und ohne Schwefel. Schwarze Balken repräsentieren Bibliotheken ohne Schwefel (VAIL, DEST, Pro), während gelbe Balken schwefelsubstituierte Versionen dieser Bibliotheken darstellen (VAIL_S, DEST_S, Pro_S). Fehlerindikatoren zeigen Standardabweichung an. Abkürzungen: XLogP = Verteilungskoeffizient; VAIL = Valin, Alanin, Isoleucin, Leucin; DEST = Asparaginsäure, Glutaminsäure, Serin, Threonin; X_S = Divalenter Schwefel ersetzt einen der Kohlenstoffe in Bibliothek X. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen. Abbildung 5: Auswirkungen eines dreiwertigen Pseudoatoms auf die MAYGEN-Strukturerzeugung. Alle Tests wurden auf einem PC mit einem Intel i7-7700HQ-Prozessor mit 2,8 GHz, 16 GB RAM, ohne Speichern von Strukturen in einer Datei und der Option -m zur Verwendung von Multithreading durchgeführt. Tests mit einem Pseudoatom verwendeten die Fuzzy-Formeln, wie in Tabelle 1 beschrieben. Bei Versuchen ohne Pseudoatom wurden die Fuzzy-Formeln wie in Tabelle 1 beschrieben verwendet, mit folgenden Änderungen: P wurde durch N ersetzt; Die Kohlenstoffzahl wurde um 3 erhöht; Die Wasserstoffzahl wurde um 7 erhöht; Die Sauerstoffzahl wurde um 2 erhöht. Schwarze Balken zeigen Bibliotheken, die mit einem Pseudoatom erzeugt wurden; Graue Balken zeigen Bibliotheken, die ohne Pseudoatom erzeugt wurden. (A) Anzahl der Strukturen, die unter Verwendung der Fuzzy-Formeln erzeugt wurden, die zum Aufbau der VAIL- und DEST-Bibliotheken mit und ohne dreiwertigen Phosphor anstelle einer Alanin-Unterstruktur verwendet werden. (B) Zeitaufwand (in ms) für den Aufbau der VAIL- und DEST-Bibliotheken mit und ohne dreiwertigen Phosphor, der eine Alanin-Unterstruktur ersetzt. Abkürzungen: VAIL = Valin, Alanin, Isoleucin, Leucin; DEST = Asparaginsäure, Glutaminsäure, Serin, Threonin. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen. Ergänzende Datei 1: Unterstruktur-Screening-Notizbuch. Bitte klicken Sie hier, um diese Datei herunterzuladen. Ergänzende Datei 2: Beispiel-Badlist. Bitte klicken Sie hier, um diese Datei herunterzuladen. Ergänzende Datei 3: Beispiel-Goodlist. Bitte klicken Sie hier, um diese Datei herunterzuladen. Ergänzende Datei 4: Pseudoatom-Ersatznotebook. Bitte klicken Sie hier, um diese Datei herunterzuladen. Ergänzende Datei 5: Aminosäure-Capping-Notizbuch. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Discussion

Ein Merkmal der “frühen” Aminosäuren ist ein Mangel an Schwefel. Die zuvor erwähnten Metaanalysen betrachten die schwefelhaltigen kodierten Aminosäuren (Cys und Met) im Allgemeinen als relativ späte Ergänzungen des genetischen Codes, Schlussfolgerungen, die durch den Mangel an schwefelhaltigen Aminosäuren in Meteoriten und Funkenröhrenexperimenten unterstützt werden. Schwefelorganische Verbindungen werden jedoch leicht in Kometen und Meteoriten 22 nachgewiesen, und eine erneute Analyse von Funkenröhrenexperimenten mitH2S-Gas ergab Aminosäuren und andere organische Verbindungen, die Schwefel16 enthalten. Wenn man ein alternatives Aminosäurealphabet in Betracht zieht, ist es eine Erkundung wert, wenn man ein mit Schwefel angereichertes Alphabet in Betracht zieht.

Im obigen Protokoll werden Strukturgenerierung und Unterstrukturfilterung als kritische Schritte betrachtet; Abhängig von der Zusammensetzung der fertigen Strukturbibliothek muss ein Forscher möglicherweise nur diese beiden Schritte ausführen. Anweisungen und Software für zusätzliche Aktionen (Pseudoatomersatz und Addition von Substrukturen (in diesem Fall Aminosäure-Capping)) sind enthalten für eine relevantere Deskriptorberechnung (Capping stellt sicher, dass XLogP-Berechnungen von der Seitenkette und nicht von den Backbone-Amin- oder Carboxylgruppen beeinflusst werden) und schnellere Strukturgenerierung durch die Verwendung eines Pseudoatoms, was im Folgenden näher erläutert wird. Darüber hinaus wird hier eine Deskriptorberechnung durchgeführt, um die Vielfalt der erzeugten Strukturen zu visualisieren und die Auswirkungen der Schwefelanreicherung in den fertigen Bibliotheken zu vergleichen.

Während PaDEL-Deskriptor Tausende von molekularen Eigenschaften berechnen kann, wurden hier das molekulare Volumen (wie berechnetes Van-der-Waals-Volumen) und der Verteilungskoeffizient (als XLogP) aus zwei verschiedenen Gründen verwendet. Erstens messen diese beiden Deskriptoren molekulare Eigenschaften (Größe bzw. Hydrophobie), die den meisten Chemikern und Biologen vertraut sind. Zweitens sind diese beiden Eigenschaften im Falle von Aminosäuren signifikant. Jahrzehntelang war bekannt, dass Aminosäuregröße und Hydrophobie die Thermodynamik der Proteinfaltungbeeinflussen 23. Diese beiden Eigenschaften helfen, die Aminosäuresubstitutionsfrequenzen zu erklären, die für das Verständnis der Proteinevolution von wesentlicher Bedeutung waren24.

Das obige Beispiel zeigt, dass in den beiden untersuchten Deskriptoren (molekulares Volumen und Hydrophobie) der Ersatz eines Kohlenstoffs und zweier Wasserstoffe durch einen zweiwertigen Schwefel keine signifikanten Veränderungen ergibt. Der leichte, nicht signifikante Anstieg des mittleren molekularen Volumens durch Schwefelsubstitution (Abbildung 3) könnte auf den größeren kovalenten Radius von Schwefel (~ 103 pm) im Vergleich zu sp 3 (~75 pm) oder sp2 (~ 73 pm) Kohlenstoff25 zurückgeführt werden. Ebenso hat die Schwefelsubstitution nur minimale Auswirkungen auf den mittleren XLogP (Abbildung 4). Der größte Effekt war zwischen den AIL- und VAIL_S-Bibliotheken, wahrscheinlich aufgrund einer Kombination aus der AIL-Bibliothek, die besonders hydrophob ist (die Seitenketten sind nur Kohlenwasserstoffe) und Sulfhydrylgruppen, die viel saurer sind als die Methylgruppen, die sie ersetzen würden. Der minimale Effekt der Schwefelsubstitution zeigt sich in Abbildung 2, wo Bibliotheken mit Schwefelsubstitution den gleichen chemischen Raum einnehmen wie analoge Bibliotheken ohne Schwefelsubstitution.

Die Abnahme der Anzahl der Strukturen (Abbildung 5A) und der Zeit, die benötigt wird, um diese Strukturen zu erzeugen (Abbildung 5B), wenn ein Pseudoatom verwendet wird, ist nicht überraschend. Die Verwendung eines Pseudoatoms reduziert die Anzahl der schweren Atome, die in einen chemischen Graphen eingebaut werden müssen, reduziert die Anzahl der Graphknoten und führt zu einer exponentiellen Abnahme der Erzeugungszeit und der Anzahl der Strukturen. Hier ergibt sich die Wahl des dreiwertigen Phosphors als Pseudoatom aus der grundlegenden Biochemie (ohne posttranslationale Addition von Phosphatgruppen, keine genetisch kodierten Aminosäuren enthalten Phosphor) und der Wertigkeit des Atoms, das ihn ersetzen würde (ein dreiwertiger Phosphor kann leicht durch einen vierwertigen Kohlenstoff ersetzt werden, der einzeln an ein anderes Atom oder eine Gruppe von Atomen gebunden ist). Während der bereitgestellte Code für die Pseudoatomsubstitution spezifisch für das Ersetzen eines dreiwertigen Phosphors durch eine Alanin-Unterstruktur ist, können Benutzer den Code anpassen, um mit verschiedenen Pseudoatomen oder Ersatzsubstrukturen zu arbeiten, wobei möglicherweise mehrere Pseudoatome während der anfänglichen Strukturgenerierung verwendet werden, gefolgt von jedem Pseudoatom durch eine größere molekulare Unterstruktur.

Strukturgenerierungsmethoden, die denen von MAYGEN (und anderen Methoden wie neuronalen Netzen) ähneln, werden bereits in der Arzneimittelforschung verwendet, um Verbindungsbibliotheken für das In-silico-Screening zu generieren; In einem kürzlich erschienenen Review 4 werden diese Methoden ausführlicher erläutert. Da diese Methoden in erster Linie für die Erzeugung von arzneimittelähnlichen Molekülen gedacht sind, gibt es einige Einschränkungen ihrer Fähigkeit, Moleküle zu erzeugen, wie z.B. die Verwendung biologischer oder pharmazeutischer Eigenschaften, um die erzeugten Strukturen zu begrenzen (inverse QSPR / QSAR) oder die Schaffung von Strukturen aus einer voreingestellten Anzahl von Unterstrukturbausteinen. Da sich die Astrobiologie mehr auf die Vielzahl organischer Verbindungen konzentriert, die sich abiotisch bilden können, und weniger auf Endprodukte oder deren Eigenschaften, ist die umfassende Strukturgenerierung von MAYGEN ideal für die Erstellung von Strukturbibliotheken zur Beantwortung astrobiologischer Fragen. Der hier beschriebene Ansatz zur Substrukturfilterung (durchgeführt nach Strukturgenerierung über ein externes Programm) unterscheidet sich vom Konkurrenzprogramm MOLGEN dadurch, dass die Substrukturfilterung von MOLGEN während der Strukturgenerierung erfolgt. Da MAYGEN Open-Source ist, ist es aufgrund der Lizenzkosten von MOLGEN nicht nur zugänglicher als MOLGEN, sondern Einzelpersonen könnten auch neue Funktionen wie die Unterstrukturfilterung während der Strukturgenerierung implementieren.

Wie geschrieben, konzentriert sich das hier beschriebene Protokoll auf die Generierung und Kuratierung von Bibliotheken mit relativ kleinen Alpha-Aminosäuren. Um verschiedene Bibliotheken zu generieren, können Benutzer MAYGEN verschiedene Summenformeln geben, die Unterstrukturfilterung ändern, indem sie die maximal zulässige Ringgröße und Bindungsvalenz ändern, oder die Goodlist- und Badlist-Dateien bearbeiten, um Unterstrukturmuster hinzuzufügen oder zu entfernen. Protokolländerungen, bei denen geändert wird, wie Atome und Substrukturen hinzugefügt oder ersetzt werden (Pseudoatomsubstitution und molekulare Kappung), sind machbar, erfordern jedoch mehr Aufmerksamkeit für Valenzbeschränkungen, um RDKit-Fehler über falsche Valenzen in modifizierten Strukturen zu vermeiden.

Das oben beschriebene Protokoll ist für kleine Alpha-Aminosäuren konzipiert. Das allgemeine Format (umfassende Strukturgenerierung unter Verwendung von Pseudoatomen, gefolgt von Substrukturfilterung und molekularen Modifikationen) ist jedoch für Verbindungen jenseits kleiner Aminosäuren hochflexibel. Sogar in der Astrobiologie wurde ein ähnliches neueres Verfahren mit MOLGEN verwendet, um konstitutionelle Isomere von Nukleinsäurenzu untersuchen 26. Zusätzlich zu den oben beschriebenen Werkzeugen kann MAYGEN mit anderen Open-Source-Cheminformatik-Tools kombiniert werden, um die Erstellung und Analyse neuartiger chemischer Strukturen für eine breite Palette von Forschungsbereichen erschwinglich und zugänglich zu machen.

Disclosures

The authors have nothing to disclose.

Acknowledgements

MAY würdigt die Förderung durch die Carl-Zeiss-Stiftung. Alle Zahlen wurden mit Microsoft Excel generiert.

Materials

conda v. 4.10.3 https://www.anaconda.com/products/individual
Java 17 https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8 https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21 http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11 included in Anaconda environment
RDKit v. 2020.09.1.0 https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

References

  1. Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -. L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
  2. Buchanan, B. G., Feigenbaum, E. A., Webber, B. L., Nilsson, N. J. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. , 313-322 (1981).
  3. Gugisch, R., Basak, S. C., Restrepo, G., Villaveces, J. L., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. , 113-138 (2015).
  4. Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
  5. Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
  6. Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
  7. Sims, C. C., Leech, J. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. , 169-183 (1970).
  8. Mat, W. -. K., Xue, H., Wong, J. T. -. F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
  9. Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
  10. Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
  11. Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
  12. Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
  13. Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
  14. Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
  15. Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
  16. Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
  17. Bada, J. L. New insights into prebiotic chemistry from Stanley Miller’s spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
  18. Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
  19. SMARTS – A language for describing molecular patterns. Daylight Chemical Information Systems, Inc Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019)
  20. Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
  21. Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
  22. Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
  23. Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
  24. Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
  25. Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Play Video

Cite This Article
Mayer-Bacon, C., Yirik, M. A. Curation of Computational Chemical Libraries Demonstrated with Alpha-Amino Acids. J. Vis. Exp. (182), e63632, doi:10.3791/63632 (2022).

View Video