Summary

Alfa-Amino Asitlerle Gösterilen Hesaplamalı Kimyasal Kütüphanelerin Kürasyonu

Published: April 13, 2022
doi:

Summary

Bu protokolün amacı, açık kaynaklı yazılım kullanarak küçük moleküllü yapı kütüphanelerini verimli bir şekilde oluşturmak ve küratörlüğünü yapmaktır.

Abstract

Moleküler yapıların kapsamlı bir şekilde üretilmesi, ilaç tasarımı, moleküler veritabanı yapımı, alternatif biyokimyaların araştırılması ve daha fazlası gibi çok sayıda kimyasal ve biyokimyasal uygulamaya sahiptir. Matematiksel olarak konuşursak, bunlar kimyasal kısıtlamaları olan grafik üreteçleridir. Sahada, şu anda en verimli jeneratör (MOLGEN), kullanımını sınırlayan ticari bir üründür. Buna alternatif olarak, başka bir moleküler yapı üreticisi olan MAYGEN, MOLGEN ile karşılaştırılabilir verimliliğe ve kullanıcıların yeni özellikler ekleyerek performansını artırma kapasitesine sahip yeni bir açık kaynaklı araçtır. Bu gelişmeden yararlanabilecek araştırma alanlarından biri de astrobiyoloji; Yapı üreteçleri, araştırmacıların deneysel verileri alternatif biyokimya için hesaplama olanaklarıyla desteklemelerini sağlar. Bu protokol, astrobiyolojide yapı üretimi için bir kullanım durumunu, yani alfa-amino asit kütüphanelerinin oluşturulması ve küratörlüğünü detaylandırır. Açık kaynaklı yapı jeneratörleri ve kimyasal bilişim araçları kullanılarak, burada açıklanan uygulamalar, herhangi bir araştırma sorusu için kimyasal yapı kütüphanelerinin düşük maliyetli oluşturulması ve küratörlüğü için astrobiyolojinin ötesinde uygulanabilir.

Introduction

Moleküler yapı üretimi, kapsamlı grafik üretiminin genel probleminin pratik bir uygulaması olarak hizmet eder; Birkaç düğüm (atom) ve bağlantılarındaki kısıtlamalar (örneğin, değerler, bağ çoklukları, istenen / istenmeyen alt yapılar) göz önüne alındığında, kaç tane bağlı grafik (molekül) mümkündür? Yapı jeneratörleri, ilaç keşfi ve farmasötik geliştirmede, in siliko tarama için geniş yeni yapı kütüphaneleri oluşturabilecekleri kapsamlı bir uygulama görmüştür1.

İlk yapı üreteci CONGEN, organik kimyadaki ilk yapay zeka projesi DENDRAL2 (DENDRitic ALgorithm’in kısaltması) için geliştirilmiştir. Literatürde DENDRAL’ın çeşitli yazılım halefleri bildirilmiştir; ancak, hepsi bakımlı veya verimli değildi. Şu anda, MOLGEN3 son teknoloji moleküler yapı üretecidir. Ne yazık ki, çoğu potansiyel kullanıcı için kapalı kaynaklıdır ve bir lisans ücreti gerektirir. Bu nedenle, belirli uygulamalara kolayca uyum sağlayabilen verimli bir açık kaynaklı yapı üretecine ihtiyaç duyulmuştur. Verimli bir yapı üreteci için bir zorluk, kombinatoryal patlamayı yönetmektir; moleküler formülün boyutu arttıkça, kimyasal arama alanının boyutu katlanarak artar. Yakın tarihli bir gözden geçirme, moleküler yapı nesli4’ün tarihini ve zorluklarını daha da araştırıyor.

2021’den önce, Paralel Molekül Üreteci (PMG)5 en hızlı açık kaynaklı yapı üreteci idi, ancak yine de büyüklük sırasına göre MOLGEN’den daha yavaştı. MAYGEN 6, PMG’den yaklaşık 47 kat daha hızlı ve MOLGEN’den yaklaşık 3 kat daha yavaştır, bu daMAYGEN’i mevcut en hızlı ve en verimli açık kaynaklı yapı üreticisi haline getirir. Daha ayrıntılı karşılaştırmalar ve kıyaslama testleri, MAYGEN6’yı tanıtan makalede bulunabilir. Programın önemli bir özelliği, Schreier-Sims7 algoritmasına dayanan düzenli bir grafik oluşturma yöntemi olan kanonik yapılar için sözlüksel sıralama tabanlı testidir. Yazılım diğer projelere kolayca entegre edilebilir ve kullanıcıların ihtiyaçları için geliştirilebilir.

MOLGEN ve PMG gibi, MAYGEN de kullanıcı tanımlı bir moleküler formül alır ve bu formül için mümkün olan tüm yapıları üretir. Örneğin, bir kullanıcı MAYGEN’i C5H12 formülüyle çalıştırırsa, MAYGEN beş karbon atomu ve on iki hidrojen atomu içeren tüm olası yapıları üretecektir. Açık kaynaklı muadili PMG’nin aksine, MAYGEN, her elementin sayısı için ayrı sayılar yerine aralıklar kullanan “bulanık” moleküler formülleri de barındırabilir. Örneğin, bir kullanıcı MAYGEN’i C5-7H12-15 formülüyle çalıştırırsa, MAYGEN beş ila yedi karbon atomu ve on iki ila on beş hidrojen atomu içeren tüm olası yapıları üretecek ve çok çeşitli atomik bileşimlere sahip basit yapıların üretilmesine izin verecektir.

Astrobiyoloji, moleküler yapı jeneratörlerinden yararlanabilecek böyle bir alandır. Astrobiyolojide popüler bir konu, Dünya’daki tüm mevcut yaşam tarafından paylaşılan amino asit alfabesinin evrimidir. Son Evrensel Ortak Ata’nın (LUCA) tanımlayıcı özelliklerinden biri, protein yapımı için genetik olarak kodlanmış yirmi amino asit kullanılmasıdır 8,9. 10,11,12 gibi birden fazla alanda yapılan çalışmaların meta-analizlerine dayanarak, bu amino asitlerin yaklaşık 10’u (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) abiyotik koşullar altında kolayca oluşur ve muhtemelen Luca öncesi organizmaların amino asit alfabesini oluşturur. Zamanla, bu “erken” alfabe, farklı yapısal ve işlevsel ihtiyaçlara cevap olarak genişletildi. Örneğin, Moosmann13’ün yakın tarihli bir incelemesi, genetik olarak kodlanmış amino asitlerin (yani Met, Tyr ve Trp) daha yeni üyelerinin eklenmesinin, reaktif oksijen türlerinin hücre içi çoğalmasını önleyerek oksijen bakımından zengin ortamlarda hayatta kalmaya izin verdiğini iddia ediyor.

Sürekli büyüyen bir analitik kimya teknikleri paketi, abiyotik koşullar altında oluşabilecek amino asit yapılarına dair fikir verir. Simkus ve diğerleri tarafından yapılan yakın tarihli bir inceleme14, meteorlardaki çok sayıda organik bileşiğin yanı sıra erken Dünya ortamlarının in vitro simülasyonlarından elde edilen organik bileşikleri tespit etmek için kullanılan yöntemleri detaylandırıyor15,16,17. Kimyasal yapıların sistematik olarak üretilmesi, araştırmacıların enstrümantasyon yoluyla tespit edilen organik bileşiklerin ötesini keşfetmelerine ve analitik kimya tarafından tanımlanan yapısal “adalar” etrafındaki yapısal alanı doldurmalarına olanak tanır. “Erken” amino asitler söz konusu olduğunda, bu sistematik yapı üretimi, araştırmayı abiyotik sentez koşulları altında deneysel olarak tespit edilen yapılarla sınırlamadan, erken yaşam için mevcut olan olası protein kimyalarını gösterir. Açık kaynaklı kimyasal bilişim araç setleri ve MAYGEN gibi verimli yapı üreteçleri ile yeni kimyasal yapı kütüphaneleri oluşturmak ve keşfetmek artık her zamankinden daha kolay ve yaşamın alternatif kimyalarına yönelik daha ayrıntılı araştırmalara rehberlik edebilir.

Protocol

NOT: Protokolün özeti için Şekil 1’e ve kullanılan yazılımla ilgili ayrıntılar için Malzeme Tablosu’na bakın. Şekil 1: Protokolün özet akış şeması. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın. 1. Yazılım ve dosya indirmeleri NOT: Tüm programlar bireysel kullanım için ücretsizdir ve kişisel bilgisayarda çalıştırılabilir. Bu proje için yeni bir dizin oluşturun. Kolay erişim için dosyaları ve yürütülebilir dosyaları buraya yerleştirin. Gerekli yazılım paketlerini indirin ve yükleyin. MAYGEN dosyasının en son sürümünü .jar dosyası olarak indirin.NOT: MAYGEN, .jar’dan https://github.com/MehmetAzizYirik/MAYGEN/releases dosyası olarak ücretsiz olarak temin edilebilir. Paket yönetim yazılımı Conda’yı ve cheminformatics toolkit RDKit18’i indirin ve yükleyin.NOT: RDKit, MAYGEN tarafından üretilen moleküler yapıları filtreleyecek ve Conda ortamında en iyi şekilde çalışacaktır. Conda platformunu indirmek için talimatlar https://conda.io/projects/conda/en/latest/user-guide/install/index.html adresinde bulunabilir. RDKit yükleme ve ortam kurulum yönergeleri https://www.rdkit.org/docs/Install.html bulunabilir. RDKit’i Anaconda istemi aracılığıyla ayrı bir RDKit ortamı yerine ana Conda ortamına yükleyin. Windows sistemlerinde, “Anaconda istemi” ni arayın ve çalıştırmak için ortaya çıkan kısayola tıklayın. MacOS ve Linux sistemlerinde, herhangi bir ek program çalıştırmadan terminal üzerinden Conda ile etkileşime geçin. Ardından, aşağıdaki komutu yazın ve çalıştırmak için Enter tuşuna basın ve yükleme sırasında ortaya çıkan sorulara evet yanıtını verin:conda install -c rdkit rdkit.Serbestçe kullanılabilen birçok tanımlayıcı hesaplama programı olsa da, bu örnek moleküler tanımlayıcılar ve parmak izleri için ücretsiz ve hızlı bir hesap makinesi olan PaDEL-Descriptor19’u kullanır. .jar dosyasını indirin ve proje klasörüne kaydedin.NOT: PaDEL-Descriptor http://www.yapcwsoft.com/dd/padeldescriptor/ ücretsiz olarak indirilebilir. Jupyter not defterlerini ve alt yapı desenlerinin metin dosyalarını Ek Dosyalar 1-5’ten indirin.NOT: Jupyter not defterleri aşağıdaki GitHub sayfasından da indirilebilir: https://github.com/cmayerb1/AA-structure-manip. 2. MAYGEN kullanarak yapı oluşturma Komut isteminde, MAYGEN .jar yürütülebilir dosyasını içeren dizine gidin. İlgilenilen her kimyasal formül için, aşağıdaki komutu kullanarak MAYGEN’i çalıştırın:java -jar [MAYGEN .jar dosya adı] -f [kimyasal formül] -v -o [MAYGEN çıktısı için klasör] -m -sdf.NOT: Bu, kullanılan formülün adını taşıyan belirtilen klasöre bir .sdf dosyası kaydeder. Formül ayrık bir formül yerine bulanık bir formülse, -f bayrağını -bulanık bir bayrakla değiştirin ve herhangi bir eleman aralığını parantez içine alın (örneğin; üretilen tüm yapıların 5 ila 7 karbon atomu ve 12 ila 15 hidrojen atomu arasında olmasını sağlamak için C [5-7] H [12-15] kullanın). 3. İstenmeyen alt yapılara sahip bileşikleri filtreleyin Bir Anaconda istemi açın (bkz. adım 1.2.2.1) ve Ek Dosya 1’den indirilen Jupyter not defterlerini içeren klasöre gidin. Aşağıdaki komutu kullanarak alt yapı filtrelemesi için Jupyter not defterini açın:jupyter notebook [not defteri dosya adı] Not defterinin başlangıcındaki belirtilen hücreye, giriş .sdf dosyasının tam dosya yolunu (MAYGEN tarafından oluşturulan), istenen .sdf çıktı dosyasının tam dosya yolunu ve “badlist” dosyasının dosya yolunu dize olarak (tırnak içinde) girin. Kötü liste örneği için Ek Dosya 2’ye bakın. Filtre uygulanmış kitaplıktaki bazı alt yapılar (iyi liste) korunacaksa, bu alt yapılar için SMARTS desenleri20’den oluşan bir .txt dosyası oluşturun (iyi liste) ve iyi liste dosya yolunu not defterinin başında belirtilen satıra yerleştirin. İyi liste örneği için Ek Dosya 3’e bakın. Not defteri çekirdeğini yeniden başlatın ve belirtilen çıktı klasöründe istenen ada sahip bir .sdf dosyası almak için tüm hücreleri çalıştırın (üstteki menüden Çekirdek, Yeniden Başlat ve Tümünü Çalıştır’ı seçin). 2. adımda MAYGEN tarafından oluşturulan her yapı dosyası için önceki iki adımı yineleyin. 4. (İsteğe bağlı) Ek yapı değişiklikleri NOT: Bunlar bu örnekte gerçekleştirilmiştir, ancak diğer kütüphanelerin küratörlüğünü yapmak için gerekli olmayabilir. Psödoatom replasmanı.NOT: Burada, bir psödoatom, üretilen tüm yapılar tarafından paylaşılan daha büyük bir altyapıyı temsil etmek için kullanılan benzersiz bir atomdur, böylece MAYGEN’in üretim süresini azaltır. Psödoatom değiştirme örneği için Ek Dosya 4’e bakın. Bir Anaconda istemi açın (bkz. adım 1.2.2.1) ve Jupyter not defterlerini içeren klasöre gidin. Pseudoatom değişimi için Jupyter not defterini açın:jupyter notebook [not defteri dosya adı] Not defterinin başlangıcındaki belirtilen hücreye, giriş .sdf dosyasının tam dosya yolunu ve istenen .sdf çıktı dosyasının tam dosya yolunu dize olarak (tırnak içinde) girin. Not defteri çekirdeğini yeniden başlatın ve belirtilen çıktı klasöründe istenen ada sahip bir .sdf dosyası almak için tüm hücreleri çalıştırın. Amino asit N- ve C-termini kapağıNOT: Bu prosedür, alfa-amino asit omurgalarının N- ve C-terminine moleküler kapaklar ekleyerek, alfa-amino asitlere özgüdür. Amino asit kapaklama örneği için Ek Dosya 5’e bakın. Bir Anaconda istemi açın (bkz. adım 1.2.2.1) ve Jupyter not defterlerini içeren klasöre gidin. Amino asit kapağı için Jupyter dizüstü bilgisayarını açın:jupyter notebook [not defteri dosya adı] Not defterinin başlangıcındaki belirtilen hücreye, giriş .sdf dosyasının tam dosya yolunu ve istenen .sdf çıktı dosyasının tam dosya yolunu dize olarak (tırnak içinde) girin. Not defteri çekirdeğini yeniden başlatın ve belirtilen çıktı klasöründe istenen ada sahip bir .sdf dosyası almak için tüm hücreleri çalıştırın. 5. Tanımlayıcı oluşturma Tanımlayıcı oluşturmadan önce, tanımlayıcıların hesaplanacağı tüm .sdf dosyaları tek bir klasöre yerleştirin.NOT: Henüz yapılmadıysa, tanımlayıcı oluşturulduktan sonra kolay filtreleme için bu dosyalara açıklayıcı adlar verin. Bir komut istemi açın ve PaDEL-Descriptor .jar dosyasını içeren klasöre gidin. Aşağıdaki komutu kullanarak toplanan .sdf dosyaları için PaDEL-Descriptor’ı çalıştırın:java -jar PaDEL-Descriptor.jar -dir [.sdf dosyaları dizini] -file [sonuçlar için .csv bir dosyanın dosya yolu] -2d -retainorder -usefilenameasmolnameNOT: Sonuç dosyası molekül adını ilk sütunda ve her tanımlayıcıyı sonraki sütunlarda bulundurur. Daha fazla analiz için bu verileri herhangi bir elektronik tablo yazılımına aktarın.

Representative Results

Kütüphane Formül Ek kısıtlamalar “Erken” kodlanmış amino asitler Oluşturma süresi (ms) Yapı İlk Son 1 Arjantin C 2 H5NO2 Gly altyapısını içerir Arjantin 192 84 1 2 VAİL Bilgisayar0-3 H 3-9 Val, Ala, Ile, Leu 172 70 22 3 DEST PC0-3O1-2 H 3-5 Asp, Glu, Ser, Thr 481 1928 254 4 Lehinde C 2-5 NO2H7-11 N-meGly veya N-meAla altyapısını dahil et Lehinde 4035 79777 16 5 VAIL_S PSC0-2H3-7 122 65 31 6 DEST_S PSC0-2 O 1-2H3 349 1075 79 7 Pro_S C 2-4 SNO2H7-9 N-meGly veya N-meAla altyapısını dahil et 3999 75734 10 Tablo 1: Bu örnekte kullanılan bileşik kitaplıklar. 1-4 formüllerinden (Gly, VAIL, DEST ve Pro) oluşturulan kütüphaneler, “erken” kodlanmış amino asitler21’in daha önce yayınlanmış bulanık formüllerine dayanırken, 5-7 formüllerinden (VAIL_S, DEST_S ve Pro_S) oluşturulan kütüphaneler, karbon atomlarından birinin yerini alan iki değerli bir kükürt hayal eden formül 2-4’ün varyantlarına dayanmaktadır. Yapı sayımları, her formül (“İlk”) için MAYGEN tarafından üretilen molekül sayısını ve istenmeyen alt yapılara sahip olanları filtreledikten sonra kalan molekül sayısını (“Son”) yansıtır. Kısaltmalar: VAIL = valin, alanin, izolösin, lösin; DEST = aspartik asit, glutamik asit, serin, treonin; X_S = Divalent kükürt, X kütüphanesindeki karbonlardan birinin yerini alır; N-meX = N-metilX. Yukarıdaki genel yöntemler, Meringer ve ark.21 Badlist yapıları aynı kaynaktan alındı ve alt yapısal kalıpları kolayca temsil etmek için SMARTS dizelerine dönüştürüldü. Bu örnekte iki kötü liste alt yapısı kullanılmamıştır: yapı 018 (CH 3-CH-N), kendileri kararsız olmayan prolinin yakın izomerleriyle eşleşmiştir; yapı 106 (R-C-C-OH, burada R = beta-karbona bağlanan alanin alt yapısı), kodlanmış bir amino asit olan glutamik asitle eşleşti. Bu kimyasal formüllere ek olarak, bir karbon atomunun ve iki hidrojen atomunun yerini alan iki değerli kükürt içeren varyantlar oluşturuldu. Performans nedenleriyle, bu formüllerin birçoğu, bir alanin alt yapısının beta-karbonunun yerine üç değerlikli bir fosfor atomu (örneğin, bir “psödoatom”) kullanır. Tablo 1, bu örnekte oluşturulan kitaplıkları, bunları oluşturmak için kullanılan formülleri ve içerdiği bileşiklerin sayısını listeler. Kütüphane adları, türetildikleri kodlanmış amino asitlere dayanmaktadır: 3 harfli kısaltma (Gly = glisin, Pro = prolin) veya tek harfli kısaltma (VAIL = Valin, Alanin, İzoleucine, Lösin; DEST = Aspartik asit, Glutamik asit, Serin, Treonin). “_S” soneki, orijinal kütüphanenin formülündeki bir karbonun yerine bir kükürtün ikame edildiğini gösterir (örneğin, VAIL_S, Voil ile aynı bulanık formülle inşa edilmiştir, ancak karbonlardan birinin yerini alan iki değerli bir kükürt ile). MAYGEN ile yapı oluşturulduktan sonra, ortaya çıkan kütüphaneler, kötü listede bulunan en az bir alt yapı içeren bileşiklerden filtrelendi. Bu filtrelemeyi takiben, herhangi bir fosfor atomu bir alanin alt yapısı ile değiştirildi. Daha sonra, tüm yapıların “kapaklı” versiyonları oluşturuldu, N-terminusuna bir asetil grubu eklendi ve C-terminusuna bir N-metil amid grubu eklendi. Bu, alfa-amino asit omurgasındaki serbest amin ve karboksilik asit gruplarının hidrofobikliği üzerindeki etkiyi ortadan kaldırmak için yapıldı. PaDEL-Descriptor, tüm kapaklı yapılar için XLogP’yi hesaplamak için ve tüm kapaksız yapılar için van der Waals hacmini (VABC) hesaplamak için kullanıldı. Şekil 2 , VABC ve XLogP tanımlayıcıları tarafından tanımlandığı gibi, filtrelenmiş kitaplıkların kimyasal uzayını göstermektedir. Burada, olası logP değerlerinin aralığı, açıkça hidrofilik yan zincirlere (örneğin, VAIL, Pro) sahip olmayan kütüphanelerde bile, moleküler hacimle birlikte artar. Hidrokarbon yan zincirli kodlanmış amino asitler, kendi kütüphanelerinden karşılaştırılabilir bir hacme sahip diğer amino asitlerin çoğundan daha hidrofobikti. Bu aynı zamanda Met ve Cys için de benzer ciltlere sahip VAIL_S kütüphanesinin diğer üyelerine kıyasla geçerli görünüyor. Hidroksil yan zincirleri (Ser ve Thr) ile kodlanmış amino asitler, DEST kütüphanesinin en küçük üyeleri arasındaydı ve Asp, Thr’den sadece biraz daha büyüktü. Şekil 3 ve Şekil 4, iki değerli bir kükürt alfa-amino asit yan zincirindeki bir karbonun yerini aldığında hacim ve logP üzerindeki etkileri göstermektedir. Kükürt ikamesi, tüm kütüphanelerde moleküler hacimde hafif bir artışa neden olmuştur (Şekil 3). Kükürt ikamesinin logP üzerindeki etkisi, hacim kadar homojen değildir (Şekil 4). VAIL_S kütüphanesinin ortalama logP’si VAIL kütüphanesininkinden biraz daha düşüktür, ancak bu etki diğer kütüphane çiftlerinin hiçbirinde (DEST ve DEST_S, Pro ve Pro_S) görülmez. Şekil 5 , ortak bir alt yapı için duran bir psödoatomun yapı üretimi üzerindeki etkilerini ölçmektedir; burada, üç değerlikli bir P, yapı üretimi sırasında bir alanin köstebeği ile değiştirildi. Yapı üretiminde bir psödoatom kullanmak, ~ 3 büyüklük sırası (Şekil 5A) tarafından üretilen yapıların sayısını ve bu yapıları üretmek için gereken toplam süreyi 1-2 büyüklük sırasına göre büyük ölçüde azaltmıştır (Şekil 5B). Şekil 2: Tüm filtrelenmiş amino asit kütüphanelerinin kimyasal uzayı. Siyah belirteçler, kükürtsüz kütüphanelerden amino asitleri temsil eder; sarı belirteçler, kükürtle zenginleştirilmiş kütüphanelerden gelen amino asitleri temsil eder. Çevreler: VAIL ve VAIL_S; kareler: DEST ve DEST_S; üçgenler: Pro ve Pro_S; yıldızlar: kodlanmış amino asitler. İki kükürt içeren kodlanmış amino asidin (Met ve Cys) “erken” amino asitler olarak kabul edilmediğini, ancak VAIL_S kütüphanesinde bulunduğunu unutmayın. Kısaltmalar: XLogP = bölüm katsayısı; VAIL = valin, alanin, izolösin, lösin; DEST = aspartik asit, glutamik asit, serin, treonin; X_S = Divalent sülfür, X kütüphanesindeki karbonlardan birinin yerini alır . Resim 3: Kükürtlü ve kükürtsüz kütüphanelerin ortalama van der Waals ciltleri (Å3’te). Siyah çubuklar kükürtsüz kütüphanelerin ortalama hacimlerini (VAIL, DEST, Pro) temsil ederken, sarı çubuklar bu kütüphanelerin kükürt yerine geçen versiyonlarının ortalama hacimlerini temsil eder (VAIL_S, DEST_S, Pro_S). Hata çubukları standart sapmayı gösterir. Kısaltmalar: VAIL = valin, alanin, izolösin, lösin; DEST = aspartik asit, glutamik asit, serin, treonin; X_S = Divalent kükürt, X kütüphanesindeki karbonlardan birinin yerini alır. Şekil 4: Kükürtlü ve kükürtsüz kütüphanelerin ortalama XLogP değerleri. Siyah çubuklar kükürtsüz kütüphaneleri (VAIL, DEST, Pro) temsil ederken, sarı çubuklar bu kütüphanelerin kükürt yerine geçen versiyonlarını temsil eder (VAIL_S, DEST_S, Pro_S). Hata çubukları standart sapmayı gösterir. Kısaltmalar: XLogP = bölüm katsayısı; VAIL = valin, alanin, izolösin, lösin; DEST = aspartik asit, glutamik asit, serin, treonin; X_S = Divalent sülfür, X kütüphanesindeki karbonlardan birinin yerini alır . Şekil 5: Üç değerlikli bir psödoatomun MAYGEN yapı oluşumu üzerindeki etkileri. Tüm testler, 2,8 GHz’de Intel i7-7700HQ işlemciye, 16 GB RAM’e, bir dosyaya kaydetme yapısına ve çoklu iş parçacığı kullanmaya yönelik -m seçeneğine sahip bir bilgisayarda yapılmıştır. Bir psödoatom kullanılarak yapılan testlerde, Tablo 1’de açıklandığı gibi bulanık formüller kullanılmıştır. Psödoatomsuz testler için, kullanılan bulanık formüller aşağıdaki değişikliklerle Tablo 1’de açıklananlarla aynıydı: P, N ile değiştirildi; karbon sayıları 3 arttı; hidrojen sayıları 7 arttı; oksijen sayısı 2 arttı. Siyah çubuklar sahte atomla oluşturulan kütüphaneleri gösterir; gri çubuklar, sahte atom olmadan oluşturulan kitaplıkları gösterir. (A) VAIL ve DEST kütüphanelerini oluşturmak için kullanılan bulanık formüller kullanılarak oluşturulan yapıların sayısı, bir alanin alt yapısının yerine geçen üç değerlikli fosfor ile ve değerliksiz olarak. (B) VAIL ve DEST kütüphanelerini, bir alanin alt yapısının yerine geçen üç değerlikli fosforlu ve değerliksiz olarak inşa etmek için gereken zaman (ms cinsinden). Kısaltmalar: VAIL = valin, alanin, izolösin, lösin; DEST = aspartik asit, glutamik asit, serin, treonin. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın. Ek Dosya 1: Alt yapı filtreleme not defteri. Bu Dosyayı indirmek için lütfen tıklayınız. Ek Dosya 2: Örnek kötü liste. Bu Dosyayı indirmek için lütfen tıklayınız. Ek Dosya 3: Örnek iyi liste. Bu Dosyayı indirmek için lütfen tıklayınız. Ek Dosya 4: Pseudoatom değiştirme not defteri. Bu Dosyayı indirmek için lütfen tıklayınız. Ek Dosya 5: Amino asit kapak defteri. Bu Dosyayı indirmek için lütfen tıklayınız.

Discussion

“Erken” amino asitlerin bir özelliği kükürt eksikliğidir. Daha önce bahsedilen meta-analizler genellikle kükürt içeren kodlanmış amino asitlerin (Cys ve Met) genetik koda nispeten geç eklemeler olduğunu, meteorlarda kükürt içeren amino asitlerin eksikliği ve kıvılcım tüpü deneylerinde desteklenen sonuçlar olduğunu düşünmektedir. Bununla birlikte, organosülfür bileşikleri kuyruklu yıldızlarda ve meteoritlerde kolayca tespit edilir22 veH2S gazı kullanılarak kıvılcım tüpü deneylerinin yeniden analizi, amino asitleri ve kükürt16 içeren diğer organik bileşikleri buldu. Alternatif bir amino asit alfabesi düşünüldüğünde, kükürt bakımından zenginleştirilmiş bir alfabe keşfedilmeye değer.

Yukarıdaki protokolde, yapı oluşturma ve altyapı filtreleme kritik adımlar olarak kabul edilir; Bitmiş yapı kütüphanesinin bileşimine bağlı olarak, bir araştırmacının yalnızca bu iki adımı gerçekleştirmesi gerekebilir. Ek eylemler için talimatlar ve yazılımlar (psödoatom değişimi ve alt yapıların eklenmesi (bu durumda, amino asit kapağı)) daha ilgili tanımlayıcı hesaplama için dahil edilmiştir (kapaklama, XLogP hesaplamalarının omurga amin veya karboksil gruplarından değil, yan zincirden etkilenmesini sağlar) ve aşağıda daha ayrıntılı olarak tartışılan bir sahte atom kullanılarak daha hızlı yapı oluşturulması. Ek olarak, tanımlayıcı hesaplama, üretilen yapıların çeşitliliğini görselleştirmenin ve bitmiş kütüphanelerdeki kükürt zenginleştirmenin etkilerini karşılaştırmanın kolay bir yolu olarak burada yapılır.

PaDEL-Descriptor binlerce moleküler özelliği hesaplayabilse de, moleküler hacim (hesaplanan van der Waals hacmi olarak) ve bölüm katsayısı (XLogP olarak) burada iki farklı nedenden dolayı kullanılmıştır. İlk olarak, bu iki tanımlayıcı, çoğu kimyager ve biyolog için tanıdık olan moleküler özellikleri (sırasıyla boyut ve hidrofobiklik) ölçer. İkincisi, amino asitler söz konusu olduğunda, bu iki özellik önemlidir. Onlarca yıldır, amino asit boyutunun ve hidrofobikliğin, protein katlanması23’ün termodinamiğini etkilediği biliniyordu. Bu iki özellik, protein evrimini anlamanın ayrılmaz bir parçası olan amino asit ikame frekanslarını açıklamaya yardımcı olur24.

Yukarıdaki örnek, incelenen iki tanımlayıcıda (moleküler hacim ve hidrofobiklik), bir karbon ve iki hidrojen için iki değerli bir kükürt ikame edilmesinin önemli değişiklikler sağlamadığını göstermektedir. Kükürt ikamesinden kaynaklanan ortalama moleküler hacimdeki hafif, önemsiz artış (Şekil 3), kükürtün sp 3 (~ 75 pm) veya sp 2 (~73 pm) karbon25’e kıyasla daha büyük kovalent yarıçapına (~ 103 pm) bağlanabilir. Benzer şekilde, kükürt ikamesinin ortalama XLogP üzerinde minimum etkisi vardır (Şekil 4). En büyük etki, muhtemelen VAIL kütüphanesinin özellikle hidrofobik (yan zincirler sadece hidrokarbonlardır) ve sülfhidril gruplarının yerini alacakları metil gruplarından çok daha asidik olması nedeniyle VAIL ve VAIL_S kütüphaneleri arasındaydı. Kükürt ikamesinin minimum etkisi, kükürt ikamesi olan kütüphanelerin, kükürt ikamesi olmayan benzer kütüphanelerle aynı kimyasal alanı işgal ettiği Şekil 2’de belirgindir.

Bir psödoatom kullanırken yapı sayısındaki (Şekil 5A) ve bu yapıları üretmek için gereken süredeki azalma (Şekil 5B) şaşırtıcı değildir. Bir psödoatom kullanmak, kimyasal bir grafiğe dahil edilmesi gereken ağır atomların sayısını azaltır, grafik düğümlerinin sayısını azaltır ve üretim süresinde ve yapı sayısında üstel düşüşler sağlar. Burada, bir psödoatom olarak üç değerlikli fosforun seçimi, temel biyokimyadan (fosfat gruplarının posttranslasyonel ilavesi olmadan, genetik olarak kodlanmış amino asitler fosfor içermez) ve onun yerini alacak atomun değerliğinden (üç değerlikli bir fosfor, başka bir atoma veya atom grubuna tek başına bağlanmış dört değerlikli bir karbon ile kolayca değiştirilebilir) kaynaklanır. Psödoatom ikamesi için sağlanan kod, üç değerlikli bir fosforun bir alanin alt yapısıyla değiştirilmesi için spesifik olsa da, kullanıcılar kodu farklı psödoatomlarla veya yedek alt yapılarla çalışacak şekilde özelleştirebilir, potansiyel olarak ilk yapı üretimi sırasında birden fazla psödoatom kullanabilir ve ardından her bir sahte atomu daha büyük bir moleküler alt yapı ile değiştirebilir.

MAYGEN tarafından kullanılanlara benzer yapı oluşturma yöntemleri (ve sinir ağları gibi diğer yöntemler), in silico taraması için bileşik kütüphaneler oluşturmak için ilaç keşfinde zaten kullanılmaktadır; yakın tarihli bir inceleme4, bu yöntemleri daha ayrıntılı olarak tartışmaktadır. Bu yöntemler öncelikle ilaç benzeri moleküllerin oluşturulması için tasarlandığından, oluşturulan yapıları sınırlamak için biyolojik veya farmasötik özellikleri kullanmak (ters QSPR / QSAR) veya önceden belirlenmiş sayıda alt yapı yapı taşından yapılar oluşturmak gibi moleküller üretme yeteneklerinde bazı sınırlamalar vardır. Astrobiyoloji, herhangi bir son ürün veya özellikleri üzerinde abiyotik olarak ve daha az oluşabilen çok sayıda organik bileşiğe daha fazla odaklandığından, MAYGEN’in kapsamlı yapı üretimi, astrobiyolojik soruları ele almak için yapı kütüphaneleri oluşturmak için idealdir. Burada açıklanan altyapı filtreleme yaklaşımı (harici bir program aracılığıyla yapı oluşturulduktan sonra gerçekleştirilir), rakip program MOLGEN’den farklıdır, çünkü MOLGEN’in alt yapı filtrelemesi yapı oluşturma sırasında gerçekleşir. MAYGEN açık kaynaklı olduğundan, MOLGEN’in lisans maliyeti nedeniyle sadece MOLGEN’den daha erişilebilir olmakla kalmaz, aynı zamanda bireyler yapı oluşturma sırasında altyapı filtreleme gibi yeni özellikler uygulayabilirler.

Yazıldığı gibi, burada açıklanan protokol, nispeten küçük alfa-amino asitlerin kütüphanelerini oluşturmaya ve küratörlüğe odaklanmıştır. Farklı kütüphaneler oluşturmak için, kullanıcılar MAYGEN’e farklı moleküler formüller verebilir, izin verilen maksimum halka boyutunu ve bağ değerini değiştirerek alt yapı filtrelemesini değiştirebilir veya alt yapı desenleri eklemek veya kaldırmak için iyi liste ve kötüliste dosyalarını düzenleyebilir. Atomların ve alt yapıların nasıl eklendiğini veya değiştirildiğini değiştirmeyi içeren protokol modifikasyonları (psödoatom ikamesi ve moleküler kapaklama) mümkündür, ancak modifiye yapılardaki yanlış değerliklerle ilgili RDKit hatalarını önlemek için değerlik kısıtlamalarına daha fazla dikkat edilmesini gerektirecektir.

Yukarıda detaylandırılan protokol küçük alfa-amino asitler için tasarlanmıştır. Bununla birlikte, genel format (psödoatomlar kullanılarak kapsamlı yapı üretimi, ardından alt yapı filtreleme ve moleküler modifikasyonlar) küçük amino asitlerin ötesindeki bileşikler için oldukça esnektir. Astrobiyolojide bile, nükleik asitlerin anayasal izomerlerini araştırmak için MOLGEN kullanan benzer bir prosedür kullanılmıştır26. Yukarıda açıklanan araçlara ek olarak, MAYGEN, yeni kimyasal yapıların oluşturulmasını ve analiz edilmesini çok çeşitli araştırma alanları için uygun fiyatlı ve erişilebilir hale getirmek için diğer açık kaynaklı kimyasal bilişim araçlarıyla eşleştirilebilir.

Disclosures

The authors have nothing to disclose.

Acknowledgements

MAY, Carl-Zeiss-Vakfı tarafından sağlanan finansmanı kabul eder. Tüm rakamlar Microsoft Excel kullanılarak oluşturulmuştur.

Materials

conda v. 4.10.3 https://www.anaconda.com/products/individual
Java 17 https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8 https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21 http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11 included in Anaconda environment
RDKit v. 2020.09.1.0 https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

References

  1. Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -. L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
  2. Buchanan, B. G., Feigenbaum, E. A., Webber, B. L., Nilsson, N. J. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. , 313-322 (1981).
  3. Gugisch, R., Basak, S. C., Restrepo, G., Villaveces, J. L., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. , 113-138 (2015).
  4. Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
  5. Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
  6. Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
  7. Sims, C. C., Leech, J. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. , 169-183 (1970).
  8. Mat, W. -. K., Xue, H., Wong, J. T. -. F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
  9. Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
  10. Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
  11. Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
  12. Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
  13. Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
  14. Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
  15. Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
  16. Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
  17. Bada, J. L. New insights into prebiotic chemistry from Stanley Miller’s spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
  18. Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
  19. SMARTS – A language for describing molecular patterns. Daylight Chemical Information Systems, Inc Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019)
  20. Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
  21. Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
  22. Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
  23. Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
  24. Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
  25. Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Play Video

Cite This Article
Mayer-Bacon, C., Yirik, M. A. Curation of Computational Chemical Libraries Demonstrated with Alpha-Amino Acids. J. Vis. Exp. (182), e63632, doi:10.3791/63632 (2022).

View Video