Bu protokolün amacı, açık kaynaklı yazılım kullanarak küçük moleküllü yapı kütüphanelerini verimli bir şekilde oluşturmak ve küratörlüğünü yapmaktır.
Moleküler yapıların kapsamlı bir şekilde üretilmesi, ilaç tasarımı, moleküler veritabanı yapımı, alternatif biyokimyaların araştırılması ve daha fazlası gibi çok sayıda kimyasal ve biyokimyasal uygulamaya sahiptir. Matematiksel olarak konuşursak, bunlar kimyasal kısıtlamaları olan grafik üreteçleridir. Sahada, şu anda en verimli jeneratör (MOLGEN), kullanımını sınırlayan ticari bir üründür. Buna alternatif olarak, başka bir moleküler yapı üreticisi olan MAYGEN, MOLGEN ile karşılaştırılabilir verimliliğe ve kullanıcıların yeni özellikler ekleyerek performansını artırma kapasitesine sahip yeni bir açık kaynaklı araçtır. Bu gelişmeden yararlanabilecek araştırma alanlarından biri de astrobiyoloji; Yapı üreteçleri, araştırmacıların deneysel verileri alternatif biyokimya için hesaplama olanaklarıyla desteklemelerini sağlar. Bu protokol, astrobiyolojide yapı üretimi için bir kullanım durumunu, yani alfa-amino asit kütüphanelerinin oluşturulması ve küratörlüğünü detaylandırır. Açık kaynaklı yapı jeneratörleri ve kimyasal bilişim araçları kullanılarak, burada açıklanan uygulamalar, herhangi bir araştırma sorusu için kimyasal yapı kütüphanelerinin düşük maliyetli oluşturulması ve küratörlüğü için astrobiyolojinin ötesinde uygulanabilir.
Moleküler yapı üretimi, kapsamlı grafik üretiminin genel probleminin pratik bir uygulaması olarak hizmet eder; Birkaç düğüm (atom) ve bağlantılarındaki kısıtlamalar (örneğin, değerler, bağ çoklukları, istenen / istenmeyen alt yapılar) göz önüne alındığında, kaç tane bağlı grafik (molekül) mümkündür? Yapı jeneratörleri, ilaç keşfi ve farmasötik geliştirmede, in siliko tarama için geniş yeni yapı kütüphaneleri oluşturabilecekleri kapsamlı bir uygulama görmüştür1.
İlk yapı üreteci CONGEN, organik kimyadaki ilk yapay zeka projesi DENDRAL2 (DENDRitic ALgorithm’in kısaltması) için geliştirilmiştir. Literatürde DENDRAL’ın çeşitli yazılım halefleri bildirilmiştir; ancak, hepsi bakımlı veya verimli değildi. Şu anda, MOLGEN3 son teknoloji moleküler yapı üretecidir. Ne yazık ki, çoğu potansiyel kullanıcı için kapalı kaynaklıdır ve bir lisans ücreti gerektirir. Bu nedenle, belirli uygulamalara kolayca uyum sağlayabilen verimli bir açık kaynaklı yapı üretecine ihtiyaç duyulmuştur. Verimli bir yapı üreteci için bir zorluk, kombinatoryal patlamayı yönetmektir; moleküler formülün boyutu arttıkça, kimyasal arama alanının boyutu katlanarak artar. Yakın tarihli bir gözden geçirme, moleküler yapı nesli4’ün tarihini ve zorluklarını daha da araştırıyor.
2021’den önce, Paralel Molekül Üreteci (PMG)5 en hızlı açık kaynaklı yapı üreteci idi, ancak yine de büyüklük sırasına göre MOLGEN’den daha yavaştı. MAYGEN 6, PMG’den yaklaşık 47 kat daha hızlı ve MOLGEN’den yaklaşık 3 kat daha yavaştır, bu daMAYGEN’i mevcut en hızlı ve en verimli açık kaynaklı yapı üreticisi haline getirir. Daha ayrıntılı karşılaştırmalar ve kıyaslama testleri, MAYGEN6’yı tanıtan makalede bulunabilir. Programın önemli bir özelliği, Schreier-Sims7 algoritmasına dayanan düzenli bir grafik oluşturma yöntemi olan kanonik yapılar için sözlüksel sıralama tabanlı testidir. Yazılım diğer projelere kolayca entegre edilebilir ve kullanıcıların ihtiyaçları için geliştirilebilir.
MOLGEN ve PMG gibi, MAYGEN de kullanıcı tanımlı bir moleküler formül alır ve bu formül için mümkün olan tüm yapıları üretir. Örneğin, bir kullanıcı MAYGEN’i C5H12 formülüyle çalıştırırsa, MAYGEN beş karbon atomu ve on iki hidrojen atomu içeren tüm olası yapıları üretecektir. Açık kaynaklı muadili PMG’nin aksine, MAYGEN, her elementin sayısı için ayrı sayılar yerine aralıklar kullanan “bulanık” moleküler formülleri de barındırabilir. Örneğin, bir kullanıcı MAYGEN’i C5-7H12-15 formülüyle çalıştırırsa, MAYGEN beş ila yedi karbon atomu ve on iki ila on beş hidrojen atomu içeren tüm olası yapıları üretecek ve çok çeşitli atomik bileşimlere sahip basit yapıların üretilmesine izin verecektir.
Astrobiyoloji, moleküler yapı jeneratörlerinden yararlanabilecek böyle bir alandır. Astrobiyolojide popüler bir konu, Dünya’daki tüm mevcut yaşam tarafından paylaşılan amino asit alfabesinin evrimidir. Son Evrensel Ortak Ata’nın (LUCA) tanımlayıcı özelliklerinden biri, protein yapımı için genetik olarak kodlanmış yirmi amino asit kullanılmasıdır 8,9. 10,11,12 gibi birden fazla alanda yapılan çalışmaların meta-analizlerine dayanarak, bu amino asitlerin yaklaşık 10’u (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) abiyotik koşullar altında kolayca oluşur ve muhtemelen Luca öncesi organizmaların amino asit alfabesini oluşturur. Zamanla, bu “erken” alfabe, farklı yapısal ve işlevsel ihtiyaçlara cevap olarak genişletildi. Örneğin, Moosmann13’ün yakın tarihli bir incelemesi, genetik olarak kodlanmış amino asitlerin (yani Met, Tyr ve Trp) daha yeni üyelerinin eklenmesinin, reaktif oksijen türlerinin hücre içi çoğalmasını önleyerek oksijen bakımından zengin ortamlarda hayatta kalmaya izin verdiğini iddia ediyor.
Sürekli büyüyen bir analitik kimya teknikleri paketi, abiyotik koşullar altında oluşabilecek amino asit yapılarına dair fikir verir. Simkus ve diğerleri tarafından yapılan yakın tarihli bir inceleme14, meteorlardaki çok sayıda organik bileşiğin yanı sıra erken Dünya ortamlarının in vitro simülasyonlarından elde edilen organik bileşikleri tespit etmek için kullanılan yöntemleri detaylandırıyor15,16,17. Kimyasal yapıların sistematik olarak üretilmesi, araştırmacıların enstrümantasyon yoluyla tespit edilen organik bileşiklerin ötesini keşfetmelerine ve analitik kimya tarafından tanımlanan yapısal “adalar” etrafındaki yapısal alanı doldurmalarına olanak tanır. “Erken” amino asitler söz konusu olduğunda, bu sistematik yapı üretimi, araştırmayı abiyotik sentez koşulları altında deneysel olarak tespit edilen yapılarla sınırlamadan, erken yaşam için mevcut olan olası protein kimyalarını gösterir. Açık kaynaklı kimyasal bilişim araç setleri ve MAYGEN gibi verimli yapı üreteçleri ile yeni kimyasal yapı kütüphaneleri oluşturmak ve keşfetmek artık her zamankinden daha kolay ve yaşamın alternatif kimyalarına yönelik daha ayrıntılı araştırmalara rehberlik edebilir.
“Erken” amino asitlerin bir özelliği kükürt eksikliğidir. Daha önce bahsedilen meta-analizler genellikle kükürt içeren kodlanmış amino asitlerin (Cys ve Met) genetik koda nispeten geç eklemeler olduğunu, meteorlarda kükürt içeren amino asitlerin eksikliği ve kıvılcım tüpü deneylerinde desteklenen sonuçlar olduğunu düşünmektedir. Bununla birlikte, organosülfür bileşikleri kuyruklu yıldızlarda ve meteoritlerde kolayca tespit edilir22 veH2S gazı kullanılarak kıvılcım tüpü deneylerinin yeniden analizi, amino asitleri ve kükürt16 içeren diğer organik bileşikleri buldu. Alternatif bir amino asit alfabesi düşünüldüğünde, kükürt bakımından zenginleştirilmiş bir alfabe keşfedilmeye değer.
Yukarıdaki protokolde, yapı oluşturma ve altyapı filtreleme kritik adımlar olarak kabul edilir; Bitmiş yapı kütüphanesinin bileşimine bağlı olarak, bir araştırmacının yalnızca bu iki adımı gerçekleştirmesi gerekebilir. Ek eylemler için talimatlar ve yazılımlar (psödoatom değişimi ve alt yapıların eklenmesi (bu durumda, amino asit kapağı)) daha ilgili tanımlayıcı hesaplama için dahil edilmiştir (kapaklama, XLogP hesaplamalarının omurga amin veya karboksil gruplarından değil, yan zincirden etkilenmesini sağlar) ve aşağıda daha ayrıntılı olarak tartışılan bir sahte atom kullanılarak daha hızlı yapı oluşturulması. Ek olarak, tanımlayıcı hesaplama, üretilen yapıların çeşitliliğini görselleştirmenin ve bitmiş kütüphanelerdeki kükürt zenginleştirmenin etkilerini karşılaştırmanın kolay bir yolu olarak burada yapılır.
PaDEL-Descriptor binlerce moleküler özelliği hesaplayabilse de, moleküler hacim (hesaplanan van der Waals hacmi olarak) ve bölüm katsayısı (XLogP olarak) burada iki farklı nedenden dolayı kullanılmıştır. İlk olarak, bu iki tanımlayıcı, çoğu kimyager ve biyolog için tanıdık olan moleküler özellikleri (sırasıyla boyut ve hidrofobiklik) ölçer. İkincisi, amino asitler söz konusu olduğunda, bu iki özellik önemlidir. Onlarca yıldır, amino asit boyutunun ve hidrofobikliğin, protein katlanması23’ün termodinamiğini etkilediği biliniyordu. Bu iki özellik, protein evrimini anlamanın ayrılmaz bir parçası olan amino asit ikame frekanslarını açıklamaya yardımcı olur24.
Yukarıdaki örnek, incelenen iki tanımlayıcıda (moleküler hacim ve hidrofobiklik), bir karbon ve iki hidrojen için iki değerli bir kükürt ikame edilmesinin önemli değişiklikler sağlamadığını göstermektedir. Kükürt ikamesinden kaynaklanan ortalama moleküler hacimdeki hafif, önemsiz artış (Şekil 3), kükürtün sp 3 (~ 75 pm) veya sp 2 (~73 pm) karbon25’e kıyasla daha büyük kovalent yarıçapına (~ 103 pm) bağlanabilir. Benzer şekilde, kükürt ikamesinin ortalama XLogP üzerinde minimum etkisi vardır (Şekil 4). En büyük etki, muhtemelen VAIL kütüphanesinin özellikle hidrofobik (yan zincirler sadece hidrokarbonlardır) ve sülfhidril gruplarının yerini alacakları metil gruplarından çok daha asidik olması nedeniyle VAIL ve VAIL_S kütüphaneleri arasındaydı. Kükürt ikamesinin minimum etkisi, kükürt ikamesi olan kütüphanelerin, kükürt ikamesi olmayan benzer kütüphanelerle aynı kimyasal alanı işgal ettiği Şekil 2’de belirgindir.
Bir psödoatom kullanırken yapı sayısındaki (Şekil 5A) ve bu yapıları üretmek için gereken süredeki azalma (Şekil 5B) şaşırtıcı değildir. Bir psödoatom kullanmak, kimyasal bir grafiğe dahil edilmesi gereken ağır atomların sayısını azaltır, grafik düğümlerinin sayısını azaltır ve üretim süresinde ve yapı sayısında üstel düşüşler sağlar. Burada, bir psödoatom olarak üç değerlikli fosforun seçimi, temel biyokimyadan (fosfat gruplarının posttranslasyonel ilavesi olmadan, genetik olarak kodlanmış amino asitler fosfor içermez) ve onun yerini alacak atomun değerliğinden (üç değerlikli bir fosfor, başka bir atoma veya atom grubuna tek başına bağlanmış dört değerlikli bir karbon ile kolayca değiştirilebilir) kaynaklanır. Psödoatom ikamesi için sağlanan kod, üç değerlikli bir fosforun bir alanin alt yapısıyla değiştirilmesi için spesifik olsa da, kullanıcılar kodu farklı psödoatomlarla veya yedek alt yapılarla çalışacak şekilde özelleştirebilir, potansiyel olarak ilk yapı üretimi sırasında birden fazla psödoatom kullanabilir ve ardından her bir sahte atomu daha büyük bir moleküler alt yapı ile değiştirebilir.
MAYGEN tarafından kullanılanlara benzer yapı oluşturma yöntemleri (ve sinir ağları gibi diğer yöntemler), in silico taraması için bileşik kütüphaneler oluşturmak için ilaç keşfinde zaten kullanılmaktadır; yakın tarihli bir inceleme4, bu yöntemleri daha ayrıntılı olarak tartışmaktadır. Bu yöntemler öncelikle ilaç benzeri moleküllerin oluşturulması için tasarlandığından, oluşturulan yapıları sınırlamak için biyolojik veya farmasötik özellikleri kullanmak (ters QSPR / QSAR) veya önceden belirlenmiş sayıda alt yapı yapı taşından yapılar oluşturmak gibi moleküller üretme yeteneklerinde bazı sınırlamalar vardır. Astrobiyoloji, herhangi bir son ürün veya özellikleri üzerinde abiyotik olarak ve daha az oluşabilen çok sayıda organik bileşiğe daha fazla odaklandığından, MAYGEN’in kapsamlı yapı üretimi, astrobiyolojik soruları ele almak için yapı kütüphaneleri oluşturmak için idealdir. Burada açıklanan altyapı filtreleme yaklaşımı (harici bir program aracılığıyla yapı oluşturulduktan sonra gerçekleştirilir), rakip program MOLGEN’den farklıdır, çünkü MOLGEN’in alt yapı filtrelemesi yapı oluşturma sırasında gerçekleşir. MAYGEN açık kaynaklı olduğundan, MOLGEN’in lisans maliyeti nedeniyle sadece MOLGEN’den daha erişilebilir olmakla kalmaz, aynı zamanda bireyler yapı oluşturma sırasında altyapı filtreleme gibi yeni özellikler uygulayabilirler.
Yazıldığı gibi, burada açıklanan protokol, nispeten küçük alfa-amino asitlerin kütüphanelerini oluşturmaya ve küratörlüğe odaklanmıştır. Farklı kütüphaneler oluşturmak için, kullanıcılar MAYGEN’e farklı moleküler formüller verebilir, izin verilen maksimum halka boyutunu ve bağ değerini değiştirerek alt yapı filtrelemesini değiştirebilir veya alt yapı desenleri eklemek veya kaldırmak için iyi liste ve kötüliste dosyalarını düzenleyebilir. Atomların ve alt yapıların nasıl eklendiğini veya değiştirildiğini değiştirmeyi içeren protokol modifikasyonları (psödoatom ikamesi ve moleküler kapaklama) mümkündür, ancak modifiye yapılardaki yanlış değerliklerle ilgili RDKit hatalarını önlemek için değerlik kısıtlamalarına daha fazla dikkat edilmesini gerektirecektir.
Yukarıda detaylandırılan protokol küçük alfa-amino asitler için tasarlanmıştır. Bununla birlikte, genel format (psödoatomlar kullanılarak kapsamlı yapı üretimi, ardından alt yapı filtreleme ve moleküler modifikasyonlar) küçük amino asitlerin ötesindeki bileşikler için oldukça esnektir. Astrobiyolojide bile, nükleik asitlerin anayasal izomerlerini araştırmak için MOLGEN kullanan benzer bir prosedür kullanılmıştır26. Yukarıda açıklanan araçlara ek olarak, MAYGEN, yeni kimyasal yapıların oluşturulmasını ve analiz edilmesini çok çeşitli araştırma alanları için uygun fiyatlı ve erişilebilir hale getirmek için diğer açık kaynaklı kimyasal bilişim araçlarıyla eşleştirilebilir.
The authors have nothing to disclose.
MAY, Carl-Zeiss-Vakfı tarafından sağlanan finansmanı kabul eder. Tüm rakamlar Microsoft Excel kullanılarak oluşturulmuştur.
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |