このプロトコルの目的は、オープンソースソフトウェアを使用して低分子構造ライブラリを効率的に生成し、キュレーションすることです。
分子構造の網羅的な生成には、ドラッグデザイン、分子データベースの構築、代替生化学の探索など、数多くの化学的および生化学的用途があります。数学的に言えば、これらは化学的制約を持つグラフジェネレータです。現場では、現在最も効率的な発電機(MOLGEN)は市販品であり、その使用を制限しています。それに代わる、別の分子構造ジェネレーターであるMAYGENは、MOLGENに匹敵する効率と、ユーザーが新しい機能を追加することでパフォーマンスを向上させる能力を備えた最近のオープンソースツールです。この発展から恩恵を受けることができる研究分野の1つはアストロバイオロジーです。構造ジェネレータにより、研究者は実験データを代替生化学の計算可能性で補完することができます。このプロトコルは、アストロバイオロジーにおける構造生成の1つのユースケース、すなわちα-アミノ酸ライブラリの生成とキュレーションを詳述している。オープンソースの構造ジェネレータとケミンフォマティクスツールを使用すると、ここで説明するプラクティスは、アストロバイオロジーを超えて実装され、あらゆる研究課題のための化学構造ライブラリの低コストの作成とキュレーションが可能になります。
分子構造生成は、網羅的なグラフ生成の一般的な問題の実用的なアプリケーションとして機能します。いくつかのノード(原子)とその接続性に関する制約(例えば、価数、結合多重度、望ましい/望ましくない部分構造)を考えると、いくつの接続されたグラフ(分子)が可能ですか?構造発生器は、創薬および医薬品開発において広範な用途に応用されており、 in silico スクリーニングのための新規構造の膨大なライブラリを作成することができます1。
最初の構造ジェネレータであるCONGENは、有機化学における最初の人工知能プロジェクトであるDENDRAL2 (DENDRitic ALgorithmの略)のために開発されました。DENDRALのいくつかのソフトウェア後継者が文献で報告されている。しかし、それらのすべてが維持または効率的であったわけではありませんでした。現在、MOLGEN3 は最先端の分子構造発生装置です。残念ながら、ほとんどの潜在的なユーザーにとっては、クローズドソースであり、ライセンス料が必要です。したがって、特定のアプリケーションに簡単に適応できる効率的なオープンソース構造ジェネレータが必要でした。効率的な構造ジェネレータの課題の1つは、組み合わせ爆発の管理です。分子式のサイズが大きくなると、化学探索空間のサイズは指数関数的に増加します。最近のレビューでは、分子構造生成4の歴史と課題をさらに探求しています。
2021年以前は、並列分子ジェネレータ(PMG)5 は最速のオープンソース構造ジェネレータでしたが、それでもMOLGENよりも桁違いに遅かったです。MAYGEN6 はPMGの約47倍、MOLGENの約3倍の速度で、MAYGENは最速かつ最も効率的なオープンソース構造ジェネレーターとなっています。より詳細な比較とベンチマークテストは、MAYGEN6を紹介する論文で見つけることができます。このプログラムの主な特徴は、Schreier-Sims7 アルゴリズムに基づく整然としたグラフ生成方法である正規構造の辞書式順序付けベースのテストです。ソフトウェアは、簡単に他のプロジェクトに統合し、ユーザーのニーズに合わせて強化することができます。
MOLGENやPMGと同様に、MAYGENはユーザー定義の分子式を取り、その式に可能なすべての構造を生成します。例えば、ユーザが式C5H12を用いてMAYGENを実行すると、MAYGENは5個の炭素原子および12個の水素原子を含むすべての可能な構造を生成する。オープンソースのPMGとは異なり、MAYGENは、各元素の数に離散数の代わりに間隔を使用する「あいまいな」分子式にも対応できます。例えば、ユーザが式C5−7H12−15を用いてMAYGENを実行する場合、MAYGENは、5〜7個の炭素原子および12〜15個の水素原子を含むすべての可能な構造を生成し、広範囲の原子組成を有する構造の単純な生成を可能にする。
アストロバイオロジーは、分子構造発生器の恩恵を受けることができるそのような分野の1つです。アストロバイオロジーで人気のあるトピックは、地球上のすべての現存する生命が共有するアミノ酸アルファベットの進化です。最後の普遍的な共通祖先(LUCA)の決定的な特徴の1つは、タンパク質構築のための20の遺伝的にコードされたアミノ酸の使用です8,9。複数の分野10、11、12における研究のメタアナリシスに基づいて、これらのアミノ酸(Gly、Ala、Val、Asp、Glu、Ser、Thr、Leu、Ile、Pro)の約10個が非生物的条件下で容易に形成され、LUCA以前の生物のアミノ酸アルファベットを構成している可能性が高い。時間が経つにつれて、この「初期の」アルファベットは、さまざまな構造的および機能的ニーズに応じて拡張されました。例えば、Moosmann13の最近のレビューでは、遺伝的にコードされたアミノ酸(すなわち、Met、Tyr、およびTrp)のより最近のメンバーの追加は、活性酸素種の細胞内増殖を防止することによって、酸素が豊富な環境での生存を可能にしたと主張している。
増え続ける分析化学技術スイートは、非生物条件下で形成され得るアミノ酸構造への洞察を可能にする。Simkusらによる最近のレビュー14は、隕石中の多数の有機化合物、ならびに初期の地球環境のin vitroシミュレーションからの有機化合物を検出するために使用される方法を詳述している15,16,17。化学構造の体系的な生成により、研究者は計装によって検出された有機化合物を超えて探索し、分析化学によって特定された構造「島」の周りの構造空間に埋め込むことができます。「初期の」アミノ酸の場合、この系統的な構造生成は、非生物合成条件下で実験的に検出された構造に探査を制限することなく、早期に利用可能なタンパク質化学の可能性を示しています。オープンソースのケムインフォマティクスツールキットとMAYGENなどの効率的な構造ジェネレータにより、新しい化学構造ライブラリの作成と探索がこれまで以上に簡単になり、生命の代替化学に関するより詳細な調査を導くことができます。
「初期の」アミノ酸の特徴の1つは、硫黄の欠乏である。前述のメタアナリシスでは、一般に、硫黄含有コード化アミノ酸(CysおよびMet)は遺伝暗号への比較的遅い追加であったと考えられており、隕石および火花管実験における硫黄含有アミノ酸の欠如によって支持された結論である。しかし、有機硫黄化合物は彗星や隕石22で容易に検出され、H2Sガスを用いた火花管の再分析実験により、硫黄16を含むアミノ酸やその他の有機化合物が見つかった。代替アミノ酸アルファベットを検討する場合、硫黄が豊富なものは探索する価値があります。
上記のプロトコルでは、構造生成と部分構造フィルタリングは重要なステップと見なされます。完成した構造ライブラリの構成によっては、研究者はこれら2つのステップを実行するだけでよい場合があります。追加のアクション(擬似原子置換および部分構造の追加(この場合はアミノ酸キャッピング))のための指示およびソフトウェアは、より関連性の高い記述子計算(キャッピングは、XLogP計算が主鎖アミンまたはカルボキシル基ではなく側鎖によって影響を受けることを確実にする)および擬似原子の使用によるより速い構造生成のために含まれている。さらに、記述子計算は、生成された構造の多様性を視覚化し、完成したライブラリ内の硫黄濃縮の効果を比較する簡単な方法としてここで行われます。
PaDEL-Descriptorは何千もの分子特性を計算できますが、ここでは2つの異なる理由で分子体積(計算されたファンデルワールス体積)と分配係数(XLogPとして)が使用されました。まず、これら2つの記述子は、ほとんどの化学者や生物学者に馴染みのある分子特性(それぞれサイズと疎水性)を測定します。第二に、アミノ酸の場合、これら2つの特性は重要である。何十年もの間、アミノ酸サイズと疎水性はタンパク質フォールディングの熱力学に影響を与えることが知られていました23。これら2つの特性は、タンパク質の進化を理解するために不可欠なアミノ酸置換頻度を説明するのに役立ちます24。
上記の例は、研究された2つの記述子(分子体積および疎水性)において、炭素および2つの水素を2価の硫黄に置き換えても大きな変化をもたらさないことを示している。硫黄置換による平均分子体積のわずかな、有意でない増加(図3)は、sp 3(〜75 pm)またはsp 2(〜73 pm)炭素25のいずれかと比較して、硫黄のより大きな共有結合半径(〜103 pm)に起因する可能性がある。同様に、硫黄置換は平均XLogPに最小限の影響しか及ぼさない(図4)。最大の効果は、VALELライブラリとVAIL_Sライブラリの間であり、おそらくVAILライブラリが特に疎水性であり(側鎖は炭化水素のみである)、スルフヒドリル基がメチル基よりもはるかに酸性であることの組み合わせによるものである。硫黄置換の最小効果は図2で明らかであり、硫黄置換を有するライブラリーは、硫黄置換のない類似ライブラリーと同じ化学空間を占める。
擬似原子を使用する場合の構造の数の減少(図5A)とそれらの構造を生成するのに必要な時間(図5B)は驚くべきことではない。擬似原子を使用すると、化学グラフに組み込む必要がある重原子の数が減り、グラフノードの数が減り、生成時間と構造の数が指数関数的に減少します。ここで、擬似原子としての3価のリンの選択は、基本的な生化学(リン酸基の翻訳後付加がなく、遺伝的にコードされたアミノ酸はリンを含まない)およびそれを置き換える原子の価数(3価のリンは、他の原子または原子群に単独で結合している4価の炭素で容易に置換することができる)に由来する。擬似原子置換のための提供されたコードは、3価のリンをアラニン部分構造で置き換えることに特有であるが、ユーザーは、異なる擬似原子または置換部分構造で動作するようにコードをカスタマイズすることができ、潜在的に最初の構造生成中に複数の擬似原子を使用し、その後、各擬似原子をより大きな分子部分構造で置き換える。
MAYGENによって採用されているものと同様の構造生成方法(およびニューラルネットワークなどの他の方法)は、 インシリコ スクリーニング用の化合物ライブラリーを生成するために創薬においてすでに使用されている。最近のレビュー4 では、これらの方法をより詳細に説明しています。これらの方法は主に薬物様分子の作成を目的としているため、生物学的または薬学的特性を使用して作成される構造を制限する(逆QSPR / QSAR)か、予め設定された数の部分構造ビルディングブロックから構造を作成するなど、分子を生成する能力にはいくつかの制限があります。アストロバイオロジーは、最終生成物やその特性よりも不合理に形成できる多数の有機化合物に焦点を合わせているため、MAYGENの徹底的な構造生成は、アストロバイオロジカルな問題に対処するための構造ライブラリの作成に最適です。ここで説明するサブストラクチャーフィルタリングのアプローチ(外部プログラムを介してストラクチャー生成後に実行される)は、MOLGENのサブストラクチャーフィルタリングがストラクチャー生成中に発生するという点で、競合プログラムMOLGENとは異なります。MAYGENはオープンソースであるため、MOLGENのライセンスコストのためにMOLGENよりもアクセスしやすいだけでなく、構造生成中にサブストラクチャーフィルタリングなどの新機能を実装することができます。
書かれているように、ここで説明するプロトコルは、比較的小さなα-アミノ酸のライブラリを生成してキュレーションすることに焦点を当てています。異なるライブラリーを生成するために、ユーザーは異なる分子式をMAYGENに与えたり、最大許容環サイズと結合価数を変更して部分構造フィルタリングを変更したり、グッドリストファイルとバッドリストファイルを編集して部分構造パターンを追加または削除したりできます。原子および部分構造の追加または置換方法の変更(擬似原子置換および分子キャッピング)を伴うプロトコル修正は可能であるが、修飾構造内の誤った原子価に関するRDKitエラーを回避するために、価数制限にもっと注意が必要である。
上記で詳述したプロトコルは、小さなα-アミノ酸用に設計されています。しかし、一般的な形式(擬似原子を用いた包括的な構造生成、その後の部分構造フィルタリングおよび分子修飾)は、小さなアミノ酸を超える化合物に対して非常に柔軟である。アストロバイオロジーにおいても、MOLGENを用いた同様の最近の手順が核酸の体質異性体を調べるために使用された26。上記のツールに加えて、MAYGENは他のオープンソースのケミンフォマティクスツールと組み合わせて、新しい化学構造の作成と分析を手頃な価格で幅広い研究分野に利用できるようにすることができます。
The authors have nothing to disclose.
メイはカールツァイス財団による資金提供を認めています。すべての数値は、マイクロソフトエクセルを使用して生成されました。
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |