Целью этого протокола является эффективное создание и курирование библиотек структуры малых молекул с использованием программного обеспечения с открытым исходным кодом.
Исчерпывающая генерация молекулярных структур имеет многочисленные химические и биохимические применения, такие как разработка лекарств, построение молекулярных баз данных, исследование альтернативных биохимий и многое другое. Математически говоря, это графовые генераторы с химическими ограничениями. В полевых условиях наиболее эффективным генератором в настоящее время (MOLGEN) является коммерческий продукт, ограничивающий его использование. Альтернативой этому является другой генератор молекулярной структуры, MAYGEN, является недавним инструментом с открытым исходным кодом с эффективностью, сопоставимой с MOLGEN, и способностью пользователей повышать его производительность за счет добавления новых функций. Одной из областей исследований, которые могут извлечь выгоду из этого развития, является астробиология; Структурные генераторы позволяют исследователям дополнять экспериментальные данные вычислительными возможностями для альтернативной биохимии. Этот протокол подробно описывает один из вариантов использования генерации структуры в астробиологии, а именно генерацию и курирование библиотек альфа-аминокислот. Используя генераторы структур с открытым исходным кодом и инструменты хеминформатики, описанные здесь практики могут быть реализованы за пределами астробиологии для недорогого создания и курирования библиотек химических структур для любого исследовательского вопроса.
Генерация молекулярной структуры служит практическим применением общей проблемы генерации исчерпывающих графов; Учитывая несколько узлов (атомов) и ограничения на их связность (например, валентности, кратности связей, желаемые/нежелательные подструктуры), сколько связанных графов (молекул) возможно? Структурные генераторы нашли широкое применение в открытии лекарств и фармацевтических разработках, где они могут создавать обширные библиотеки новых структур для скрининга in silico 1.
Первый генератор структуры, CONGEN, был разработан для первого проекта искусственного интеллекта в органической химии, DENDRAL2 (сокращение от DENDRitic ALgorithm). В литературе сообщалось о нескольких программных преемниках DENDRAL; однако не все из них были сохранены или эффективны. В настоящее время MOLGEN3 является современным генератором молекулярной структуры. К сожалению для большинства потенциальных пользователей, он является закрытым исходным кодом и требует лицензионного сбора. Таким образом, возникла потребность в эффективном генераторе структуры с открытым исходным кодом, который может легко адаптироваться к конкретным приложениям. Одной из проблем для эффективного генератора структуры является управление комбинаторным взрывом; по мере увеличения размера молекулярной формулы размер пространства химического поиска увеличивается экспоненциально. Недавний обзор дополнительно исследует историю и проблемы молекулярной структуры поколения4.
До 2021 года генератор параллельных молекул (PMG)5 был самым быстрым генератором структуры с открытым исходным кодом, но он все еще был медленнее, чем MOLGEN на порядки. MAYGEN6 примерно в 47 раз быстрее, чем PMG и примерно в 3 раза медленнее, чем MOLGEN, что делает MAYGEN самым быстрым и эффективным генератором структуры с открытым исходным кодом. Более подробные сравнения и сравнительные тесты можно найти в статье, представляющей MAYGEN6. Ключевой особенностью программы является ее лексикографический тест на основе упорядочения канонических структур, метод упорядоченной генерации графов, основанный на алгоритме Шрайера-Симса7 . Программное обеспечение может быть легко интегрировано в другие проекты и улучшено для нужд пользователей.
Как и MOLGEN и PMG, MAYGEN принимает определяемую пользователем молекулярную формулу и генерирует все структуры, возможные для этой формулы. Например, если пользователь запустит MAYGEN с формулой C5H12, MAYGEN сгенерирует все возможные структуры, содержащие пять атомов углерода и двенадцать атомов водорода. В отличие от своего аналога с открытым исходным кодом PMG, MAYGEN также может вместить «нечеткие» молекулярные формулы, которые используют интервалы вместо дискретных чисел для подсчета каждого элемента. Например, если пользователь запустит MAYGEN с формулой C5-7H12-15, MAYGEN сгенерирует все возможные структуры, которые содержат от пяти до семи атомов углерода и двенадцать и пятнадцать атомов водорода, что позволит просто генерировать структуры с широким диапазоном атомных составов.
Астробиология является одной из таких областей, которая может извлечь выгоду из генераторов молекулярной структуры. Популярной темой в астробиологии является эволюция аминокислотного алфавита, разделяемого всей существующей жизнью на Земле. Одной из определяющих особенностей последнего универсального общего предка (LUCA) является использование двадцати генетически закодированных аминокислот для построения белка 8,9. Основываясь на мета-анализе работы в нескольких областях 10,11,12, примерно 10 из этих аминокислот (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) легко образуются в абиотических условиях и, вероятно, составляют аминокислотный алфавит организмов до LUCA. Со временем этот «ранний» алфавит был расширен в ответ на различные структурные и функциональные потребности. Например, в недавнем обзоре Moosmann13 утверждается, что добавление более поздних членов генетически закодированных аминокислот (а именно Met, Tyr и Trp) позволило выжить в богатых кислородом средах, предотвращая внутриклеточную пролиферацию активных форм кислорода.
Постоянно растущий набор методов аналитической химии позволяет понять аминокислотные структуры, которые могут образовываться в абиотических условиях. В недавнем обзоре14 Симкуса и других подробно описываются методы, используемые для обнаружения многочисленных органических соединений в метеоритах, а также органических соединений из моделирования in vitro ранних сред Земли 15,16,17. Систематическая генерация химических структур позволяет исследователям исследовать за пределами органических соединений, обнаруженных с помощью приборов, заполняя структурное пространство вокруг структурных «островов», идентифицированных аналитической химией. В случае «ранних» аминокислот эта систематическая генерация структуры показывает возможную химию белка, доступную для ранней жизни, не ограничивая исследование структурами, которые были экспериментально обнаружены в условиях абиотического синтеза. С инструментами хеминформатики с открытым исходным кодом и эффективными генераторами структур, такими как MAYGEN, создание и изучение новых библиотек химических структур теперь проще, чем когда-либо прежде, и может направлять более подробные исследования альтернативных химических веществ жизни.
Одной из особенностей «ранних» аминокислот является недостаток серы. Мета-анализы, упомянутые ранее, обычно считают, что серосодержащие кодированные аминокислоты (Cys и Met) были относительно поздними дополнениями к генетическому коду, выводы, подкрепленные отсутствием серосодержащих аминокислот в метеоритах и экспериментах с искровыми трубками. Однако сероорганические соединения легко обнаруживаются в кометах и метеоритах22, и повторный анализ экспериментов с искровыми трубками с использованием газа H2S обнаружил аминокислоты и другие органические соединения, содержащие серу16. При рассмотрении альтернативного аминокислотного алфавита стоит изучить тот, который обогащен серой.
В приведенном выше протоколе генерация структуры и фильтрация подструктур считаются критическими этапами; в зависимости от состава готовой библиотеки структуры, исследователю может потребоваться только выполнить эти два шага. Инструкции и программное обеспечение для дополнительных действий (замена псевдоатомов и добавление подструктур (в данном случае укупорка аминокислот)) включены для более релевантного расчета дескриптора (укупорка гарантирует, что на расчеты XLogP влияет боковая цепь, а не аминные или карбоксильные группы) и более быстрой генерации структуры с помощью псевдоатома, который более подробно обсуждается ниже. Кроме того, здесь выполняется расчет дескриптора как простой способ визуализации разнообразия генерируемых структур и сравнения эффектов обогащения серы в готовых библиотеках.
В то время как PaDEL-Дескриптор может вычислять тысячи молекулярных свойств, молекулярный объем (как рассчитанный объем Ван-дер-Ваальса) и коэффициент разделения (как XLogP) использовались здесь по двум различным причинам. Во-первых, эти два дескриптора измеряют молекулярные свойства (размер и гидрофобность соответственно), которые знакомы большинству химиков и биологов. Во-вторых, в случае аминокислот эти два свойства являются значительными. В течение десятилетий было известно, что размер аминокислот и гидрофобность влияют на термодинамику сворачивания белка23. Эти два свойства помогают объяснить частоты замещения аминокислот, которые были неотъемлемой частью понимания эволюции белка24.
Приведенный выше пример показывает, что в двух изученных дескрипторах (молекулярный объем и гидрофобность) замена двухвалентной серы на углерод и два водорода не дает существенных изменений. Незначительное, незначительное увеличение среднего молекулярного объема от замещения серы (рисунок 3) может быть связано с большим ковалентным радиусом серы (~ 103 пм) по сравнению с sp3 (~ 75 pm) илиsp2 (~ 73 pm) углерода25. Аналогичным образом, замещение серы оказывает минимальное влияние на среднее значение XLogP (рисунок 4). Наибольший эффект был между библиотеками VAIL и VAIL_S, вероятно, из-за того, что сочетание библиотеки VAIL было особенно гидрофобным (боковые цепи являются только углеводородами), а сульфгидрильные группы были гораздо более кислыми, чем метильные группы, которые они заменили бы. Минимальный эффект замещения серы очевиден на рисунке 2, где библиотеки с замещением серы занимают то же химическое пространство, что и аналогичные библиотеки без замещения серы.
Уменьшение количества структур (рисунок 5A) и времени, необходимого для генерации этих структур (рисунок 5B) при использовании псевдоатома, неудивительно. Использование псевдоатома уменьшает количество тяжелых атомов, которые необходимо включить в химический граф, уменьшая количество узлов графа и приводя к экспоненциальному сокращению времени генерации и числа структур. Здесь выбор трехвалентного фосфора в качестве псевдоатома проистекает из основной биохимии (отсутствие посттрансляционного добавления фосфатных групп, ни одна генетически закодированная аминокислота не содержит фосфора) и валентность атома, который бы его заменил (трехвалентный фосфор может быть легко заменен четырехвалентным углеродом, который отдельно связан с другим атомом или группой атомов). Хотя предоставленный код для замещения псевдоатомов специфичен для замены трехвалентного фосфора аланиновой субструктурой, пользователи могут настроить код для работы с различными псевдоатомами или замещающими подструктурами, потенциально используя несколько псевдоатомов во время первоначальной генерации структуры с последующей заменой каждого псевдоатома более крупной молекулярной подструктурой.
Методы генерации структуры, аналогичные тем, которые используются MAYGEN (и другими методами, такими как нейронные сети), уже используются в открытии лекарств для создания библиотек соединений для скрининга in silico ; в недавнем обзоре4 эти методы рассматриваются более подробно. Поскольку эти методы предназначены в первую очередь для создания лекарственно-подобных молекул, существуют некоторые ограничения на их способность генерировать молекулы, такие как использование биологических или фармацевтических свойств для ограничения создаваемых структур (обратный QSPR / QSAR) или создание структур из заданного числа строительных блоков подструктуры. Поскольку астробиология больше сосредоточена на множестве органических соединений, которые могут образовываться абиотически, и меньше на любых конечных продуктах или их свойствах, исчерпывающая генерация структур MAYGEN идеально подходит для создания структурных библиотек для решения астробиологических вопросов. Описанный здесь подход к фильтрации подструктур (выполняемый после генерации структуры с помощью внешней программы) отличается от программы конкурента MOLGEN тем, что фильтрация подструктуры MOLGEN происходит во время генерации структуры. Поскольку MAYGEN является открытым исходным кодом, он не только более доступен, чем MOLGEN, из-за стоимости лицензирования MOLGEN, но и отдельные лица могут внедрять новые функции, такие как фильтрация подструктур во время генерации структуры.
Как написано, протокол, описанный здесь, ориентирован на генерацию и курирование библиотек относительно небольших альфа-аминокислот. Для создания различных библиотек пользователи могут давать различные молекулярные формулы MAYGEN, изменять фильтрацию подструктуры, изменяя максимально допустимый размер кольца и валентность связи, или редактировать файлы goodlist и badlist для добавления или удаления шаблонов подструктуры. Модификации протокола, которые включают изменение способа добавления или замены атомов и подструктур (замена псевдоатомов и молекулярное ограничение), возможны, но потребуют большего внимания к валентным ограничениям, чтобы избежать ошибок RDKit о неправильных валентностях в модифицированных структурах.
Протокол, описанный выше, предназначен для малых альфа-аминокислот. Однако общий формат (комплексная генерация структуры с использованием псевдоатомов с последующей фильтрацией субструктур и молекулярными модификациями) является очень гибким для соединений, выходящих за рамки небольших аминокислот. Даже в астробиологии аналогичная недавняя процедура с использованием MOLGEN использовалась для исследования конституциональных изомеров нуклеиновых кислот26. В дополнение к инструментам, описанным выше, MAYGEN может быть сопряжен с другими инструментами хеминформатики с открытым исходным кодом, чтобы сделать создание и анализ новых химических структур доступными и доступными для широкого спектра областей исследований.
The authors have nothing to disclose.
MAY признает финансирование со стороны Фонда Carl-Zeiss. Все рисунки были сгенерированы с помощью Microsoft Excel.
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |