이 프로토콜의 목적은 오픈 소스 소프트웨어를 사용하여 소분자 구조 라이브러리를 효율적으로 생성하고 큐레이트하는 것입니다.
분자 구조의 철저한 생성은 약물 설계, 분자 데이터베이스 구축, 대체 생화학 탐구 등과 같은 수많은 화학 및 생화학 적 응용 분야를 가지고 있습니다. 수학적으로 말하자면, 이들은 화학적 제약을 가진 그래프 생성기입니다. 이 분야에서 현재 가장 효율적인 발전기 (MOLGEN)는 상용 제품이므로 사용을 제한합니다. 이에 대한 대안으로, 또 다른 분자 구조 생성기 인 MAYGEN은 MOLGEN과 비슷한 효율성과 사용자가 새로운 기능을 추가하여 성능을 향상시킬 수있는 능력을 갖춘 최신 오픈 소스 도구입니다. 이 개발의 혜택을 누릴 수있는 연구 분야 중 하나는 우주 생물학입니다. 구조 생성기를 통해 연구원은 대체 생화학에 대한 계산 가능성으로 실험 데이터를 보완 할 수 있습니다. 이 프로토콜은 우주 생물학에서 구조 생성을위한 하나의 사용 사례, 즉 알파 아미노산 라이브러리의 생성 및 큐레이션을 자세히 설명합니다. 오픈 소스 구조 생성기 및 화학 정보학 도구를 사용하여 여기에 설명 된 관행은 모든 연구 질문에 대한 화학 구조 라이브러리의 저비용 생성 및 큐레이션을 위해 우주 생물학을 넘어 구현 될 수 있습니다.
분자 구조 생성은 철저한 그래프 생성의 일반적인 문제의 실질적인 적용으로 작용한다; 여러 노드 (원자)와 연결성에 대한 제약 조건 (예 : 원자가, 결합 곱셈, 원하는 / 바람직하지 않은 하위 구조)이 주어지면 얼마나 많은 연결된 그래프 (분자)가 가능합니까? 구조 생성기는 약물 발견 및 제약 개발에 광범위한 응용 프로그램을 보았으며 실리코 스크리 닝1에 대한 새로운 구조의 광대 한 라이브러리를 만들 수 있습니다.
첫 번째 구조 생성기 인 CONGEN은 유기 화학의 첫 번째 인공 지능 프로젝트 인 DENDRAL2 (DENDRitic ALgorithm의 약자)를 위해 개발되었습니다. DENDRAL의 여러 소프트웨어 후계자가 문헌에보고되었습니다. 그러나 그들 모두가 유지되거나 효율적이지는 않았습니다. 현재 MOLGEN3은 최첨단 분자 구조 생성기입니다. 불행히도 대부분의 잠재적 인 사용자에게는 폐쇄 소스이며 라이센스 비용이 필요합니다. 따라서, 특정 애플리케이션에 쉽게 적응할 수 있는 효율적인 오픈 소스 구조 생성기에 대한 필요성이 있어왔다. 효율적인 구조 생성기의 한 가지 과제는 조합 폭발을 관리하는 것입니다. 분자식의 크기가 증가함에 따라 화학 검색 공간의 크기가 기하 급수적으로 증가합니다. 최근의 리뷰는 분자 구조4 세대의 역사와 도전을 더 탐구합니다.
2021년 이전에는 PMG(Parallel Molecule Generator)5 가 가장 빠른 오픈 소스 구조 생성기였지만 여전히 MOLGEN보다 몇 배나 느렸다. MAYGEN6 은 PMG보다 약 47 배 빠르며 MOLGEN보다 약 3 배 느려서 MAYGEN을 가장 빠르고 효율적인 오픈 소스 구조 생성기로 만듭니다. 더 자세한 비교 및 벤치마킹 테스트는 MAYGEN6을 소개하는 논문에서 찾을 수 있습니다. 이 프로그램의 주요 특징은 Schreier-Sims7 알고리즘을 기반으로 한 질서 정연한 그래프 생성 방법 인 정식 구조에 대한 어휘 순서 기반 테스트입니다. 이 소프트웨어는 다른 프로젝트에 쉽게 통합되고 사용자의 요구에 맞게 향상 될 수 있습니다.
MOLGEN 및 PMG와 마찬가지로 MAYGEN은 사용자 정의 분자식을 사용하여 해당 공식에 대해 가능한 모든 구조를 생성합니다. 예를 들어, 사용자가 화학식C5H12로 MAYGEN을 실행하면, MAYGEN은 5개의 탄소 원자 및12개의 수소 원자를 포함하는 모든 가능한 구조를 생성할 것이다. 오픈 소스 대응 PMG와 달리 MAYGEN은 각 요소의 개수에 대해 이산 번호 대신 간격을 사용하는 “퍼지”분자 공식을 수용 할 수 있습니다. 예를 들어, 사용자가 화학식C5-7H 12-15로 MAYGEN을 실행하면, MAYGEN은 5 및 7 개의 탄소 원자와 열두 개 및15 개의 수소 원자를 포함하는 모든 가능한 구조를 생성하여 광범위한 원자 조성을 가진 구조를 간단하게 생성 할 수 있습니다.
천체 생물학은 분자 구조 발전기로부터 이익을 얻을 수있는 분야 중 하나입니다. 우주 생물학에서 인기있는 주제는 지구상의 모든 현존하는 생명체가 공유하는 아미노산 알파벳의 진화입니다. 마지막 보편적 공통 조상 (LUCA)의 정의 특징 중 하나는 단백질 구성 8,9에 20 개의 유전자 코딩 아미노산을 사용하는 것입니다. 10,11,12 여러 분야에서의 메타 분석에 기초하여, 이들 아미노산 중 약 10 개 (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro)는 비생물적 조건 하에서 쉽게 형성되며 LUCA 이전 유기체의 아미노산 알파벳을 구성했을 가능성이 큽니다. 시간이 지남에 따라이 “초기”알파벳은 다양한 구조적 및 기능적 요구에 따라 확장되었습니다. 예를 들어, 무스만13의 최근 리뷰는 유전적으로 코딩된 아미노산(즉, Met, Tyr 및 Trp)의 보다 최근의 구성원의 첨가가 반응성 산소 종의 세포내 증식을 방지함으로써 산소가 풍부한 환경에서 생존을 허용한다고 주장한다.
끊임없이 성장하는 분석 화학 기술 제품군은 비생물적 조건 하에서 형성 될 수있는 아미노산 구조에 대한 통찰력을 제공합니다. Simkus와 다른 사람들의 최근 리뷰 14는 초기 지구 환경 15,16,17의 시험관 내 시뮬레이션에서 유기 화합물뿐만 아니라 운석에서 수많은 유기 화합물을 검출하는 데 사용 된 방법을 자세히 설명합니다. 화학 구조의 체계적인 생성을 통해 연구원은 계측을 통해 검출 된 유기 화합물을 넘어 분석 화학으로 확인 된 구조적 “섬”주변의 구조적 공간을 채울 수 있습니다. “초기”아미노산의 경우,이 체계적인 구조 생성은 비생물 합성 조건 하에서 실험적으로 검출 된 구조에 대한 탐사를 제한하지 않고 초기 생활에 사용할 수있는 가능한 단백질 화학을 보여줍니다. 오픈 소스 화학 정보학 툴킷과 MAYGEN과 같은 효율적인 구조 생성기를 통해 새로운 화학 구조 라이브러리를 만들고 탐색하는 것이 그 어느 때보 다 쉬워졌으며 대체 화학 물질에 대한보다 자세한 조사를 안내 할 수 있습니다.
“초기”아미노산의 한 가지 특징은 유황이 부족하다는 것입니다. 앞서 언급한 메타-분석은 일반적으로 황 함유 코딩된 아미노산(Cys 및 Met)이 유전자 암호에 비교적 늦게 첨가된 것으로 간주하며, 운석 및 스파크 튜브 실험에서 황 함유 아미노산의 부족에 의해 뒷받침되는 결론이다. 그러나, 유기 황 화합물은 혜성 및 운석 22에서 쉽게 검출되고,H2 S 가스를 이용한 스파크 튜브 실험의 재분석은황16을 함유하는 아미노산 및 기타 유기 화합물을 발견하였다. 대체 아미노산 알파벳을 고려할 때, 유황이 풍부한 알파벳은 탐구 할 가치가 있습니다.
위의 프로토콜에서, 구조 생성 및 하부 구조 필터링은 중요한 단계로 간주됩니다; 완성 된 구조 라이브러리의 구성에 따라 연구원은이 두 단계 만 수행하면됩니다. 추가 조치(유사원자 치환 및 하위구조의 추가(이 경우, 아미노산 캡핑))를 위한 지침 및 소프트웨어는 보다 관련성이 높은 디스크립터 계산(캡핑은 XLogP 계산이 백본 아민 또는 카르복실기가 아닌 측쇄에 의해 영향을 받도록 보장함) 및 유사원자의 사용을 통한 더 빠른 구조 생성을 위해 포함되며, 이는 아래에서 더 상세히 논의된다. 또한 설명자 계산은 생성 된 구조의 다양성을 시각화하고 완성 된 라이브러리에서 황 농축의 효과를 비교하는 쉬운 방법으로 여기에서 수행됩니다.
PaDEL-Descriptor는 수천 개의 분자 특성을 계산할 수 있지만 분자 부피 (계산 된 van der Waals 부피)와 분할 계수 (XLogP)는 두 가지 뚜렷한 이유로 여기에 사용되었습니다. 첫째,이 두 설명자는 대부분의 화학자와 생물 학자들에게 익숙한 분자 특성 (각각 크기와 소수성)을 측정합니다. 둘째, 아미노산의 경우,이 두 가지 특성이 중요합니다. 수십 년 동안 아미노산 크기와 소수성은 단백질 폴딩23의 열역학에 영향을 미치는 것으로 알려져 있었다. 이 두 가지 특성은 단백질 진화24를 이해하는 데 필수적인 아미노산 치환 빈도를 설명하는 데 도움이됩니다.
위의 예는, 연구된 두 개의 디스크립터(분자 부피 및 소수성)에서, 탄소와 두 개의 수소에 대해 2가 황을 대체하는 것은 유의한 변화를 일으키지 않는다는 것을 보여준다. 황 치환으로 인한 평균 분자 부피의 약간의, 유의하지 않은 증가(그림 3)는 sp3(~75 pm) 또는sp2(~73 pm) 탄소25에 비해 황의 공유 반경(~103 pm)이 더 크기 때문일 수 있다. 유사하게, 황 치환은 평균 XLogP에 대한 최소한의 효과를 갖는다(그림 4). 가장 큰 효과는 VAIL과 VAIL_S 라이브러리 사이에 있었는데, VAIL 라이브러리가 특히 소수성 (측쇄는 탄화수소 일 뿐임)과 설프 히드릴 그룹이 대체 할 메틸 그룹보다 훨씬 산성이기 때문일 가능성이 큽니다. 황 치환의 최소 효과는 황 치환이 있는 라이브러리가 황 치환 없이 유사한 라이브러리와 동일한 화학 공간을 차지하는 그림 2에서 명백합니다.
유사원자를 사용할 때 구조물의 수(도 5A)와 이러한 구조물을 생성하는 데 필요한 시간(도 5B)의 감소는 놀라운 일이 아니다. 유사 원자를 사용하면 화학 그래프에 통합해야하는 무거운 원자의 수가 줄어들어 그래프 노드 수가 줄어들고 생성 시간과 구조 수가 기하 급수적으로 감소합니다. 여기서, 의사 원자로서의 삼가 인의 선택은 기본적인 생화학 (인산염 기의 번역 후 첨가가 없음, 유 전적으로 코딩 된 아미노산에 인을 함유하지 않음)과 그것을 대체 할 원자의 원자가 (삼가 인은 다른 원자 또는 원자 그룹에 단독으로 결합되는 4가 탄소로 쉽게 대체 될 수 있음)에서 비롯됩니다. 의사 원자 치환을위한 제공된 코드는 삼가 인을 알라닌 하부 구조로 대체하는 데 특정적이지만, 사용자는 초기 구조 생성 중에 여러 의사 원자를 잠재적으로 사용하고 각 의사 원자를 더 큰 분자 하위 구조로 대체하여 다른 의사 원자 또는 대체 하위 구조로 작동하도록 코드를 사용자 정의 할 수 있습니다.
MAYGEN에 의해 채용된 것과 유사한 구조 생성 방법(및 신경망과 같은 다른 방법)은 실리코 스크리 닝을 위한 화합물 라이브러리를 생성하기 위해 약물 발견에 이미 사용되고 있다; 최근 리뷰4에서는 이러한 방법에 대해 더 자세히 설명합니다. 이러한 방법은 주로 약물 유사 분자의 생성을 위한 것이므로 생물학적 또는 약학적 특성을 사용하여 생성된 구조(역 QSPR/QSAR)를 제한하거나 미리 설정된 수의 하위 구조 빌딩 블록에서 구조를 만드는 것과 같이 분자를 생성하는 능력에는 몇 가지 제한이 있습니다. 우주 생물학이 비공식적으로 형성 될 수있는 수많은 유기 화합물에 더 초점을 맞추고 최종 제품이나 그 특성에 덜 초점을 맞추기 때문에 MAYGEN의 철저한 구조 생성은 천체 생물학적 질문을 해결하기위한 구조 라이브러리를 만드는 데 이상적입니다. 여기에 설명된 하위구조 필터링에 대한 접근법(외부 프로그램을 통한 구조 생성 후 수행됨)은 MOLGEN의 하부 구조 필터링이 구조 생성 중에 발생한다는 점에서 경쟁사 프로그램 MOLGEN과 다릅니다. MAYGEN은 오픈 소스이기 때문에 MOLGEN의 라이센스 비용으로 인해 MOLGEN보다 더 쉽게 액세스 할 수있을뿐만 아니라 개인은 구조 생성 중에 하위 구조 필터링과 같은 새로운 기능을 구현할 수 있습니다.
쓰여진 바와 같이, 여기에 설명된 프로토콜은 비교적 작은 알파-아미노산의 라이브러리를 생성하고 큐레이팅하는 데 초점을 맞추고 있다. 다른 라이브러리를 생성하기 위해 사용자는 MAYGEN에 다른 분자 공식을 제공하거나, 허용되는 최대 링 크기 및 결합 원자가를 변경하여 하위 구조 필터링을 변경하거나, goodlist 및 badlist 파일을 편집하여 하위 구조 패턴을 추가 또는 제거 할 수 있습니다. 원자와 하위 구조가 추가되거나 대체되는 방식을 변경하는 것을 포함하는 프로토콜 수정 (의사 원자 치환 및 분자 캡핑)은 실현 가능하지만 수정 된 구조의 잘못된 원자가에 대한 RDKit 오류를 피하기 위해 원자가 제한에 더 많은주의가 필요합니다.
위에 설명 된 프로토콜은 작은 알파 아미노산을 위해 설계되었습니다. 그러나 일반적인 형식 (유사 원자를 사용한 포괄적 인 구조 생성, 하위 구조 필터링 및 분자 변형)은 작은 아미노산 이외의 화합물에 대해 매우 유연합니다. 우주 생물학에서조차도, 핵산26의 체질 이성질체를 조사하기 위해 MOLGEN을 사용하는 유사한 최근 절차가 사용되었다. 위에서 설명한 도구 외에도 MAYGEN은 다른 오픈 소스 화학 정보학 도구와 결합하여 새로운 화학 구조를 저렴하고 광범위한 연구 분야에서 액세스 할 수 있도록 새로운 화학 구조를 만들고 분석 할 수 있습니다.
The authors have nothing to disclose.
MAY는 Carl-Zeiss-Foundation의 자금 지원을 인정합니다. 모든 수치는 마이크로소프트 엑셀을 사용하여 생성되었다.
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |