Summary

알파 아미노산으로 입증 된 전산 화학 라이브러리의 큐레이션

Published: April 13, 2022
doi:

Summary

이 프로토콜의 목적은 오픈 소스 소프트웨어를 사용하여 소분자 구조 라이브러리를 효율적으로 생성하고 큐레이트하는 것입니다.

Abstract

분자 구조의 철저한 생성은 약물 설계, 분자 데이터베이스 구축, 대체 생화학 탐구 등과 같은 수많은 화학 및 생화학 적 응용 분야를 가지고 있습니다. 수학적으로 말하자면, 이들은 화학적 제약을 가진 그래프 생성기입니다. 이 분야에서 현재 가장 효율적인 발전기 (MOLGEN)는 상용 제품이므로 사용을 제한합니다. 이에 대한 대안으로, 또 다른 분자 구조 생성기 인 MAYGEN은 MOLGEN과 비슷한 효율성과 사용자가 새로운 기능을 추가하여 성능을 향상시킬 수있는 능력을 갖춘 최신 오픈 소스 도구입니다. 이 개발의 혜택을 누릴 수있는 연구 분야 중 하나는 우주 생물학입니다. 구조 생성기를 통해 연구원은 대체 생화학에 대한 계산 가능성으로 실험 데이터를 보완 할 수 있습니다. 이 프로토콜은 우주 생물학에서 구조 생성을위한 하나의 사용 사례, 즉 알파 아미노산 라이브러리의 생성 및 큐레이션을 자세히 설명합니다. 오픈 소스 구조 생성기 및 화학 정보학 도구를 사용하여 여기에 설명 된 관행은 모든 연구 질문에 대한 화학 구조 라이브러리의 저비용 생성 및 큐레이션을 위해 우주 생물학을 넘어 구현 될 수 있습니다.

Introduction

분자 구조 생성은 철저한 그래프 생성의 일반적인 문제의 실질적인 적용으로 작용한다; 여러 노드 (원자)와 연결성에 대한 제약 조건 (예 : 원자가, 결합 곱셈, 원하는 / 바람직하지 않은 하위 구조)이 주어지면 얼마나 많은 연결된 그래프 (분자)가 가능합니까? 구조 생성기는 약물 발견 및 제약 개발에 광범위한 응용 프로그램을 보았으며 실리코 스크리1에 대한 새로운 구조의 광대 한 라이브러리를 만들 수 있습니다.

첫 번째 구조 생성기 인 CONGEN은 유기 화학의 첫 번째 인공 지능 프로젝트 인 DENDRAL2 (DENDRitic ALgorithm의 약자)를 위해 개발되었습니다. DENDRAL의 여러 소프트웨어 후계자가 문헌에보고되었습니다. 그러나 그들 모두가 유지되거나 효율적이지는 않았습니다. 현재 MOLGEN3은 최첨단 분자 구조 생성기입니다. 불행히도 대부분의 잠재적 인 사용자에게는 폐쇄 소스이며 라이센스 비용이 필요합니다. 따라서, 특정 애플리케이션에 쉽게 적응할 수 있는 효율적인 오픈 소스 구조 생성기에 대한 필요성이 있어왔다. 효율적인 구조 생성기의 한 가지 과제는 조합 폭발을 관리하는 것입니다. 분자식의 크기가 증가함에 따라 화학 검색 공간의 크기가 기하 급수적으로 증가합니다. 최근의 리뷰는 분자 구조4 세대의 역사와 도전을 더 탐구합니다.

2021년 이전에는 PMG(Parallel Molecule Generator)5 가 가장 빠른 오픈 소스 구조 생성기였지만 여전히 MOLGEN보다 몇 배나 느렸다. MAYGEN6 은 PMG보다 약 47 배 빠르며 MOLGEN보다 약 3 배 느려서 MAYGEN을 가장 빠르고 효율적인 오픈 소스 구조 생성기로 만듭니다. 더 자세한 비교 및 벤치마킹 테스트는 MAYGEN6을 소개하는 논문에서 찾을 수 있습니다. 이 프로그램의 주요 특징은 Schreier-Sims7 알고리즘을 기반으로 한 질서 정연한 그래프 생성 방법 인 정식 구조에 대한 어휘 순서 기반 테스트입니다. 이 소프트웨어는 다른 프로젝트에 쉽게 통합되고 사용자의 요구에 맞게 향상 될 수 있습니다.

MOLGEN 및 PMG와 마찬가지로 MAYGEN은 사용자 정의 분자식을 사용하여 해당 공식에 대해 가능한 모든 구조를 생성합니다. 예를 들어, 사용자가 화학식C5H12로 MAYGEN을 실행하면, MAYGEN은 5개의 탄소 원자 및12개의 수소 원자를 포함하는 모든 가능한 구조를 생성할 것이다. 오픈 소스 대응 PMG와 달리 MAYGEN은 각 요소의 개수에 대해 이산 번호 대신 간격을 사용하는 “퍼지”분자 공식을 수용 할 수 있습니다. 예를 들어, 사용자가 화학식C5-7H 12-15로 MAYGEN을 실행하면, MAYGEN은 5 및 7 개의 탄소 원자와 열두 개 및15 개의 수소 원자를 포함하는 모든 가능한 구조를 생성하여 광범위한 원자 조성을 가진 구조를 간단하게 생성 할 수 있습니다.

천체 생물학은 분자 구조 발전기로부터 이익을 얻을 수있는 분야 중 하나입니다. 우주 생물학에서 인기있는 주제는 지구상의 모든 현존하는 생명체가 공유하는 아미노산 알파벳의 진화입니다. 마지막 보편적 공통 조상 (LUCA)의 정의 특징 중 하나는 단백질 구성 8,9에 20 개의 유전자 코딩 아미노산을 사용하는 것입니다. 10,11,12 여러 분야에서의 메타 분석에 기초하여, 이들 아미노산 중 약 10 개 (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro)는 비생물적 조건 하에서 쉽게 형성되며 LUCA 이전 유기체의 아미노산 알파벳을 구성했을 가능성이 큽니다. 시간이 지남에 따라이 “초기”알파벳은 다양한 구조적 및 기능적 요구에 따라 확장되었습니다. 예를 들어, 무스만13의 최근 리뷰는 유전적으로 코딩된 아미노산(즉, Met, Tyr 및 Trp)의 보다 최근의 구성원의 첨가가 반응성 산소 종의 세포내 증식을 방지함으로써 산소가 풍부한 환경에서 생존을 허용한다고 주장한다.

끊임없이 성장하는 분석 화학 기술 제품군은 비생물적 조건 하에서 형성 될 수있는 아미노산 구조에 대한 통찰력을 제공합니다. Simkus와 다른 사람들의 최근 리뷰 14는 초기 지구 환경 15,16,17시험관 내 시뮬레이션에서 유기 화합물뿐만 아니라 운석에서 수많은 유기 화합물을 검출하는 데 사용 된 방법을 자세히 설명합니다. 화학 구조의 체계적인 생성을 통해 연구원은 계측을 통해 검출 된 유기 화합물을 넘어 분석 화학으로 확인 된 구조적 “섬”주변의 구조적 공간을 채울 수 있습니다. “초기”아미노산의 경우,이 체계적인 구조 생성은 비생물 합성 조건 하에서 실험적으로 검출 된 구조에 대한 탐사를 제한하지 않고 초기 생활에 사용할 수있는 가능한 단백질 화학을 보여줍니다. 오픈 소스 화학 정보학 툴킷과 MAYGEN과 같은 효율적인 구조 생성기를 통해 새로운 화학 구조 라이브러리를 만들고 탐색하는 것이 그 어느 때보 다 쉬워졌으며 대체 화학 물질에 대한보다 자세한 조사를 안내 할 수 있습니다.

Protocol

참고: 프로토콜 요약은 그림 1 을 참조하고, 사용된 소프트웨어에 대한 자세한 내용은 자료 표를 참조하십시오. 그림 1: 프로토콜의 요약 순서도. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 1. 소프트웨어 및 파일 다운로드 참고: 모든 프로그램은 개별 용도로 무료이며 개인용 컴퓨터에서 실행할 수 있습니다. 이 프로젝트에 대한 새 디렉터리를 만듭니다. 쉽게 액세스 할 수 있도록 여기에 파일과 실행 파일을 배치하십시오. 필요한 소프트웨어 패키지를 다운로드하여 설치합니다. MAYGEN의 최신 버전을 .jar 파일로 다운로드합니다.참고 : MAYGEN은 .jar에서 https://github.com/MehmetAzizYirik/MAYGEN/releases 파일로 자유롭게 사용할 수 있습니다. 패키지 관리 소프트웨어 Conda와 화학정보학 툴킷 RDKit18을 다운로드하여 설치합니다.참고 : RDKit은 MAYGEN에 의해 생성 된 분자 구조를 필터링하고 콘다 환경에서 가장 잘 실행됩니다. Conda 플랫폼을 다운로드하기위한 지침은 https://conda.io/projects/conda/en/latest/user-guide/install/index.html 에서 찾을 수 있습니다. RDKit 설치 및 환경 설정 지침은 https://www.rdkit.org/docs/Install.html 에서 찾을 수 있습니다. 아나콘다 프롬프트를 통해 별도의 RDKit 환경 대신 기본 콘다 환경에 RDKit을 설치합니다. Windows 시스템에서 “Anaconda 프롬프트”를 검색하고 결과 바로 가기를 클릭하여 실행하십시오. MacOS 및 Linux 시스템에서는 추가 프로그램을 실행하지 않고 터미널을 통해 Conda와 상호 작용합니다. 그런 다음 다음 명령을 입력하고 Enter 키를 눌러 실행하고 설치 중에 나타나는 모든 질문에 예라고 대답합니다.conda install -c rdkit rdkit.자유롭게 사용할 수 있는 설명자 계산 프로그램이 많이 있지만, 이 예제에서는 분자 설명자 및 지문을 위한 무료 고속 계산기인 PaDEL-Descriptor19를 사용합니다. .jar 파일을 다운로드하여 프로젝트 폴더에 저장합니다.참고: PaDEL-설명자는 http://www.yapcwsoft.com/dd/padeldescriptor/ 에서 무료로 다운로드할 수 있습니다. 보충 파일 1-5에서 Jupyter 노트북과 하위 구조 패턴의 텍스트 파일을 다운로드하십시오.참고: Jupyter 노트북은 다음 GitHub 페이지에서도 다운로드할 수 있습니다: https://github.com/cmayerb1/AA-structure-manip 니다. 2. 메이겐을 이용한 구조 생성 명령 프롬프트에서 MAYGEN .jar 실행 파일이 들어 있는 디렉토리로 이동합니다. 관심있는 각 화학 공식에 대해 다음 명령을 사용하여 MAYGEN을 실행하십시오.java -jar [MAYGEN .jar 파일 이름] -f [화학 공식] -v -o [MAYGEN 출력 폴더] -m -sdf.참고: 이렇게 하면 .sdf 파일이 지정된 폴더에 저장되며 사용된 수식의 이름을 따서 명명됩니다. 수식이 이산 수식 대신 퍼지 수식인 경우 -f 플래그를 -fuzzy 플래그로 바꾸고 모든 요소 간격을 괄호 안에 묶습니다(예: C[5-7]H[12-15]를 사용하여 생성된 모든 구조가 5~7개의 탄소 원자와 12~15개의 수소 원자를 갖도록 보장). 3. 바람직하지 않은 하부 구조가있는 필터 화합물 Anaconda 프롬프트를 열고(1.2.2.1단계 참조) 보충 파일 1에서 다운로드한 Jupyter 노트북이 들어 있는 폴더로 이동합니다. 다음 명령을 사용하여 하위 구조 필터링을 위해 Jupyter 노트북을 엽니다.jupyter 노트북 [노트북 파일 이름] 노트북 시작 부분의 지정된 셀에 입력 .sdf 파일의 전체 파일 경로(MAYGEN에서 생성), 원하는 .sdf 출력 파일의 전체 파일 경로 및 “badlist” 파일의 파일 경로를 문자열(따옴표 이내)로 입력합니다. 잘못된 목록의 예는 보충 파일 2 를 참조하십시오. 필터링된 라이브러리 내의 일부 서브구조(goodlist)가 유지될 경우, 이들 서브구조체(goodlist)에 대한 SMARTS 패턴(20 )의 .txt 파일을 생성하고 노트북의 시작 부분에 지정된 행에 goodlist 파일 경로를 배치한다. 좋은 목록의 예는 보충 파일 3 을 참조하십시오. 노트북 커널을 다시 시작하고 모든 셀을 실행하여 (상단의 메뉴에서 커널, 다시 시작 및 모두 실행 선택) 지정된 출력 폴더에서 원하는 이름의 .sdf 파일을 가져옵니다. 2단계에서 MAYGEN에서 생성된 각 구조 파일에 대해 이전 두 단계를 반복합니다. 4. (선택 사항) 추가 구조 수정 참고: 이러한 작업은 이 예제에서 수행되지만 다른 라이브러리를 큐레이팅하는 데 필요하지 않을 수 있습니다. 의사 원자 대체.참고: 여기서 유사원자는 생성된 모든 구조물에 의해 공유되는 더 큰 하부 구조를 나타내는 데 사용되는 고유한 원자이며, 따라서 MAYGEN의 생성 시간을 감소시킨다. 유사 원자 대체의 예는 보충 파일 4 를 참조하십시오. 아나콘다 프롬프트를 열고(1.2.2.1단계 참조) Jupyter 노트북이 들어 있는 폴더로 이동합니다. 의사 원자 대체를 위해 Jupyter 노트북을 엽니 다.jupyter 노트북 [노트북 파일 이름] 노트북 시작 부분에 있는 지정된 셀에 입력 .sdf 파일의 전체 파일 경로와 원하는 .sdf 출력 파일의 전체 파일 경로를 문자열(따옴표 이내)로 입력합니다. 노트북 커널을 다시 시작하고 모든 셀을 실행하여 지정된 출력 폴더에서 원하는 이름의 .sdf 파일을 가져옵니다. 아미노산 N- 및 C-테르미니 캡핑참고: 이 절차는 알파 아미노산에만 해당되며, 알파 아미노산 골격의 N- 및 C-터미니에 분자 캡을 추가합니다. 아미노산 캡핑의 예는 보충 파일 5 를 참조하십시오. 아나콘다 프롬프트를 열고(1.2.2.1단계 참조) Jupyter 노트북이 들어 있는 폴더로 이동합니다. 아미노산 캡핑을 위해 Jupyter 노트북을 엽니다.jupyter 노트북 [노트북 파일 이름] 노트북 시작 부분에 있는 지정된 셀에 입력 .sdf 파일의 전체 파일 경로와 원하는 .sdf 출력 파일의 전체 파일 경로를 문자열(따옴표 이내)로 입력합니다. 노트북 커널을 다시 시작하고 모든 셀을 실행하여 지정된 출력 폴더에서 원하는 이름의 .sdf 파일을 가져옵니다. 5. 설명자 생성 설명자를 생성하기 전에 설명자를 계산할 모든 .sdf 파일을 단일 폴더에 배치합니다.참고: 아직 완료되지 않은 경우 설명자 생성 후 쉽게 필터링할 수 있도록 이러한 파일에 설명 이름을 지정하십시오. 명령 프롬프트를 열고 PaDEL-설명자 .jar 파일이 들어 있는 폴더로 이동합니다. 다음 명령을 사용하여 수집된 .sdf 파일에 대해 PaDEL-설명자를 실행합니다.java -jar PaDEL-Descriptor.jar -dir [.sdf 파일의 디렉토리] -file [결과를 위해 .csv 파일의 파일 경로] -2d -retainorder -usefilenameasmolname참고: 결과 파일에는 첫 번째 열의 분자 이름이 있고 후속 열의 각 설명자가 있습니다. 추가 분석을 위해 이러한 데이터를 스프레드시트 소프트웨어로 내보냅니다.

Representative Results

도서관 식 추가 제약 조건 “초기” 코딩된 아미노산 생성 시간(ms) 구조 최초의 결승전 1 글리 C2H5NO2 Gly 하위 구조 포함 글리 192 84 1 2 베일 PC0-3 H 3-9 발, 알라, 일레, 루 172 70 22 3 데스트 PC0-3O1-2 H 3-5 아스프, 글루, 세르, 스르 481 1928 254 4 프로 C2-5NO2H7-11 N-meGly 또는 N-meAla 하위 구조 포함 프로 4035 79777 16 5 VAIL_S PSC0-2H3-7 122 65 31 6 DEST_S PSC0-2O1-2H3 349 1075 79 7 Pro_S C 2-4 스노2H7-9 N-meGly 또는 N-meAla 하위 구조 포함 3999 75734 10 표 1: 이 예제에서 사용된 복합 라이브러리. 수식 1-4 (Gly, VAIL, DEST 및 Pro)로 구축 된 라이브러리는 “초기”코딩 된 아미노산21의 이전에 발표 된 퍼지 공식을 기반으로하며, 수식 5-7 (VAIL_S, DEST_S 및 Pro_S)으로 구축 된 라이브러리는 공식 2-4의 변형을 기반으로하며 탄소 원자 중 하나를 대체하는 2가 황을 상상합니다. 구조 카운트는 각 공식에 대해 MAYGEN에 의해 생성 된 분자 수 ( “초기”)와 원치 않는 하위 구조를 가진 분자를 필터링 한 후 남아있는 분자 수 ( “최종”)를 반영합니다. 약어: VAIL = 발린, 알라닌, 이소류신, 류신; DEST = 아스파르트산, 글루탐산, 세린, 트레오닌; X_S = 2가 황은 라이브러리 X의 탄소 중 하나를 대체합니다. N-meX = N-메틸X. 위의 일반적인 방법은 Meringer et al.21의 절차에 따라 “초기”코딩 된 아미노산을 기반으로 한 공식에 적용되었습니다.21 Badlist 구조는이 동일한 소스에서 가져 와서 하위 구조 패턴을 쉽게 표현하기 위해 SMARTS 문자열로 변환되었습니다. 이 예에서 두 개의 불량 목록 하위구조가 사용되지 않았다: 구조 018 (CH3-CH-N) 자체가 불안정하지 않은 프롤린의 거의 이성질체와 일치; 구조 106 (R-C-C-OH, 여기서 R = 알라닌 하부 구조가 베타 탄소에 부착됨)은 코딩 된 아미노산 인 글루탐산과 일치했습니다. 이 화학 공식에 더하여, 탄소 원자와 두 개의 수소 원자를 대신하는 2가 황을 가진 변이체가 생성되었다. 성능상의 이유로, 이들 화학식들 중 몇몇은 알라닌 하위구조체의 베타 탄소에 대한 대체물로서 삼가 인 원자 (예를 들어, “유사 원자”)를 사용한다. 표 1은 이 예에서 생성된 라이브러리, 이를 생성하기 위해 사용된 수식, 및 그 안에 포함된 화합물의 수를 열거한다. 라이브러리 이름은 그들이 파생 된 코딩 된 아미노산을 기반으로합니다 : 3 글자 약어 (Gly = 글리신, 프로 = 프롤린) 또는 단일 문자 약어 (VAIL = 발린, 알라닌, 이소류신, 류신; DEST = 아스파르트산, 글루탐산, 세린, 트레오닌). “_S” 접미사는 황이 원래 라이브러리의 화학식에서 탄소로 대체되었음을 나타냅니다(예를 들어, VAIL_S는 VAIL과 동일한 퍼지 공식으로 구축되지만 탄소 중 하나를 대체하는 2가 유황으로 구축됨). MAYGEN으로 구조체 생성 후, 생성된 라이브러리는 불량리스트에 포함된 하나 이상의 하위구조를 함유하는 화합물로 여과되었다. 이 여과 후에, 임의의 인 원자는 알라닌 하부 구조로 대체되었다. 다음으로, 모든 구조의 “캡핑된”버전이 생성되었고, 아세틸 그룹이 N 말단에 추가되고 N- 메틸 아미드 그룹이 C 말단에 첨가되었습니다. 이는 알파-아미노산 골격에서 유리 아민 및 카르복실산기의 소수성에 대한 영향을 제거하기 위해 행해졌다. PaDEL-디스크립터는 모든 캡핑된 구조물에 대한 XLogP를 계산하고 모든 캡핑되지 않은 구조물에 대해 VABC(van der Waals volume)를 계산하는 데 사용되었습니다. 도 2 는 VABC 및 XLogP 디스크립터에 의해 정의된 바와 같이 필터링된 라이브러리의 화학적 공간을 도시한다. 여기서, 가능한 logP 값의 범위는 분자 부피에 따라 증가하며, 심지어 명시적으로 친수성 측쇄(예를 들어, VAIL, Pro)가 결여된 라이브러리 내에서도 증가한다. 탄화수소 측쇄를 갖는 코딩된 아미노산은 각각의 라이브러리로부터 대등한 부피의 대부분의 다른 아미노산보다 더 소수성이었다. 이것은 또한 비슷한 볼륨을 가진 VAIL_S 라이브러리의 다른 구성원과 비교하여 Met과 Cys의 경우 인 것 같습니다. 히드록실 측쇄 (Ser 및 Thr)를 가진 코딩 된 아미노산은 DEST 라이브러리의 가장 작은 구성원 중 하나였으며 Asp는 Thr보다 약간 큽니다. 도 3 및 도 4는 2가 황이 알파-아미노산 측쇄에서 탄소를 대체할 때 부피 및 logP에 미치는 영향을 보여준다. 황 치환은 모든 라이브러리에서 분자 부피의 약간의 증가를 가져왔다 (그림 3). logP에 대한 황 치환의 효과는 부피만큼 균질하지 않다(그림 4). VAIL_S 라이브러리의 평균 logP는 VAIL 라이브러리의 평균 logP보다 약간 낮지만 다른 라이브러리 쌍 (DEST 및 DEST_S, Pro 및 Pro_S) 중 하나에서는이 효과가 나타나지 않습니다. 도 5는 공통 하위구조에 대해 서 있는 유사원자의 구조 생성에 미치는 영향을 정량화한다; 여기서, 삼가 P는 구조 생성 동안 알라닌 모이어티를 치환한다. 구조 생성에 유사 원자를 사용하면 ~ 3 차수의 크기로 생성 된 구조물의 수 (그림 5A)와 1-2 차수의 크기 (그림 5B)만큼 이러한 구조물을 생성하는 데 필요한 총 시간이 크게 감소했습니다 (그림 5B). 그림 2: 여과된 모든 아미노산 라이브러리의 화학 공간. 검정 마커는 황이 없는 라이브러리로부터의 아미노산을 나타내고; 노란색 마커는 황이 풍부한 라이브러리의 아미노산을 나타냅니다. 서클 : VAIL 및 VAIL_S; 사각형 : DEST 및 DEST_S; 삼각형: 프로와 Pro_S; 별: 코딩된 아미노산. 두 개의 황 함유 코딩 아미노산 (Met 및 Cys)은 “초기”아미노산으로 간주되지 않지만 VAIL_S 라이브러리에 존재합니다. 약어: XLogP = 파티션 계수; VAIL = 발린, 알라닌, 이소류신, 류신; DEST = 아스파르트산, 글루탐산, 세린, 트레오닌; X_S = Divalent 황이 라이브러리 X의 탄소 중 하나를 대체 합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 3: 유황이 있거나없는 라이브러리의 평균 van der Waals 볼륨 (Å3)입니다. 검은색 막대는 황이 없는 라이브러리(VAIL, DEST, Pro)의 평균 볼륨을 나타내는 반면, 노란색 막대는 해당 라이브러리의 황 대체 버전(VAIL_S, DEST_S, Pro_S)의 평균 볼륨을 나타냅니다. 오류 막대는 표준 편차를 표시합니다. 약어: VAIL = 발린, 알라닌, 이소류신, 류신; DEST = 아스파르트산, 글루탐산, 세린, 트레오닌; X_S = Divalent 황이 라이브러리 X의 탄소 중 하나를 대체합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 4: 황이 있거나 없는 라이브러리의 평균 XLogP 값. 검은색 막대는 유황이 없는 라이브러리(VAIL, DEST, Pro)를 나타내는 반면, 노란색 막대는 해당 라이브러리의 황 치환 버전(VAIL_S, DEST_S, Pro_S)을 나타냅니다. 오류 막대는 표준 편차를 표시합니다. 약어: XLogP = 파티션 계수; VAIL = 발린, 알라닌, 이소류신, 류신; DEST = 아스파르트산, 글루탐산, 세린, 트레오닌; X_S = Divalent 황이 라이브러리 X의 탄소 중 하나를 대체 합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 5: MAYGEN 구조 생성에 대한 3가 유사원자의 영향. 모든 테스트는 2.8GHz의 Intel i7-7700HQ 프로세서, 16GB RAM, 파일에 대한 저장 구조 없음, 멀티 스레딩을 사용하는 -m 옵션이 장착된 PC에서 수행되었습니다. 유사원자를 사용한 시험은 표 1에 기재된 바와 같이 퍼지 공식을 사용하였다. 유사원자가 없는 시험의 경우, 사용된 퍼지 공식은 하기 변경과 함께 표 1 에 기재된 바와 동일하였다: P는 N으로 대체되었다; 탄소 수는 3만큼 증가했다. 수소 카운트는 7만큼 증가했다; 산소 카운트는 2만큼 증가하였다. 검은 색 막대는 의사 원자로 생성 된 라이브러리를 보여줍니다. 회색 막대는 의사 원자없이 생성 된 라이브러리를 보여줍니다. (a) 알라닌 하위구조를 대체하는 삼가 인 유무에 관계없이 VAIL 및 DEST 라이브러리를 구축하는데 사용된 퍼지 공식을 사용하여 생성된 구조물의 수. (B) 알라닌 하부 구조를 대체하는 삼가 인의 유무에 관계없이 VAIL 및 DEST 라이브러리를 구축하는 데 필요한 시간 (ms)입니다. 약어: VAIL = 발린, 알라닌, 이소류신, 류신; DEST = 아스파르트산, 글루탐산, 세린, 트레오닌. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 보충 파일 1 : 하부 구조 스크리닝 노트북. 이 파일을 다운로드하려면 여기를 클릭하십시오. 보충 파일 2 : 샘플 불량 목록. 이 파일을 다운로드하려면 여기를 클릭하십시오. 보충 파일 3 : 샘플 좋은 목록. 이 파일을 다운로드하려면 여기를 클릭하십시오. 보충 파일 4 : 의사 원자 교체 노트북. 이 파일을 다운로드하려면 여기를 클릭하십시오. 보충 파일 5 : 아미노산 캡핑 노트북. 이 파일을 다운로드하려면 여기를 클릭하십시오.

Discussion

“초기”아미노산의 한 가지 특징은 유황이 부족하다는 것입니다. 앞서 언급한 메타-분석은 일반적으로 황 함유 코딩된 아미노산(Cys 및 Met)이 유전자 암호에 비교적 늦게 첨가된 것으로 간주하며, 운석 및 스파크 튜브 실험에서 황 함유 아미노산의 부족에 의해 뒷받침되는 결론이다. 그러나, 유기 황 화합물은 혜성 및 운석 22에서 쉽게 검출되고,H2 S 가스를 이용한 스파크 튜브 실험의 재분석은16을 함유하는 아미노산 및 기타 유기 화합물을 발견하였다. 대체 아미노산 알파벳을 고려할 때, 유황이 풍부한 알파벳은 탐구 할 가치가 있습니다.

위의 프로토콜에서, 구조 생성 및 하부 구조 필터링은 중요한 단계로 간주됩니다; 완성 된 구조 라이브러리의 구성에 따라 연구원은이 두 단계 만 수행하면됩니다. 추가 조치(유사원자 치환 및 하위구조의 추가(이 경우, 아미노산 캡핑))를 위한 지침 및 소프트웨어는 보다 관련성이 높은 디스크립터 계산(캡핑은 XLogP 계산이 백본 아민 또는 카르복실기가 아닌 측쇄에 의해 영향을 받도록 보장함) 및 유사원자의 사용을 통한 더 빠른 구조 생성을 위해 포함되며, 이는 아래에서 더 상세히 논의된다. 또한 설명자 계산은 생성 된 구조의 다양성을 시각화하고 완성 된 라이브러리에서 황 농축의 효과를 비교하는 쉬운 방법으로 여기에서 수행됩니다.

PaDEL-Descriptor는 수천 개의 분자 특성을 계산할 수 있지만 분자 부피 (계산 된 van der Waals 부피)와 분할 계수 (XLogP)는 두 가지 뚜렷한 이유로 여기에 사용되었습니다. 첫째,이 두 설명자는 대부분의 화학자와 생물 학자들에게 익숙한 분자 특성 (각각 크기와 소수성)을 측정합니다. 둘째, 아미노산의 경우,이 두 가지 특성이 중요합니다. 수십 년 동안 아미노산 크기와 소수성은 단백질 폴딩23의 열역학에 영향을 미치는 것으로 알려져 있었다. 이 두 가지 특성은 단백질 진화24를 이해하는 데 필수적인 아미노산 치환 빈도를 설명하는 데 도움이됩니다.

위의 예는, 연구된 두 개의 디스크립터(분자 부피 및 소수성)에서, 탄소와 두 개의 수소에 대해 2가 황을 대체하는 것은 유의한 변화를 일으키지 않는다는 것을 보여준다. 황 치환으로 인한 평균 분자 부피의 약간의, 유의하지 않은 증가(그림 3)는 sp3(~75 pm) 또는sp2(~73 pm) 탄소25에 비해 황의 공유 반경(~103 pm)이 더 크기 때문일 수 있다. 유사하게, 황 치환은 평균 XLogP에 대한 최소한의 효과를 갖는다(그림 4). 가장 큰 효과는 VAIL과 VAIL_S 라이브러리 사이에 있었는데, VAIL 라이브러리가 특히 소수성 (측쇄는 탄화수소 일 뿐임)과 설프 히드릴 그룹이 대체 할 메틸 그룹보다 훨씬 산성이기 때문일 가능성이 큽니다. 황 치환의 최소 효과는 황 치환이 있는 라이브러리가 황 치환 없이 유사한 라이브러리와 동일한 화학 공간을 차지하는 그림 2에서 명백합니다.

유사원자를 사용할 때 구조물의 수(도 5A)와 이러한 구조물을 생성하는 데 필요한 시간(도 5B)의 감소는 놀라운 일이 아니다. 유사 원자를 사용하면 화학 그래프에 통합해야하는 무거운 원자의 수가 줄어들어 그래프 노드 수가 줄어들고 생성 시간과 구조 수가 기하 급수적으로 감소합니다. 여기서, 의사 원자로서의 삼가 인의 선택은 기본적인 생화학 (인산염 기의 번역 후 첨가가 없음, 유 전적으로 코딩 된 아미노산에 인을 함유하지 않음)과 그것을 대체 할 원자의 원자가 (삼가 인은 다른 원자 또는 원자 그룹에 단독으로 결합되는 4가 탄소로 쉽게 대체 될 수 있음)에서 비롯됩니다. 의사 원자 치환을위한 제공된 코드는 삼가 인을 알라닌 하부 구조로 대체하는 데 특정적이지만, 사용자는 초기 구조 생성 중에 여러 의사 원자를 잠재적으로 사용하고 각 의사 원자를 더 큰 분자 하위 구조로 대체하여 다른 의사 원자 또는 대체 하위 구조로 작동하도록 코드를 사용자 정의 할 수 있습니다.

MAYGEN에 의해 채용된 것과 유사한 구조 생성 방법(및 신경망과 같은 다른 방법)은 실리코 스크리 닝을 위한 화합물 라이브러리를 생성하기 위해 약물 발견에 이미 사용되고 있다; 최근 리뷰4에서는 이러한 방법에 대해 더 자세히 설명합니다. 이러한 방법은 주로 약물 유사 분자의 생성을 위한 것이므로 생물학적 또는 약학적 특성을 사용하여 생성된 구조(역 QSPR/QSAR)를 제한하거나 미리 설정된 수의 하위 구조 빌딩 블록에서 구조를 만드는 것과 같이 분자를 생성하는 능력에는 몇 가지 제한이 있습니다. 우주 생물학이 비공식적으로 형성 될 수있는 수많은 유기 화합물에 더 초점을 맞추고 최종 제품이나 그 특성에 덜 초점을 맞추기 때문에 MAYGEN의 철저한 구조 생성은 천체 생물학적 질문을 해결하기위한 구조 라이브러리를 만드는 데 이상적입니다. 여기에 설명된 하위구조 필터링에 대한 접근법(외부 프로그램을 통한 구조 생성 후 수행됨)은 MOLGEN의 하부 구조 필터링이 구조 생성 중에 발생한다는 점에서 경쟁사 프로그램 MOLGEN과 다릅니다. MAYGEN은 오픈 소스이기 때문에 MOLGEN의 라이센스 비용으로 인해 MOLGEN보다 더 쉽게 액세스 할 수있을뿐만 아니라 개인은 구조 생성 중에 하위 구조 필터링과 같은 새로운 기능을 구현할 수 있습니다.

쓰여진 바와 같이, 여기에 설명된 프로토콜은 비교적 작은 알파-아미노산의 라이브러리를 생성하고 큐레이팅하는 데 초점을 맞추고 있다. 다른 라이브러리를 생성하기 위해 사용자는 MAYGEN에 다른 분자 공식을 제공하거나, 허용되는 최대 링 크기 및 결합 원자가를 변경하여 하위 구조 필터링을 변경하거나, goodlist 및 badlist 파일을 편집하여 하위 구조 패턴을 추가 또는 제거 할 수 있습니다. 원자와 하위 구조가 추가되거나 대체되는 방식을 변경하는 것을 포함하는 프로토콜 수정 (의사 원자 치환 및 분자 캡핑)은 실현 가능하지만 수정 된 구조의 잘못된 원자가에 대한 RDKit 오류를 피하기 위해 원자가 제한에 더 많은주의가 필요합니다.

위에 설명 된 프로토콜은 작은 알파 아미노산을 위해 설계되었습니다. 그러나 일반적인 형식 (유사 원자를 사용한 포괄적 인 구조 생성, 하위 구조 필터링 및 분자 변형)은 작은 아미노산 이외의 화합물에 대해 매우 유연합니다. 우주 생물학에서조차도, 핵산26의 체질 이성질체를 조사하기 위해 MOLGEN을 사용하는 유사한 최근 절차가 사용되었다. 위에서 설명한 도구 외에도 MAYGEN은 다른 오픈 소스 화학 정보학 도구와 결합하여 새로운 화학 구조를 저렴하고 광범위한 연구 분야에서 액세스 할 수 있도록 새로운 화학 구조를 만들고 분석 할 수 있습니다.

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

MAY는 Carl-Zeiss-Foundation의 자금 지원을 인정합니다. 모든 수치는 마이크로소프트 엑셀을 사용하여 생성되었다.

Materials

conda v. 4.10.3 https://www.anaconda.com/products/individual
Java 17 https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8 https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21 http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11 included in Anaconda environment
RDKit v. 2020.09.1.0 https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

Referenzen

  1. Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -. L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
  2. Buchanan, B. G., Feigenbaum, E. A., Webber, B. L., Nilsson, N. J. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. , 313-322 (1981).
  3. Gugisch, R., Basak, S. C., Restrepo, G., Villaveces, J. L., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. , 113-138 (2015).
  4. Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
  5. Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
  6. Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
  7. Sims, C. C., Leech, J. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. , 169-183 (1970).
  8. Mat, W. -. K., Xue, H., Wong, J. T. -. F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
  9. Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
  10. Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
  11. Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
  12. Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
  13. Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
  14. Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
  15. Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
  16. Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
  17. Bada, J. L. New insights into prebiotic chemistry from Stanley Miller’s spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
  18. Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
  19. SMARTS – A language for describing molecular patterns. Daylight Chemical Information Systems, Inc Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019)
  20. Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
  21. Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
  22. Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
  23. Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
  24. Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
  25. Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Play Video

Diesen Artikel zitieren
Mayer-Bacon, C., Yirik, M. A. Curation of Computational Chemical Libraries Demonstrated with Alpha-Amino Acids. J. Vis. Exp. (182), e63632, doi:10.3791/63632 (2022).

View Video