Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
단백질은 일반적으로 정렬 된 단백질 잔기의 유사성을 평가하는 데 사용되며, 유도 된 컨센서스 서열은 기능 유닛 (예를 들어, 도메인)를 식별하기 위해 사용된다. 진화에 걸쳐 및 phylogentic 트리를 통해 동시에 나타나는 경향이 잔류의 기능적 요구 공분산 – 전통 합의 건물 모델은 interpositional 의존성을 설명하지 못한다. 이러한 관계는 단백질 접힘, 내열성, 차례로 합성 단백질 공학을 알릴 수있다 관능 부위의 형성의 프로세스에 대한 중요한 단서를 밝힐 수있다. 불행히도, 이러한 관계는 본질적 간단한 "과반수 규칙"또는 HMM 기반 컨센서스 모델에 의해 예측 될 수없는 서브 모티프를 형성하고, 그 결과는 자연에만 절대 보지 없지만 덜 실용적이다 생물학적 유효 "합의"일 수있다 어떤 현존하는 단백질보다. 우리는 시각을 개발했다분명히 단백질 정렬의 대화 형 3D 표현을 생성하고 alytics 도구, StickWRLD는, 잔류 물을 covarying 표시합니다. 사용자는 이동과 확대뿐만 아니라 동적 covariants의 식별을 기초 통계 임계 값을 변경하는 기능을 갖는다. StickWRLD는 이전에 성공적으로 아데 닐 키나아제와 같은 효소 등의 표적 부위 DNA 서열의 단백질에 기능적 요구 covarying 잔기를 식별하는 데 사용되어왔다.
단백질 정렬 긴 단백질 패밀리에서 잔기의 유사성을 평가하는 데 사용되어왔다. 단백질 (예를 들어, 촉매 또는 다른 결합 부위)의 자주 가장 흥미로운 특징은 접촉 선형 서열 말단 영역을 가져 오는 단백질 폴딩의 결과, 그 결과 정렬이 명백하게 관련이없는 영역으로 진화하고 변화하는 경향 조정 된 방식. 다른 경우에, 단백질의 기능은 정전 서명에 의존 할 수 있으며, 전자 쌍극자 영향 돌연변이 먼 대전 잔기의 변경에 의해 보상된다. 알로 스테 릭 효과는 잔류 정체성 사이의 장거리 순차 및 공간 종속성을 유도 할 수있다. 에 관계없이 자신의 기원, 잔류의 이러한 기능적 요구 covariations – 간 위치 의존성 (IPDS)는 – 정렬 (그림 1)의 육안 검사와 명확하지 않을 수 있습니다. IPDS의 식별 -뿐만 아니라 현재그 위치의 특정 잔류 단위로 covary하는 경향이있는 – 단백질 접힘의 과정과 기능 사이트의 형성에 대한 중요한 단서를 공개 할 수 있습니다. 이 정보는 열 안정성 및 활성의 관점에서, 합성 (설계) 된 단백질을 최적화하는 데 사용될 수있다. 그것은 긴 컨센서스 향해 모든 점 돌연변이가 개선 된 안정성 또는 활성을 제공 할 것으로 알려져있다. 최근 단백질 점 돌연변이 3 안정화 개념과 유사한 (제조에 원고) 엄격 컨센서스 1,2-부터 설계 같은 단백질,보다 큰 활성을 초래하는 것으로 나타났다 그들의 서열에 공지 IPDS 활용하도록 설계.
불행하게도, 기존의 합의 형성의 모델은 (예를 들어, 대부분의 규칙) 만 사고로 IPDS을 캡처합니다. 합의 및 위치 별 점수 매트릭스 방법은 IPDS의 무지 만 '제대로'모델, 종속 잔류에 포함가족의 그 위치에 가장 인기있는 잔류도 있습니다. 마르코프 체인 모델은 순차적으로 근위하지만, 일반적인 구현은 즉시 순차 이웃을 제외한 모든 것을 무시하고 심지어 최고의, 숨겨진 마르코프 모델 계산 (그림 2 참조) 때 IPDS를 캡처 종속성 이상으로 순차적으로 분리 될 때 다루기 힘든 될 수 있습니다 다스 정도의 4를 배치합니다. 이 IPDS는 기본적으로 간단한 "다수결"또는 HMM 기반의 합의 모델에 의해 예측 될 수 없다 "하위 주제"을 형성하기 때문에 5, 6 결과는 자연 만 결코 볼 수없는 없지만 인 생물학적 유효하지 않은 "합의"가 될 수 이하 모든 현존하는 단백질보다 실용적. 이러한 그렘린 7 등 마르코프 랜덤 필드에 기반 시스템은, 이러한 문제를 극복하기 위해 시도한다. 이러한 비 연속 재조합 3,8 정교한 생화학 적 / 생물학적 기술은 IDE하는 데 사용할 수 있습니다 또한 동안지역별 ntify 필수 단백질 요소들은 단일 염기 쌍의 정밀도를 달성하기 위해서는 상당한 시간과 벤치의 작업이 필요합니다.
StickWRLD 9 IPDS 명확하고 이해하기 쉽게 단백질 정렬의 대화 형 3D 표현을 생성하는 파이썬 기반의 프로그램입니다. 배향의 각 위치는 각각의 열이 분야의 스택을 정렬 내의 그 위치에 존재할 수있는 20 개의 아미노산 각각에 대한 하나의 구성되어 디스플레이 열로 표현된다. 구의 크기는 사용자가 바로 컨센서스 잔기 또는 단순히 구체의 크기를보고함으로써 그 위치 내의 아미노산의 상대적 분포를 주울 수 있도록, 아미노산의 발생의 빈도에 의존한다. 각각의 위치를 나타내는 열은 실린더를 감싸된다. 이것은, 명백한 '시선'을 배향 각 위치에서 가능한 아미노산을 나타내는 모든 영역을 준다모든 다른 위치에서의 다른 모든 아미노산 가능성. 시각화하기 전에는 StickWRLD는 IPDS 9를 식별하는 잔기의 모든 가능한 조합들 사이의 상관의 강도를 계산한다. IPDS를 나타내는데, 라인에서 coevolving 않는 잔기 사이에 그려진 위치에 존재하는 잔기 (IPDS) 독립적 인 경우에 예상되는 것보다 더 높은, 또는 저급.
뿐만 아니라 시퀀스 포지션 진화 적 상호 작용이 시각화 쇼 않지만 IPD 에지 라인이 각각의 열에서 아미노산 분야 잇는 한, 사용자는 신속하게 특정 아미노산이 각 위치에서 coevolving되는 경향이 결정할 수있다. 사용자는 회전 가시화 IPD 구조를 탐색뿐만 아니라 동적 StickWRLD IPDS위한 강력한 도구를 발견하게 상관의 표시를 제어하는 통계적 임계 값을 변경하는 기능을 갖는다.
이러한 그렘린 7 simil와 같은 응용 프로그램아 흘리 잔류 사이의 복잡한 관계 정보를 표시 – 그러나 이러한 관계는 어떤 조건의 관계를 결정하기 위해 설계되지 않은 전통적인 마르코프 모델을 통해 계산된다. 이와 같이, 이러한 2 차원 투영 표시 될 수있다. 대조적으로,이 계산하고 StickWRLD 2D 그래프 (에지 흡장 알려진 현상)로 표현 될 수 있다면 난독 다중 노드 조건 의존성을 표시 할 수있다.
StickWRLD의 3D 뷰는 여러 가지 다른 이점이있다. 회전, 패닝 및 줌 – – 더 쉽게 StickWRLD의 3D 실린더에서 알 수있는 모호한 또는 2D 직관적으로 표현 될 수있다 특징 사용자가 시각을 조작 할 수 있도록하여. StickWRLD 본질적 패턴 및 경향을 볼 수있는 사람의 뇌의 패턴 인식 능력의 힘을 활용 시각적 분석 툴, 및 다양한 관점에서 데이터를 탐색하는 기능 자체가 이에 적합하다이다.
StickWRLD 성공적 RHO 의존적 터미네이터 9 아데 닐 키나제 뚜껑 도메인 (16) 내의 이러한 IPDS뿐만 아니라 연관된 DNA 염기를 식별하는 데 사용되며, 고세균의 tRNA 인트론 효소 6 표적 부위에 신규 한 접합 부위 특이되었다. 이 IPDS는 정렬의 직접적인 검사를 통해 검출되지 않았다.
StickWRLD는 각 구가 20 아미노산 잔기와 구체의 크기를 나타내는 20 "구"의 열로 정렬의 각각의 위치를 표시하는 칼럼 내의 특정 잔기의 발생 빈도 (도 4)를 나타낸다. 열은 (IPD를 나타냄) 가장자리 선이 서로 다른 열에 잔기를 연결하여, 실린더 내에 배치되어있다. 임계 값 – 해당 잔류 P 값 (유의) 및 잔류 (관찰 예상)를 모두 능가하는 주파수에서 covarying 경우 이러한 에지 라인 만 그려집니다.
DNA 또는 단백질 서열의 정렬 원위 영역에서 동시 발생하는 상호 의존적 잔기 또는 IPDS의 검출은 기준 서열 정렬 도구를 사용하여 6 어렵다. 이러한 도구를 합의, 또는 모티브 시퀀스를 생성하는 동안,이 합의는 많은 경우에 과반수 규칙 평균과 하나 이상의 하위 주제를 형성 할 수있다 공분산 관계를 전달하지 않습니다 – 공동 진화를하는 경향이 잔류의 그룹. 이웃 의존성을 검출 할 경우에도 HMM 모델, 원위 IPDS 5 수없는 정확하게 모델 서열 모티프. 그리고, 사실, 최적이 아닐 수있다 그러한 합의 계산에 기초하여 설계 단백질 – 계산 된 결과는 컨센서스 사실 자연에서 발견되지 않는 "합성"시퀀스가 될 수 있다는 것이다. 사실, ADK의 Pfam 상선은 H의 tetracysteine 모티브의 절반, 절반을 포함하는 키메라 단백질, (S)가, D, T 모티브, 기능적으로 그냥 받아 들일 수 있다고 제안어떤 실제로 기존 ADK있다. 이러한 키메라 (이러한 주제의 다른 많은 blendings)이 촉매 4,19 죽은되기 때문에 이것은 사실이 아니다.
상관 관계를 찾을 때, 그것은 임계 값이 어떤 잔여 에지들이 본 후 서서히 다시 아래 임계 램핑되고있는 레벨 이상의 임계 값을 설정함으로써 중요한 상관 관계 발견을 허용하도록 조절되는 것이 중요하다. 이것은 단지 가장 중요한 가장자리가 처음으로 간주되도록합니다.
또 다른 방법은 매우 낮게 설정 잔류 임계 값과 시작하는 것입니다. 이 모든 중요한 가장자리의 표시가 발생합니다. 여기에서 잔류 임계 천천히 패턴이 나타날 때까지 에지가 탈락 할 수 있도록 증가 될 수있다. 특정 노드들 (예를 들어, 도메인 지식의 적용)의 포함을 찾을 때이 방법은 덜 유용하지만, 그것으로 마주 StickWRLD를 사용 예기치 관계의 발견을 허용연간 분석 도구는 데이터 시각화의 새로운 패턴을 발견 할 수 있습니다.
StickWRLD는 디스플레이 장치의 해상도뿐만 아니라 실행되는 시스템의 사용 가능한 메모리에 의해 주로 제한된다. 이 StickWRLD가 검사 할 수 있습니다 데이터 포인트의 수에 이론 제한 없으며, 실제로 테스트 한 20,000 위치까지 시퀀스 동안 StickWRLD은 약 1,000 위치까지의 시퀀스에서 최적의 성능을 제공한다.
StickWRLD의 주요 장점은 서로 covary 잔기의 그룹을 식별 할 수있는 능력에있다. 이것은 간단한 통계 평균이며 공진화를 고려하지 않고 통계적 컨센서스 서열의 전통적인 접근법에 비해 상당한 장점이다. 어떤 경우에는 covarying 잔류 단순히 계통의 유물이 될 수 있지만, 이들도 잔류는 "선택의 시험"을 견뎌하고, 같은 functiona에서 손상 가능성이있는 한어떤 단백질의 품 질 문들을 포함하도록 설계.
에러의 가능성을 줄이고 기능의 신속한 최적화를 지원하는 종래 기술의 합성 변형을 표준 DNA 또는 단백질 서열의 일치 / 모티프 IPDS를 식별 StickWRLD를 사용하지만,이 StickWRLD는 일반화 된 상관 식별 도구로서 사용될 수 있음에 유의하여야하며 단백질 데이터에만 제한되는 것은 아니다. 육안 적절히 인코딩 된 데이터 세트에 어떤 변수가 나타날 때 공동 StickWRLD 발견하도록 사용될 수있다.
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |