Summary

합성 단백질의 최적화 : Interpositional 종속 관계 확인이 구조적으로 표시 및 / 또는 기능적으로 연결된 잔류

Published: July 14, 2015
doi:

Summary

Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.

Abstract

단백질은 일반적으로 정렬 된 단백질 잔기의 유사성을 평가하는 데 사용되며, 유도 된 컨센서스 서열은 기능 유닛 (예를 들어, 도메인)를 식별하기 위해 사용된다. 진화에 걸쳐 및 phylogentic 트리를 통해 동시에 나타나는 경향이 잔류의 기능적 요구 공분산 – 전통 합의 건물 모델은 interpositional 의존성을 설명하지 못한다. 이러한 관계는 단백질 접힘, 내열성, 차례로 합성 단백질 공학을 알릴 수있다 관능 부위의 형성의 프로세스에 대한 중요한 단서를 밝힐 수있다. 불행히도, 이러한 관계는 본질적 간단한 "과반수 규칙"또는 HMM 기반 컨센서스 모델에 의해 예측 될 수없는 서브 모티프를 형성하고, 그 결과는 자연에만 절대 보지 없지만 덜 실용적이다 생물학적 유효 "합의"일 수있다 어떤 현존하는 단백질보다. 우리는 시각을 개발했다분명히 단백질 정렬의 대화 형 3D 표현을 생성하고 alytics 도구, StickWRLD는, 잔류 물을 covarying 표시합니다. 사용자는 이동과 확대뿐만 아니라 동적 covariants의 식별을 기초 통계 임계 값을 변경하는 기능을 갖는다. StickWRLD는 이전에 성공적으로 아데 닐 키나아제와 같은 효소 등의 표적 부위 DNA 서열의 단백질에 기능적 요구 covarying 잔기를 식별하는 데 사용되어왔다.

Introduction

단백질 정렬 긴 단백질 패밀리에서 잔기의 유사성을 평가하는 데 사용되어왔다. 단백질 (예를 들어, 촉매 또는 다른 결합 부위)의 자주 가장 흥미로운 특징은 접촉 선형 서열 말단 영역을 가져 오는 단백질 폴딩의 결과, 그 결과 정렬이 명백하게 관련이없는 영역으로 진화하고 변화하는 경향 조정 된 방식. 다른 경우에, 단백질의 기능은 정전 서명에 의존 할 수 있으며, 전자 쌍극자 영향 돌연변이 먼 대전 잔기의 변경에 의해 보상된다. 알로 스테 릭 효과는 잔류 정체성 사이의 장거리 순차 및 공간 종속성을 유도 할 수있다. 에 관계없이 자신의 기원, 잔류의 이러한 기능적 요구 covariations – 간 위치 의존성 (IPDS)는 – 정렬 (그림 1)의 육안 검사와 명확하지 않을 수 있습니다. IPDS의 식별 -뿐만 아니라 현재그 위치의 특정 잔류 단위로 covary하는 경향이있는 – 단백질 접힘의 과정과 기능 사이트의 형성에 대한 중요한 단서를 공개 할 수 있습니다. 이 정보는 열 안정성 및 활성의 관점에서, 합성 (설계) 된 단백질을 최적화하는 데 사용될 수있다. 그것은 긴 컨센서스 향해 모든 점 돌연변이가 개선 된 안정성 또는 활성을 제공 할 것으로 알려져있다. 최근 단백질 점 돌연변이 3 안정화 개념과 유사한 (제조에 원고) 엄격 컨센서스 1,2-부터 설계 같은 단백질,보다 큰 활성을 초래하는 것으로 나타났다 그들의 서열에 공지 IPDS 활용하도록 설계.

불행하게도, 기존의 합의 형성의 모델은 (예를 들어, 대부분의 규칙) 만 사고로 IPDS을 캡처합니다. 합의 및 위치 별 점수 매트릭스 방법은 IPDS의 무지 만 '제대로'모델, 종속 잔류에 포함가족의 그 위치에 가장 인기있는 잔류도 있습니다. 마르코프 체인 모델은 순차적으로 근위하지만, 일반적인 구현은 즉시 순차 이웃을 제외한 모든 것을 무시하고 심지어 최고의, 숨겨진 마르코프 모델 계산 (그림 2 참조) 때 IPDS를 캡처 종속성 이상으로 순차적으로 분리 될 때 다루기 힘든 될 수 있습니다 다스 정도의 4를 배치합니다. 이 IPDS는 기본적으로 간단한 "다수결"또는 HMM 기반의 합의 모델에 의해 예측 될 수 없다 "하위 주제"을 형성하기 때문에 5, 6 결과는 자연 만 결코 볼 수없는 없지만 인 생물학적 유효하지 않은 "합의"가 될 수 이하 모든 현존하는 단백질보다 실용적. 이러한 그렘린 7 등 마르코프 랜덤 필드에 기반 시스템은, 이러한 문제를 극복하기 위해 시도한다. 이러한 비 연속 재조합 3,8 정교한 생화학 적 / 생물학적 기술은 IDE하는 데 사용할 수 있습니다 또한 동안지역별 ntify 필수 단백질 요소들은 단일 염기 쌍의 정밀도를 달성하기 위해서는 상당한 시간과 벤치의 작업이 필요합니다.

StickWRLD 9 IPDS 명확하고 이해하기 쉽게 단백질 정렬의 대화 형 3D 표현을 생성하는 파이썬 기반의 프로그램입니다. 배향의 각 위치는 각각의 열이 분야의 스택을 정렬 내의 그 위치에 존재할 수있는 20 개의 아미노산 각각에 대한 하나의 구성되어 디스플레이 열로 표현된다. 구의 크기는 사용자가 바로 컨센서스 잔기 또는 단순히 구체의 크기를보고함으로써 그 위치 내의 아미노산의 상대적 분포를 주울 수 있도록, 아미노산의 발생의 빈도에 의​​존한다. 각각의 위치를​​ 나타내는 열은 실린더를 감싸된다. 이것은, 명백한 '시선'을 배향 각 위치에서 가능한 아미노산을 나타내는 모든 영역을 준다모든 다른 위치에서의 다른 모든 아미노산 가능성. 시각화하기 전에는 StickWRLD는 IPDS 9를 식별하는 잔기의 모든 가능한 조합들 사이의 상관의 강도를 계산한다. IPDS를 나타내는데, 라인에서 coevolving 않는 잔기 사이에 그려진 위치에 존재하는 잔기 (IPDS) 독립적 인 경우에 예상되는 것보다 더 높은, 또는 저급.

뿐만 아니라 시퀀스 포지션 진화 적 상호 작용이 시각화 쇼 않지만 IPD 에지 라인이 각각의 열에서 아미노산 분야 잇는 한, 사용자는 신속하게 특정 아미노산이 각 위치에서 coevolving되는 경향이 결정할 수있다. 사용자는 회전 가시화 IPD 구조를 탐색뿐만 아니라 동적 StickWRLD IPDS위한 강력한 도구를 발견하게 상관의 표시를 제어하는​​ 통계적 임계 값을 변경하는 기능을 갖는다.

이러한 그렘린 7 simil와 같은 응용 프로그램아 흘리 잔류 사이의 복잡한 관계 정보를 표시 – 그러나 이러한 관계는 어떤 조건의 관계를 결정하기 위해 설계되지 않은 전통적인 마르코프 모델을 통해 계산된다. 이와 같이, 이러한 2 차원 투영 표시 될 수있다. 대조적으로,이 계산하고 StickWRLD 2D 그래프 (에지 흡장 알려진 현상​​)로 표현 될 수 있다면 난독 다중 노드 조건 의존성을 표시 할 수있다.

StickWRLD의 3D 뷰는 여러 가지 다른 이점이있다. 회전, 패닝 및 줌 – – 더 쉽게 StickWRLD의 3D 실린더에서 알 수있는 모호한 또는 2D 직관적으로 표현 될 수있다 특징 사용자가 시각을 조작 할 수 있도록하여. StickWRLD 본질적 패턴 및 경향을 볼 수있는 사람의 뇌의 패턴 인식 능력의 힘을 활용 시각적 분석 툴, 및 다양한 관점에서 데이터를 탐색하는 기능 자체가 이에 적합하다이다.

Protocol

1. 소프트웨어 다운로드 및 설치 컴퓨터의 RAM 최소 4GB와 인텔의 i5 또는 더 나은 프로세서를 가지고 있으며, 맥 OS X 또는 GNU / 리눅스 (예를 들어, 우분투) 운영 체제를 실행합니다. 또한, 파이썬 2.7.6 (10)과 wxPython을 2.8 (11), SciPy (12), 및 PyOpenGL 13 파이썬 라이브러리가 필요합니다 – 다운로드 및 해당 저장소에서 각을 설치합니다. 다운로드 StickWRLD을 관련 파이썬 스크립트가 모두 포함 된 zip. StickWRLD 형식으로 표준 FASTA DNA / 단백질 서열 정렬을 변환하는 "fasta2stick.sh"스크립트를 다운로드합니다. 아카이브를 추출하고 바탕 화면에 생성 된 StickWRLD 폴더를 넣어. 뿐만 아니라 바탕 화면에 "fasta2stick.sh"스크립트를 놓습니다. 2. 정렬을 준비 어떤 스탠 사용 단백질 서열의 정렬을 만들기바 닥 정렬 소프트웨어 (예를 들어, ClustalX와 14). FASTA 형식의 바탕 화면에 정렬을 저장합니다. Mac 또는 GNU / 리눅스 컴퓨터에서 터미널 응용 프로그램을 열고 CD ~ / 데스크톱을 입력하고 수익을 눌러 바탕 화면 ( "fasta2stick.sh"쉘 스크립트의 위치)로 이동합니다. 단말기에 ./fasta2stick.sh 입력하여 "fasta2stick.sh"스크립트를 실행합니다. 스크립트가 실행되지 않는 경우, 실행 파일인지 확인 – + x는 스크립트를 실행하기 위해 fasta2stick.sh 터미널 유형 chmod를합니다. 입력 파일 이름 (위의 1.2에서 만든 파일)과 원하는 출력 이름을 지정하는 스크립트가 제공하는 화면상의 지침을 따르십시오. 바탕 화면에 (StickWRLD에 대한 올바른 형식으로 지금) 출력 파일을 저장합니다. 3. StickWRLD을 시작 터미널 APPLIC를 사용하여 폴더 StickWRLD 실행으로 이동Mac 또는 GNU / 리눅스 컴퓨터의 ATION. 예를 들어, StickWRLD 폴더는 터미널에서 바탕 화면에서 cd ~ / 데스크탑 / StickWRLD / 간부에있는 경우. 터미널에서 파이썬-32 stickwrld_demo.py을 입력하여 StickWRLD를 시작합니다. StickWRLD 데이터 로더 패널은 화면 (그림 3)에서 볼 수 있는지 확인합니다. 4.로드 데이터 "로드 단백질 …"버튼을 눌러 변환 된 단백질의 서열 정렬을로드. 위의 3 단계를 눌러 "열기"에서 만든 파일을 선택합니다. (그림 5) – StickWRLD는 "StickWRLD 제어"(그림 4)와 "OpenGL을 StickWRLD"를 포함하여 여러 가지 새로운 창을 열 것입니다. "- OpenGL을 StickWRLD"창을 선택합니다. "위에서 아래 기본 StickWRLD 시각화를 표시하기 위해"OpenGL은 "메뉴에서"보기 재설정 "을 선택크기 조정 OpenGL은 윈도우의 데이터를 나타내는 실린더를 통해 "보기 .. 5.보기 옵션 열 및 공에 대한 값을 표시하기 위해 "StickWRLD 컨트롤"창 (그림 4)에 "열 레이블"과 "공 레이블"에 대한 상자를 선택합니다. 열 가장자리 라인을 숨기려면 "StickWRLD 제어"창에서 "열 가장자리"에 대한 상자의 선택을 취소합니다. 쉽게 3D 뷰를 탐색하고, 열을 통해 얇은 선을 그립니다 "StickWRLD 제어"창에서 0.1 "열 두께"를 설정합니다. Enter를 눌러 변경 사항을 적용 돌아갑니다. 다음 뷰를 극대화 할 수있는 "전체 화면"버튼을 누르면, 위의 단계 5.3에서와 같이 창 – "OpenGL을 StickWRLD"에서보기를 재설정합니다. 6. 탐색 마우스 왼쪽 버튼 WHI를 누른 3D StickWRLD 디스플레이를 회전제작은 어떤 방향으로 마우스를 이동. 위 또는 아래로 마우스를 이동하는 동안 마우스 오른쪽 버튼을 누른 상태로 3D StickWRLD 표시를 확대합니다. 7. 찾기 Interpositional 종속성 (IPDS) 패닝 및도 6에 도시 된 바와 같이 에지 라인을 통해 연결되어 모두 p 및 잔여의 임계 요건을 초과하는 6 단계 Coevolving 잔기에 기재된 바와 같이 확대하여 볼을 찾아. 잔기를 연결 너무 많거나 너무 적은 에지가있는 경우, 잔류 변경 ( "StickWRLD 제어"창) 임계 값은 적게, 또는 그 이상의 가장자리를 표시합니다. 더 IPD 에지 라인이 표시되지 않을 때까지 StickWRLD 제어 창에 잔류 임계 값을 높이고 관계가 나타날 때까지 천천히 램프. 당신이 검사 할 관계의 충분한 수있을 때까지 잔류를 증가 계속합니다. 주제 내에서, 예를 들어 알려져 관심 (중 잔류 물을 포함 관계를 확인하거나 / 재미를 결합ctional 사이트) 또는 정렬 내에 서로 말단 잔기이다 ()가 접힌 단백질 근위임을 시사 8. 선택 및 저장 조사 결과 관심의 가장자리에 명령 + 왼쪽 클릭을 사용. (그림 7) StickWRLD 제어 창에 "| | (136 H) (G 124)", 예를 들어, 열을 표시하고 특정 잔류 물을 연결합니다. 실선은 긍정적 인 연결을 나타냅니다; 점선은 음의 연결을 나타냅니다. 일반 텍스트 형식의 파일을 저장하기 위해 "StickWRLD 제어"패널에서 "출력의 가장자리"버튼을 누릅니다 (edge_residual.csv)에 가입 잔류하고 그 잔여 값을 포함 보이는 가장자리, 모두의 / StickWRLD / 임원에 / 디렉토리.

Representative Results

StickWRLD은 모두 DNA 3, 단백질 15 ~ 17 정렬에 잔류 사이 interpositional 의존성 (IPDS)을 검출하기 위해 이전에 사용되었다. 이러한 공동 발전 잔기, 서열 정렬에 서로 종종 말단 동안 종종 단백질 접힘으로 서로 인접하다. StickWRLD는 이러한 부위에서 특정 잔기 동시 발생의 신속한 검색을 가능 예., 위치의 알라닌이 "X"강하게 "Y"위치 트레오닌 상관된다. 이러한 상관 관계는 증명 구조적 관계를 나타낼 수 있고, 일반적으로 필요에 의해, 공동 진화 사이트이다. StickWRLD 더 "전통적인"는 주제 실패 설명하기 위해 HMM에를 사용하여 접근 할 때조차 이러한 관계를 검출 할 수있다. 예를 들어, StickWRLD를 사용 ADK 뚜껑 도메인 PFAM 정렬 분석 4 위치에서 시스테인 (C) 및 (8) 및 조정 간의 강한 양의 상관 관계를 보여준다동시에, 위치 35 및 38에서 C의 쌍 StickWRLD 4, 이들과 C 중주 간의 강한 음의 관계를,도 4 및도 8에 히스티딘 (H) 및 세린 (S) 사이에 유사한 강한 양 (+)의 상관 관계를 보여 주었다 8, 35 및 38, 각각 아스파르트 산 (D) 및 위치 35에 트레오닌 (T) 및 (38)와 강한 양의 관계. 추가 IPDS이 IPDS의 조건 특성을 강조 **** B 서브 틸리에 위치 **** 10, 29에서 H, S, D, T 모티브 T와 G 사이에 존재 – tetracysteine​​ 모티브는 '관리'를하지 않습니다 이 두 위치에서 정체성에 대해 친수성 ​​(H) 동안, S를, D는 T 트라이어드는 거의 절대적으로이 위치에서 특정 잔류 물을 필요로한다. 이 두 개의 완전히 다른 위치에 의존 잔류 모티브는 같은 역할을 ADK 뚜껑을 수행 할 수 있습니다. 위치 (132), Y 위치 135 (티로신), 및 P (proli에서 G (글리신) 사이에 3 노드를 포함 연관도 6, IPDS의 큰 클러스터에서 알 수있는 바와 같이NE) 위치 (141)에서) 전경 (그림 6A에 표시됩니다. 그림 6의 (b)에,보기는 위치 (136) 및 위치 (29)에서 M (메티오닌), (107) 잔류 먼에서 H (히스티딘) 사이의 IPD를 공개, 약간 실린더 위의 사용자의 위치를 왜곡하고있다. 같은 도메인 (그림 2)의 PFAM 상선 파생 모티브 한편, 구체적으로 공동 발생하는 모티브의 변형이 검색하지 않습니다뿐만 아니라, 생물학적으로 지원되지 않는 방식 (16)에 전체 그룹을 정의합니다. B의 그림 1. "지하철 노선도"표현 서브 틸리 아데노신 키나아제 (ADK) 뚜껑 도메인 구조. 화살표 StickWRLD로 ADK 뚜껑 도메인의 PFAM 정렬에서 확인 IPDS를 나타냅니다. StickWRLD 올바르게 클러스터 내에 O IPDS를 식별 할 수있다접힌 단백질에 가까운 위치에 F 잔류. 특히 관심 4, 7, 24, 27 잔기의 테트라이 아닌 C C, C, C) 경우에만 IPD 형성 위치 (9) 및 (29)에서 T 및 G 쌍이다. 잔류 번호 표시는 B를 나타냅니다 서브 틸리 위치하지 PFAM 정렬 위치. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. HMM에가 전체 모델에 각 사이트의 기여뿐만 아니라 각각의 위치에서 확률을 결정하기위한 강력한 도구가 있지만 ADK 뚜껑 도메인에 대한 그림 2. Skylign 18 숨겨진 마르코프 모델 (HMM) 순서 로고., HMM에의 위치 독립성을 만든다 IPDS 검출 부적합. 이 모델 중 하나를 제시하지 않는다StickWRLD 표현 (그림 6)에서 볼 수 의존성. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 3. StickWRLD 데이터 로더. 사용자는 기존의 데모 데이터에서 선택하거나 DNA 또는 단백질 서열 정렬의 형태로 자신의 데이터를로드 할 수 있습니다. 도 4는 StickWRLD 제어 창. 상기 제어 패널은 사용자가 다양한 뷰 속성을 변경할뿐만 아니라 잔기 (IPDS) 사이의 관계를 나타내는 에지 라인의 디스플레이를 제어 임계 값을 조절할 수있다. 일반적으로 T를 필요로하는 기본값은 빨간색에 동그라미 O 어떤 데이터 세트의 가장 좋은 볼을 조정할 수. 잔존 가치는 커넥터 / 연결 라인이 그려있는 (예상 관찰)의 임계 값을 설정합니다. 열 및 공 레이블 컨트롤은 열 위치 및 잔류 값 (예를 들어, 아르기닌은 "")가 표시되는지 여부를 제어합니다. 에과 열을 연결하는 에지 선의 표시 오프 열 에지 라인 제어 토글 – 조밀 한 데이터 세트는이 더 꺼진다. 표시되는 열 두께 제어 열 자체 여부 -. 매우 작은 값으로 설정하면 (예를 들면, 0.1) 쉽게 서로 열을 구별하고, 열에서 구를 통해 선을 그릴 것입니다 여기를 클릭하십시오 이 그림의 더 큰 버전을 볼 수 있습니다. ghres.jpg "폭 ="600 "/> 로드 아데 닐 리드 키나제 도메인 단백질 데이터 세트 StickWRLD OpenGL은 윈도우도 5 초기 도면. 초기 관점 서열 정렬 위치로 이루어진 실린더 통해 "다운"보인다. 사용자는 마우스 왼쪽 버튼으로 클릭 드래그를 사용하여 실린더를 회전하고, 사용에 확대 / 축소 할 수 있습니다 마우스 오른쪽을 클릭 – 드래그. 기본 디스플레이가 공동 진화의 아주 작은 비율을 보여주기 때문에 초기보기는 매우 조밀하다. 많은 단백질이 설정에서, 별개의 모듈은, 그러나 심지어 밀도가 공동 발전하는 디스플레이가 신속하고 대화 형 StickWRLD 인터페이스를 사용하여 가장 중요한 IPDS을 찾기 위해 단순화 할 수있다 단백질을. 검출 할 수 의 더 큰 버전을 보려면 여기를 클릭하십시오 이 그림. ghres.jpg "폭 ="700 "/> 그림 6. 아데 닐 키나제 뚜껑 도메인 단백질의 StickWRLD 시각화의 근접 촬영보기. 여기에서 우리는 0.2 잔류 기본값을 변경했습니다. 이는 적은 수의 가장자리를 보여주는, 간 잔류 물 가장자리의 표시에 대한 임계 값을 증가시킨다. 남아 가장자리가 강하게 관련 IPDS를 나타냅니다. 또한보기는 회전과 가장자리의 쉽게 볼 수 있도록 확대되었다. (A) IPDS의 큰 클러스터는 위치 132에서 G (글리신) 사이에 3 노드 연관을 포함한 전면에 표시하고, 위치 141 (B)에서의 Y 위치 135 (티로신), 및 P (프롤린) 보기는 29, 107 잔류 먼 위치에 위치 (136)와 M (메티오닌)에서 H (히스티딘) 사이의 IPD를 공개, 약간 실린더 위의 사용자의 위치를 왜곡하고있다. 이의 더 큰 버전을 보려면 여기를 클릭하십시오 그림. 그림 7. StickWRLD 제어 창 오른쪽 아래 정보를 볼 수 있습니다. OpenGL의 창에서 개체 (예를 들어, 영역 또는 가장자리)에 Ctrl + 왼쪽 클릭하면 StickWLRD 제어 창의 오른쪽 아래에있는 개체에 대한 정보를 표시합니다. 여기에서 우리는 위치 29에서 메티오닌 사이의 IPD 에지에 대한 정보와 위치 (136)에서 히스티딘을 참조하십시오.

Discussion

StickWRLD 성공적 RHO 의존적 터미네이터 9 아데 닐 키나제 뚜껑 도메인 (16) 내의 이러한 IPDS뿐만 아니라 연관된 DNA 염기를 식별하는 데 사용되며, 고세균의 tRNA 인트론 효소 6 표적 부위에 신규 한 접합 부위 특이되었다. 이 IPDS는 정렬의 직접적인 검사를 통해 검출되지 않았다.

StickWRLD는 각 구가 20 아미노산 잔기와 구체의 크기를 나타내는 20 "구"의 열로 정렬의 각각의 위치를 표시하는 칼럼 내의 특정 잔기의 발생 빈도 (도 4)를 나타낸다. 열은 (IPD를 나타냄) 가장자리 선이 서로 다른 열에 잔기를 연결하여, 실린더 내에 배치되어있다. 임계 값 – 해당 잔류 P 값 (유의) 및 잔류 (관찰 예상)를 모두 능가하는 주파수에서 covarying 경우 이러한 에지 라인 만 그려집니다.

DNA 또는 단백질 서열의 정렬 원위 영역에서 동시 발생하는 상호 의존적 잔기 또는 IPDS의 검출은 기준 서열 정렬 도구를 사용하여 6 어렵다. 이러한 도구를 합의, 또는 모티브 시퀀스를 생성하는 동안,이 합의는 많은 경우에 과반수 규칙 평균과 하나 이상의 하위 주제를 형성 할 수있다 공분산 관계를 전달하지 않습니다 – 공동 진화를하는 경향이 잔류의 그룹. 이웃 의존성을 검출 할 경우에도 HMM 모델, 원위 IPDS 5 수없는 정확하게 모델 서열 모티프. 그리고, 사실, 최적이 아닐 수있다 그러한 합의 계산에 기초하여 설계 단백질 – 계산 된 결과는 컨센서스 사실 자연에서 발견되지 않는 "합성"시퀀스가 될 수 있다는 것이다. 사실, ADK의 Pfam 상선은 H의 tetracysteine​​ 모티브의 절반, 절반을 포함하는 키메라 단백질, (S)가, D, T 모티브, 기능적으로 그냥 받아 들일 수 있다고 제안어떤 실제로 기존 ADK있다. 이러한 키메라 (이러한 주제의 다른 많은 blendings)이 촉매 4,19 죽은되기 때문에 이것은 사실이 아니다.

상관 관계를 찾을 때, 그것은 임계 값이 어떤 잔여 에지들이 본 후 서서히 다시 아래 임계 램핑되고있는 레벨 이상의 임계 값을 설정함으로써 중요한 상관 관계 발견을 허용하도록 조절되는 것이 중요하다. 이것은 단지 가장 중요한 가장자리가 처음으로 간주되도록합니다.

또 다른 방법은 매우 낮게 설정 잔류 임계 값과 시작하는 것입니다. 이 모든 중요한 가장자리의 표시가 발생합니다. 여기에서 잔류 임계 천천히 패턴이 나타날 때까지 에지가 탈락 할 수 있도록 증가 될 수있다. 특정 노드들 (예를 들어, 도메인 지식의 적용)의 포함을 찾을 때이 방법은 덜 유용하지만, 그것으로 마주 StickWRLD를 사용 예기치 관계의 발견을 허용연간 분석 도구는 데이터 시각화의 새로운 패턴을 발견 할 수 있습니다.

StickWRLD는 디스플레이 장치의 해상도뿐만 아니라 실행되는 시스템의 사용 가능한 메모리에 의해 주로 제한된다. 이 StickWRLD가 검사 할 수 있습니다 데이터 포인트의 수에 이론 제한 없으며, 실제로 테스트 한 20,000 위치까지 시퀀스 동안 StickWRLD은 약 1,000 위치까지의 시퀀스에서 최적의 성능을 제공한다.

StickWRLD의 주요 장점은 서로 covary 잔기의 그룹을 식별 할 수있는 능력에있다. 이것은 간단한 통계 평균이며 공진화를 고려하지 않고 통계적 컨센서스 서열의 전통적인 접근법에 비해 상당한 장점이다. 어떤 경우에는 covarying 잔류 단순히 계통의 유물이 될 수 있지만, 이들도 잔류는 "선택의 시험"을 견뎌하고, 같은 functiona에서 손상 가능성이있는 한어떤 단백질의 품 질 문들을 포함하도록 설계.

에러의 가능성을 줄이고 기능의 신속한 최적화를 지원하는 종래 기술의 합성 변형을 표준 DNA 또는 단백질 서열의 일치 / 모티프 IPDS를 식별 StickWRLD를 사용하지만,이 StickWRLD는 일반화 된 상관 식별 도구로서 사용될 수 있음에 유의하여야하며 단백질 데이터에만 제한되는 것은 아니다. 육안 적절히 인코딩 된 데이터 세트에 어떤 변수가 나타날 때 공동 StickWRLD 발견하도록 사용될 수있다.

Divulgations

The authors have nothing to disclose.

Acknowledgements

StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.

Materials

Mac or Ubuntu OS computer Various NA Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts
Python programming language python.org NA Python version 2.7.6 or greater recommended
wxPython library wxpython.org NA Latest version recommended
SciPy library scipy.org NA Latest version recommended
PyOpenGL library pyopengl.sourceforge.net NA Latest version recommended
StickWRLD Python scripts NCH BCCM NA Available from http://www.stickwrld.org
fasta2stick.sh file converter NCH BCCM NA Available from http://www.stickwrld.org
Protein and/or DNA sequence data NA NA Samples available at http://www.stickwrld.org

References

  1. Ray, W. C. Addressing the unmet need for visualizing conditional random fields in biological data. BMC. 15, 202 (2014).
  2. Sullivan, B. J., Durani, V., Magliery, T. J. Triosephosphate isomerase by consensus design: dramatic differences in physical properties and activity of related variants. Journal of molecular biology. 413, 195-208 (2011).
  3. Smith, M. A., Bedbrook, C. N., Wu, T., Arnold, F. H. Hypocrea jecorina cellobiohydrolase I stabilizing mutations identified using noncontiguous recombination. ACS synthetic biology. 2, 690-696 (2013).
  4. Ray, W. C. Understanding the sequence requirements of protein families: insights from the BioVis 2013 contests. BMC proceedings. 8, S1 (2014).
  5. Eddy, S. R. What is a hidden Markov model?. Nature biotechnology. 22, 1315-1316 (2004).
  6. Ray, W. C., Ozer, H. G., Armbruster, D. W., Daniels, C. J. Beyond identity – when classical homology searching fails, why, and what you can do about it. Proceedings of the 4th Ohio Collaborative Conference on Bioinformatics. , 51-56 (2009).
  7. Ovchinnikov, S., Kamisetty, H., Baker, D. Robust and accurate prediction of residue-residue interactions across protein interfaces using evolutionary information. eLife. 3, e02030 (2014).
  8. Trudeau, D. L., Lee, T. M., Arnold, F. H. Engineered thermostable fungal cellulases exhibit efficient synergistic cellulose hydrolysis at elevated temperatures. Biotechnology and bioengineering. 111, 2390-2397 (2014).
  9. Ray, W. C. MAVL and StickWRLD: visually exploring relationships in nucleic acid sequence alignments. Nucleic acids research. 32, W59-W63 (2004).
  10. . Python Language Reference v.2.7.6 Available from: https://www.python.org/download/releases/2.7.6/ (2014)
  11. . . PyOpenGL The Python OpenGL Binding. , (2014).
  12. Larkin, M. A. Clustal W and Clustal X version 2.0. Bioinformatics. 23, 2947-2948 (2007).
  13. Ozer, H. G., Ray, W. C. MAVL/StickWRLD: analyzing structural constraints using interpositional dependencies in biomolecular sequence alignments. Nucleic acids research. 34, W133-W136 (2006).
  14. Ray, W. C. MAVL/StickWRLD for protein: visualizing protein sequence families to detect non-consensus features. Nucleic acids research. 33, W315-W319 (2005).
  15. Ray, W. C. A Visual Analytics approach to identifying protein structural constraints. IEEE. , 249-250 (2010).
  16. Wheeler, T. J., Clements, J., Finn, R. D. Skylign: a tool for creating informative, interactive logos representing sequence alignments and profile hidden Markov models. BMC bioinformatics. 15, 7 (2014).
  17. Perrier, V., Burlacu-Miron, S., Bourgeois, S., Surewicz, W. K., Gilles, A. M. Genetically engineered zinc-chelating adenylate kinase from Escherichia coli with enhanced thermal stability. The Journal of biological chemistry. 273, 19097-19101 (1998).

Play Video

Citer Cet Article
Rumpf, R. W., Ray, W. C. Optimization of Synthetic Proteins: Identification of Interpositional Dependencies Indicating Structurally and/or Functionally Linked Residues. J. Vis. Exp. (101), e52878, doi:10.3791/52878 (2015).

View Video