Summary

Sentetik Proteinlerin Optimizasyon: interpozisyonel bağımlılıklar belirlenmesi Yapısal belirten ve / veya Fonksiyonel Bağlantılı tortular

Published: July 14, 2015
doi:

Summary

Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.

Abstract

Protein hizalamaları yaygın protein artıkları benzerliğini değerlendirmek için kullanılır ve elde edilen konsensüs sekansı fonksiyonel birimleri (örneğin, etki) belirlenmesi için kullanılır. Evrim boyunca ve phylogentic ağacın üzerinde aynı anda görünür eğilimindedir kalıntıların işlevsel gerekli Kovaryas – Geleneksel görüş birliği oluşturma modelleri interpozisyonel bağımlılıkları hesaba başarısız. Bu ilişkiler, protein katlanması, ısı ve sırayla sentetik proteinlerin mühendislik bilgilendirmek için kullanılabilecek fonksiyonel siteler, oluşum süreçleri hakkında önemli ipuçları ortaya çıkarabilir. Ne yazık ki, bu ilişkiler esasen basit bir "çoğunluk kuralı", hatta HMM tabanlı konsensüs modelleri tarafından tahmin edilemez alt motifleri oluşturur ve sonuç doğada sadece hiç görmedim ama daha az canlı bir biyolojik geçersiz "uzlaşma" olabilir Herhangi bir kaybolmamış proteinden daha. Biz bir Visual geliştirdikaçıkça bir protein uyum etkileşimli 3D temsilini oluşturur ve alytics aracı, StickWRLD, artıkları covarying görüntüler. Kullanıcı pan ve zoom, hem de dinamik olarak kovaryantları belirlenmesini temel istatistiksel eşiği değiştirmek için yeteneği vardır. StickWRLD daha önce başarılı bir şekilde, adenilat kinaz olarak ve bu endonükleaz, hedef siteleri gibi DNA dizileri proteinlerdeki işlevsel gerekli covarying tortularını tanımlamak için kullanılmıştır.

Introduction

Protein hizalamaları uzun protein ailesinin kalıntıların benzerlik değerlendirmek için kullanılmıştır. Bir protein (örneğin katalitik veya diğer bağlayıcı siteler) Sık en ilginç özellikleri temas lineer bir dizinin uzak bölge getiren proteinlerin katlanmasında sonucudur, ve sonuç olarak aynı hizada, bu görünüşte olmayan bölgeler gelişmeye ve değiştirme eğilimi koordineli bir moda. Diğer durumlarda, bir proteinin işlevi elektrostatik imza bağlı olabilir, ve elektronik dipol etkileyen mutasyonlar uzak yüklü kalıntıların değişiklikler tarafından telafi edilir. Allosterik etkileri de kalıntı kimlikler arasında uzun menzilli sıralı ve mekansal bağımlılıkları uyarabilir. Kökenine bakılmaksızın, kalıntıların bu işlevsel gerekli covariations – arası pozisyonel bağımlılıklar (IPDS) – uyum (Şekil 1) görsel muayene ile belirgin olmayabilir. IPDS tanımlanması – hem itibariyleBu pozisyonlarda içinde belirli artıkları bir birim olarak covary eğilimi hangi – protein katlanması süreçleri ve fonksiyonel siteler oluşumu hakkında önemli ipuçları ortaya çıkarabilir. Bu bilgiler daha sonra termo ve aktivite açısından, sentetik (işlenmiş) proteinleri optimize etmek için kullanılabilir. Uzun uzlaşma yönünde tüm nokta mutasyonları geliştirilmiş kararlılık veya aktivitesini sağlamaz olduğu bilinmektedir. Daha yakın zamanda, proteinleri, nokta mutasyonlar 3 stabilize fikrine içindeki (hazırlama yazısı) sıkı bir konsensüs 1,2 tasarlanmış aynı proteinin, daha büyük bir etkinlik ile sonuçlandığı gösterilmiştir sekansının bilinen IPDS yararlanmak için tasarlanmıştır.

Ne yazık ki, geleneksel görüş birliği oluşturma modelleri (örneğin, çoğunluk kuralı) Sadece kaza IPDS yakalamak. Konsensus ve Görevi Özgül Puanlama Matrisi yöntemleri IPDS cahil ve sadece 'doğru' modelleri, bağımlı artıkları ekleyeneetti bu pozisyonlar için en popüler artıkları bulunmaktadır. Markov Zinciri modelleri bunlar sırayla yakın, ama onların tipik uygulama anında sıralı komşuları dışında her şeyi yok sayar, hatta onların en iyi, Saklı Markov Modeli hesaplamaları (Şekil 2) ne zaman IPDS yakalama bağımlılıkları daha tarafından sırayla ayrılan zaman inatçı olabilir Bir düzine kadar 4 konumlandırır. Bu IPDS esasen basit bir "çoğunluk kuralı", hatta HMM tabanlı konsensüs modelleri tarafından tahmin edilemez "alt motifleri" oluştururlar beri 5,6 sonucu doğada sadece hiç görmedim ama bir biyolojik geçersiz "uzlaşma" olabilir düşüldükten kaybolmamış proteinden daha canlı. Böyle Gremlin 7 olarak Markov Rasgele Fields, dayalı sistemler, bu sorunların üstesinden gelmek için çalışırlar. Böyle bitişik olmayan rekombinasyon 3,8 olarak gelişmiş biyokimyasal / biyolojik teknikler ide için kullanılabilir Ayrıca süreBölgelere göre ntify temel protein elemanları, onlar tek baz çifti hassas ulaşılacak için önemli bir zaman ve tezgah çalışma gerektirir.

StickWRLD 9 IPDS net ve kolay anlaşılır hale getiren bir protein uyum etkileşimli 3D temsilini oluşturur bir Python tabanlı bir programdır. Hizada her pozisyon, her sütun küreler bir yığın, hizalama içinde bu pozisyonda mevcut olabilir 20 amino asitlerin her biri için oluşan ekranda bir sütun, olarak temsil edilir. küre boyutu, kullanıcı, hemen konsensüs artığı ya da sadece kürelerin boyutu bakarak bu konumda içindeki amino asitlerin nispi dağılımını toplamaktadır öyle ki bir amino asidin bir olayda, frekansına bağlıdır. Her pozisyon temsil sütunlar bir silindir etrafına sarılır. Bu, açık bir 'görüş hattı' hizada her pozisyonda olası bir amino asidi temsil her küre verirher pozisyonda her bir diğer amino asit olasılığı. Görselleştirme önce StickWRLD IPDS 9 tanımlamak için kalıntılarının olası tüm kombinasyonları arasındaki korelasyon gücünü hesaplar. IPDS temsil etmek, çizgiler de coevolving olan kalıntıları arasındaki çizilir pozisyonlarında mevcut kalıntılar (IPDS) bağımsız olduğu takdirde beklenebilecek olana göre daha yüksek ya da daha düşüktür.

Sadece dizi pozisyonları evrimsel etkileşim bu görselleştirme gösterisi yapar, ancak IPD kenar çizgileri her sütunda amino asit küreler arasında çizilmiş gibi, kullanıcının hızlı spesifik amino asitler, her pozisyonda coevolving eğilimindedir belirleyebilirsiniz. Kullanıcı döndürmek ve görsel IPD yapısını keşfetmek, hem de dinamik olarak StickWRLD IPDS için güçlü bir keşif aracı yapma korelasyon ekran, kontrol istatistiksel eşikleri değiştirme yeteneğine sahiptir.

Böyle gremlin 7 simil gibi uygulamalararly artıkları arasındaki karmaşık ilişki bilgilerini görüntülemek – ancak bu ilişkilerin herhangi bir koşullu ilişkileri belirlemek için tasarlanmış değildir daha geleneksel Markov modelleri yoluyla hesaplanır. Bu nedenle, bu 2 boyutlu çıkıntılar olarak görünür olma yeteneğine sahiptir. Buna karşılık, StickWRLD hesaplamak ve 2D grafikte (kenar tıkanıklığı olarak bilinen bir fenomen) olarak işlenen takdirde karartılmış olabilir çok düğümlü koşullu bağımlılıkları, görüntüleyebilirsiniz.

StickWRLD 3D görünümü de diğer birçok avantajı vardır. Döndürme, kaydırma, yakınlaştırma ve – – daha kolay StickWRLD 3D silindir içinde görülebilir Karartılmış veya 2B temsil unintuitive olabilir özellikleri kullanıcıların görsel işlemek için izin vererek. StickWRLD esas desenleri ve eğilimleri görmek için insan beyninin örüntü tanıma yeteneği gücünü görsel analiz aracı ve çeşitli açılardan verileri incelemek yeteneği kendisi bu ödünç olduğunu.

Protocol

1. Yazılım Yükleme ve Kurulumu Bir bilgisayar RAM en az 4 Gb Intel i5 ya da daha iyi işlemciye sahip ve Mac OS X veya GNU / Linux (örn Ubuntu) OS çalıştıran kullanın. Buna ek olarak, Python 2.7.6 10 ve wxPython 2.8 11 scipy 12 ve PyOpenGL 13 piton kütüphaneleri gereklidir – indirme ve kendi depolarında her yükleyin. İndir StickWRLD ilgili Python komut tümünü içeren bir zip arşivi olarak. StickWRLD formatına standart FASTA DNA / protein dizi hizalaması dönüştürmek için "fasta2stick.sh" komut indirin. Arşiv Özü ve masaüstünde ortaya çıkan StickWRLD klasörünü koydu. Yanı sıra masaüstünde "fasta2stick.sh" komut yerleştirin. 2. Hizalama hazırlayın Herhangi bir stan kullanılarak protein dizilerinin bir hizalamasını oluşturmadard hizalama yazılımı (örneğin ClustalX 14). FAŞTA formatında masaüstüne uyum kaydedin. Mac veya GNU / Linux bilgisayarda Terminal uygulamasını açın ve cd ~ / Desktop yazarak ve dönüş basarak masaüstüne ("fasta2stick.sh" kabuk yeri) gidin. Terminalde ./fasta2stick.sh yazarak "fasta2stick.sh" komut dosyasını yürütün. Komut çalıştırmak etmezse, çalıştırılabilir olduğundan emin – + x komut çalıştırılabilir yapmak fasta2stick.sh terminal tipi chmod içinde. Girdi dosya adı (yukarıda 1.2 oluşturduğunuz dosyayı) ve istenen çıkış adını belirtmek için komut dosyası tarafından sağlanan ekrandaki yönergeleri izleyin. Masaüstünde (StickWRLD için doğru biçimde artık) çıktı dosyasını kaydedin. 3. StickWRLD başlatma Terminal Applic kullanarak klasörüne StickWRLD yürütülebilir içine gidinMac veya GNU / Linux bilgisayar tirme. Örneğin, StickWRLD klasör terminal masaüstü, cd ~ / Desktop / StickWRLD / exec açıksa. Terminal python-32 stickwrld_demo.py yazarak StickWRLD başlatın. StickWRLD Veri Yükleyici paneli ekranında (Şekil 3) görünür olduğundan emin olun. 4. Yükleme Veri "Load Protein …" düğmesine basarak Dönüştürülen protein dizisi hizalama yükleyin. Yukarıdaki 3. adımda basın "Aç" oluşturduğunuz dosyayı seçin. (Şekil 5) – StickWRLD "StickWRLD Kontrolü" (Şekil 4) ve "OpenGL StickWRLD" dahil olmak üzere birçok yeni pencereler açacak. "- OpenGL StickWRLD" penceresini seçin. Bir "yukarıdan aşağıya varsayılan StickWRLD görselleştirme görüntülemek için" OpenGL "menüsünden" Görünüm Reset "seçinizResizable OpenGL pencere verileri temsil eden silindir boyunca "görünümü .. 5. Görünüm Seçenekleri Sütunlar ve toplar için değerleri görüntülemek için "StickWRLD Control" bölmesinde (Şekil 4) "Sütun Etiketler" ve "Balo Etiketler" için kutularını seçin. Sütun kenar çizgileri gizlemek için "StickWRLD Control" bölmesinde "Sütun Kenarlar" kutusunu kaldırın. Daha kolay 3D görünüm gezinmek için yapım, sütunlar aracılığıyla ince bir çizgi çizmek için "StickWRLD Control" bölmesinde 0.1 "Sütun kalınlığı" olarak ayarlayın. Basın Değişikliği kabul etmek için geri dönün. Sonra görünümü en üst düzeye çıkarmak için "tam ekran" tuşuna basınız, yukarıda adım 5.3 olarak pencereye – "OpenGL StickWRLD" görünümü sıfırlayın. 6. Navigasyon Farenin sol tuşu WHI basılı tutarak 3D StickWRLD ekran döndürmele herhangi bir yönde fareyi hareket ettirerek. Yukarı veya aşağı fareyi hareket ederken sağ fare düğmesini basılı tutarak 3D StickWRLD ekranı yakınlaştırma. 7. Bulma interpozisyonel Bağımlılıklar (IPDS) Kaydırma ve Şekil 6'da görüldüğü gibi kenar hatları üzerinden bağlanır hem p ve artanın eşik gereksinimlerini aşan adımı 6. Coevolving artıkları açıklandığı gibi yakınlaştırma ile görünümü göz atın. Kalıntılarını bağlayan çok fazla veya çok az kenarları varsa, Kalıntı değiştirmek ("StickWRLD Control" bölmede) eşik, daha az veya daha fazla kenarları göstermek için. Hiçbir IPD kenar çizgileri gösterilmektedir kadar StickWRLD Kontrol Pane üzerinde kalan eşiğini artırmak ve ilişkileri görünür kadar yavaşça aşağı rampa. Eğer incelemek için ilişkilerin yeterli sayıda dek kalıntısını artırarak devam. Bir motifi içinde, örneğin bilinen ilgi (biri artıkları içeren ilişkileri tanımlamak ve / veya eğlence bağlayıcıctional Alanı) ya da hizalama içinde birbirine uzak olan kalıntılar () katlanmış protein yakın olduğunu düşündürmektedir 8. Seçme ve Kaydetme Bulgular Ilgi herhangi kenarlarında komutu + sol tıklama kullanarak. (Şekil 7) StickWRLD Kontrol bölmesi "| | (136 H) (G 124)", örneğin, sütunlar belirtmek ve belirli artıkları bağlayacak. Düz çizgiler pozitif dernekler temsil eder; kesikli çizgiler olumsuz dernekler temsil etmektedir. Bir düz metin olarak biçimlendirilmiş dosyayı kaydetmek için "StickWRLD Control" panelinde "Çıktı Kenarları" düğmesine basın (edge_residual.csv) katılan artıkları ve onların gerçek kalıntı değer de dahil olmak üzere görünür kenarları, hepsi Evi / StickWRLD / exec içinde / dizin.

Representative Results

StickWRLD hem DNA, 3 ve protein 15-17 hizalamaları kalıntıları arasında interpozisyonel bağımlılıkları (IPDS) tespit etmek için daha önce kullanılmıştır. Bu ko-gelişen tortuları, sekans hizalama genelde birbirinden uzak ise, genellikle, katlanmış protein birbirine yakın bulunmaktadır. StickWRLD, bu bölgelerde Tortu özgü ortak bir olayda hızlı bir şekilde keşfedilmesine olanak sağlar, örneğin., Bir pozisyonda bir alanin "x" güçlü "y" pozisyonda bir treonin ile korele edilir. Bu tür korelasyon kanıtlanabilir yapısal ilişkilerin göstergesi olabilir ve genellikle zorunlu olarak, eş-evrim, sitelerdir. StickWRLD daha "geleneksel" motifleri başarısız açıklamak için HMM'ler kullanarak yaklaşımları bile bu ilişkileri tespit edebiliyor. Örneğin, StickWRLD kullanarak ADK kapak alanının PFAM uyum analizi pozisyonlarında 4 de sisteinlerin (C) ve 8 ve koordineli arasında güçlü bir pozitif korelasyon ortaya koymaktadırAynı zamanda, pozisyonlar 35 ve 38 de C çift StickWRLD, 4 ° C'de, bu ve C dörtlü arasındaki güçlü bir negatif ilişkiler, 4 ve 8 histidin (H) ve serin (S) arasında benzer bir güçlü bir pozitif ilişki gösterdi 8, 35 ve 38 ve bu sıraya göre aspartik asit (D), ve pozisyonları 35 treonin (T) ve 38 ile güçlü bir pozitif ilişki. Ek IPDS bu IPDS koşullu doğasını vurgulayarak **** b subtilis pozisyon **** 10 ve 29 de H, S, D, T motifi ve T ve G arasında mevcut – Tetracysteine ​​motifi 'bakım' değil Bu iki pozisyonda kimlik yaklaşık hidrofilik H ise, S, D, T üçlü hemen kesinlikle bu pozisyonlarda belirli artıklarını gerektirmektedir. Bu iki tamamen farklı pozisyon bağımlı kalıntı motifleri aynı role ADK kapağını yerine getirebilir. Pozisyon 132, Y, pozisyon 135 de (tirozin) ve P (proli de G (glisin) arasında bir 3-düğümlü esas olmak üzere, Şekil 6, IPDS büyük bir küme, görülebileceği gibi,ne) pozisyonunda 141 at) ön (Şekil 6A görünür. Şekil 6B yılında görünüm pozisyon 136 ve pozisyon 29 de bir M (metionin), 107 artıkları uzak bir H (histidin) arasında bir IPD ortaya hafifçe silindir üzerinde kullanıcıya konumlandırmak için çarpık olmuştur. Aynı etki (Şekil 2) ihtiva eden bir PFAM HMM türetilmiş motifi, bu arada, spesifik olarak eş ortaya çıkan motif varyantları, bu tespit etmez değil, aynı zamanda, biyolojik olarak desteklenmeyen Şema 16 Genel grupları tanımlar. B. Şekil 1. "Subway Harita" temsil subtilis Adenozin Kinaz (ADK) kapak alanı yapısı. Oklar StickWRLD tarafından ADK Kapak alanının PFAM hizada tanımlanan IPDS göstermektedir. StickWRLD doğru bir küme içinde o IPDS tespit edebiliyorkatlanmış protein yakın f artıkları. Özellikle ilgi çekici olan 4, 7, 24, ve 27 de kalıntılarının tetradı, C grubu: C, C, C) yalnızca IPD oluşturan pozisyonlar 9 ve 29 de T ve G çifti vardır. Kalıntı numaraları görüntülenir B. temsil subtilis pozisyon ve PFAM hizalama pozisyonları. Bu rakamın büyük halini görmek için lütfen buraya tıklayınız. De˘gerleri SMM'lerin genel modele her sitenin katkısı yanı sıra her pozisyonda olasılıkları belirlemek için güçlü araçlar iken ADK kapak etki alanı için Şekil 2. Skylign 18 Saklı Markov Modeli (SMM) Sıra Logo., SMM'lerin pozisyonel bağımsızlığı bunları yapar IPDS tespit edilmesi için uygun değildir. Bu model hiçbir işaret yokStickWRLD temsilleri (Şekil 6) görüldü bağımlılıkları. Bu rakamın büyük halini görmek için lütfen buraya tıklayınız. Şekil 3. StickWRLD Veri Yükleyici. Kullanıcılar mevcut demo verilerinden seçebilir veya DNA veya protein dizisi saflaşma şeklinde kendi verilerini yükleyebilirsiniz. Şekil 4. StickWRLD Denetimi penceresi. Kontrol bölmesi kullanıcı çeşitli görünüm özelliklerini değiştirmek yanı sıra artıkları (IPDS) arasındaki ilişkileri gösteren kenar çizgilerinin görünümünü kontrol eşikleri düzenleme sağlar. Genellikle t ihtiyaç varsayılan kırmızı olan daire o herhangi bir veri kümesi en iyi görüntüleme için ayarlanabilir. Kalıntı değer konektörü / dernek hatları çizilmiş olan için (beklenen gözlenen) eşiği ayarlar. Kolon ve top etiketler için kontroller sütun pozisyon ve kalıntı değerleri (örneğin, arginin için "A") görüntülenir olup olmadığını kontrol eder. Ve sütunları bağlayan kenar çizgilerinin ekranda kapalı Sütun Kenar Çizgisi kontrol geçiş yapar – yoğun veri kümeleri için bu daha iyi kapalıdır. Görüntülenen Sütun Kalınlığı kontrolleri sütun kendisi olsun veya olmasın -. Çok küçük bir değere bu ayarı (örneğin, 0.1) kolay birbirlerinden sütunları ayırmak için yapım sütundaki küreler bir çizgi çekecek tıklayınız Bu rakamın büyük bir versiyonunu görmek için. ghres.jpg "width =" 600 "/> Yüklenen Adenilat Kinaz kapak alanı protein veri seti ile StickWRLD OpenGL penceresinde Şekil 5. Başlangıç ​​görünümü. İlk perspektif sıra hizalama pozisyonları oluşan silindir ile "aşağı" görünüyor. Kullanıcı sol fare tıklaması sürükleyin kullanarak silindiri döndürün ve kullanma / uzaklaştırma yapabilirsiniz sağ fare tıklama sürükleyin. Varsayılan görüntü ko-evrim hatta küçük oranlarını göstermektedir, çünkü ilk görünümü oldukça yoğundur. Birçok protein için, bu ayarda, farklı modüller, ancak bu bile yoğun işbirliği gelişen ekran hızlı ve etkileşimli StickWRLD arabirimini kullanarak en önemli IPDS bulmak için basitleştirilmiş olabilir proteinler. Tespit edilebilir büyük halini görmek için tıklayınız Bu rakam. ghres.jpg "width =" 700 "/> Şekil 6. Adenilat Kinaz kapak alanı protein StickWRLD görselleştirme Closeup görünümü. Burada 0.2 Kalan varsayılan değişti. Bu, daha az kenarları gösteren arası kalıntı kenarların görüntülenmesi için eşiğini yükseltir. kalan kenarları kuvvetli birleşik IPDS göstermektedir. Ayrıca görünüm döndürülebilir ve kenarları daha kolay görüntüleme için izin vermek için uzaklaştırdınız edilmiştir. (A) IPDS büyük bir küme pozisyonunda 132 at G (glisin) arasında bir 3-düğüm dernek de dahil olmak üzere, ön planda görünür, pozisyon 141. (B) Y konumundaki 135 (tirozin) ve P (prolin) görünümü 29 107 artıkları uzak pozisyonda pozisyon 136 ve bir M (metionin) bir H (histidin) arasında bir IPD ortaya hafifçe silindir üzerinde kullanıcıya konumlandırmak için çarpık olmuştur. Bu büyük halini görmek için tıklayınız rakam. Şekil 7. StickWRLD Denetimi penceresi sağ alt bilgi görünümü. OpenGL penceresinde bir nesne (örneğin, küre veya kenar) CTRL + Sol tıklama StickWLRD Kontrol penceresinin sağ alt nesnenin bilgileri görüntüler. Burada pozisyon 29 bir metionin arasında bir IPD kenarı için bilgi ve pozisyon 136 de bir histidin bakın.

Discussion

StickWRLD başarıyla rho-bağımlı sonlandırıcılar 9 adenilat Kinaz Kapak alanı 16 örneğin IPDS yanı sıra, ilgili DNA bazları tanımlamak için kullanılır, ve arkeal tRNA intron endonükleaz 6 hedef sitelere yeni bir birleşme yeri yerinde özgüllük edilmiştir. Bu IPDS hizalamalara doğrudan muayene yoluyla saptanabilir değildi.

StickWRLD her bir küre 20 amino asit kalıntısı ve kürenin büyüklüğü birini temsil eder 20 "alanları", bir sütun gibi bir uyum her bir konumunu göstermesi sütun içinde, söz konusu tortu oluşma frekansı (Şekil 4) gösterir. Kolonlar (IPD gösteren) kenar çizgileri farklı sütunlar artıkları bağlama ile bir silindir şeklinde düzenlenmiştir. Eşikleri – İlgili artıkları p-değeri (anlamlılık) ve kalıntı (gözlenen beklenen) hem de aşarak bir frekansta covarying eğer bu kenar çizgileri sadece çizilir.

DNA veya protein dizisi uyum uzak bölgelerinde eş meydana bağımlı artıkları veya IPDS, tespiti, standart dizi hizalama araçlarını kullanarak 6 zordur. Bu tür araçlar uzlaşma, ya da motif, diziyi oluşturmak iken, bu konsensüs birçok durumda basit çoğunluk kuralı ortalama ve bir veya daha fazla alt-motiflerini oluşturabilir Kovaryas ilişkileri ifade etmez – co-gelişmeye eğilimindedir kalıntıların grupları. Komşu bağımlılıkları saptayabilen bile SMM modelleri, uzak IPDS 5 ile olamaz doğru modeli dizisi motifleri. ve aslında, en uygun olmayabilir bu hesaplama konsensüs göre işlenmiş protein – sonucu hesaplanan konsensüs aslında doğada bulunmayan "Sentetik" dizisi olmasıdır. Aslında, ADK için Pfam SMM H Tetracysteine ​​motifi yarısını ve yarım içeren bir kimerik protein, S, D, T motifi, işlevsel gibi kabul edilebilir olduğunu öneririmHerhangi aslında varolan ADK olarak. Bu tür kimeralardır (ve bu motiflerin diğer birçok Blendings) katalitik 4.19 ölü mısınız gibi bu durum böyle değil.

Korelasyon ararken o artık eşik herhangi kenarlar görülür ve sonra yavaş yavaş geri aşağı eşiği edinmiş hangi seviyesinden eşiği ayarlayarak, ilgili korelasyon keşfine olanak sağlamak için ayarlanabilir olması önemlidir. Bu, sadece en önemli kenarları, ilk olarak temin eder.

Alternatif bir yaklaşım son derece düşük ayarlanmış artık eşik başlamaktır. Bu, tüm önemli kenarları ekranda sonuçlanır. Buradan artık eşik yavaş yavaş desenler ortaya dek kenarları bırakma için izin artırılabilir. Belirli düğümleri (örneğin, etki alanı bilginin uygulama) dahil ararken bu yaklaşım daha az yararlı olmakla birlikte, bir vis olarak StickWRLD kullanırken beklenmedik ilişkilerin keşfedilmesine olanak sağlarual analitik araç veri görselleştirme ortaya çıkan desenleri keşfetmek.

StickWRLD o görüntüleme cihazı çözünürlüğü yanı sıra çalıştığı sistemin kullanılabilir bellek öncelikle sınırlıdır. Orada StickWRLD inceleyebilirsiniz veri noktaları sayısında herhangi bir teorik sınırı ve pratikte test edilmiştir 20,000 pozisyonlara kadar dizileri iken StickWRLD 1000 civarında pozisyonlara kadar dizileri ile en iyi performans.

StickWRLD birincil avantajı, bir diğeri ile covary kalıntıların gruplarını tanımlamak için yeteneğinde yatmaktadır. Bu basit bir istatistiksel ortalama ve dikkate Birlikte evrimin varlığını almaz istatistiksel konsensüs dizisinin, geleneksel yaklaşımın üzerinde önemli bir avantajdır. Bazı durumlarda covarying artıkları sadece phylogeny bir dışlayıcı olabilir, hatta bu artıklar "seçimi test" dayanmış ve bu şekilde functiona düşürmek olası değildir varHerhangi bir proteinin vasıflı onları dahil etmek tasarlanmıştır.

Hata olasılığını azaltmak ve fonksiyon hızlı optimizasyonu destekleyecek önceden ürünler, sentetik türevleri için kanonik DNA veya protein sekansı, konsensüs / motifi IPDS tespit etmek StickWRLD kullanırken, StickWRLD genelleştirilmiş bir korelasyon tanımlama aracı olarak kullanılabileceği unutulmamalıdır ve Protein veri özel olarak sınırlı değildir. Görsel olarak herhangi bir uygun şekilde kodlanmış veri kümesindeki herhangi bir değişken eş durum oluşmasına şehrinde StickWRLD kullanılabilir.

Divulgations

The authors have nothing to disclose.

Acknowledgements

StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.

Materials

Mac or Ubuntu OS computer Various NA Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts
Python programming language python.org NA Python version 2.7.6 or greater recommended
wxPython library wxpython.org NA Latest version recommended
SciPy library scipy.org NA Latest version recommended
PyOpenGL library pyopengl.sourceforge.net NA Latest version recommended
StickWRLD Python scripts NCH BCCM NA Available from http://www.stickwrld.org
fasta2stick.sh file converter NCH BCCM NA Available from http://www.stickwrld.org
Protein and/or DNA sequence data NA NA Samples available at http://www.stickwrld.org

References

  1. Ray, W. C. Addressing the unmet need for visualizing conditional random fields in biological data. BMC. 15, 202 (2014).
  2. Sullivan, B. J., Durani, V., Magliery, T. J. Triosephosphate isomerase by consensus design: dramatic differences in physical properties and activity of related variants. Journal of molecular biology. 413, 195-208 (2011).
  3. Smith, M. A., Bedbrook, C. N., Wu, T., Arnold, F. H. Hypocrea jecorina cellobiohydrolase I stabilizing mutations identified using noncontiguous recombination. ACS synthetic biology. 2, 690-696 (2013).
  4. Ray, W. C. Understanding the sequence requirements of protein families: insights from the BioVis 2013 contests. BMC proceedings. 8, S1 (2014).
  5. Eddy, S. R. What is a hidden Markov model?. Nature biotechnology. 22, 1315-1316 (2004).
  6. Ray, W. C., Ozer, H. G., Armbruster, D. W., Daniels, C. J. Beyond identity – when classical homology searching fails, why, and what you can do about it. Proceedings of the 4th Ohio Collaborative Conference on Bioinformatics. , 51-56 (2009).
  7. Ovchinnikov, S., Kamisetty, H., Baker, D. Robust and accurate prediction of residue-residue interactions across protein interfaces using evolutionary information. eLife. 3, e02030 (2014).
  8. Trudeau, D. L., Lee, T. M., Arnold, F. H. Engineered thermostable fungal cellulases exhibit efficient synergistic cellulose hydrolysis at elevated temperatures. Biotechnology and bioengineering. 111, 2390-2397 (2014).
  9. Ray, W. C. MAVL and StickWRLD: visually exploring relationships in nucleic acid sequence alignments. Nucleic acids research. 32, W59-W63 (2004).
  10. . Python Language Reference v.2.7.6 Available from: https://www.python.org/download/releases/2.7.6/ (2014)
  11. . . PyOpenGL The Python OpenGL Binding. , (2014).
  12. Larkin, M. A. Clustal W and Clustal X version 2.0. Bioinformatics. 23, 2947-2948 (2007).
  13. Ozer, H. G., Ray, W. C. MAVL/StickWRLD: analyzing structural constraints using interpositional dependencies in biomolecular sequence alignments. Nucleic acids research. 34, W133-W136 (2006).
  14. Ray, W. C. MAVL/StickWRLD for protein: visualizing protein sequence families to detect non-consensus features. Nucleic acids research. 33, W315-W319 (2005).
  15. Ray, W. C. A Visual Analytics approach to identifying protein structural constraints. IEEE. , 249-250 (2010).
  16. Wheeler, T. J., Clements, J., Finn, R. D. Skylign: a tool for creating informative, interactive logos representing sequence alignments and profile hidden Markov models. BMC bioinformatics. 15, 7 (2014).
  17. Perrier, V., Burlacu-Miron, S., Bourgeois, S., Surewicz, W. K., Gilles, A. M. Genetically engineered zinc-chelating adenylate kinase from Escherichia coli with enhanced thermal stability. The Journal of biological chemistry. 273, 19097-19101 (1998).

Play Video

Citer Cet Article
Rumpf, R. W., Ray, W. C. Optimization of Synthetic Proteins: Identification of Interpositional Dependencies Indicating Structurally and/or Functionally Linked Residues. J. Vis. Exp. (101), e52878, doi:10.3791/52878 (2015).

View Video