Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
Protein hizalamaları yaygın protein artıkları benzerliğini değerlendirmek için kullanılır ve elde edilen konsensüs sekansı fonksiyonel birimleri (örneğin, etki) belirlenmesi için kullanılır. Evrim boyunca ve phylogentic ağacın üzerinde aynı anda görünür eğilimindedir kalıntıların işlevsel gerekli Kovaryas – Geleneksel görüş birliği oluşturma modelleri interpozisyonel bağımlılıkları hesaba başarısız. Bu ilişkiler, protein katlanması, ısı ve sırayla sentetik proteinlerin mühendislik bilgilendirmek için kullanılabilecek fonksiyonel siteler, oluşum süreçleri hakkında önemli ipuçları ortaya çıkarabilir. Ne yazık ki, bu ilişkiler esasen basit bir "çoğunluk kuralı", hatta HMM tabanlı konsensüs modelleri tarafından tahmin edilemez alt motifleri oluşturur ve sonuç doğada sadece hiç görmedim ama daha az canlı bir biyolojik geçersiz "uzlaşma" olabilir Herhangi bir kaybolmamış proteinden daha. Biz bir Visual geliştirdikaçıkça bir protein uyum etkileşimli 3D temsilini oluşturur ve alytics aracı, StickWRLD, artıkları covarying görüntüler. Kullanıcı pan ve zoom, hem de dinamik olarak kovaryantları belirlenmesini temel istatistiksel eşiği değiştirmek için yeteneği vardır. StickWRLD daha önce başarılı bir şekilde, adenilat kinaz olarak ve bu endonükleaz, hedef siteleri gibi DNA dizileri proteinlerdeki işlevsel gerekli covarying tortularını tanımlamak için kullanılmıştır.
Protein hizalamaları uzun protein ailesinin kalıntıların benzerlik değerlendirmek için kullanılmıştır. Bir protein (örneğin katalitik veya diğer bağlayıcı siteler) Sık en ilginç özellikleri temas lineer bir dizinin uzak bölge getiren proteinlerin katlanmasında sonucudur, ve sonuç olarak aynı hizada, bu görünüşte olmayan bölgeler gelişmeye ve değiştirme eğilimi koordineli bir moda. Diğer durumlarda, bir proteinin işlevi elektrostatik imza bağlı olabilir, ve elektronik dipol etkileyen mutasyonlar uzak yüklü kalıntıların değişiklikler tarafından telafi edilir. Allosterik etkileri de kalıntı kimlikler arasında uzun menzilli sıralı ve mekansal bağımlılıkları uyarabilir. Kökenine bakılmaksızın, kalıntıların bu işlevsel gerekli covariations – arası pozisyonel bağımlılıklar (IPDS) – uyum (Şekil 1) görsel muayene ile belirgin olmayabilir. IPDS tanımlanması – hem itibariyleBu pozisyonlarda içinde belirli artıkları bir birim olarak covary eğilimi hangi – protein katlanması süreçleri ve fonksiyonel siteler oluşumu hakkında önemli ipuçları ortaya çıkarabilir. Bu bilgiler daha sonra termo ve aktivite açısından, sentetik (işlenmiş) proteinleri optimize etmek için kullanılabilir. Uzun uzlaşma yönünde tüm nokta mutasyonları geliştirilmiş kararlılık veya aktivitesini sağlamaz olduğu bilinmektedir. Daha yakın zamanda, proteinleri, nokta mutasyonlar 3 stabilize fikrine içindeki (hazırlama yazısı) sıkı bir konsensüs 1,2 tasarlanmış aynı proteinin, daha büyük bir etkinlik ile sonuçlandığı gösterilmiştir sekansının bilinen IPDS yararlanmak için tasarlanmıştır.
Ne yazık ki, geleneksel görüş birliği oluşturma modelleri (örneğin, çoğunluk kuralı) Sadece kaza IPDS yakalamak. Konsensus ve Görevi Özgül Puanlama Matrisi yöntemleri IPDS cahil ve sadece 'doğru' modelleri, bağımlı artıkları ekleyeneetti bu pozisyonlar için en popüler artıkları bulunmaktadır. Markov Zinciri modelleri bunlar sırayla yakın, ama onların tipik uygulama anında sıralı komşuları dışında her şeyi yok sayar, hatta onların en iyi, Saklı Markov Modeli hesaplamaları (Şekil 2) ne zaman IPDS yakalama bağımlılıkları daha tarafından sırayla ayrılan zaman inatçı olabilir Bir düzine kadar 4 konumlandırır. Bu IPDS esasen basit bir "çoğunluk kuralı", hatta HMM tabanlı konsensüs modelleri tarafından tahmin edilemez "alt motifleri" oluştururlar beri 5,6 sonucu doğada sadece hiç görmedim ama bir biyolojik geçersiz "uzlaşma" olabilir düşüldükten kaybolmamış proteinden daha canlı. Böyle Gremlin 7 olarak Markov Rasgele Fields, dayalı sistemler, bu sorunların üstesinden gelmek için çalışırlar. Böyle bitişik olmayan rekombinasyon 3,8 olarak gelişmiş biyokimyasal / biyolojik teknikler ide için kullanılabilir Ayrıca süreBölgelere göre ntify temel protein elemanları, onlar tek baz çifti hassas ulaşılacak için önemli bir zaman ve tezgah çalışma gerektirir.
StickWRLD 9 IPDS net ve kolay anlaşılır hale getiren bir protein uyum etkileşimli 3D temsilini oluşturur bir Python tabanlı bir programdır. Hizada her pozisyon, her sütun küreler bir yığın, hizalama içinde bu pozisyonda mevcut olabilir 20 amino asitlerin her biri için oluşan ekranda bir sütun, olarak temsil edilir. küre boyutu, kullanıcı, hemen konsensüs artığı ya da sadece kürelerin boyutu bakarak bu konumda içindeki amino asitlerin nispi dağılımını toplamaktadır öyle ki bir amino asidin bir olayda, frekansına bağlıdır. Her pozisyon temsil sütunlar bir silindir etrafına sarılır. Bu, açık bir 'görüş hattı' hizada her pozisyonda olası bir amino asidi temsil her küre verirher pozisyonda her bir diğer amino asit olasılığı. Görselleştirme önce StickWRLD IPDS 9 tanımlamak için kalıntılarının olası tüm kombinasyonları arasındaki korelasyon gücünü hesaplar. IPDS temsil etmek, çizgiler de coevolving olan kalıntıları arasındaki çizilir pozisyonlarında mevcut kalıntılar (IPDS) bağımsız olduğu takdirde beklenebilecek olana göre daha yüksek ya da daha düşüktür.
Sadece dizi pozisyonları evrimsel etkileşim bu görselleştirme gösterisi yapar, ancak IPD kenar çizgileri her sütunda amino asit küreler arasında çizilmiş gibi, kullanıcının hızlı spesifik amino asitler, her pozisyonda coevolving eğilimindedir belirleyebilirsiniz. Kullanıcı döndürmek ve görsel IPD yapısını keşfetmek, hem de dinamik olarak StickWRLD IPDS için güçlü bir keşif aracı yapma korelasyon ekran, kontrol istatistiksel eşikleri değiştirme yeteneğine sahiptir.
Böyle gremlin 7 simil gibi uygulamalararly artıkları arasındaki karmaşık ilişki bilgilerini görüntülemek – ancak bu ilişkilerin herhangi bir koşullu ilişkileri belirlemek için tasarlanmış değildir daha geleneksel Markov modelleri yoluyla hesaplanır. Bu nedenle, bu 2 boyutlu çıkıntılar olarak görünür olma yeteneğine sahiptir. Buna karşılık, StickWRLD hesaplamak ve 2D grafikte (kenar tıkanıklığı olarak bilinen bir fenomen) olarak işlenen takdirde karartılmış olabilir çok düğümlü koşullu bağımlılıkları, görüntüleyebilirsiniz.
StickWRLD 3D görünümü de diğer birçok avantajı vardır. Döndürme, kaydırma, yakınlaştırma ve – – daha kolay StickWRLD 3D silindir içinde görülebilir Karartılmış veya 2B temsil unintuitive olabilir özellikleri kullanıcıların görsel işlemek için izin vererek. StickWRLD esas desenleri ve eğilimleri görmek için insan beyninin örüntü tanıma yeteneği gücünü görsel analiz aracı ve çeşitli açılardan verileri incelemek yeteneği kendisi bu ödünç olduğunu.
StickWRLD başarıyla rho-bağımlı sonlandırıcılar 9 adenilat Kinaz Kapak alanı 16 örneğin IPDS yanı sıra, ilgili DNA bazları tanımlamak için kullanılır, ve arkeal tRNA intron endonükleaz 6 hedef sitelere yeni bir birleşme yeri yerinde özgüllük edilmiştir. Bu IPDS hizalamalara doğrudan muayene yoluyla saptanabilir değildi.
StickWRLD her bir küre 20 amino asit kalıntısı ve kürenin büyüklüğü birini temsil eder 20 "alanları", bir sütun gibi bir uyum her bir konumunu göstermesi sütun içinde, söz konusu tortu oluşma frekansı (Şekil 4) gösterir. Kolonlar (IPD gösteren) kenar çizgileri farklı sütunlar artıkları bağlama ile bir silindir şeklinde düzenlenmiştir. Eşikleri – İlgili artıkları p-değeri (anlamlılık) ve kalıntı (gözlenen beklenen) hem de aşarak bir frekansta covarying eğer bu kenar çizgileri sadece çizilir.
DNA veya protein dizisi uyum uzak bölgelerinde eş meydana bağımlı artıkları veya IPDS, tespiti, standart dizi hizalama araçlarını kullanarak 6 zordur. Bu tür araçlar uzlaşma, ya da motif, diziyi oluşturmak iken, bu konsensüs birçok durumda basit çoğunluk kuralı ortalama ve bir veya daha fazla alt-motiflerini oluşturabilir Kovaryas ilişkileri ifade etmez – co-gelişmeye eğilimindedir kalıntıların grupları. Komşu bağımlılıkları saptayabilen bile SMM modelleri, uzak IPDS 5 ile olamaz doğru modeli dizisi motifleri. ve aslında, en uygun olmayabilir bu hesaplama konsensüs göre işlenmiş protein – sonucu hesaplanan konsensüs aslında doğada bulunmayan "Sentetik" dizisi olmasıdır. Aslında, ADK için Pfam SMM H Tetracysteine motifi yarısını ve yarım içeren bir kimerik protein, S, D, T motifi, işlevsel gibi kabul edilebilir olduğunu öneririmHerhangi aslında varolan ADK olarak. Bu tür kimeralardır (ve bu motiflerin diğer birçok Blendings) katalitik 4.19 ölü mısınız gibi bu durum böyle değil.
Korelasyon ararken o artık eşik herhangi kenarlar görülür ve sonra yavaş yavaş geri aşağı eşiği edinmiş hangi seviyesinden eşiği ayarlayarak, ilgili korelasyon keşfine olanak sağlamak için ayarlanabilir olması önemlidir. Bu, sadece en önemli kenarları, ilk olarak temin eder.
Alternatif bir yaklaşım son derece düşük ayarlanmış artık eşik başlamaktır. Bu, tüm önemli kenarları ekranda sonuçlanır. Buradan artık eşik yavaş yavaş desenler ortaya dek kenarları bırakma için izin artırılabilir. Belirli düğümleri (örneğin, etki alanı bilginin uygulama) dahil ararken bu yaklaşım daha az yararlı olmakla birlikte, bir vis olarak StickWRLD kullanırken beklenmedik ilişkilerin keşfedilmesine olanak sağlarual analitik araç veri görselleştirme ortaya çıkan desenleri keşfetmek.
StickWRLD o görüntüleme cihazı çözünürlüğü yanı sıra çalıştığı sistemin kullanılabilir bellek öncelikle sınırlıdır. Orada StickWRLD inceleyebilirsiniz veri noktaları sayısında herhangi bir teorik sınırı ve pratikte test edilmiştir 20,000 pozisyonlara kadar dizileri iken StickWRLD 1000 civarında pozisyonlara kadar dizileri ile en iyi performans.
StickWRLD birincil avantajı, bir diğeri ile covary kalıntıların gruplarını tanımlamak için yeteneğinde yatmaktadır. Bu basit bir istatistiksel ortalama ve dikkate Birlikte evrimin varlığını almaz istatistiksel konsensüs dizisinin, geleneksel yaklaşımın üzerinde önemli bir avantajdır. Bazı durumlarda covarying artıkları sadece phylogeny bir dışlayıcı olabilir, hatta bu artıklar "seçimi test" dayanmış ve bu şekilde functiona düşürmek olası değildir varHerhangi bir proteinin vasıflı onları dahil etmek tasarlanmıştır.
Hata olasılığını azaltmak ve fonksiyon hızlı optimizasyonu destekleyecek önceden ürünler, sentetik türevleri için kanonik DNA veya protein sekansı, konsensüs / motifi IPDS tespit etmek StickWRLD kullanırken, StickWRLD genelleştirilmiş bir korelasyon tanımlama aracı olarak kullanılabileceği unutulmamalıdır ve Protein veri özel olarak sınırlı değildir. Görsel olarak herhangi bir uygun şekilde kodlanmış veri kümesindeki herhangi bir değişken eş durum oluşmasına şehrinde StickWRLD kullanılabilir.
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |