Summary

الاستفادة المثلى من البروتينات التركيبية: تحديد فصل بين التبعيات مبينا هيكليا و / أو بقايا المرتبطة وظيفيا

Published: July 14, 2015
doi:

Summary

Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.

Abstract

وتستخدم التحالفات البروتين عادة لتقييم تشابه بقايا البروتين، وتسلسل إجماع المستمدة تستخدم لتحديد وحدات وظيفية (على سبيل المثال، المجالات). فشل نماذج بناء توافق في الآراء التقليدية لحساب تبعيات فاصلة – وظيفيا covariation المطلوب من المخلفات التي تميل إلى الظهور في وقت واحد في جميع أنحاء تطور وعبر شجرة phylogentic. ويمكن لهذه العلاقات تكشف خيوط مهمة حول العمليات للطي البروتين، وصمود للحرارة، وتشكيل لمواقع وظيفية، والتي بدورها يمكن استخدامها لإبلاغ هندسة البروتينات الاصطناعية. للأسف، هذه العلاقات تشكل أساسا زخارف الفرعي الذي لا يمكن التنبؤ بها من قبل بسيطة "حكم الأغلبية" أو نماذج توافق حتى على HMM، ويمكن أن تكون النتيجة "الإجماع" غير صالحة من الناحية البيولوجية وهو لم أر أبدا إلا في الطبيعة ولكن أقل قابلة للحياة من أي بروتين موجود. قمنا بتطوير والبصريةأداة alytics، StickWRLD، مما يخلق التمثيل 3D التفاعلية من تشكيلة البروتين وبشكل واضح يعرض covarying المخلفات. المستخدم لديه القدرة على والتكبير، وكذلك حيوي تغيير عتبة الإحصائية التي يقوم عليها تحديد covariants. قد سبق استخدامها StickWRLD بنجاح لتحديد بقايا covarying المطلوبة وظيفيا في البروتينات مثل الأدينيلات كيناز وتسلسل الحمض النووي مثل المواقع المستهدفة نوكلياز.

Introduction

منذ فترة طويلة تستخدم التحالفات البروتين لتقييم تشابه المخلفات في أسرة البروتين. في كثير من الأحيان أهم سمات من البروتين (على سبيل المثال، مواقع الربط الحفازة أو غيرها) هي نتيجة من البروتين للطي جلب المناطق البعيدة للتسلسل خطي إلى الاتصال، ونتيجة لهذه المناطق على ما يبدو لا علاقة لها في محاذاة تميل إلى التطور والتغيير في بطريقة منسقة. في حالات أخرى، يمكن وظيفة البروتين سوف تعتمد على توقيعه الكهربائي، ويتم تعويض الطفرات التي تؤثر على ثنائي القطب الإلكتروني لبالتغيرات إلى بقايا اتهم بعيدة. يمكن أن الآثار تفارغي أيضا لحث على المدى الطويل تبعيات متتابعة والمكانية بين الهويات المخلفات. بغض النظر عن أصلهم، هذه covariations المطلوبة وظيفيا من مخلفات – تبعيات بين الموضعية (IPDS) – قد لا يكون واضحا مع الفحص البصري من محاذاة (الشكل 1). تحديد IPDS – وكذلك منالذي بقايا محددة داخل تلك المواقف تميل إلى covary كوحدة – يمكن أن تكشف عن خيوط مهمة عن عمليات طي البروتين وتكوين مواقع وظيفية. ويمكن بعد ذلك أن تستخدم هذه المعلومات لتحسين الاصطناعية (هندسيا) البروتينات من حيث صمود للحرارة والنشاط. منذ فترة طويلة كان من المعروف أنه ليس كل الطفرات نقطة على الوصول لإجماع توفر تحسين الاستقرار أو النشاط. في الآونة الأخيرة، والبروتينات مصممة للاستفادة من IPDS المعروفة في تسلسلها وقد ثبت أن يؤدي إلى نشاط أكبر من البروتين نفسه مصممة بدقة من الإجماع 1،2 (مخطوطة في الإعداد)، على غرار فكرة استقرار الطفرات النقطة 3.

لسوء الحظ، نماذج بناء توافق في الآراء التقليدية (على سبيل المثال، حكم الأغلبية) التقاط فقط IPDS عن طريق الصدفة. التوافق ومصفوفة يحرز موقعة محددة الأساليب هي جاهلة IPDS وفقط 'صحيح' تشمل منهم في النماذج، عندما بقايا تعتمدهي أيضا بقايا الأكثر شعبية لتلك المناصب في الأسرة. يمكن ماركوف سلسلة نماذج التقاط IPDS عندما تكون بالتسلسل الداني، ولكن تنفيذها نموذجي يتجاهل كل شيء ما عدا الجيران المباشرين متتابعة، وحتى في أفضل حالاتها، وحسابات ماركوف المخفية النموذجي (انظر الشكل 2) أصبحت مستعصية على الحل عندما يتم فصل تبعيات في تسلسل بأكثر من من اثني عشر أو نحو ذلك مناصب 4. وبما أن هذه IPDS تشكل أساسا "، زخارف الفرعية" التي لا يمكن التنبؤ بها من قبل بسيطة "حكم الأغلبية" أو نماذج توافق حتى على HMM-5،6 النتيجة يمكن أن يكون "التوافق" غير صالحة من الناحية البيولوجية وهو لم أر أبدا إلا في الطبيعة ولكن غير أقل قابلة للحياة من أي بروتين موجود. الأنظمة القائمة على ماركوف عشوائية الحقول، مثل جريملين (Gremlin) محاولة للتغلب على هذه المشاكل. بالإضافة إلى ذلك حين التقنيات البيولوجية / الكيمياء الحيوية المتطورة مثل إعادة التركيب غير متجاورة 3،8 يمكن استخدامها لبيئة تطوير متكاملةعناصر البروتين الأساسية ntify حسب المنطقة، فإنها تتطلب قدرا كبيرا من الوقت والعمل مقاعد البدلاء من أجل الدقة واحدة قاعدة الزوج أن يتحقق.

StickWRLD 9 هو برنامج يستند إلى بيثون أن يخلق التمثيل 3D التفاعلية من تشكيلة البروتين الذي يجعل IPDS واضحة وسهلة الفهم. كل موقف في محاذاة ما يمثل عمود في العرض، حيث يتكون كل عمود من كومة من المجالات، واحدة لكل من 20 الأحماض الأمينية التي يمكن أن تكون موجودة في هذا الموقف داخل المحاذاة. حجم المجال يتوقف على وتيرة حدوث الأحماض الأمينية، بحيث يمكن للمستخدم استشفاف على الفور بقايا الآراء أو التوزيع النسبي للأحماض الأمينية في هذا الموقف ببساطة عن طريق النظر في حجم المجالات. يتم التفاف الأعمدة التي تمثل كل موقف حول اسطوانة. وهذا يعطي كل المجالات التي تمثل ممكن من الأحماض الأمينية في كل موقف في محاذاة، و"خط الأفق" واضحعلى كل إمكانية الأحماض الأمينية الأخرى في كل منصب آخر. قبل التصور، StickWRLD يحسب قوة الارتباط بين كل مزيج ممكن من المخلفات لتحديد IPDS 9. لتمثيل IPDS، يتم رسم الخطوط الفاصلة بين البقايا التي coevolving في أعلى أو أقل مما هو متوقع إذا كانت البقايا الموجودة في مواقف مستقلة (IPDS).

وهذا لا تظهر التصور الذي مواقف تسلسل تتفاعل تطويريا، ولكن كما يتم رسم خطوط IPD الحافة بين المجالين الأحماض الأمينية في كل عمود، يمكن للمستخدم تحديد بسرعة والتي تميل الأحماض الأمينية المحددة التي يتعين coevolving في كل موقف. المستخدم لديه القدرة على تدوير واستكشاف هيكل IPD تصور، وكذلك حيوي تغيير عتبات الإحصائية السيطرة على عرض الارتباطات، مما يجعل StickWRLD أداة قوية لاكتشاف IPDS.

تطبيقات مثل جريملين (Gremlin) 7 similآرلي عرض المعلومات ذات العلاقة المعقدة بين بقايا – ولكن يتم احتساب هذه العلاقات عبر المزيد من النماذج ماركوف التقليدية، التي لا تهدف إلى تحديد أي علاقات مشروطة. على هذا النحو، وهذه هي قابلا للعرض حيث تشير التقديرات 2D. على النقيض من ذلك، يمكن StickWRLD حساب وعرض متعددة عقدة تبعيات المشروطة، التي يمكن أن غموض لو صدر مثل رسم بياني 2D (وهي ظاهرة تعرف باسم حافة انسداد).

لديه رأي 3D StickWRLD أيضا العديد من المزايا الأخرى. من خلال السماح للمستخدمين لمعالجة المرئية – الميزات التي يمكن غموض أو unintuitive في تمثيل 2D يمكن أن ينظر إليها أكثر سهولة في اسطوانة 3D من StickWRLD – بالغسل، بالتناوب، والتكبير. StickWRLD هو أساسا أداة بصرية تحليلات، وتسخير قوة التعرف على الأنماط قدرة الدماغ البشري لمعرفة الأنماط والاتجاهات، والقدرة على استكشاف البيانات من وجهات نظر مختلفة يفسح المجال لذلك.

Protocol

1. تحميل البرمجيات وتركيب استخدام ديه جهاز كمبيوتر وi5 و Intel أو أفضل معالج مع 4 غيغابايت على الأقل من ذاكرة الوصول العشوائي، ويعمل بنظام التشغيل Mac OS X أو جنو / لينكس (على سبيل المثال، أوبونتو) OS. بالإضافة إلى ذلك، هناك حاجة بايثون 2.7.6 10 وكسبيثون 2.8 11، SciPy 12، وPyOpenGL مكتبات 13 الثعبان – تحميل وتثبيت كل من المستودعات الخاصة بها. تحميل StickWRLD كأرشيف يحتوي على كافة البرامج النصية بيثون ذات الصلة. تحميل "fasta2stick.sh" سيناريو لتحويل القياسية التحالفات تسلسل / البروتين FASTA الحمض النووي لتنسيق StickWRLD. استخراج الأرشيف ووضع المجلد StickWRLD الناتجة على سطح المكتب الخاص بك. وضع "fasta2stick.sh" النصي على سطح المكتب كذلك. 2. إعداد محاذاة إنشاء محاذاة تسلسل البروتين باستخدام أي ستاندارد البرمجيات المحاذاة (على سبيل المثال، ClustalX 14). حفظ التوافق على سطح المكتب في شكل FASTA. فتح التطبيق محطة على جهاز كمبيوتر ماك أو جنو / لينكس وانتقل إلى سطح المكتب (موقع "fasta2stick.sh" شيل) عن طريق كتابة CD ~ / سطح المكتب والضغط على العودة. تنفيذ "fasta2stick.sh" النصي بكتابة ./fasta2stick.sh في المحطة. إذا لم يتم تنفيذ البرنامج النصي، تأكد من أنها قابلة للتنفيذ – في نوع شمود محطة + س fasta2stick.sh لجعل تنفيذ البرنامج النصي. اتبع الإرشادات التي تظهر على الشاشة التي يقدمها البرنامج النصي لتحديد اسم ملف الإدخال (الملف الذي تم إنشاؤه في 1.2 أعلاه) واسم الناتج المرغوب فيه. حفظ الملف الناتج (والذي هو الآن في التنسيق الصحيح للStickWRLD) على سطح المكتب. 3. إطلاق StickWRLD انتقل إلى الملفات التنفيذية StickWRLD مجلد باستخدام تطبيق صحيفة المحطةأوجه للكمبيوتر ماك أو جنو / لينكس. على سبيل المثال، إذا كان المجلد StickWRLD على سطح المكتب، اكتب cd ~ / سطح المكتب / StickWRLD / إإكسك في المحطة. إطلاق StickWRLD بكتابة الثعبان-32 stickwrld_demo.py في المحطة. تحقق من أن لوحة StickWRLD بيانات لودر مرئيا على الشاشة (الشكل 3). 4. تحميل البيانات تحميل المحولة محاذاة تسلسل البروتين عن طريق الضغط على "تحميل البروتين …" زر. حدد الملف الذي تم إنشاؤه في الخطوة 3 أعلاه ثم اضغط على "فتح". سوف StickWRLD فتح عدة نوافذ جديدة، بما في ذلك "مراقبة StickWRLD" (الشكل 4)، و "StickWRLD – برنامج OpenGL" (الشكل 5). حدد "StickWRLD – برنامج OpenGL" نافذة. اختر "إعادة عرض" من القائمة "برنامج OpenGL" لعرض التصور StickWRLD الافتراضية في "من أعلى إلى أسفل"وجهة نظر من خلال اسطوانة تمثل البيانات في النوافذ برنامج OpenGL يمكن تغيير حجم .. 5. عرض الخيارات تحديد خانات ل "تسميات الأعمدة" و "تسميات الكرة" في "StickWRLD تحكم" الجزء (الشكل 4) لعرض قيم للأعمدة والكرات. إلغاء تحديد مربع ل "حواف العمود" في "مراقبة StickWRLD" جزء لإخفاء خطوط العمود الحافة. تعيين "سمك العمود" إلى 0.1 في "مراقبة StickWRLD" جزء رسم خط رفيع من خلال الأعمدة، مما يجعل من الاسهل للتنقل وجهة النظر 3D. الصحافة العودة لقبول التغيير. إعادة تعيين العرض في "StickWRLD – برنامج OpenGL" نافذة كما في الخطوة 5.3 أعلاه، فإن زر "ملء الشاشة" لتحقيق أقصى قدر من وجهة النظر ثم اضغط. 6. الملاحة تدوير شاشة 3D StickWRLD عن طريق الضغط باستمرار على زر الماوس الأيسر مبادرة الخوذ البيضاءلو تحريك الماوس في أي اتجاه. تكبير شاشة 3D StickWRLD عن طريق الضغط باستمرار على زر الماوس الأيمن أثناء تحريك الماوس لأعلى أو لأسفل. 7. العثور فصل بين التبعيات (IPDS) تصفح الرأي بالغسل والتكبير كما هو موضح في الخطوة 6. بقايا Coevolving تتجاوز متطلبات الحد الأدنى من كلا p و المتبقية ترتبط عبر خطوط حافة كما رأينا في الشكل (6). إذا كان هناك العديد جدا أو قليلة جدا حواف ربط المخلفات، تغيير المتبقية العتبة (على "السيطرة StickWRLD" جزء) لإظهار أقل، أو أكثر، الحواف. زيادة عتبة المتبقية على جزء تحكم StickWRLD حتى يتم عرض أي خطوط حافة النازحين داخليا والطريق المنحدر ببطء حتى تظهر العلاقات. الاستمرار في زيادة المتبقية حتى يكون لديك عدد كاف من العلاقات لدراسة. تحديد العلاقات التي تنطوي إما بقايا الفائدة المعروف (على سبيل المثال، في غضون عزر أو ملزمة / المرحموقع ctional) أو المخلفات التي هي القاصي مع بعضها البعض داخل المحاذاة (مما يدل على أنهم الداني في البروتين مطوية) 8. اختيار والنتائج إنقاذ باستخدام الأوامر + اليسار انقر على أي حواف الفائدة. والجزء تحكم StickWRLD تشير الأعمدة والاتصال بقايا محددة، على سبيل المثال، "(124 | G) (136 | H)" (الشكل 7). خطوط الصلبة تمثل الجمعيات إيجابية؛ الخطوط المتقطعة تمثل التداعيات السلبية. اضغط على "حواف إخراج" زر في لوحة "StickWRLD تحكم" لحفظ نص عادي تنسيق ملف (edge_residual.csv) من كل من حواف واضحة، بما في ذلك بقايا انضم والقيم المتبقية الفعلية، في / StickWRLD / إإكسك / الدليل.

Representative Results

وقد استخدم StickWRLD سابقا للكشف عن تبعيات فاصلة (IPDS) بين المخلفات في كل من الحمض النووي 3 والبروتين 15-17 التحالفات. هذه البقايا المتطورة المشترك، بينما في كثير من الأحيان البعيدة عن بعضها البعض في تسلسل المحاذاة، وغالبا ما تكون القريبة من بعضها البعض في البروتين مطوية. StickWRLD يسمح الاكتشاف السريع لبقايا محددة المشارك حدوث في مثل هذه المواقع، على سبيل المثال، وهو ألانين في موقف "X" يرتبط بقوة إلى ثريونين في موقف "Y". ويمكن لهذه الارتباطات يكون مؤشرا على العلاقات الهيكلية يمكن اثباتها، والمواقع التي، بحكم الضرورة، وشارك في التطور عادة. StickWRLD غير قادرة على الكشف عن هذه العلاقات حتى عندما أكثر "التقليدية" النهج باستخدام HMMs لوصف تفشل الزخارف. على سبيل المثال، تحليل محاذاة PFAM المجال ADK غطاء باستخدام StickWRLD يكشف عن وجود علاقة إيجابية قوية بين cysteines (C) في مناصب 4 و 8 و منسقةزوج من C في مواقف 35 و 38. وفي الوقت نفسه، أظهرت StickWRLD علاقة إيجابية قوية مماثلة بين الحامض الاميني (H) و (S) سيرين في 4 و 8، مع علاقات سلبية قوية بينها وبين اللجنة الرباعية C في 4، 8، 35، و 38، وجود علاقة إيجابية قوية مع حمض الأسبارتيك (D) وثريونين (T) في مواقف 35 و 38 على التوالي. وجود IPDS إضافية بين H، S، D، T عزر وT و G في موقف **** 10 و 29 في ب الرقيقة **** تسليط الضوء على طبيعة المشروطة هذه IPDS – عزر tetracysteine ​​لا "الرعاية" حول الهويات في هذين الموقفين، في حين أن H ماء، S، D، T ثالوث يتطلب بقايا محددة في هذه المواقف تماما تقريبا. يمكن أن هذين مختلفة تماما الزخارف بقايا تعتمد على موقف الوفاء نفس الدور الغطاء ADK. كما يمكن أن يرى في الشكل (6)، ومجموعة كبيرة من IPDS، بما في ذلك رابطة 3 عقدة بين G (الجلايسين) في موقف 132، Y (التيروزين) في موقف 135، وP (proliشمال شرق) في موقف 141، غير مرئية في المقدمة (الشكل 6A). في الشكل 6B، كانت نظرة مشوهة لوضع المستخدم أعلى قليلا من اسطوانة، وكشف عن عقد قطبي دولي بين H (الحامض الاميني) في موقف 136 وM (ميثيونين) في موقف 29، 107 بقايا بعيد المنال. A عزر PFAM HMM مشتقة من نفس المجال (الشكل 2)، وفي الوقت نفسه، ليس فقط لا يكشف هذه على وجه التحديد شارك في المتغيرات التي تحدث عزر، ولكن يعرف أيضا التجمعات العامة في مخطط غير معتمد بيولوجيا 16. الشكل 1. "مترو الانفاق خريطة" تمثيل B. الرقيقة أدينوسين كيناز بنية المجال (ADK) غطاء. تشير الأسهم IPDS المحددة في محاذاة PFAM من ADK غطاء المجال عن طريق StickWRLD. StickWRLD غير قادرة على تحديد IPDS بشكل صحيح ضمن س العنقوديةالمخلفات و التي هي على مقربة من البروتين مطوية. ذات أهمية خاصة هي زوج T و G في المواقف 9 و 29، والتي تشكل فقط IPD عندما الرباعيات من المخلفات في 4 و 7 و 24 و 27 ليست C، C، C، C). أرقام بقايا عرض يمثل B. الرقيقة مواقف محاذاة موقف وليس PFAM. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم. الشكل 2. Skylign 18 ماركوف المخفية النموذجي (HMM) تسلسل شعار للمجال ADK غطاء، في حين HMMs هي أدوات قوية لتحديد الاحتمالات في كل موقف، فضلا عن مساهمة كل موقع لنموذج العام، واستقلال الموضعية من HMMs يجعلهم غير مناسبة للكشف عن IPDS. هذا النموذج لا تشير إلى أي منتبعيات ينظر في تمثيلات StickWRLD (الشكل 6). الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم. الشكل 3. البيانات محمل StickWRLD. ويمكن للمستخدمين الاختيار من البيانات التجريبية القائمة أو تحميل البيانات الخاصة بها في شكل DNA أو تسلسل البروتين التحالفات. نافذة مراقبة StickWRLD. يسمح جزء تحكم الشكل 4. للمستخدم بتغيير مختلف خصائص عرض فضلا عن تنظيم عتبات التحكم في عرض خطوط حافة مشيرا إلى العلاقات بين بقايا (IPDS). دائري باللون الأحمر هي الافتراضات التي تحتاج عادة ر س تعديلها للحصول على أفضل عرض من أي بيانات. القيمة المتبقية تحدد عتبة (ملاحظ المتوقعة) التي يتم رسمها خطوط موصل / جمعية. ضوابط تسميات الأعمدة والسيطرة على الكرة أم لا موضع العمود والقيم بقايا (على سبيل المثال، "A" لأرجينين) يتم عرض. المسامير السيطرة الخط العمود الحافة وإيقاف عرض خطوط حافة ربط الأعمدة – لمجموعات البيانات الكثيفة يتم تشغيل هذا أفضل حالا. الضوابط سمك العمود إذا كان العمود نفسه أو لا يتم عرض – وضع هذا إلى قيمة صغيرة جدا (على سبيل المثال، 0.1) ورسم خط من خلال المجالات في العمود، مما يجعل من السهل التمييز بين الأعمدة عن بعضها البعض الرجاء انقر هنا لعرض نسخة أكبر من هذا الرقم. ghres.jpg "العرض =" 600 "/> الرقم 5. عرض الأولي من النافذة StickWRLD برنامج OpenGL مع الأدينيلات كيناز مجال غطاء مجموعة البيانات البروتين تحميل. يبدو المنظور الأولي "القاعدة" من ​​خلال اسطوانة تتألف من المواقف تسلسل المحاذاة. يمكن للمستخدم تدوير اسطوانة باستخدام اليسار الماوس الأيمن فوق السحب، والتكبير / التصغير باستخدام الماوس اليمين مزدوجا فوق السحب. وجهة النظر الأولي هو كثيفة للغاية لأن العرض الافتراضي يظهر أن معدلات صغيرة من التطور المشترك. بالنسبة لكثير من البروتينات، في هذا الإطار، يمكن الكشف عن وحدات متميزة، ولكن حتى في المشترك المتطورة ذات الكثافة البروتينات الشاشة يمكن بسرعة وبشكل تفاعلي تبسيط للعثور على IPDS أهم باستخدام واجهة StickWRLD. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم. ghres.jpg "العرض =" 700 "/> الرقم 6. عرض المقربة من التصور StickWRLD من البروتين مجال غطاء الأدينيلات كيناز نحن هنا تغيرت الافتراضي المتبقي إلى 0.2. وهذا يزيد من الحد الأدنى لعرض الحواف بين بقايا، والتي تبين أقل الحواف. حواف التي لا تزال تشير IPDS يرتبط بقوة. وبالإضافة إلى ذلك تم استدارة الرأي والتكبير للسماح للعرض أسهل من الحواف. (A) كتلة كبيرة من IPDS مرئيا في المقدمة، بما في ذلك رابطة 3 عقدة بين G (الجلايسين) في موقف 132، Y (التيروزين) في موقف 135، وP (البرولين) في موقف 141. (B) كانت نظرة مشوهة لوضع المستخدم أعلى قليلا من اسطوانة، وكشف عن عقد قطبي دولي بين H (الحامض الاميني) في موقف 136 وM (ميثيونين) في موقف 29، 107 بقايا بعيد المنال. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الشكل. الرقم 7. إطار التحكم StickWRLD عرض معلومات الأيمن السفلي. CTRL + النقر الأيسر على كائن (على سبيل المثال، المجال أو حافة) في إطار برنامج OpenGL يعرض معلومات عن الكائن في الجزء السفلي الأيسر من النافذة تحكم StickWLRD. هنا نرى من المعلومات عن ميزة IPD بين ميثيونين في موقف 29 والحامض الاميني في موقف 136.

Discussion

وقد استخدم StickWRLD بنجاح لتحديد هذا IPDS في الأدينيلات كيناز غطاء نطاق 16، وكذلك قواعد الحمض النووي المرتبطة بها تعتمد على رو الإنهاء والرواية الموقع لصق خصوصية في Archaeal الحمض الريبي النووي النقال إنترون نوكلياز 6 المواقع المستهدفة. كانت هذه IPDS لا يمكن كشفها عن طريق الفحص المباشر من التحالفات.

يعرض StickWRLD كل موقف في ترتيب كعمود من 20 "الميادين"، حيث يمثل كل مجال واحد من 20 بقايا الأحماض الأمينية وحجم المجال يدل على تواتر حدوث ذلك بقايا معينة داخل هذا العمود (الشكل 4). يتم ترتيب الأعمدة في اسطوانة، مع خطوط حافة تربط المخلفات في أعمدة مختلفة (مما يشير إلى IPD). يتم رسم هذه الخطوط حافة إلا إذا كانت بقايا المقابلة وcovarying على تردد متجاوزا كل من القيمة ص (أهمية) والمتبقية (من المتوقع – لاحظ) العتبات.

الكشف عن متبقيات التي تحدث شارك مترابطة، أو IPDS، في المناطق البعيدة من محاذاة DNA أو تسلسل البروتين من الصعب استخدام الأدوات محاذاة تسلسل قياسي 6. وفي حين أن هذه الأدوات تولد توافق في الآراء، أو عزر، وتسلسل، وهذا الإجماع في كثير من الحالات بسيطة المتوسط ​​غالبية القاعدة ولا ينقل العلاقات covariation التي قد تشكل واحدة أو أكثر من دون زخارف – مجموعات من المخلفات التي تميل إلى المشاركة في التطور. حتى نماذج هم، التي هي قادرة على الكشف عن تبعيات المجاورة، لا يمكن للنموذج بدقة الزخارف التسلسل مع IPDS القاصي 5. والنتيجة هي أن التوافق تحسب في الواقع قد يكون "الاصطناعية" تسلسل غير موجودة في الطبيعة – والبروتينات المهندسة بناء على هذا الإجماع الحسابية قد لا، في الواقع، أن يكون الأمثل. في الواقع، فإن HMM PFAM لADK تشير إلى أن بروتين خيالية تحتوي على نصف عزر tetracysteine، ونصف H، S، D، T عزر، هو وظيفيا فقط مقبولة كمامثل أي ADK القائمة فعلا. ليست هذه هي الحالة، حيث أن مثل هذه الوهم (والعديد من blendings أخرى من هذه الزخارف) هل حفاز ميت 4،19.

عندما تبحث عن الارتباطات، فمن الأهمية بمكان أن عتبة المتبقية تعديلها للسماح لاكتشاف الارتباطات ذات الصلة عن طريق تحديد عتبة فوق المستوى الذي تعتبر أي حواف ثم التعلية تدريجيا عتبة التراجع. هذا يضمن أن فقط حواف أهم تعتبر البداية.

نهج بديل هو أن تبدأ مع عتبة المتبقية تعيين منخفضة للغاية. ويؤدي ذلك إلى عرض شامل لكل حواف كبيرة. من هنا عتبة المتبقية يمكن أن تزيد ببطء، مما يسمح حواف إلى الانقطاع حتى تظهر الأنماط. في حين أن هذا النهج هو أقل فائدة عندما تبحث عن إدراج العقد محددة (على سبيل المثال، تطبيق المعرفة المجال)، فإنه يسمح لاكتشاف علاقات غير متوقعة باستخدام StickWRLD باعتباره فيماالسياقية أداة تحليلية لاكتشاف الأنماط الناشئة في التصور البيانات.

StickWRLD يقتصر في المقام الأول من قبل الذاكرة المتوفرة في النظام الذي يتم تشغيله وكذلك قرار من جهاز العرض. في حين لا يوجد حد النظري إلى عدد من النقاط البيانات يمكن StickWRLD دراسة، وتسلسل ما يصل إلى 20،000 المناصب قد تم اختبارها عمليا StickWRLD يؤدي بشكل أفضل مع تسلسل تصل إلى حوالي 1000 وظيفة.

والميزة الرئيسية لStickWRLD تكمن في قدرتها على تحديد مجموعة من المخلفات التي covary مع بعضها البعض. هذا هو تفوقا كبيرا على النهج التقليدي للتسلسل إجماع الإحصائي، وهو المتوسط ​​إحصائية بسيطة ولا يأخذ coevolution بعين الاعتبار. بينما في بعض الحالات بقايا covarying قد تكون مجرد قطعة أثرية من نسالة، صمدت حتى هذه المخلفات "اختبار الاختيار"، وعلى هذا النحو من غير المرجح أن ينتقص من functionaعنه lity من أي بروتين هندسيا لتشمل منهم.

أثناء استخدام StickWRLD لتحديد IPDS في الحمض النووي أو بروتين تسلسل الكنسي التوافق / عزر قبل المتغيرات الهندسة الاصطناعية سوف يقلل من احتمالات الخطأ ودعم التحسين السريع من وظيفة، وتجدر الإشارة إلى أن StickWRLD يمكن استخدامها كأداة تحديد علاقة المعمم و لا يقتصر حصرا لبيانات البروتين. StickWRLD يمكن استخدامها لاكتشاف بصريا المشارك حدوثها في أي متغيرات في أي مجموعة البيانات المشفرة بشكل صحيح.

Divulgations

The authors have nothing to disclose.

Acknowledgements

StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.

Materials

Mac or Ubuntu OS computer Various NA Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts
Python programming language python.org NA Python version 2.7.6 or greater recommended
wxPython library wxpython.org NA Latest version recommended
SciPy library scipy.org NA Latest version recommended
PyOpenGL library pyopengl.sourceforge.net NA Latest version recommended
StickWRLD Python scripts NCH BCCM NA Available from http://www.stickwrld.org
fasta2stick.sh file converter NCH BCCM NA Available from http://www.stickwrld.org
Protein and/or DNA sequence data NA NA Samples available at http://www.stickwrld.org

References

  1. Ray, W. C. Addressing the unmet need for visualizing conditional random fields in biological data. BMC. 15, 202 (2014).
  2. Sullivan, B. J., Durani, V., Magliery, T. J. Triosephosphate isomerase by consensus design: dramatic differences in physical properties and activity of related variants. Journal of molecular biology. 413, 195-208 (2011).
  3. Smith, M. A., Bedbrook, C. N., Wu, T., Arnold, F. H. Hypocrea jecorina cellobiohydrolase I stabilizing mutations identified using noncontiguous recombination. ACS synthetic biology. 2, 690-696 (2013).
  4. Ray, W. C. Understanding the sequence requirements of protein families: insights from the BioVis 2013 contests. BMC proceedings. 8, S1 (2014).
  5. Eddy, S. R. What is a hidden Markov model?. Nature biotechnology. 22, 1315-1316 (2004).
  6. Ray, W. C., Ozer, H. G., Armbruster, D. W., Daniels, C. J. Beyond identity – when classical homology searching fails, why, and what you can do about it. Proceedings of the 4th Ohio Collaborative Conference on Bioinformatics. , 51-56 (2009).
  7. Ovchinnikov, S., Kamisetty, H., Baker, D. Robust and accurate prediction of residue-residue interactions across protein interfaces using evolutionary information. eLife. 3, e02030 (2014).
  8. Trudeau, D. L., Lee, T. M., Arnold, F. H. Engineered thermostable fungal cellulases exhibit efficient synergistic cellulose hydrolysis at elevated temperatures. Biotechnology and bioengineering. 111, 2390-2397 (2014).
  9. Ray, W. C. MAVL and StickWRLD: visually exploring relationships in nucleic acid sequence alignments. Nucleic acids research. 32, W59-W63 (2004).
  10. . Python Language Reference v.2.7.6 Available from: https://www.python.org/download/releases/2.7.6/ (2014)
  11. . . PyOpenGL The Python OpenGL Binding. , (2014).
  12. Larkin, M. A. Clustal W and Clustal X version 2.0. Bioinformatics. 23, 2947-2948 (2007).
  13. Ozer, H. G., Ray, W. C. MAVL/StickWRLD: analyzing structural constraints using interpositional dependencies in biomolecular sequence alignments. Nucleic acids research. 34, W133-W136 (2006).
  14. Ray, W. C. MAVL/StickWRLD for protein: visualizing protein sequence families to detect non-consensus features. Nucleic acids research. 33, W315-W319 (2005).
  15. Ray, W. C. A Visual Analytics approach to identifying protein structural constraints. IEEE. , 249-250 (2010).
  16. Wheeler, T. J., Clements, J., Finn, R. D. Skylign: a tool for creating informative, interactive logos representing sequence alignments and profile hidden Markov models. BMC bioinformatics. 15, 7 (2014).
  17. Perrier, V., Burlacu-Miron, S., Bourgeois, S., Surewicz, W. K., Gilles, A. M. Genetically engineered zinc-chelating adenylate kinase from Escherichia coli with enhanced thermal stability. The Journal of biological chemistry. 273, 19097-19101 (1998).

Play Video

Citer Cet Article
Rumpf, R. W., Ray, W. C. Optimization of Synthetic Proteins: Identification of Interpositional Dependencies Indicating Structurally and/or Functionally Linked Residues. J. Vis. Exp. (101), e52878, doi:10.3791/52878 (2015).

View Video