Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
وتستخدم التحالفات البروتين عادة لتقييم تشابه بقايا البروتين، وتسلسل إجماع المستمدة تستخدم لتحديد وحدات وظيفية (على سبيل المثال، المجالات). فشل نماذج بناء توافق في الآراء التقليدية لحساب تبعيات فاصلة – وظيفيا covariation المطلوب من المخلفات التي تميل إلى الظهور في وقت واحد في جميع أنحاء تطور وعبر شجرة phylogentic. ويمكن لهذه العلاقات تكشف خيوط مهمة حول العمليات للطي البروتين، وصمود للحرارة، وتشكيل لمواقع وظيفية، والتي بدورها يمكن استخدامها لإبلاغ هندسة البروتينات الاصطناعية. للأسف، هذه العلاقات تشكل أساسا زخارف الفرعي الذي لا يمكن التنبؤ بها من قبل بسيطة "حكم الأغلبية" أو نماذج توافق حتى على HMM، ويمكن أن تكون النتيجة "الإجماع" غير صالحة من الناحية البيولوجية وهو لم أر أبدا إلا في الطبيعة ولكن أقل قابلة للحياة من أي بروتين موجود. قمنا بتطوير والبصريةأداة alytics، StickWRLD، مما يخلق التمثيل 3D التفاعلية من تشكيلة البروتين وبشكل واضح يعرض covarying المخلفات. المستخدم لديه القدرة على والتكبير، وكذلك حيوي تغيير عتبة الإحصائية التي يقوم عليها تحديد covariants. قد سبق استخدامها StickWRLD بنجاح لتحديد بقايا covarying المطلوبة وظيفيا في البروتينات مثل الأدينيلات كيناز وتسلسل الحمض النووي مثل المواقع المستهدفة نوكلياز.
منذ فترة طويلة تستخدم التحالفات البروتين لتقييم تشابه المخلفات في أسرة البروتين. في كثير من الأحيان أهم سمات من البروتين (على سبيل المثال، مواقع الربط الحفازة أو غيرها) هي نتيجة من البروتين للطي جلب المناطق البعيدة للتسلسل خطي إلى الاتصال، ونتيجة لهذه المناطق على ما يبدو لا علاقة لها في محاذاة تميل إلى التطور والتغيير في بطريقة منسقة. في حالات أخرى، يمكن وظيفة البروتين سوف تعتمد على توقيعه الكهربائي، ويتم تعويض الطفرات التي تؤثر على ثنائي القطب الإلكتروني لبالتغيرات إلى بقايا اتهم بعيدة. يمكن أن الآثار تفارغي أيضا لحث على المدى الطويل تبعيات متتابعة والمكانية بين الهويات المخلفات. بغض النظر عن أصلهم، هذه covariations المطلوبة وظيفيا من مخلفات – تبعيات بين الموضعية (IPDS) – قد لا يكون واضحا مع الفحص البصري من محاذاة (الشكل 1). تحديد IPDS – وكذلك منالذي بقايا محددة داخل تلك المواقف تميل إلى covary كوحدة – يمكن أن تكشف عن خيوط مهمة عن عمليات طي البروتين وتكوين مواقع وظيفية. ويمكن بعد ذلك أن تستخدم هذه المعلومات لتحسين الاصطناعية (هندسيا) البروتينات من حيث صمود للحرارة والنشاط. منذ فترة طويلة كان من المعروف أنه ليس كل الطفرات نقطة على الوصول لإجماع توفر تحسين الاستقرار أو النشاط. في الآونة الأخيرة، والبروتينات مصممة للاستفادة من IPDS المعروفة في تسلسلها وقد ثبت أن يؤدي إلى نشاط أكبر من البروتين نفسه مصممة بدقة من الإجماع 1،2 (مخطوطة في الإعداد)، على غرار فكرة استقرار الطفرات النقطة 3.
لسوء الحظ، نماذج بناء توافق في الآراء التقليدية (على سبيل المثال، حكم الأغلبية) التقاط فقط IPDS عن طريق الصدفة. التوافق ومصفوفة يحرز موقعة محددة الأساليب هي جاهلة IPDS وفقط 'صحيح' تشمل منهم في النماذج، عندما بقايا تعتمدهي أيضا بقايا الأكثر شعبية لتلك المناصب في الأسرة. يمكن ماركوف سلسلة نماذج التقاط IPDS عندما تكون بالتسلسل الداني، ولكن تنفيذها نموذجي يتجاهل كل شيء ما عدا الجيران المباشرين متتابعة، وحتى في أفضل حالاتها، وحسابات ماركوف المخفية النموذجي (انظر الشكل 2) أصبحت مستعصية على الحل عندما يتم فصل تبعيات في تسلسل بأكثر من من اثني عشر أو نحو ذلك مناصب 4. وبما أن هذه IPDS تشكل أساسا "، زخارف الفرعية" التي لا يمكن التنبؤ بها من قبل بسيطة "حكم الأغلبية" أو نماذج توافق حتى على HMM-5،6 النتيجة يمكن أن يكون "التوافق" غير صالحة من الناحية البيولوجية وهو لم أر أبدا إلا في الطبيعة ولكن غير أقل قابلة للحياة من أي بروتين موجود. الأنظمة القائمة على ماركوف عشوائية الحقول، مثل جريملين (Gremlin) 7، محاولة للتغلب على هذه المشاكل. بالإضافة إلى ذلك حين التقنيات البيولوجية / الكيمياء الحيوية المتطورة مثل إعادة التركيب غير متجاورة 3،8 يمكن استخدامها لبيئة تطوير متكاملةعناصر البروتين الأساسية ntify حسب المنطقة، فإنها تتطلب قدرا كبيرا من الوقت والعمل مقاعد البدلاء من أجل الدقة واحدة قاعدة الزوج أن يتحقق.
StickWRLD 9 هو برنامج يستند إلى بيثون أن يخلق التمثيل 3D التفاعلية من تشكيلة البروتين الذي يجعل IPDS واضحة وسهلة الفهم. كل موقف في محاذاة ما يمثل عمود في العرض، حيث يتكون كل عمود من كومة من المجالات، واحدة لكل من 20 الأحماض الأمينية التي يمكن أن تكون موجودة في هذا الموقف داخل المحاذاة. حجم المجال يتوقف على وتيرة حدوث الأحماض الأمينية، بحيث يمكن للمستخدم استشفاف على الفور بقايا الآراء أو التوزيع النسبي للأحماض الأمينية في هذا الموقف ببساطة عن طريق النظر في حجم المجالات. يتم التفاف الأعمدة التي تمثل كل موقف حول اسطوانة. وهذا يعطي كل المجالات التي تمثل ممكن من الأحماض الأمينية في كل موقف في محاذاة، و"خط الأفق" واضحعلى كل إمكانية الأحماض الأمينية الأخرى في كل منصب آخر. قبل التصور، StickWRLD يحسب قوة الارتباط بين كل مزيج ممكن من المخلفات لتحديد IPDS 9. لتمثيل IPDS، يتم رسم الخطوط الفاصلة بين البقايا التي coevolving في أعلى أو أقل مما هو متوقع إذا كانت البقايا الموجودة في مواقف مستقلة (IPDS).
وهذا لا تظهر التصور الذي مواقف تسلسل تتفاعل تطويريا، ولكن كما يتم رسم خطوط IPD الحافة بين المجالين الأحماض الأمينية في كل عمود، يمكن للمستخدم تحديد بسرعة والتي تميل الأحماض الأمينية المحددة التي يتعين coevolving في كل موقف. المستخدم لديه القدرة على تدوير واستكشاف هيكل IPD تصور، وكذلك حيوي تغيير عتبات الإحصائية السيطرة على عرض الارتباطات، مما يجعل StickWRLD أداة قوية لاكتشاف IPDS.
تطبيقات مثل جريملين (Gremlin) 7 similآرلي عرض المعلومات ذات العلاقة المعقدة بين بقايا – ولكن يتم احتساب هذه العلاقات عبر المزيد من النماذج ماركوف التقليدية، التي لا تهدف إلى تحديد أي علاقات مشروطة. على هذا النحو، وهذه هي قابلا للعرض حيث تشير التقديرات 2D. على النقيض من ذلك، يمكن StickWRLD حساب وعرض متعددة عقدة تبعيات المشروطة، التي يمكن أن غموض لو صدر مثل رسم بياني 2D (وهي ظاهرة تعرف باسم حافة انسداد).
لديه رأي 3D StickWRLD أيضا العديد من المزايا الأخرى. من خلال السماح للمستخدمين لمعالجة المرئية – الميزات التي يمكن غموض أو unintuitive في تمثيل 2D يمكن أن ينظر إليها أكثر سهولة في اسطوانة 3D من StickWRLD – بالغسل، بالتناوب، والتكبير. StickWRLD هو أساسا أداة بصرية تحليلات، وتسخير قوة التعرف على الأنماط قدرة الدماغ البشري لمعرفة الأنماط والاتجاهات، والقدرة على استكشاف البيانات من وجهات نظر مختلفة يفسح المجال لذلك.
وقد استخدم StickWRLD بنجاح لتحديد هذا IPDS في الأدينيلات كيناز غطاء نطاق 16، وكذلك قواعد الحمض النووي المرتبطة بها تعتمد على رو الإنهاء 9، والرواية الموقع لصق خصوصية في Archaeal الحمض الريبي النووي النقال إنترون نوكلياز 6 المواقع المستهدفة. كانت هذه IPDS لا يمكن كشفها عن طريق الفحص المباشر من التحالفات.
يعرض StickWRLD كل موقف في ترتيب كعمود من 20 "الميادين"، حيث يمثل كل مجال واحد من 20 بقايا الأحماض الأمينية وحجم المجال يدل على تواتر حدوث ذلك بقايا معينة داخل هذا العمود (الشكل 4). يتم ترتيب الأعمدة في اسطوانة، مع خطوط حافة تربط المخلفات في أعمدة مختلفة (مما يشير إلى IPD). يتم رسم هذه الخطوط حافة إلا إذا كانت بقايا المقابلة وcovarying على تردد متجاوزا كل من القيمة ص (أهمية) والمتبقية (من المتوقع – لاحظ) العتبات.
الكشف عن متبقيات التي تحدث شارك مترابطة، أو IPDS، في المناطق البعيدة من محاذاة DNA أو تسلسل البروتين من الصعب استخدام الأدوات محاذاة تسلسل قياسي 6. وفي حين أن هذه الأدوات تولد توافق في الآراء، أو عزر، وتسلسل، وهذا الإجماع في كثير من الحالات بسيطة المتوسط غالبية القاعدة ولا ينقل العلاقات covariation التي قد تشكل واحدة أو أكثر من دون زخارف – مجموعات من المخلفات التي تميل إلى المشاركة في التطور. حتى نماذج هم، التي هي قادرة على الكشف عن تبعيات المجاورة، لا يمكن للنموذج بدقة الزخارف التسلسل مع IPDS القاصي 5. والنتيجة هي أن التوافق تحسب في الواقع قد يكون "الاصطناعية" تسلسل غير موجودة في الطبيعة – والبروتينات المهندسة بناء على هذا الإجماع الحسابية قد لا، في الواقع، أن يكون الأمثل. في الواقع، فإن HMM PFAM لADK تشير إلى أن بروتين خيالية تحتوي على نصف عزر tetracysteine، ونصف H، S، D، T عزر، هو وظيفيا فقط مقبولة كمامثل أي ADK القائمة فعلا. ليست هذه هي الحالة، حيث أن مثل هذه الوهم (والعديد من blendings أخرى من هذه الزخارف) هل حفاز ميت 4،19.
عندما تبحث عن الارتباطات، فمن الأهمية بمكان أن عتبة المتبقية تعديلها للسماح لاكتشاف الارتباطات ذات الصلة عن طريق تحديد عتبة فوق المستوى الذي تعتبر أي حواف ثم التعلية تدريجيا عتبة التراجع. هذا يضمن أن فقط حواف أهم تعتبر البداية.
نهج بديل هو أن تبدأ مع عتبة المتبقية تعيين منخفضة للغاية. ويؤدي ذلك إلى عرض شامل لكل حواف كبيرة. من هنا عتبة المتبقية يمكن أن تزيد ببطء، مما يسمح حواف إلى الانقطاع حتى تظهر الأنماط. في حين أن هذا النهج هو أقل فائدة عندما تبحث عن إدراج العقد محددة (على سبيل المثال، تطبيق المعرفة المجال)، فإنه يسمح لاكتشاف علاقات غير متوقعة باستخدام StickWRLD باعتباره فيماالسياقية أداة تحليلية لاكتشاف الأنماط الناشئة في التصور البيانات.
StickWRLD يقتصر في المقام الأول من قبل الذاكرة المتوفرة في النظام الذي يتم تشغيله وكذلك قرار من جهاز العرض. في حين لا يوجد حد النظري إلى عدد من النقاط البيانات يمكن StickWRLD دراسة، وتسلسل ما يصل إلى 20،000 المناصب قد تم اختبارها عمليا StickWRLD يؤدي بشكل أفضل مع تسلسل تصل إلى حوالي 1000 وظيفة.
والميزة الرئيسية لStickWRLD تكمن في قدرتها على تحديد مجموعة من المخلفات التي covary مع بعضها البعض. هذا هو تفوقا كبيرا على النهج التقليدي للتسلسل إجماع الإحصائي، وهو المتوسط إحصائية بسيطة ولا يأخذ coevolution بعين الاعتبار. بينما في بعض الحالات بقايا covarying قد تكون مجرد قطعة أثرية من نسالة، صمدت حتى هذه المخلفات "اختبار الاختيار"، وعلى هذا النحو من غير المرجح أن ينتقص من functionaعنه lity من أي بروتين هندسيا لتشمل منهم.
أثناء استخدام StickWRLD لتحديد IPDS في الحمض النووي أو بروتين تسلسل الكنسي التوافق / عزر قبل المتغيرات الهندسة الاصطناعية سوف يقلل من احتمالات الخطأ ودعم التحسين السريع من وظيفة، وتجدر الإشارة إلى أن StickWRLD يمكن استخدامها كأداة تحديد علاقة المعمم و لا يقتصر حصرا لبيانات البروتين. StickWRLD يمكن استخدامها لاكتشاف بصريا المشارك حدوثها في أي متغيرات في أي مجموعة البيانات المشفرة بشكل صحيح.
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |