Summary

ושאריות או זיהוי של Interpositional תלות המציין מבני / צמודות תפקודית: אופטימיזציה של חלבונים סינטטיים

Published: July 14, 2015
doi:

Summary

Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.

Abstract

מערכי חלבון משמשים בדרך כלל כדי להעריך את הדמיון של שאריות חלבון, ורצף הקונצנזוס נגזר משמש לזיהוי יחידות פונקציונליות (למשל, תחומים). מודלים בניית הקונצנזוס מסורתיים נכשלים בחשבון תלות interpositional – תפקודי השתנות משותפת הנדרשת של שאריות שנוטות להופיע בו זמנית בכל התפתחות ומעבר לעץ phylogentic. יחסים אלה יכולים לחשוף רמזים חשובים על התהליכים של קיפול חלבונים, thermostability, והיווצרותם של אתרים פונקציונליים, אשר בתורו יכול לשמש כדי ליידע את ההנדסה של חלבונים סינטטיים. למרבה הצער, מערכות יחסים אלה במהות יוצרים תת-מוטיבים שלא ניתן לחזות על ידי "שלטון הרוב" פשוט או מודלים קונסנסוס מבוסס HMM אפילו, והתוצאה יכולה להיות "הסכמה" מבחינה ביולוגית לא חוקית שהוא לא רק לא ראה בטבע אבל הוא פחות קיימא יותר מכל חלבון הקיים. פיתחנו חזותיכלי alytics, StickWRLD, אשר יוצר ייצוג 3D אינטראקטיבי של יישור חלבון ומציג בצורה ברורה covarying שאריות. למשתמש יש את יכולת מחבת וזום, כמו גם באופן דינמי לשנות את הסף הסטטיסטי בסיסי זיהוי covariants. StickWRLD כבר בעבר שימש בהצלחה לזהות שאריות covarying תפקודית-נדרשו בחלבונים כגון Adenylate קינאז וברצפי DNA כגון אתרי יעד endonuclease.

Introduction

מערכי חלבון כבר מזמן משמשים להערכת הדמיון של שאריות במשפחת חלבונים. לעתים קרובות התכונות מעניינות ביותר של חלבון (לדוגמא, אתרי קישור קטליטי או אחרים) הן התוצאה של חלבון מתקפל הבאת אזורים מרוחקים של הרצף ליניארי במגע, וכתוצאה מכך אזורים שאינם קשורים, ככל הנראה, אלה ביישור נוטים להתפתח ולהשתנות ב אופן מתואם. במקרים אחרים, את הפונקציה של חלבון יכולה להיות תלויה בחתימה אלקטרוסטטי שלה, ומוטציות המשפיעות על דיפול האלקטרוני מפוצים על ידי שינויים בשאריות טעונות רחוקות. השפעות allosteric יכולות גם לגרום לתלות רציפה ומרחבי ארוך טווח בין זהויות שאריות. ללא קשר למוצא שלהם, covariations אלה תפקודי-המבוקשים לשאריות – התלות בין-מעמדית (IPDS) – לא יכול להיות ברור עם בחינה חזותית של היישור (איור 1). זיהוי של IPDS – כמו גם שלששאריות ספציפיות בתוך עמדות אלה נוטות covary כיחידה – יכול לחשוף רמזים חשובים על התהליכים של קיפול חלבונים והיווצרות של אתרים פונקציונליים. מידע זה לאחר מכן ניתן להשתמש כדי לייעל את החלבונים סינטטיים (מהונדסים) במונחים של thermostability ופעילות. זה כבר זמן רב ידוע שלא כל מוטציות הנקודה לקונסנסוס לספק יציבות או פעילות משופרת. לאחרונה, חלבונים שנועדו לנצל את IPDS הידוע ברצף שלהם הוכחו לגרום לפעילות גדולה יותר מאותו החלבון שנועד אך ורק מהקונצנזוס 1,2 (כתב יד בהכנה), דומה לרעיון של ייצוב מוטציות נקודת 3.

למרבה הצער, מודלים בניית הקונצנזוס מסורתיים (למשל, שלטון הרוב) ללכוד רק IPDS ידי תאונה. שיטות קונסנסוס ומטריקס ניקוד ספציפי מיקום בורות של IPDS ורק "בצורה נכונה" לכלול אותם בדגמים, כאשר השאריות תלויותגם השאריות הפופולריות ביותר עבור אלה תפקידים במשפחה. מודלים שרשרת מרקוב יכולים ללכוד IPDS כאשר הם ברצף הפרוקסימלי, אך היישום הטיפוסי שלהם מתעלם הכל חוץ שכנים רציפים מיידיים, ואפילו במיטבם, חישובים מוסתרים מרקוב דגם (ראו איור 2) הפכו סורר כאשר תלות מופרדות ברצף על ידי יותר מ תריסר עמדות 4. מאז IPDS אלה בעצם יוצר "תת-מוטיבים" שלא ניתן לחזות על ידי "שלטון הרוב" פשוט או מודלים קונסנסוס מבוסס HMM אפילו 5,6 התוצאה יכולה להיות "הסכמה" מבחינה ביולוגית לא חוקית שהוא לא רק לא ראה בטבע, אלא היא פחות קיימא יותר מכל חלבון הקיים. מערכות המבוססות על מרקוב אקראי שדות, כגון 7 גרמלין, ינסו להתגבר על בעיות אלה. בנוסף בעוד ניתן להשתמש בטכניקות ביולוגיות / ביוכימי מתוחכמות כגון 3,8 רקומבינציה רציף לאיידאלמנטי חלבון חיוניים ntify לפי אזור, הם דורשים זמן רב ועבודת ספסל לדיוק חד-בסיס-זוג שיש להשיג.

9 StickWRLD היא תכנית המבוססת פייתון שיוצרת ייצוג 3D אינטראקטיבי של יישור חלבון שגורם IPDS ברור וקל להבנה. כל עמדה ביישור מיוצגת כעמודה בתצוגה, שבו כל עמודה מורכבת מערימה של כדורים, אחד לכל 20 חומצות אמינו שיכול להיות נוכח במעמד שתוך היישור. גודל הכדור תלוי בתדירות ההופעה של חומצת אמינו, כך שהמשתמש יכול ללקט את שאריות קונסנסוס או ההפצה היחסית של חומצות אמינו בעמדה שפשוט על ידי הסתכלות על הגודל של תחומים באופן מיידי. העמודות המייצגות כל עמדה עטופות סביב גליל. זה נותן כל תחום המייצג חומצת אמינו אפשרית בכל עמדה ביישור, 'קו הראיה "ברורלכל אפשרות אחרת של חומצות אמינו בכל תפקיד אחר. לפני ההדמיה, StickWRLD מחשבת את כוח המתאם בין כל הצירופים האפשריים של שאריות לזהות IPDS 9. לייצג IPDS, קווים נמשכים בין שאריות הcoevolving בגבוה יותר, או נמוך יותר ממה שאפשר לצפות אם השאריות הנוכחיות בעמדות היו עצמאיות (IPDS).

לא עושה רק תכנית להדמיה זו שעמדות רצף אינטראקציה אבולוציונית, אלא כקווי קצה IPD נמשכים בין תחומי חומצת אמינו בכל טור, המשתמש יכול לקבוע במהירות שחומצות אמינו מסוימות נוטות להיות coevolving בכל עמדה. למשתמש יש את היכולת לסובב ולחקור את מבנה IPD דמיין, כמו גם באופן דינמי לשנות את הסף הסטטיסטי שליטה בתצוגה של מתאמים, מה שהופך את StickWRLD גילוי כלי רב עוצמה עבור IPDS.

יישומים כגון simil 7 גרמליןקארלי להציג מידע יחסי מורכב בין שאריות – אבל יחסים אלה מחושבים באמצעות מודלים מסורתיים יותר מרקוב, שלא נועדו כדי לקבוע כל קשרים מותנים. ככזה, אלה הם מסוגלים להיות מוצג כהשלכות 2D. לעומת זאת, StickWRLD יכול לחשב ולהציג את תלות מותנית רב-צומת, אשר עשוי להיות לטשטש אם שניתנו כגרף 2D (תופעה הידועה בחסימת קצה).

תצוגת 3D של StickWRLD יש גם כמה יתרונות אחרים. על ידי המאפשר למשתמשים לתפעל חזותיות – תכונות שניתן לטשטש או unintuitive בייצוג 2D ניתן לראות בקלות רבה יותר בגליל 3D של StickWRLD – פנורמי, מסתובב, והתקרבות. StickWRLD הוא למעשה כלי חזותי Analytics, רתימת העצמה של יכולת זיהוי התבניות של המוח האנושי לראות דפוסים ומגמות, ואת היכולת לחקור נתונים מנקודתי מבט שונים משאיל את עצמו לזה.

Protocol

הורדת תוכנת 1. & התקנה השתמש יש מחשב אינטל i5 או מעבד טוב יותר עם ​​לפחות 4 GB של RAM, והוא מערכת ההפעלה Mac OS X או GNU / Linux OS (למשל, אובונטו). בנוסף, ספריות 13 פיתון פייתון 2.7.6 10 וwxPython 2.8 11, 12 SciPy, וPyOpenGL נדרשות – להורדה והתקנה של כל מהמאגרים שלהם. הורד StickWRLD כארכיון zip המכיל את כל תסריטי פייתון הרלוונטיים. הורד את התסריט "fasta2stick.sh" להמרת יישור רצף / חלבון סטנדרטי FASTA DNA לפורמט StickWRLD. לחלץ את הארכיון ולשים את תיקיית StickWRLD וכתוצאה מכך על שולחן העבודה שלך. מניחים את התסריט "fasta2stick.sh" על שולחן העבודה, כמו גם. 2. מכין את המערך צור יישור של רצפי חלבונים באמצעות כל סטתוכנת dard יישור (למשל, 14 ClustalX). שמור את היישור על שולחן העבודה בפורמט FASTA. פתח את יישום המסוף במחשב מק או גנו / לינוקס ולנווט לשולחן העבודה (המיקום של התסריט "fasta2stick.sh" קליפה) על ידי הקלדת cd ~ / שולחן עבודה ולחיצה תמורה. לבצע את התסריט "fasta2stick.sh" על ידי הקלדת ./fasta2stick.sh במסוף. אם התסריט לא לבצע, להבטיח שזה הפעלה – בchmod סוג המסוף + X fasta2stick.sh לעשות ההפעלה סקריפט. בצע את ההוראות המופיעות על המסך הניתנות על ידי את התסריט כדי לציין את שם קובץ קלט (הקובץ שנוצר ב1.2 לעיל) ושם פלט הרצוי. שמור את קובץ הפלט (שנמצא עכשיו בתבנית הנכונה לStickWRLD) על שולחן העבודה. 3. השקת StickWRLD נווט להרצת StickWRLD תיקייה באמצעות ישימים המסוףני של מחשב מק או גנו / לינוקס. לדוגמא, אם תיקיית StickWRLD היא על שולחן העבודה, הקלד cd ~ / שולחן העבודה / StickWRLD / exec במסוף. הפעל StickWRLD ידי הקלדת פיתון-32 stickwrld_demo.py במסוף. ודא שלוח StickWRLD Data Loader הוא גלוי על המסך (איור 3). 4. טוען נתונים טען את יישור רצף חלבון המומר על ידי לחיצה על "החלבון טען …" כפתור. בחר את הקובץ שנוצר בשלב 3 לעיל ולחץ על "פתח". StickWRLD יפתח כמה חלונות חדשים, ובם "StickWRLD בקרה" (איור 4) ו" StickWRLD – OpenGL "(איור 5). בחר – החלון "StickWRLD OpenGL". בחר "איפוס צפה" מהתפריט "OpenGL" כדי להציג את ההדמיה StickWRLD ברירת המחדל ב" מלמעלה למטה"מבט דרך הגליל המייצג את הנתונים בחלונות OpenGL resizable .. 5. אפשרויות צפייה בחר בתיבות עבור "תוויות טור" ו- "תוויות כדור" בחלונית "StickWRLD בקרה" (איור 4) כדי להציג ערכים של עמודות וכדורים. בטל את התיבה ל" קצוות טור "בחלונית" StickWRLD הבקרה "כדי להסתיר את קווי קצה טור. הגדר את "עובי הטור" 0.1 בחלונית "StickWRLD הבקרה" לצייר קו דק באמצעות העמודות, שהופך אותו קל יותר לניווט בתצוגת 3D. לחץ לחזור כדי לקבל את השינוי. לאפס את התצוגה ב" StickWRLD – OpenGL "החלון כמו בשלב 5.3 לעיל, ולאחר מכן לחץ על הכפתור" מסך מלא "על מנת למקסם את התצוגה. 6. ניווט סובב את תצוגת 3D StickWRLD על ידי לחיצה על לחצן העכבר השמאלי WHIle הזזת העכבר לכל כיוון. זום תצוגת 3D StickWRLD על ידי לחיצה על הלחצן הימני של העכבר תוך כדי התנועה כלפי מעלה או מטה את העכבר. 7. מציאת Interpositional תלות (IPDS) חפש בתצוגה על ידי צילום פנורמי והתקרבות כמתואר בשלב 6. שאריות Coevolving העולות על דרישות הסף של שני p והשייר מחוברים באמצעות קווי קצה כפי שניתן לראות באיור 6. אם יש הרבה או מעט מדי קצות חיבור שאריות, לשנות את שיורי סף (בחלונית "StickWRLD השליטה") כדי להראות קצוות פחות, או יותר,. להגדיל את הסף שיורית על StickWRLD בקרת חלונית עד אין קווי קצה IPD מוצגים וכבש לאט עד יחסים מופיעים. המשך הגדלת השייר עד שיש לך מספר מספיק של יחסים לבחון. לזהות יחסים שכוללים גם שאריות של עניין ידוע (למשל, בתוך מוטיב או מחייב / כיףאתר ctional) או שאריות שדיסטלי אחד לשני בתוך היישור (שמראים כי הם הפרוקסימלי בחלבון המקופל) 8. בחירה וממצאים שמירה השימוש בפקודה + קליק שמאלי על כל קצוות של עניין. חלונית StickWRLD הבקרה תציין את העמודות ולהתחבר שאריות ספציפיות, למשל, "(124 | G) (136 | H)" (איור 7). קווים מוצקים מייצגים אסוציאציות חיוביות; קווים מקווקווים מייצגים אסוציאציות שליליות. לחץ על הכפתור "קצוות פלט" בלוח "StickWRLD בקרה" לשמור קובץ בפורמט טקסט רגיל (edge_residual.csv) של כל הקצוות הגלויים, כוללים שאריות הצטרפו וערך השייר שלהם בפועל, ב/ StickWRLD / exec / ספרייה.

Representative Results

StickWRLD כבר השתמש בעבר כדי לזהות תלות interpositional (IPDS) בין השאריות בשני DNA 3 וחלבון 15-17 מערכים. שאריות מתפתח-שיתוף אלה, בעוד לעתים קרובות דיסטלי מזו ביישור הרצף, הן לעתים קרובות הפרוקסימלי אחד לשני בחלבון המקופל. StickWRLD מאפשר גילוי מהיר של שיתוף התרחשות שאריות ספציפיות באתרים כאלה, למשל., אלאנין בעמדה "X" הוא מאוד מתואם לתראונין בעמדה "y". מתאמים מסוג זה יכול להצביע על קשרים מבניים מוכחים, ובדרך כלל הם אתרים ש, בהכרח, שיתוף להתפתח. StickWRLD הוא מסוגל לזהות קשרים אלה גם כאשר "מסורתיים" יותר גישות באמצעות הממ כדי לתאר מוטיבים להיכשל. לדוגמא, ניתוח של יישור PFAM של תחום מכסה ADK באמצעות StickWRLD מגלה מתאם חיובי חזק בין cysteines (ג) בעמדות 4 ו -8 ומתואםזוג C בעמדות 35 ו38. באותו הזמן, StickWRLD הראה קשר חיובי חזק בין דומה היסטידין (H) וסרין (S) בשעה 4 ו -8, עם מערכות יחסים שליליים חזקים בין אלה ורביעיית C ב 4, 8, 35, ו -38, וקשר חיובי חזק עם חומצה אספרטית (D) ותראונין (T) בעמדות 35 ו -38 בהתאמה. IPDS נוסף קיים בין H, S, D, מוטיב T וטי וG בעמדת **** 10 ו -29 בsubtilis ב **** מדגיש את הטבע המותנה של IPDS אלה – מוטיב tetracysteine ​​לא 'טיפול' על הזהויות בשתי העמדות הללו, ואילו H הידרופילי, S, D, שלישיית T דורשת שאריות ספציפיות בתפקידים אלה כמעט לחלוטין. שני מוטיבים עמדה תלויה שונים לחלוטין אלה שאריות יכולים למלא את אותו התפקיד את המכסה ADK. כפי שניתן לראות באיור 6, מקבץ גדול של IPDS, כוללים עמותת 3-צומת בין G (גליצין) בעמדה 132, Y (טירוזין) בעמדה 135, וP (proline) בעמדה 141, גלוי בחזית (איור 6 א). באיור 6, הנוף היה מוטה למצב המשתמש מעט מעל הגליל, חושף IPD בין H (היסטידין) בעמדה 136 וM (מתיונין) בעמדה 29, 107 שאריות רחוקות. מוטיב נגזר HMM PFAM של אותו תחום (איור 2), בינתיים, לא רק שאינו מזהה אלה באופן ספציפי גרסאות מוטיב שיתוף התרחשות, אלא גם מגדיר את הקבוצות הכוללות בתכנית 16 ביולוגי שאינה נתמכת. ייצוג באיור 1. "רכבת תחתית מפה" של ב ' subtilis אדנוזין קינאז מבנה תחום מכסה (ADK). חצים מצביעים IPDS זוהה ביישור PFAM של תחום מכסה ADK ידי StickWRLD. StickWRLD יכול לזהות בצורה נכונה IPDS בתוך o אשכולשאריות F אשר נמצאות בסמיכות בחלבון המקופל. עניין מיוחד הם זוג T ו- G בעמדות 9 ו -29, שרק יוצר IPD כאשר הטטרדה של שאריות ב 4, 7, 24, 27 ולא C, C, C, C). מספרי שאריות המוצגות מייצג B. עמדות יישור PFAM עמדה ולא subtilis. אנא לחץ כאן כדי לצפות בגרסה גדולה יותר של דמות זו. איור 2. Skylign 18 מרקוב דגם מוסתר (HMM) לוגו רצף לתחום מכסה ADK. בעוד הממ הם כלים רבי עוצמה לקביעת הסתברויות בכל עמדה, כמו גם את תרומתו של כל אתר למודל הכללי, עצמאות positional של הממ גורמת להם אינו מתאים לאיתור IPDS. מודל זה אינו מציע כל אחת מתלות ראתה בייצוגי StickWRLD (איור 6). אנא לחץ כאן כדי לצפות בגרסה גדולה יותר של דמות זו. איור 3. Data Loader StickWRLD. משתמשים יכולים לבחור מתוך הנתונים קיימים הדגמה או לטעון נתונים משלהם בצורה של מערכי ה- DNA או רצף חלבון. איור 4. חלון StickWRLD הבקרה. חלונית הבקרה מאפשרת למשתמש לשנות את מאפייני תצוגה שונים, כמו גם לווסת את סף שליטה בתצוגה של קווי קצה מציינים יחסים בין שאריות (IPDS). בעיגול האדום הם ברירת המחדל, כי בדרך כלל צריך t o להיות מותאם לצפייה הטובה ביותר של כל בסיס הנתונים. ערך השייר קובע את הסף של (מגלה, צפוי) שלשורות מחבר / עמותה נמשכות. הבקרות עבור תוויות טור וכדור לקבוע אם או לא את עמדת הטור וערכי שאריות (למשל, "" לארגינין) מוצגים. מחליפת קצה טור שליטת קו לסירוגין התצוגה של קווי קצה חיבור טורים – עבור ערכות נתונים צפופות זה טוב יותר כבוי. בקרות עובי טור או אם לא הטור עצמו מוצג -. הגדרה זו לערך קטן מאוד (למשל, 0.1) יהיו למתוח קו התחומים בעמודה, שהופכים אותו קל להבחין עמודות מזה אנא לחץ כאן כדי לצפות בגרסה גדולה יותר של דמות זו. "Width =" 600 ghres.jpg "/> איור 5. מבט ראשוני של חלון StickWRLD OpenGL עם ערכת נתוני חלבון Adenylate קינאז תחום מכסה טעונה. נקודת המבט הראשונית נראית "למטה" דרך הגליל המורכב מעמדות יישור רצף. לחץ לחיצה ימני על עכבר וגרירת המשתמש יכול לסובב את הגליל באמצעות עכבר השמאלי לחץ גרירה, וקרב / הרחק משתמש. התצוגה הראשונית היא די צפופה בגלל תצוגת ברירת המחדל מציגה גם שיעורים קטנים של שיתוף אבולוציה. לחלבונים רבים, בהגדרה זו, ניתן להבחין מודולים שונים, אך גם בצפיפות חלבוני התצוגה יכולה להיות פשוט יותר במהירות ובאופן אינטראקטיבי כדי למצוא את IPDS החשוב ביותר באמצעות ממשק StickWRLD מתפתח שיתוף. אנא לחץ כאן כדי לצפות בגרסה גדולה יותר של נתון זה. "Width =" 700 ghres.jpg "/> איור 6. מבט Closeup של הדמיה StickWRLD של חלבון תחום מכסה Adenylate קינאז. כאן יש לנו שיניתי את ברירת המחדל של שיורי 0.2. זה מגדיל את הסף לתצוגה של קצוות בין-שאריות, מראה פחות קצוות. הקצוות שנותרו מצביעים IPDS קשור מאוד. בנוסף ההשקפה כבר הסתובבה ודהרה כדי לאפשר צפייה נוחה של הקצוות. () מקבץ גדול של IPDS גלוי בחזית, כולל עמותת 3-צומת בין G (גליצין) בעמדה 132, Y (טירוזין) בעמדה 135, וP (פרולין) בעמדה 141. (ב) התצוגה הייתה מוטה למצב המשתמש מעט מעל הגליל, חושף IPD בין H (היסטידין) בעמדה 136 וM (מתיונין) בעמדה 29, 107 שאריות רחוקות. אנא לחץ כאן כדי לצפות בגרסה גדולה יותר של זה דמות. צפה באיור 7. חלון StickWRLD בקרה ימני תחתון מידע. CTRL + הקלקה על אובייקט (למשל, כדור או קצה) בחלון OpenGL מציג את המידע לאובייקט בפינה הימנית התחתונה של חלון StickWLRD הבקרה. כאן אנו רואים את המידע לקצה IPD בין מתיונין בעמדה 29 והיסטידין בעמדה 136.

Discussion

StickWRLD שמש בהצלחה לזהות כגון IPDS בתחום מכסה Adenylate קינאז 16, כמו גם בסיסי DNA הקשורים בterminators Rho-תלוי 9, וסגוליות אחוי-אתר רומן בendonuclease אינטרון 6 אתרי יעד Archaeal tRNA. IPDS אלה לא היו לזיהוי באמצעות בדיקה ישירה של המערכים.

StickWRLD מציג כל עמדה של יישור כטור של 20 "ספירות", שבו כל כדור מייצג את אחד 20 שאריות חומצת אמינו וגודלו של הכדור מציין את תדירות ההופעה של שאריות מסוימות שבתוך העמודה ש( איור 4). טורים מסודרים בגליל, עם קווי קצה חיבור שאריות בעמודות שונות (המציין IPD). קווי קצה אלה רק נמשכים אם השאריות המקבילות covarying בתדירות מצוין שני p-הערך (משמעות) ושייר (צפוי – שנצפו) ספים.

זיהוי של שאריות שיתוף המתרחש תלויות, או IPDS, באזורים המרוחקים של יישור DNA או רצף חלבון קשה תוך שימוש בכלים יישור רצף סטנדרטי 6. בעוד כלים כגון ליצור קונסנסוס, או מוטיב, רצף, הקונצנזוס הזה הוא במקרים רבים מיצוע רוב-כלל פשוט ולא להעביר מערכות יחסים השתנות משותפות שעלולים להיווצר אחד או יותר תת-מוטיבים – קבוצות של שאריות שנוטות לשתף להתפתח. גם דגמי HMM, שהם מסוגלים לזהות תלות השכנה, לא יכולים מוטיבים רצף מדויק מודל עם IPDS דיסטלי 5. התוצאה היא שהקונצנזוס מחושב עשוי למעשה להיות רצף "סינטטי" לא מצא בטבע – וחלבונים מהונדסים המבוססים על קונסנסוס חישובית כזה לא יכול, למעשה, להיות אופטימלי. למעשה, HMM Pfam לADK הייתי מציע שחלבון chimeric המכיל מחצית ממוטיב tetracysteine, ומחצית מH, S, D, מוטיב T, הוא פונקציונלי מקובל בדיוק כמוכמו כל ADK הקיים בפועל. זה לא המקרה, כמפלצות כאלה (ורבים אחרים התמזגויות של מוטיבים אלה) האם catalytically מת 4,19.

כאשר מחפשים מתאמים, זה קריטי, כי סף השייר להיות מותאם כדי לאפשר הגילוי של מתאמים רלוונטיים על ידי קביעת הסף מעל הרמה שבה כל קצוות נראים ולאחר מכן ramping הסף בהדרגה בחזרה למטה. זה מבטיח שרק הקצוות המשמעותיים ביותר נחשבים בתחילה.

גישה חלופית היא להתחיל עם סף השייר שנקבע נמוך מאוד. התוצאה היא התצוגה של כל הקצוות המשמעותיים. מכאן לאט ניתן להגדיל את סף השייר, המאפשר קצוות לנשור עד דפוסים להגיח. בעוד גישה זו היא פחות שימושית כאשר מחפשים הכללת צמתים מסוימים (לדוגמא, יישום של ידע תחום), היא מאפשרת לגילוי של יחסים בלתי צפויים באמצעות StickWRLD ככלפיכלי ניתוח רע"מ לגלות דפוסים המתעוררים בנתונים להדמיה.

StickWRLD מוגבל בעיקר על ידי הזיכרון זמין של המערכת עליה הוא לרוץ כמו גם את הרזולוציה של מכשיר התצוגה. אמנם אין גבול תיאורטי למספר נקודות נתוני StickWRLD יכול לבחון, ורצפים עד 20,000 עמדות נבדקו, בפועל StickWRLD מבצע הכי טוב עם רצפים עד כ -1,000 משרות.

היתרון העיקרי של StickWRLD טמון ביכולתה לזהות קבוצות של שאריות שcovary אחד עם השני. זהו יתרון משמעותי על פני הגישה המסורתית של רצף קונסנסוס הסטטיסטי, אשר מיצוע סטטיסטי פשוט ולא לוקח בחשבון אבולוציה משותפת. בעוד שבמקרים מסוימים שאריות covarying עשויות להיות פשוט תוצר של תולדות הגזע, אפילו שאריות אלה עמדו במבחן "של בחירה", ובתור שכזו הן סביר כדי לגרוע מfunctionality של כל חלבון מהונדס לכלול אותם.

תוך השימוש בStickWRLD לזהות IPDS ברצף ה- DNA או חלבון הקנונית קונסנסוס / מוטיב לפני גרסאות סינתטיות הנדסה יפחית את הפוטנציאל לטעויות ולתמוך אופטימיזציה מהירה של פונקציה, יש לציין כי StickWRLD יכול לשמש ככלי זיהוי מתאם כללי ו אינו מוגבל אך ורק לנתונים חלבון. ניתן להשתמש StickWRLD לגלות את שיתוף ההתרחשות של כל משתנים בכל קבוצת נתונים מקודדת כראוי מבחינה ויזואלית.

Divulgations

The authors have nothing to disclose.

Acknowledgements

StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.

Materials

Mac or Ubuntu OS computer Various NA Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts
Python programming language python.org NA Python version 2.7.6 or greater recommended
wxPython library wxpython.org NA Latest version recommended
SciPy library scipy.org NA Latest version recommended
PyOpenGL library pyopengl.sourceforge.net NA Latest version recommended
StickWRLD Python scripts NCH BCCM NA Available from http://www.stickwrld.org
fasta2stick.sh file converter NCH BCCM NA Available from http://www.stickwrld.org
Protein and/or DNA sequence data NA NA Samples available at http://www.stickwrld.org

References

  1. Ray, W. C. Addressing the unmet need for visualizing conditional random fields in biological data. BMC. 15, 202 (2014).
  2. Sullivan, B. J., Durani, V., Magliery, T. J. Triosephosphate isomerase by consensus design: dramatic differences in physical properties and activity of related variants. Journal of molecular biology. 413, 195-208 (2011).
  3. Smith, M. A., Bedbrook, C. N., Wu, T., Arnold, F. H. Hypocrea jecorina cellobiohydrolase I stabilizing mutations identified using noncontiguous recombination. ACS synthetic biology. 2, 690-696 (2013).
  4. Ray, W. C. Understanding the sequence requirements of protein families: insights from the BioVis 2013 contests. BMC proceedings. 8, S1 (2014).
  5. Eddy, S. R. What is a hidden Markov model?. Nature biotechnology. 22, 1315-1316 (2004).
  6. Ray, W. C., Ozer, H. G., Armbruster, D. W., Daniels, C. J. Beyond identity – when classical homology searching fails, why, and what you can do about it. Proceedings of the 4th Ohio Collaborative Conference on Bioinformatics. , 51-56 (2009).
  7. Ovchinnikov, S., Kamisetty, H., Baker, D. Robust and accurate prediction of residue-residue interactions across protein interfaces using evolutionary information. eLife. 3, e02030 (2014).
  8. Trudeau, D. L., Lee, T. M., Arnold, F. H. Engineered thermostable fungal cellulases exhibit efficient synergistic cellulose hydrolysis at elevated temperatures. Biotechnology and bioengineering. 111, 2390-2397 (2014).
  9. Ray, W. C. MAVL and StickWRLD: visually exploring relationships in nucleic acid sequence alignments. Nucleic acids research. 32, W59-W63 (2004).
  10. . Python Language Reference v.2.7.6 Available from: https://www.python.org/download/releases/2.7.6/ (2014)
  11. . . PyOpenGL The Python OpenGL Binding. , (2014).
  12. Larkin, M. A. Clustal W and Clustal X version 2.0. Bioinformatics. 23, 2947-2948 (2007).
  13. Ozer, H. G., Ray, W. C. MAVL/StickWRLD: analyzing structural constraints using interpositional dependencies in biomolecular sequence alignments. Nucleic acids research. 34, W133-W136 (2006).
  14. Ray, W. C. MAVL/StickWRLD for protein: visualizing protein sequence families to detect non-consensus features. Nucleic acids research. 33, W315-W319 (2005).
  15. Ray, W. C. A Visual Analytics approach to identifying protein structural constraints. IEEE. , 249-250 (2010).
  16. Wheeler, T. J., Clements, J., Finn, R. D. Skylign: a tool for creating informative, interactive logos representing sequence alignments and profile hidden Markov models. BMC bioinformatics. 15, 7 (2014).
  17. Perrier, V., Burlacu-Miron, S., Bourgeois, S., Surewicz, W. K., Gilles, A. M. Genetically engineered zinc-chelating adenylate kinase from Escherichia coli with enhanced thermal stability. The Journal of biological chemistry. 273, 19097-19101 (1998).

Play Video

Citer Cet Article
Rumpf, R. W., Ray, W. C. Optimization of Synthetic Proteins: Identification of Interpositional Dependencies Indicating Structurally and/or Functionally Linked Residues. J. Vis. Exp. (101), e52878, doi:10.3791/52878 (2015).

View Video