Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
מערכי חלבון משמשים בדרך כלל כדי להעריך את הדמיון של שאריות חלבון, ורצף הקונצנזוס נגזר משמש לזיהוי יחידות פונקציונליות (למשל, תחומים). מודלים בניית הקונצנזוס מסורתיים נכשלים בחשבון תלות interpositional – תפקודי השתנות משותפת הנדרשת של שאריות שנוטות להופיע בו זמנית בכל התפתחות ומעבר לעץ phylogentic. יחסים אלה יכולים לחשוף רמזים חשובים על התהליכים של קיפול חלבונים, thermostability, והיווצרותם של אתרים פונקציונליים, אשר בתורו יכול לשמש כדי ליידע את ההנדסה של חלבונים סינטטיים. למרבה הצער, מערכות יחסים אלה במהות יוצרים תת-מוטיבים שלא ניתן לחזות על ידי "שלטון הרוב" פשוט או מודלים קונסנסוס מבוסס HMM אפילו, והתוצאה יכולה להיות "הסכמה" מבחינה ביולוגית לא חוקית שהוא לא רק לא ראה בטבע אבל הוא פחות קיימא יותר מכל חלבון הקיים. פיתחנו חזותיכלי alytics, StickWRLD, אשר יוצר ייצוג 3D אינטראקטיבי של יישור חלבון ומציג בצורה ברורה covarying שאריות. למשתמש יש את יכולת מחבת וזום, כמו גם באופן דינמי לשנות את הסף הסטטיסטי בסיסי זיהוי covariants. StickWRLD כבר בעבר שימש בהצלחה לזהות שאריות covarying תפקודית-נדרשו בחלבונים כגון Adenylate קינאז וברצפי DNA כגון אתרי יעד endonuclease.
מערכי חלבון כבר מזמן משמשים להערכת הדמיון של שאריות במשפחת חלבונים. לעתים קרובות התכונות מעניינות ביותר של חלבון (לדוגמא, אתרי קישור קטליטי או אחרים) הן התוצאה של חלבון מתקפל הבאת אזורים מרוחקים של הרצף ליניארי במגע, וכתוצאה מכך אזורים שאינם קשורים, ככל הנראה, אלה ביישור נוטים להתפתח ולהשתנות ב אופן מתואם. במקרים אחרים, את הפונקציה של חלבון יכולה להיות תלויה בחתימה אלקטרוסטטי שלה, ומוטציות המשפיעות על דיפול האלקטרוני מפוצים על ידי שינויים בשאריות טעונות רחוקות. השפעות allosteric יכולות גם לגרום לתלות רציפה ומרחבי ארוך טווח בין זהויות שאריות. ללא קשר למוצא שלהם, covariations אלה תפקודי-המבוקשים לשאריות – התלות בין-מעמדית (IPDS) – לא יכול להיות ברור עם בחינה חזותית של היישור (איור 1). זיהוי של IPDS – כמו גם שלששאריות ספציפיות בתוך עמדות אלה נוטות covary כיחידה – יכול לחשוף רמזים חשובים על התהליכים של קיפול חלבונים והיווצרות של אתרים פונקציונליים. מידע זה לאחר מכן ניתן להשתמש כדי לייעל את החלבונים סינטטיים (מהונדסים) במונחים של thermostability ופעילות. זה כבר זמן רב ידוע שלא כל מוטציות הנקודה לקונסנסוס לספק יציבות או פעילות משופרת. לאחרונה, חלבונים שנועדו לנצל את IPDS הידוע ברצף שלהם הוכחו לגרום לפעילות גדולה יותר מאותו החלבון שנועד אך ורק מהקונצנזוס 1,2 (כתב יד בהכנה), דומה לרעיון של ייצוב מוטציות נקודת 3.
למרבה הצער, מודלים בניית הקונצנזוס מסורתיים (למשל, שלטון הרוב) ללכוד רק IPDS ידי תאונה. שיטות קונסנסוס ומטריקס ניקוד ספציפי מיקום בורות של IPDS ורק "בצורה נכונה" לכלול אותם בדגמים, כאשר השאריות תלויותגם השאריות הפופולריות ביותר עבור אלה תפקידים במשפחה. מודלים שרשרת מרקוב יכולים ללכוד IPDS כאשר הם ברצף הפרוקסימלי, אך היישום הטיפוסי שלהם מתעלם הכל חוץ שכנים רציפים מיידיים, ואפילו במיטבם, חישובים מוסתרים מרקוב דגם (ראו איור 2) הפכו סורר כאשר תלות מופרדות ברצף על ידי יותר מ תריסר עמדות 4. מאז IPDS אלה בעצם יוצר "תת-מוטיבים" שלא ניתן לחזות על ידי "שלטון הרוב" פשוט או מודלים קונסנסוס מבוסס HMM אפילו 5,6 התוצאה יכולה להיות "הסכמה" מבחינה ביולוגית לא חוקית שהוא לא רק לא ראה בטבע, אלא היא פחות קיימא יותר מכל חלבון הקיים. מערכות המבוססות על מרקוב אקראי שדות, כגון 7 גרמלין, ינסו להתגבר על בעיות אלה. בנוסף בעוד ניתן להשתמש בטכניקות ביולוגיות / ביוכימי מתוחכמות כגון 3,8 רקומבינציה רציף לאיידאלמנטי חלבון חיוניים ntify לפי אזור, הם דורשים זמן רב ועבודת ספסל לדיוק חד-בסיס-זוג שיש להשיג.
9 StickWRLD היא תכנית המבוססת פייתון שיוצרת ייצוג 3D אינטראקטיבי של יישור חלבון שגורם IPDS ברור וקל להבנה. כל עמדה ביישור מיוצגת כעמודה בתצוגה, שבו כל עמודה מורכבת מערימה של כדורים, אחד לכל 20 חומצות אמינו שיכול להיות נוכח במעמד שתוך היישור. גודל הכדור תלוי בתדירות ההופעה של חומצת אמינו, כך שהמשתמש יכול ללקט את שאריות קונסנסוס או ההפצה היחסית של חומצות אמינו בעמדה שפשוט על ידי הסתכלות על הגודל של תחומים באופן מיידי. העמודות המייצגות כל עמדה עטופות סביב גליל. זה נותן כל תחום המייצג חומצת אמינו אפשרית בכל עמדה ביישור, 'קו הראיה "ברורלכל אפשרות אחרת של חומצות אמינו בכל תפקיד אחר. לפני ההדמיה, StickWRLD מחשבת את כוח המתאם בין כל הצירופים האפשריים של שאריות לזהות IPDS 9. לייצג IPDS, קווים נמשכים בין שאריות הcoevolving בגבוה יותר, או נמוך יותר ממה שאפשר לצפות אם השאריות הנוכחיות בעמדות היו עצמאיות (IPDS).
לא עושה רק תכנית להדמיה זו שעמדות רצף אינטראקציה אבולוציונית, אלא כקווי קצה IPD נמשכים בין תחומי חומצת אמינו בכל טור, המשתמש יכול לקבוע במהירות שחומצות אמינו מסוימות נוטות להיות coevolving בכל עמדה. למשתמש יש את היכולת לסובב ולחקור את מבנה IPD דמיין, כמו גם באופן דינמי לשנות את הסף הסטטיסטי שליטה בתצוגה של מתאמים, מה שהופך את StickWRLD גילוי כלי רב עוצמה עבור IPDS.
יישומים כגון simil 7 גרמליןקארלי להציג מידע יחסי מורכב בין שאריות – אבל יחסים אלה מחושבים באמצעות מודלים מסורתיים יותר מרקוב, שלא נועדו כדי לקבוע כל קשרים מותנים. ככזה, אלה הם מסוגלים להיות מוצג כהשלכות 2D. לעומת זאת, StickWRLD יכול לחשב ולהציג את תלות מותנית רב-צומת, אשר עשוי להיות לטשטש אם שניתנו כגרף 2D (תופעה הידועה בחסימת קצה).
תצוגת 3D של StickWRLD יש גם כמה יתרונות אחרים. על ידי המאפשר למשתמשים לתפעל חזותיות – תכונות שניתן לטשטש או unintuitive בייצוג 2D ניתן לראות בקלות רבה יותר בגליל 3D של StickWRLD – פנורמי, מסתובב, והתקרבות. StickWRLD הוא למעשה כלי חזותי Analytics, רתימת העצמה של יכולת זיהוי התבניות של המוח האנושי לראות דפוסים ומגמות, ואת היכולת לחקור נתונים מנקודתי מבט שונים משאיל את עצמו לזה.
StickWRLD שמש בהצלחה לזהות כגון IPDS בתחום מכסה Adenylate קינאז 16, כמו גם בסיסי DNA הקשורים בterminators Rho-תלוי 9, וסגוליות אחוי-אתר רומן בendonuclease אינטרון 6 אתרי יעד Archaeal tRNA. IPDS אלה לא היו לזיהוי באמצעות בדיקה ישירה של המערכים.
StickWRLD מציג כל עמדה של יישור כטור של 20 "ספירות", שבו כל כדור מייצג את אחד 20 שאריות חומצת אמינו וגודלו של הכדור מציין את תדירות ההופעה של שאריות מסוימות שבתוך העמודה ש( איור 4). טורים מסודרים בגליל, עם קווי קצה חיבור שאריות בעמודות שונות (המציין IPD). קווי קצה אלה רק נמשכים אם השאריות המקבילות covarying בתדירות מצוין שני p-הערך (משמעות) ושייר (צפוי – שנצפו) ספים.
זיהוי של שאריות שיתוף המתרחש תלויות, או IPDS, באזורים המרוחקים של יישור DNA או רצף חלבון קשה תוך שימוש בכלים יישור רצף סטנדרטי 6. בעוד כלים כגון ליצור קונסנסוס, או מוטיב, רצף, הקונצנזוס הזה הוא במקרים רבים מיצוע רוב-כלל פשוט ולא להעביר מערכות יחסים השתנות משותפות שעלולים להיווצר אחד או יותר תת-מוטיבים – קבוצות של שאריות שנוטות לשתף להתפתח. גם דגמי HMM, שהם מסוגלים לזהות תלות השכנה, לא יכולים מוטיבים רצף מדויק מודל עם IPDS דיסטלי 5. התוצאה היא שהקונצנזוס מחושב עשוי למעשה להיות רצף "סינטטי" לא מצא בטבע – וחלבונים מהונדסים המבוססים על קונסנסוס חישובית כזה לא יכול, למעשה, להיות אופטימלי. למעשה, HMM Pfam לADK הייתי מציע שחלבון chimeric המכיל מחצית ממוטיב tetracysteine, ומחצית מH, S, D, מוטיב T, הוא פונקציונלי מקובל בדיוק כמוכמו כל ADK הקיים בפועל. זה לא המקרה, כמפלצות כאלה (ורבים אחרים התמזגויות של מוטיבים אלה) האם catalytically מת 4,19.
כאשר מחפשים מתאמים, זה קריטי, כי סף השייר להיות מותאם כדי לאפשר הגילוי של מתאמים רלוונטיים על ידי קביעת הסף מעל הרמה שבה כל קצוות נראים ולאחר מכן ramping הסף בהדרגה בחזרה למטה. זה מבטיח שרק הקצוות המשמעותיים ביותר נחשבים בתחילה.
גישה חלופית היא להתחיל עם סף השייר שנקבע נמוך מאוד. התוצאה היא התצוגה של כל הקצוות המשמעותיים. מכאן לאט ניתן להגדיל את סף השייר, המאפשר קצוות לנשור עד דפוסים להגיח. בעוד גישה זו היא פחות שימושית כאשר מחפשים הכללת צמתים מסוימים (לדוגמא, יישום של ידע תחום), היא מאפשרת לגילוי של יחסים בלתי צפויים באמצעות StickWRLD ככלפיכלי ניתוח רע"מ לגלות דפוסים המתעוררים בנתונים להדמיה.
StickWRLD מוגבל בעיקר על ידי הזיכרון זמין של המערכת עליה הוא לרוץ כמו גם את הרזולוציה של מכשיר התצוגה. אמנם אין גבול תיאורטי למספר נקודות נתוני StickWRLD יכול לבחון, ורצפים עד 20,000 עמדות נבדקו, בפועל StickWRLD מבצע הכי טוב עם רצפים עד כ -1,000 משרות.
היתרון העיקרי של StickWRLD טמון ביכולתה לזהות קבוצות של שאריות שcovary אחד עם השני. זהו יתרון משמעותי על פני הגישה המסורתית של רצף קונסנסוס הסטטיסטי, אשר מיצוע סטטיסטי פשוט ולא לוקח בחשבון אבולוציה משותפת. בעוד שבמקרים מסוימים שאריות covarying עשויות להיות פשוט תוצר של תולדות הגזע, אפילו שאריות אלה עמדו במבחן "של בחירה", ובתור שכזו הן סביר כדי לגרוע מfunctionality של כל חלבון מהונדס לכלול אותם.
תוך השימוש בStickWRLD לזהות IPDS ברצף ה- DNA או חלבון הקנונית קונסנסוס / מוטיב לפני גרסאות סינתטיות הנדסה יפחית את הפוטנציאל לטעויות ולתמוך אופטימיזציה מהירה של פונקציה, יש לציין כי StickWRLD יכול לשמש ככלי זיהוי מתאם כללי ו אינו מוגבל אך ורק לנתונים חלבון. ניתן להשתמש StickWRLD לגלות את שיתוף ההתרחשות של כל משתנים בכל קבוצת נתונים מקודדת כראוי מבחינה ויזואלית.
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |