OpenProt הוא מסד נתונים ונגיש באופן חופשי אוכף דגם polycistronic של הגנום האיקריוטים. כאן, אנו מציגים פרוטוקול לשימוש של מסדי נתונים OpenProt כשחוקרים datasets ספקטרומטר מסה. שימוש OpenProt מסד נתונים לניתוח של ניסויים פרוטיאומיה מבנית מאפשרת גילוי של הרומן וחלבונים בעבר לגילוי.
ביאור הגנום הוא מרכזי מחקר פרוטיאומיה מבנית של היום כמו זה מצייר את קווי המתאר של הנוף פרוטיאומיה מבנית. מודלים מסורתיים של פתח קריאה מסגרת (ORF) ביאור לכפות קריטריונים שרירותיים שני: אורך מינימלי של 100 codons, של ORF יחיד לפי התעתיק. עם זאת, מספר גדל והולך של מחקרים מדווחים ביטוי של חלבונים מן לכאורה ללא קידוד אזורים, מאתגר את הדיוק של ביאורים הגנום הנוכחי. אלה הרומן חלבונים נמצאו מקודדים או בתוך ללא קידוד RNAs, 5 או 3′ לא מתורגם מחוזות (UTRs) mRNAs, או חופפים רצף קידוד ידוע (תקליטורים) בחלופה ORF. OpenProt הוא הראשון מסד הנתונים אוכף למודל polycistronic האיקריוטים הגנום, ומאפשר ביאור של ORFs מרובים עבור כל פרוטוקול. OpenProt נגישה בחופשיות, ומציע הורדות המותאם אישית של רצפי חלבונים על פני 10 מינים. שימוש OpenProt מסד נתונים לניסויים פרוטיאומיה מבנית מאפשר גילוי הרומן חלבונים ושל מדגיש את האופי polycistronic של גנים האיקריוטים. גודל מסד OpenProt (כל חזה חלבונים) הוא משמעותי, צריך להילקח בחשבון לניתוח. עם זאת, עם גילוי שקר המתאים (פד) בהגדרות או השימוש של מסד נתונים OpenProt מוגבלת, משתמשים ירוויח תצוגה ריאליסטית יותר של הנוף פרוטיאומיה מבנית. בסך הכל, OpenProt הוא כלי זמין באופן חופשי כי תשקוד תגליות פרוטיאומיה מבנית.
במהלך העשורים האחרונים, הפך פרוטאומיקס ספקטרומטר מסה (נולד ב- MS) המבוסס על הטכניקה הזהב לפענח proteomes של התאים האיקריוטים1,2,3,4,5. שיטה זו מתבססת על ביאורי הגנום הנוכחי כדי ליצור הפניה חלבון רצף מסד נתונים אשר מתווה את טווח האפשרויות-6,–7,–8. עם זאת, ביאורים הגנום החזק קריטריונים שרירותיים על ביאור ORF, כגון אורך מינימלי של 100 codons, של ORF יחיד לפי התעתיק9,10. מספר גדל והולך של מחקרים אתגר המודל הנוכחי ביאור ולדווח על גילויים של unannotated ORFs תפקודי הגנום האיקריוטים8,11,12,13, 14. אלו חלבונים הרומן מצויים לקודד לכאורה אי קידוד RNAs, 5 או 3′ ללא תרגום אזורים (UTR) של mRNAs, או חופפים את רצף קידוד קאנוני (cCDS) במסגרת חלופית. אמנם רוב התגליות האלה כבר התגלה באקראי, הם מדגימים את האזהרות של ביאורים הגנום הנוכחי ואת אופי polycistronic של גנים האיקריוטים8.
כאן, אנחנו מדגישים את השימוש OpenProt מסדי נתונים מבוססי MS פרוטאומיקס. OpenProt הוא מסד הנתונים הראשון לקיים מודל ביאור polycistronic transcriptomes האיקריוטים. זה זמין באופן חופשי בגיל www.openprot.org15. שיעור של אלה חזה ש-orfs יהיה אקראי ולא שאינם פונקציונליים, וזו הסיבה OpenProt cumulates ראיות ניסיוני ופונקציונליים כדי להגדיל את הביטחון העצמי. ראיות כוללים ביטוי חלבון (על-ידי MS) תרגום ראיות (על-ידי יצירת פרופיל ריבוזום)15. ראיה פונקציונלי כוללים הומולוגיה חלבון (עם בפרנואידית כמו גישה), תחום פונקציונלי חיזוי15.
OpenProt מציעה את האפשרות להוריד מספר מסדי נתונים, המכיל רק הנתמכים היטב חלבונים למסדי נתונים בהזמנה אישית. כאן, נציג צינור לשימוש של מסדי נתונים OpenProt, יציע תובנות מאיזה מסד נתונים כדי לבחור בהתחשב המטרה ניסיוני. הצינור ניתוח פרוטאומיקס, המובאת כאן נתמך על ידי המסגרת גלקסי גישה פתוחה, קל לשימוש, אבל מאגרי המידע יכול לעבוד עם כל זרימת עבודה16,17,18. גם נציג כיצד להשתמש באתר האינטרנט של OpenProt עבור איסוף מידע נוסף על הרומן חלבונים זוהה על ידי גב’ שימוש OpenProt מסדי נתונים מספקת תצוגה מקיפה יותר של הנוף פרוטיאומיה מבנית, תשקוד מהתגליות פרוטאומיקס, סמנים ביולוגיים דרך שיטתית יותר מאשר שיטות הנוכחי.
פרוטוקול זה מדגיש את השימוש OpenProt מסדי נתונים15 כשחוקרים MS datasets; זה לא יבדוק את העיצוב של הניסוי עצמו, אשר כבר ביסודיות שנסקרו במקום20,21,22. במאמץ להישאר פתוח לחלוטין, הפרוטוקול הוא זמין באופן חופשי (S1 חומר משלים–S4). לקריאה קלה יותר, כל המונחים OpenProt וברחבי בזאת פרוטוקול זה מוגדרים בטבלה1.
בעת ניתוח נתוני ספקטרומטרים המוני, האיכות של זיהוי חלבונים חלקית מסתמך על הדיוק של מסד נתונים בשימוש6,20. לגישות באופן מסורתי משתמשים במסדי נתונים UniProtKB, אך אלה תומכות בדגם ביאור הגנום ORF יחיד לפי התעתיק ואורך מינימלי של codons (למעט דוגמאות הפגינו בעבר) 10040. מחקרים רבים מתייחסים את החסרונות של מסדי נתונים כאלה עם גילוי ORFs תפקודית של לכאורה ללא קידוד אזורים8,11,12,13. עכשיו, OpenProt מאפשר זיהוי חלבונים ממצה יותר כמו זה מושך רצפי חלבונים מביאורים transcriptome מרובים. OpenProt מאחזר NCBI RefSeq (GRCh38.p7), Ensembl (GRCh38.83) transcriptomes וביאורים UniProtKB (UniProtKB-SwissProt, 2017-09-27)40,42,43. ביאורים הנוכחי להציג חפיפה מועטה, OpenProt ובכך מציג תצוגה יותר ממצה של הנוף פרוטיאומיה מבנית פוטנציאליים מאשר כאשר מוגבל אחד ביאור15.
יתר על כן, כפי OpenProt אוכף מודל polycistronic, היא מאפשרת מספר ביאורים חלבון לפי התעתיק. מסיבות סטטיסטיות וחישובית, OpenProt עדיין מחזיקה את הסף אורך מינימלי של 30 codons15. ובכל זאת, זה מנבא אלפי רצפי חלבונים הרומן, ובכך להרחיב את טווח אפשרויות לזיהוי החלבון. מתוך תפיסה זו, OpenProt תומך פרוטיאומיה מבנית תגליות בצורה שיטתית יותר.
האיכות של זיהוי חלבונים עשויה להיות מושפעת גם הפרמטרים המשמשים. ניתוחים פרוטאומיקס מבוססי MS כלל מחזיקים חלבון 1% פד. עם זאת, OpenProt בכל מסד הנתונים מכיל בערך פי 6 יותר ערכים (איור 1). לקחת בחשבון גידול משמעותי זה לחלל, אנו ממליצים על שימוש של רוזוולט מחמירים יותר של 0.001%. פרמטר זה היה ממוטב באמצעות בחינת מחקרים והערכת ידנית ספקטרה שנבחרו באקראי15. חיובי כוזב הם עדיין אפשרות, אבל, אנו מעודדים את אימות לתמוך ראיות על חלבון הרומן, בדיקה יסודית. תקן מומלץ יכול להיות הזיהוי של חלבון מ MS שתי הפעלות שונות, כמו נתוני רקע תוצאות חיוביות שגויות משתנות בין נתונים (datasets)15.
הצינור שסופק כאן ונועד לשמש מקרה המבחן יכול להיות שונה מרוצה להתאים את עיצוב ניסיוני והפרמטרים. אנו ממליצים באמצעות מספר מנועי חיפוש, שכן היא מגבירה את הרגישות ורגישות של פפטיד זיהוי32. יתר על כן, אנו מעודדים שימוש במסד הנתונים המתאימים ביותר המטרה ניסיוני (איור 1). בתור משתמש את OpenProt כל מסד הנתונים מגיע עם פד המחמירים, ייתכן ההזדהויות אמיתי. לפיכך, במסד הנתונים כולו צריך להיות מיועד גילוי הרומן חלבונים, בעוד פרוטאומיקס קלאסית פרופיל להשתמש במאגרי המידע OpenProt קטנים יותר (כגון OpenProt_2pep השתמשו במחקר במקרה לעיל).
OpenProt כרגע המנבא רצפים החל codon ATG, ואילו מספר מחקרים מודגשות תרגום חניכה בגיל44,אחרים codons45. כאשר חלבון הרומן מזוהה על ידי פפטידים ייחודי אחד או כמה, זה אפשרי ש-codon חניכה נכון אינה ATG המשוער. המשתמשים יכולים לחפש הוכחות תרגום באתר האינטרנט של OpenProt. כיום, OpenProt רק דוחות תרגום אירועים אם הן נוגעות כל חלבון החזוי רצף (100% חפיפה)15. לפיכך, היעדר ראיות תרגום לא אומר שהחלבון לא מתורגם, אבל זה codon התחלה לא ייתכן ATG לכאורה.
למרות מגבלותיה הנוכחי, OpenProt מציע נוף יותר ממצה של פוטנציאל קידוד של הגנום האיקריוטים. OpenProt מסדי נתונים פוסטר פרוטיאומיה מבנית תגליות וההבנה של פונקציות פרוטיאומיה מבנית ואינטראקציות. התפתחויות עתידיות של מסד הנתונים OpenProt יכלול ביאור של מינים אחרים, תרגום עדויות בלתי-ATG להתחיל codon ופיתוח של צינור כדי לכלול חלבונים הרומן הגנום כולו ולימודים רצף exome.
The authors have nothing to disclose.
אנו מודים ויויאן Delcourt על עזרה, דיונים ועצה על העבודה. X.R. הוא חבר של דו הנתמכות על-ידי קוויבק Santé FRQS דה מרכז רשרש du Fonds דה רשרש מרכז שרברוק דה Universitaire Hospitalier. מחקר זה נתמך על ידי כיסא קנדה מחקר פרוטאומיקס פונקציונלי, גילוי של הרומן חלבונים גרנט X.R. ו- CIHR מגב-137056. אנו מודים הקבוצה לחשב את ה קוויבק, קנדה מחשוב לתמיכה שלהם עם השימוש mp2 מחשב העל של אוניברסיטת דה שרברוק. הפעולה של מחשב העל mp2 ממומנת על ידי קנדה קרן של חדשנות (CFI), le ministère de l’Économie, דה לה המדע et du l’innovation דה קוויבק (MESI) ו les Fonds דה קוויבק רשרש – טבע et טכנולוגיות (FRQ-NT). שרת ה-Galaxy שבו נעשה שימוש עבור כמה חישובים פרוטאומיקס בחלקו ממומן על ידי שיתופי מחקר מרכז 992 אפיגנטיקה רפואי (DFG גרנט SFB 992/1/2012), הגרמני הפדרלי במשרד החינוך והמחקר (BMBF מעניק 031 RBC A538A/A538C, 031L0101B /031L0101C de. אי-אפינפרין, דה 0106 031L. מדרגות (de. אי)).
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |