אנו מציגים את פורטל האינטרנט של CorExplorer, משאב לחקר הגידול של גורמים ברצף RNA שנמצאו על ידי אלגוריתם למידה מחשב Corexplorer (הסבר מתאם), ולהראות כיצד ניתן לנתח את הגורמים ביחס להישרדות, מסד נתונים ביאורים, האינטראקציות חלבון חלבון, ואחד את השני כדי לקבל תובנה בביולוגיה הגידול והתערבויות טיפוליות.
אנליזה של ביטוי גנים דיפרנציאלי היא טכניקה חשובה להבנת מצבי מחלות. אלגוריתם למידה מחשב CorEx הראה את השירות בניתוח ביטוי דיפרנציאלי של קבוצות של גנים בגידול RNA-seq באופן שעשוי להועיל לקידום אונקולוגיה דיוק. עם זאת, CorEx מייצרת גורמים רבים שיכולים להיות מאתגרת לנתח ולהתחבר להבנה הקיימת. כדי להקל על הקשרים האלה, בנינו אתר אינטרנט, CorExplorer, המאפשר למשתמשים לחקור באופן אינטראקטיבי את הנתונים ולענות על שאלות נפוצות הקשורות לאנליזה שלו. התאמנו CorEx על RNA-seq ביטוי גנים נתונים עבור ארבעה סוגי גידולים: השחלות, ריאות, מלנומה, ו המעי הגס. לאחר מכן שולבו הישרדות המקביל, חלבון חלבונים אינטראקציות, ג’ין אונטולוגיה (GO) ו קיוטו האנציקלופדיה של גנים Genomes (KEGG) המסלול enrichments, ו מפות החום לתוך אתר האינטרנט עבור שיוך עם הדמיית הגרף גורם. כאן אנו מעסיקים פרוטוקולים לדוגמה כדי להמחיש את השימוש במסד הנתונים לצורך ההבנה של משמעות גורמי הגידול הנלמדים בהקשר של נתונים חיצוניים אלה.
מאז המבוא שלה רק לפני כעשור, RNA-seq הפך לכלי בכל מקום למדידת ביטוי גנטי1. זה משום שהוא מאפשר פרופיל דה נובו מהיר וזול של ההמרה כולה של דגימה. עם זאת, הנתונים הסרטניים RNA-seq משקף את הביולוגיה הבסיסית כי הוא מורכב מיסודה ולעתים קרובות תחת שנדגמו, בעוד הנתונים עצמם הוא גבוה מימדי רועש. זה מציג אתגר משמעותי עבור חילוץ אותות אמינים. האלגוריתם corex ממנף מידע הדדי מרובה כדי למצוא דפוסים עדינים במצבים כאלה2,3 . טכניקה זו הותאמה בעבר לניתוח השחלות גידול RNA-seq דגימות של סרטן הגנום אטלס (TCGA) ובהקשר זה נראה כי יש יתרונות משמעותיים על שיטות ניתוח נפוץ יותר4.
למרות שהשימוש ב-RNA-seq נפוץ מאוד ביישומי מחקר, כולל באונקולוגיה, מאמצים אלה לא הובילו לניצול רחב למטרות של התערבויות קליניות5. חלק מהסיבה לכך הוא חוסר באלגוריתמים ותוכנות ידידותיים למשתמש המיועדים לבעיות ספציפיות אלה. כדי לסייע בגישור פער זה, עיצבנו את פורטל האינטרנט של CorExplorer כדי לאפשר לחוקרים מתוך מגוון רקעים לחקור גורמי ביטוי גנים של הגידול RNA-seq דגימות כפי שנמצא על ידי אלגוריתם למידה מכונת Corexplorer. פורטל קוראקספלורר תומך בהדמיה אינטראקטיבית ובביצוע שאילתות על גורמים ממספר סוגי גידולים שונים כולל ריאה, נקודתיים, מלנומה והשחלות6,7,8,9, 10, עם כוונה לסייע לחוקרים לנפות באמצעות הנתונים תאמים ולזהות מסלולים המועמדים לחולים stratify למטרות טיפוליות.
אנו מצפים שפורטל CorExplorer יהיה שימושי למספר סוגים של משתמשים. הפורטל תוכנן עם המשתמש בראש מי רוצה להבין את הגורמים הרחבים נהיגה מוסרית גנים ביטוי הבדלים במסדי נתונים ציבוריים ואולי גם מקום פרופילים ביטוי גנים בודדים בהקשר של גידולים עם דומה מאפייני. בנוסף לפרוטוקולים הנציגים המפורטים כאן, חקירות CorExplorer עשויים לשמש נקודת התחלה להציע השערות לבדיקות נוספות, להשוות ולניגודיות ממצאים Corexplorer על מערכות נתונים מחוץ ל-CorExplorer, ולהתחבר ביטוי פתולוגי חתימות של אחד או כמה גנים בגידול בודד לקבוצות גדולות יותר שעלולות להיות coordinately מושפעות. לבסוף, זה יכול לשמש כמבוא ידידותי למשתמש ליישום של למידה מחשב ל-RNA-seq עבור אלה שהתחילו בתחום.
הצגנו את האתר CorExplorer, שרת אינטרנט נגיש לציבור עבור חקר אינטראקטיבי של גורמים ביטוי גנטי מקסימאלי בקורלציה מקסימאלית של הגידול RNA-seq על ידי אלגוריתם Corexplorer. הצגנו כיצד האתר עשוי לשמש כדי stratify חולים לפי ביטוי גן הגידול, ואיך ריבוד כזה מתאים פונקציה ביולוגית והישרדות.
שרתי אינטרנט אחרים עבור ניתוח של RNA-seq נבנו. ניתן לבדוק ולשלב ניתוח ביטוי משלים ושיתוף ביטויים לגידולים משולבים עם סוגי נתונים אחרים ב-cביובורטל19,20. השרתים שרתים21, mev22, ו מורפיוס23, לשלב טכניקות באשכולות הוקמה כגון ניתוח המרכיב העיקרי (pca), כלומר, או לארגן מפות עצמית (כאשר). מאמצים חדשניים יותר כוללים CamurWeb24, מבוסס על מסווג אוטומטי מחולל כללים, ו-tacco25, אשר מיישמת מסווג ביער אקראי lassos. אלגוריתם CorEx משמש כאן מייעל מידע רב משתנים כדי למצוא היררכיה של גורמים המסבירים דפוסים בנתונים. הלמידה למידה הירארכית וללא לינארית מופיעה כדי להניב המשך באופן משופר ביחס לגורמים הגלובליים הליניארים המצויים באמצעות PCA4. בנוסף, הטכניקה בסדר הניתוח העדין של אותות לדוגמה מאפשר השוואות הגידול מדויק לעומת-à-vis יותר נפוץ בשימוש תת-סוגי. שילוב זה של ניתוח מרכיב חופף והירארכי מבדיל בין מרבית הגישות האחרות ומחייבת כלים חדשים להדמיה ולסיכום.
חלק קריטי בניתוח גורם CorExplorer הוא היכולת לחקור לא רק כמה, אבל מעל 100 גורמים עם דפוסי גנים אינפורמטיביים הממוקמים בתוך היררכיה חופפים. CorExplorer מקלה על כריית הגורמים הרבים האלה עבור אגודות ביולוגיות וקליניות ומאפשר אפיון מפורט במיוחד של גידולים בודדים. הלמידה ללא השגחה של מספר כה גדול של גורמים פירושה שלא הכל יהיה רלוונטי לביולוגיה של המחלה. במקרה כזה, זה חיוני להשתמש ביאורים או גנים ידועים כדי למשוך את גורמי העניין או לחפש גורמים הקשורים לנתונים קליניים כגון הישרדות. לפיכך, CorExplorer מאפשר למשתמשים ליישם את הצעד החשוב מאוד מסנן. הנוכחות של דפוסי גנים גורם בגידול עשוי אפילו להציע גישה לטיפול באונקולוגיה אישית. יתר על כן, ריבוי של תוצאות גורם עבור כל גידול המאפשר גילוי של שילובים טיפולית פוטנציאלי שימושי.
לפעמים זה המקרה כי שום ביאורי GO משמעותיים להופיע עבור גורמים בקורלציה גבוהה עם הישרדות. בעוד שהדבר עלול להתרחש עקב רעש או מתחת לנתונים שנדגמו, יש גורמים אפשריים נוספים כגון גודל אשכול קטן מדי לרישום של עשרות העשרה משמעותיים או שהקבוצה היא ‘ סל ‘ של גנים בודדים ממסלולים שונים ללא ביולוגי אגודה. בנוסף, קטגוריה של ביאור השונה מהתהליך הביולוגי של KEGG ו-GO, למשל תא סלולארי, עשוי להתאים. ניתן לגשת אליהם באמצעות קישור אל מסדר הנתונים כפי שמתואר בפרוטוקול. הניתוח העשרה של הנטולוגיה הגנטית באתר CorExplorer כרגע אינו מהווה בחשבון את שקלול הגנים בפקטור, למרות שסביר להניח שזה יתוקן בעתיד הקרוב. הערה אפשרות של רשימת גנים זמינה תחת ‘ הוסף חלון ‘ המאפשר להוריד את רשימת הגנים של הגורם המלא לניתוח נוסף באמצעות כלים חיצוניים.
לצורך האתר, CorEx הופעל על כל אחד מערכות הנתונים חמש פעמים את ההפעלה כי הביא מתאם הכולל הגדול ביותר הכוללת נשמר. לאחר ייצוג סטטיסטי של התוצאות של מספר רב של מסלולים עשוי להיות אינפורמטיבי יותר והוא מטרה לעבודה בעתיד. בנוסף, הקבוצה של סוגי הגידולים הזמינים בשרת הוא קטן למדי, אך אנו מצפים לכך להתרחב עם הזמן בהתאם לעניין המשתמש.
כפי שמתואר לעיל, ה-CorExplorer מפעיל את מערכת היחסים של Corexplorer RNA-seq יחד עם מידע קליני ומסד נתונים, ובכך מאפשר מגוון מצבי חקירה שונים. אנו מקווים כי כלי זה יוביל לעבודה נוספת כדי לנצל את העוצמה של הניתוח RNA-seq עבור גילוי ויישום קליני באונקולוגיה.
The authors have nothing to disclose.
GV נתמך על ידי הפרס DARPA W911NF-16-0575.
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |