גלקסי והדוד צמחו ככלים פופולריים המאפשרים לחוקרים ללא הכשרה ביואינפורמטיקה לנתח ולפרש נתוני RNA-seq. אנו מתארים פרוטוקול לחוקרי אלגנס לבצע ניסויים-Seq RNA, גישה ולעבד את הנתונים באמצעות גלקסי ולקבל מידע ביולוגי משמעותי מרשימות הגן באמצעות DAVID.
סידור הדור הבא (NGS) טכנולוגיות חוללו מהפכת אופי החקירה ביולוגית. מתוכם, רצף RNA (RNA-seq) התפתחה ככלי רב עוצמה לניתוח גנטי ביטוי ומיפוי transcriptome. עם זאת, טיפול מערכי נתונים-Seq RNA דורש מומחיות חישובית מתוחכמת מציב אתגרים טמונים עבור חוקרי ביולוגיה. צוואר הבקבוק הזה כבר מיתנה ידי פרויקט גלקסי גישה פתוחה המאפשרת למשתמשים ללא כישורים ביואינפורמטיקה לנתח נתוני Seq RNA, ואת מסד ביאור, ויזואליזציה, משולב דיסקברי (דוד), ג'ין אונטולוגיה (GO) בסוויטה ניתוח ארוך המסייע לגזור משמעות ביולוגית מ ערכות נתונים גדולות. עם זאת, עבור משתמשים לראשונה וביואינפורמטיקה חובבנים, למידה עצמית והכרתי עם פלטפורמות אלה יכולים להיות זמן רב מרתיע. אנו מתארים עבודה פשוטה אשר יסייעו לחוקרים אלגנס לבודד RNA תולעת, לערוך ניסוי RNA-seqולנתח את הנתונים באמצעות פלטפורמות גלקסי ודוד. פרוטוקול זה מספק הוראות בשלבים לשימוש מודולים גלקסי השונה עבור גישה לנתוני NGS גלם, מבדקי איכות, יישור, וניתוח ביטוי גני דיפרנציאלי, המנחה את המשתמש עם פרמטרים בכל צעד כדי ליצור רשימת גנים שיכולים להיות מוקרנת על העשרה כיתות גן או תהליכים ביולוגיים באמצעות DAVID. בסך הכל, אנו צופים כי מאמר זה יספק מידע על C. elegans חוקר התחייבות ניסויים-Seq RNA בפעם הראשונה, כמו גם משתמשים תכוף פועלים מספר קטן של דוגמאות.
והרצף הראשון של הגנום האנושי, בצע באמצעות שיטת dideoxynucleotide-הרצף של פרד סאנגר, לקח 10 שנים, ועלות כ 3 מיליארדים 1 $, 2. עם זאת, בעוד קצת יותר מעשור מאז הקמתה, הדור הבא רצף (NGS) טכנולוגיה הפכה אותו ניתן לרצף את הגנום האנושי כולו בתוך שבועות ועבורנו 1000 $. מכשירי ניו NGS המאפשרים הולכים וגוברים במהירויות של אוסף רצף נתונים ביעילות מדהימה, יחד עם הפחתות חד בעלויות, הם מהפכה בביולוגיה מודרנית בדרכים בלתי נתפסות כמו פרויקטי רצף הגנום הופכים דבר שבשגרה במהירות. בנוסף, התפתחויות אלה מגולוון התקדמות בתחומים רבים אחרים כגון ניתוח ביטוי גנים באמצעות RNA-רצף (RNA-seq), חקר שינויי אפיגנטיים הגנום כולו, אינטראקציות חלבון דנ"א, וסינון עבור מגוון המיקרוביאלי ב מארחים אנושיים. NGS מבוסס RNA-Seq בפרט אפשר לזהות transcriptomes המפה מקיפה עם דיוק ורגישות, חליף טכנולוגית microarray כשיטת בחירת פרופיל ביטוי. בעוד טכנולוגית microarray נעשה שימוש נרחב, הוא מוגבל על ידי הסתמכותו על מערכים קיימים עם מידע גנומי ידוע, ואת חסרונות אחרים כגון הכלאת צלב מגוון מוגבל של שינויים בביטוי שניתן למדידה באופן מהימן. רנ"א-seq, ומצד שני, יכול לשמש כדי לזהות הן תעתיקי ידועים ובלתי ידועים בעת הפקת רעש רקע נמוך בשל אופי מיפוי ה- DNA חד משמעי שלה. RNA-seq, יחד עם הכלים גנטיים הרבים המוצעים על ידי אורגניזמים מודל כגון שמרים, זבובים, תולעים, דגים ועכברים, שמשו כבסיס תגליות ביו אחרונה רבות וחשובות. עם זאת, אתגרים משמעותיים להישאר שהופכים NGS הנגיש לקהילה המדעית הרחבה יותר, כולל מגבלות אחסון, עיבוד, ובעיקר, מ ' ניתוח ביואינפורמטיקה eaningful של כמויות גדולות של נתונים רצף.
ההתקדמות המהירה בטכנולוגיות סידור וצבירת נתונים מעריכי יצרה צורך גדול פלטפורמה חישובית שתאפשרנה לחוקרים לגשת, לנתח ולהבין את המידע הזה. מערכות מוקדמות היו תלויות במידה רבה על ידע בתכנות מחשב, ואילו, דפדפני בגנום כמו צמח שדה שאפשרו שאינו מתכנתים לגשת והציגו את הנתונים לא אפשרו ניתוחים מתוחכמים. הפלטפורמה, הגישה פתוחה מבוסס אינטרנט, גלקסי ( https://galaxyproject.org/ ), מלאה את החלל הזה, הוכחה להיות צינור ערך המאפשר לחוקרים לעבד נתוני NGS ולבצע מגוון של פשוט-מורכב ביואינפורמטיקה מנתח. גלקסי בתחילה הוקם, והוא מתוחזק, על ידי מעבדות של אנטון Nekrutenko (אוניברסיטת פן סטייט) וג'יימס טיילור (אוניברסיטת ג'ונס הופקינס)f "> 3. גלקסי מציעה מגוון רחב של משימות חישובית שהופך אותו 'one-stop shop' עבור הצרכים ביואינפורמטיקה ספור, כולל כל השלבים הכרוכים במחקר RNA-seq. Itallows למשתמשים לבצע עיבוד נתונים או בשרתים שלה או מקומית על המכונות שלהם. נתונים וזרימות עבודה יכולים להיות מועתקות ומשותפים. הדרכות באינטרנט, באיזור עזרה, וכן עמודי ויקי ( https://wiki.galaxyproject.org/Support ) מוקדשים פרויקט גלקסי לספק תמיכה עקבית. עם זאת, עבור משתמשים בפעם ראשונה, במיוחד אלו ללא הכשרה ביואינפורמטיקה, בצנרת יכול להיראות מרתיע ואת התהליך של למידה עצמית והכרה יכול להיות זמן רב. בנוסף, המערכת הביולוגית למדה, ואת הפרטים של הניסוי ושיטות, השפעה ההחלטות אנליטיים בכמה שלבים, ואלה יכולים להיות קשים לניווט ללא הדרכה.
הכולל RN A-Seq Workflow גלקסי מורכב להעלות נתונים ובדיקת איכות ואחריו ניתוח באמצעות חבילת טוקסידו 4, 5, 6, 7, 8, 9, שהינה קולקטיבית של כלים שונים הנדרשים בשלבים שונים של ניתוח נתוני Seq RNA 10, 11, 12, 13, 14. ניסוי טיפוסי Seq-RNA מורכב החלק הניסיוני (הכנת מדגם, בידוד mRNA והכין ספריית cDNA), את NGS ואת ניתוח הנתונים ביו-אינפורמטיקה. סקירה של סעיפים אלה, ואת הצעדים הכרוכים בצנרת גלקסי, מוצגות באיור 1.
3fig1.jpg"/>
איור 1: סקירה כללית של Workflow RNA-seq. איור של הצעדים הניסיוניים חישובית מעורבים בניסוי RNA-seq להשוות את פרופיל ביטוי גנים של שני זני תולעת (A ו- B, קווים כתומים וירוקים וחצים, בהתאמה). המודולים השונים של מנוצל גלקסי מוצגים תיבות עם הצעד המתאים בפרוטוקול שלנו מצוין אדום. התוצרים של פעולות שונות כתובים אפור עם פורמטים של קבצים בכחול. אנא לחץ כאן כדי להציג גרסה גדולה יותר של דמות זו.
הכלי הראשון בסוויטת טוקסידו הוא תכנית יישור שנקראה "Tophat". זה מחליש את הקלט NGS קורא לרסיסים קטנים ולאחר מכן ממפה אותם בגנום הפניה. בתהליך דו-שלבי זה מבטיח קורא פורש אזורים אינטרוניים יישור אשר אחרת יכול להיות דיsrupted או החמיץ מטופלות ומיפו. זה מגביר כיסוי ומקל על זיהוי של צומת אחוי רומן. פלט Tophat מדווח כשני קבצים, קובץ BED (עם מידע על צומת אחוי הכוללים מיקום גנומית) וקובץ BAM (עם פרטי מיפוי של כל קורא). הבא, את קובץ BAM מיושר נגד הגנום התייחסות כדי להעריך את השפע של תעתיקים בודדים בתוך כל דגימה באמצעות הכלים עוקבים בסוויטת טוקסידו שנקראה "חפת". חפת פונקציות ידי סריקת היישור לדווח שברי תמליל באורך מלא או "transfrags" כי היקף כל גרסות אחוי האפשריות נתוני הקלט עבור כל גן. בהתבסס על זה, זה יוצר "transcriptome" (הרכבה של כל התמלילים שנוצרו לכל גן לכל גן) עבור כל דגימה להיות רצף. מכלולי חפת אלו מכן התמוטטו יחד או התמזגו יחד עם מחדשבגנום ference לייצר קובץ הסברים יחיד ניתוח הפרש במורד שימוש באפשרות הבאה, "Cuffmerge". לבסוף, את ביטוי גני הפרש אמצעי כלי "Cuffdiff" בין דגימות ידי השוואת תפוקות TopHat של כל אחת מהדגימות לקובץ פלט Cuffmerge הסופי (איור 1). חפתים משתמשות FPKM / RPKM (שברים / קורא לכל kilobase של תמליל למיליון ממופה כניסות) ערכים לדווח שכיחותם תמליל. ערכים אלה משקפים את הנורמליזציה של נתוני NGS גלם עבור עומק (מספר ממוצע של קורא ממדגם כי ליישר בגנום ההפניה) ואורך גן (יש גנים באורכים שונים, כך ספירה צריכה להיות מנורמלת עבור אורך של גן להשוות רמות בין הגנים). FPKM ו RPKM הם בעצם אותו דבר עם RPKM בשימוש-Seq רנ"א חד-סוף שבו כל קריאה מקבילה שבר יחיד, ואילו, FPKM משמשRNA-seq זיווג-סוף, כפי שהוא מסביר את העובדה כי שני קורא יכול מתאים לאותו שבר. בסופו של דבר, התוצאה של ניתוחים אלו היא רשימה של גנים לידי ביטוי באופן דיפרנציאלי בין התנאים ו / או הזנים שנבדקו.
לאחר ריצת גלקסי מוצלחת הושלמה "רשימת גנים" מופקת, הצעד ההגיוני הבא דורש יותר ביואינפורמטיקה מנתח להסיק ידע משמעותי מן המערכים הנתונים. חבילות תוכנה רבות צמחו כדי לספק את הצורך הזה, כולל חבילות חישובית הזמינים לציבור מבוססי אינטרנט כגון דוד (Database עבור ביאור, ויזואליזציה וגילוי משולב) 15. DAVID מקל הקצאת משמעות ביולוגית לרשימות גן גדולות ממחקרי תפוקה גבוהה על ידי השוואת רשימת הגנים המועלים מאגר המידע הביולוגי המשולב שלה חושף את ההסברים הביולוגיים המשויכים לרשימת הגן. זה ואחריו ניתוח העשרה, כלומר, בדיקות כדי IDEntify אם בכלל בכיתת תהליך או גן ביולוגית ייצוג יתר רשימת הגן (ים) באופן מובהק סטטיסטי. זה הפך בחירה פופולרית בגלל שילוב של בסיס-ידע רחב, משולב אלגוריתמים אנליטיים חזקים המאפשרים לחוקרים לזהות נושאים ביולוגיים מועשרים בתוך הגנומיקה נגזרת "רשימות גנים" 10, 16. יתרונות נוספים כוללים את יכולתו לעבד רשימות גנים שנוצרו על כל פלטפורמת סידור וממשק ידידותי למשתמש מאוד.
נמטודות Caenorhabditis elegans היא מערכת מודל גנטית, ידועה יתרונותיה הרבים כגון גודל קטן, גוף שקוף, תכנית גוף פשוט, וקלות התרבות מוכנה שלהם מצוינים דיסקציה גנטי ומולקולרי. יש תולעים גנום קטן, פשוט היטב מבואר הכולל עד 40 גנים שמורה% עם homologs האנושי ידוע 17. ואכן, C. elegansהיה מטזואניים הראשון בגנום אשר היה רצף לחלוטין 18, ואחד המינים הראשונים שבו RNA-seq שמש כדי למפות transcriptome של אורגניזם 19, 20. מחקרי תולעת מוקדם מעורבים ניסויים עם שיטות שונות ללכידת RNA תפוקה גבוהה, כנת ספרייה וסדר וכן צינורות ביואינפורמטיקה שתרמו לקידום הטכנולוגיה 21, 22. בשנים האחרונות, RNA-seq מבוסס ניסויים בתולעים הפכו להיות דבר שבשגרה. אבל, עבור ביולוגי תולעת מסורתיים האתגרים שמציבים ניתוח חישובית של נתוני Seq RNA להישאר מכשול מרכזי עבור ניצול גדול יותר וטוב יותר של הטכניקה.
במאמר זה, אנו מתארים פרוטוקול לשימוש בפלטפורמת גלקסי לנתח נתוני תפוקה גבוהה-Seq RNA המופקים C. elegans. לקבלה לראשונה רבים וקטן-SCAמשתמשים le, הדרך הכי יעילה וחסכונית וישירה לבצע ניסוי RNA-seq היא לבודד RNA במעבדה ולנצל מתקן NGS מסחרי (או בתוך הבית) עבור הכנת ספריות cDNA סידור ואת NGS עצמה. לפיכך, אנו ראשונים יש פרטנו את השלבים כרוכים בבידוד, כימות ואיכות הערכה של C. elegans דגימות RNA עבור RNA-seq. הבא, אנו מספקים צעד אחר צעד הוראות שימוש בממשק גלקסי עבור ניתוחים של נתוני NGS, החל בדיקות לבדיקות בקרת איכות שלאחר רצף ואחריו יישור, הרכבה, וכימותי הפרש של ביטוי גנים. בנוסף, כללנו כיוונים לבחון את רשימות גן נובע גלקסי ללימודי העשרה ביולוגיים באמצעות DAVID. כצעד סופי בזרימת העבודה, אנו מספקים להנחיות לטעינת נתוני Seq RNA על לשרתים ציבוריים כגון ארכיון לקרוא רצף (SRA) על צמח השדה ( http: // www.ncbi.nlm.nih.gov/sra) כדי להפוך אותו לנגיש בחופשיות לקהילה המדעית. בסך הכל, אנו צופים כי מאמר זה יספק מידע מקיף מספיק כדי ביולוגי תולעת התחייבות ניסויים-Seq RNA בפעם הראשונה, כמו גם משתמשים תכוף פועלים מספר קטן של דוגמאות.
המשמעות של פלטפורמת רצף גלקסי בביולוגיה המודרנית
פרויקט גלקסי הפך תפקיד עוזר ביולוגים ללא הכשרה ביואינפורמטיקה לעבד ולנתח נתוני רצף תפוקה גבוהה באופן מהיר ויעיל. פעם נחשב משימה הרקולס, הפלטפורמה הזמינה לציבור הזה עשתה הרצת אלגור…
The authors have nothing to disclose.
המחברים מבקשים להביע את תודתם המעבדות, הקבוצות ויחידים אשר פתחו גלקסי ודוד, וכך עשו NGS נגיש נרחב עבור הקהילה המדעית. העזרה והייעוץ הניתנים על ידי עמיתיו באוניברסיטת פיטסבורג במהלך אימון ביואינפורמטיקה שלנו הוא הודה. עבודה זו נתמכה על ידי Scholar ניו קרן אליסון הרפואי הזדקנות הפרס (AG-NS-0879-12) ואת מענק מטעם המכון הלאומי לבריאות (R01AG051659) כדי AG.
RNase spray | Fisher Scientific | 21-402-178 |
Trizol | Ambion | 15596026 |
Sonicator | Sonics Vibra Cell | VCX130 |
Centrifuge | Eppendorf | 5415C |
chloroform | Sigma Aldrich | 288306 |
2-propanol | Fisher Scientific | A416P-4 |
Ethanol | Decon Labs | 2705HC |
RNase-free water | Fisher Scientific | BP561-1 |
Bioanalyzer | Agilent | G2940CA |
Mac/PC |