Summary

Transcriptomic ניתוח<em> C</em>.<em> elegans</em> RNA רצף נתונים באמצעות Suite טוקסידו על פרויקט גלקסי

Published: April 08, 2017
doi:

Summary

גלקסי והדוד צמחו ככלים פופולריים המאפשרים לחוקרים ללא הכשרה ביואינפורמטיקה לנתח ולפרש נתוני RNA-seq. אנו מתארים פרוטוקול לחוקרי אלגנס לבצע ניסויים-Seq RNA, גישה ולעבד את הנתונים באמצעות גלקסי ולקבל מידע ביולוגי משמעותי מרשימות הגן באמצעות DAVID.

Abstract

סידור הדור הבא (NGS) טכנולוגיות חוללו מהפכת אופי החקירה ביולוגית. מתוכם, רצף RNA (RNA-seq) התפתחה ככלי רב עוצמה לניתוח גנטי ביטוי ומיפוי transcriptome. עם זאת, טיפול מערכי נתונים-Seq RNA דורש מומחיות חישובית מתוחכמת מציב אתגרים טמונים עבור חוקרי ביולוגיה. צוואר הבקבוק הזה כבר מיתנה ידי פרויקט גלקסי גישה פתוחה המאפשרת למשתמשים ללא כישורים ביואינפורמטיקה לנתח נתוני Seq RNA, ואת מסד ביאור, ויזואליזציה, משולב דיסקברי (דוד), ג'ין אונטולוגיה (GO) בסוויטה ניתוח ארוך המסייע לגזור משמעות ביולוגית מ ערכות נתונים גדולות. עם זאת, עבור משתמשים לראשונה וביואינפורמטיקה חובבנים, למידה עצמית והכרתי עם פלטפורמות אלה יכולים להיות זמן רב מרתיע. אנו מתארים עבודה פשוטה אשר יסייעו לחוקרים אלגנס לבודד RNA תולעת, לערוך ניסוי RNA-seqולנתח את הנתונים באמצעות פלטפורמות גלקסי ודוד. פרוטוקול זה מספק הוראות בשלבים לשימוש מודולים גלקסי השונה עבור גישה לנתוני NGS גלם, מבדקי איכות, יישור, וניתוח ביטוי גני דיפרנציאלי, המנחה את המשתמש עם פרמטרים בכל צעד כדי ליצור רשימת גנים שיכולים להיות מוקרנת על העשרה כיתות גן או תהליכים ביולוגיים באמצעות DAVID. בסך הכל, אנו צופים כי מאמר זה יספק מידע על C. elegans חוקר התחייבות ניסויים-Seq RNA בפעם הראשונה, כמו גם משתמשים תכוף פועלים מספר קטן של דוגמאות.

Introduction

והרצף הראשון של הגנום האנושי, בצע באמצעות שיטת dideoxynucleotide-הרצף של פרד סאנגר, לקח 10 שנים, ועלות כ 3 מיליארדים 1 $, 2. עם זאת, בעוד קצת יותר מעשור מאז הקמתה, הדור הבא רצף (NGS) טכנולוגיה הפכה אותו ניתן לרצף את הגנום האנושי כולו בתוך שבועות ועבורנו 1000 $. מכשירי ניו NGS המאפשרים הולכים וגוברים במהירויות של אוסף רצף נתונים ביעילות מדהימה, יחד עם הפחתות חד בעלויות, הם מהפכה בביולוגיה מודרנית בדרכים בלתי נתפסות כמו פרויקטי רצף הגנום הופכים דבר שבשגרה במהירות. בנוסף, התפתחויות אלה מגולוון התקדמות בתחומים רבים אחרים כגון ניתוח ביטוי גנים באמצעות RNA-רצף (RNA-seq), חקר שינויי אפיגנטיים הגנום כולו, אינטראקציות חלבון דנ"א, וסינון עבור מגוון המיקרוביאלי ב מארחים אנושיים. NGS מבוסס RNA-Seq בפרט אפשר לזהות transcriptomes המפה מקיפה עם דיוק ורגישות, חליף טכנולוגית microarray כשיטת בחירת פרופיל ביטוי. בעוד טכנולוגית microarray נעשה שימוש נרחב, הוא מוגבל על ידי הסתמכותו על מערכים קיימים עם מידע גנומי ידוע, ואת חסרונות אחרים כגון הכלאת צלב מגוון מוגבל של שינויים בביטוי שניתן למדידה באופן מהימן. רנ"א-seq, ומצד שני, יכול לשמש כדי לזהות הן תעתיקי ידועים ובלתי ידועים בעת הפקת רעש רקע נמוך בשל אופי מיפוי ה- DNA חד משמעי שלה. RNA-seq, יחד עם הכלים גנטיים הרבים המוצעים על ידי אורגניזמים מודל כגון שמרים, זבובים, תולעים, דגים ועכברים, שמשו כבסיס תגליות ביו אחרונה רבות וחשובות. עם זאת, אתגרים משמעותיים להישאר שהופכים NGS הנגיש לקהילה המדעית הרחבה יותר, כולל מגבלות אחסון, עיבוד, ובעיקר, מ ' ניתוח ביואינפורמטיקה eaningful של כמויות גדולות של נתונים רצף.

ההתקדמות המהירה בטכנולוגיות סידור וצבירת נתונים מעריכי יצרה צורך גדול פלטפורמה חישובית שתאפשרנה לחוקרים לגשת, לנתח ולהבין את המידע הזה. מערכות מוקדמות היו תלויות במידה רבה על ידע בתכנות מחשב, ואילו, דפדפני בגנום כמו צמח שדה שאפשרו שאינו מתכנתים לגשת והציגו את הנתונים לא אפשרו ניתוחים מתוחכמים. הפלטפורמה, הגישה פתוחה מבוסס אינטרנט, גלקסי ( https://galaxyproject.org/ ), מלאה את החלל הזה, הוכחה להיות צינור ערך המאפשר לחוקרים לעבד נתוני NGS ולבצע מגוון של פשוט-מורכב ביואינפורמטיקה מנתח. גלקסי בתחילה הוקם, והוא מתוחזק, על ידי מעבדות של אנטון Nekrutenko (אוניברסיטת פן סטייט) וג'יימס טיילור (אוניברסיטת ג'ונס הופקינס)f "> 3. גלקסי מציעה מגוון רחב של משימות חישובית שהופך אותו 'one-stop shop' עבור הצרכים ביואינפורמטיקה ספור, כולל כל השלבים הכרוכים במחקר RNA-seq. Itallows למשתמשים לבצע עיבוד נתונים או בשרתים שלה או מקומית על המכונות שלהם. נתונים וזרימות עבודה יכולים להיות מועתקות ומשותפים. הדרכות באינטרנט, באיזור עזרה, וכן עמודי ויקי ( https://wiki.galaxyproject.org/Support ) מוקדשים פרויקט גלקסי לספק תמיכה עקבית. עם זאת, עבור משתמשים בפעם ראשונה, במיוחד אלו ללא הכשרה ביואינפורמטיקה, בצנרת יכול להיראות מרתיע ואת התהליך של למידה עצמית והכרה יכול להיות זמן רב. בנוסף, המערכת הביולוגית למדה, ואת הפרטים של הניסוי ושיטות, השפעה ההחלטות אנליטיים בכמה שלבים, ואלה יכולים להיות קשים לניווט ללא הדרכה.

הכולל RN A-Seq Workflow גלקסי מורכב להעלות נתונים ובדיקת איכות ואחריו ניתוח באמצעות חבילת טוקסידו 4, 5, 6, 7, 8, 9, שהינה קולקטיבית של כלים שונים הנדרשים בשלבים שונים של ניתוח נתוני Seq RNA 10, 11, 12, 13, 14. ניסוי טיפוסי Seq-RNA מורכב החלק הניסיוני (הכנת מדגם, בידוד mRNA והכין ספריית cDNA), את NGS ואת ניתוח הנתונים ביו-אינפורמטיקה. סקירה של סעיפים אלה, ואת הצעדים הכרוכים בצנרת גלקסי, מוצגות באיור 1.

3fig1.jpg"/>
איור 1: סקירה כללית של Workflow RNA-seq. איור של הצעדים הניסיוניים חישובית מעורבים בניסוי RNA-seq להשוות את פרופיל ביטוי גנים של שני זני תולעת (A ו- B, קווים כתומים וירוקים וחצים, בהתאמה). המודולים השונים של מנוצל גלקסי מוצגים תיבות עם הצעד המתאים בפרוטוקול שלנו מצוין אדום. התוצרים של פעולות שונות כתובים אפור עם פורמטים של קבצים בכחול. אנא לחץ כאן כדי להציג גרסה גדולה יותר של דמות זו.

הכלי הראשון בסוויטת טוקסידו הוא תכנית יישור שנקראה "Tophat". זה מחליש את הקלט NGS קורא לרסיסים קטנים ולאחר מכן ממפה אותם בגנום הפניה. בתהליך דו-שלבי זה מבטיח קורא פורש אזורים אינטרוניים יישור אשר אחרת יכול להיות דיsrupted או החמיץ מטופלות ומיפו. זה מגביר כיסוי ומקל על זיהוי של צומת אחוי רומן. פלט Tophat מדווח כשני קבצים, קובץ BED (עם מידע על צומת אחוי הכוללים מיקום גנומית) וקובץ BAM (עם פרטי מיפוי של כל קורא). הבא, את קובץ BAM מיושר נגד הגנום התייחסות כדי להעריך את השפע של תעתיקים בודדים בתוך כל דגימה באמצעות הכלים עוקבים בסוויטת טוקסידו שנקראה "חפת". חפת פונקציות ידי סריקת היישור לדווח שברי תמליל באורך מלא או "transfrags" כי היקף כל גרסות אחוי האפשריות נתוני הקלט עבור כל גן. בהתבסס על זה, זה יוצר "transcriptome" (הרכבה של כל התמלילים שנוצרו לכל גן לכל גן) עבור כל דגימה להיות רצף. מכלולי חפת אלו מכן התמוטטו יחד או התמזגו יחד עם מחדשבגנום ference לייצר קובץ הסברים יחיד ניתוח הפרש במורד שימוש באפשרות הבאה, "Cuffmerge". לבסוף, את ביטוי גני הפרש אמצעי כלי "Cuffdiff" בין דגימות ידי השוואת תפוקות TopHat של כל אחת מהדגימות לקובץ פלט Cuffmerge הסופי (איור 1). חפתים משתמשות FPKM / RPKM (שברים / קורא לכל kilobase של תמליל למיליון ממופה כניסות) ערכים לדווח שכיחותם תמליל. ערכים אלה משקפים את הנורמליזציה של נתוני NGS גלם עבור עומק (מספר ממוצע של קורא ממדגם כי ליישר בגנום ההפניה) ואורך גן (יש גנים באורכים שונים, כך ספירה צריכה להיות מנורמלת עבור אורך של גן להשוות רמות בין הגנים). FPKM ו RPKM הם בעצם אותו דבר עם RPKM בשימוש-Seq רנ"א חד-סוף שבו כל קריאה מקבילה שבר יחיד, ואילו, FPKM משמשRNA-seq זיווג-סוף, כפי שהוא מסביר את העובדה כי שני קורא יכול מתאים לאותו שבר. בסופו של דבר, התוצאה של ניתוחים אלו היא רשימה של גנים לידי ביטוי באופן דיפרנציאלי בין התנאים ו / או הזנים שנבדקו.

לאחר ריצת גלקסי מוצלחת הושלמה "רשימת גנים" מופקת, הצעד ההגיוני הבא דורש יותר ביואינפורמטיקה מנתח להסיק ידע משמעותי מן המערכים הנתונים. חבילות תוכנה רבות צמחו כדי לספק את הצורך הזה, כולל חבילות חישובית הזמינים לציבור מבוססי אינטרנט כגון דוד (Database עבור ביאור, ויזואליזציה וגילוי משולב) 15. DAVID מקל הקצאת משמעות ביולוגית לרשימות גן גדולות ממחקרי תפוקה גבוהה על ידי השוואת רשימת הגנים המועלים מאגר המידע הביולוגי המשולב שלה חושף את ההסברים הביולוגיים המשויכים לרשימת הגן. זה ואחריו ניתוח העשרה, כלומר, בדיקות כדי IDEntify אם בכלל בכיתת תהליך או גן ביולוגית ייצוג יתר רשימת הגן (ים) באופן מובהק סטטיסטי. זה הפך בחירה פופולרית בגלל שילוב של בסיס-ידע רחב, משולב אלגוריתמים אנליטיים חזקים המאפשרים לחוקרים לזהות נושאים ביולוגיים מועשרים בתוך הגנומיקה נגזרת "רשימות גנים" 10, 16. יתרונות נוספים כוללים את יכולתו לעבד רשימות גנים שנוצרו על כל פלטפורמת סידור וממשק ידידותי למשתמש מאוד.

נמטודות Caenorhabditis elegans היא מערכת מודל גנטית, ידועה יתרונותיה הרבים כגון גודל קטן, גוף שקוף, תכנית גוף פשוט, וקלות התרבות מוכנה שלהם מצוינים דיסקציה גנטי ומולקולרי. יש תולעים גנום קטן, פשוט היטב מבואר הכולל עד 40 גנים שמורה% עם homologs האנושי ידוע 17. ואכן, C. elegansהיה מטזואניים הראשון בגנום אשר היה רצף לחלוטין 18, ואחד המינים הראשונים שבו RNA-seq שמש כדי למפות transcriptome של אורגניזם 19, 20. מחקרי תולעת מוקדם מעורבים ניסויים עם שיטות שונות ללכידת RNA תפוקה גבוהה, כנת ספרייה וסדר וכן צינורות ביואינפורמטיקה שתרמו לקידום הטכנולוגיה 21, 22. בשנים האחרונות, RNA-seq מבוסס ניסויים בתולעים הפכו להיות דבר שבשגרה. אבל, עבור ביולוגי תולעת מסורתיים האתגרים שמציבים ניתוח חישובית של נתוני Seq RNA להישאר מכשול מרכזי עבור ניצול גדול יותר וטוב יותר של הטכניקה.

במאמר זה, אנו מתארים פרוטוקול לשימוש בפלטפורמת גלקסי לנתח נתוני תפוקה גבוהה-Seq RNA המופקים C. elegans. לקבלה לראשונה רבים וקטן-SCAמשתמשים le, הדרך הכי יעילה וחסכונית וישירה לבצע ניסוי RNA-seq היא לבודד RNA במעבדה ולנצל מתקן NGS מסחרי (או בתוך הבית) עבור הכנת ספריות cDNA סידור ואת NGS עצמה. לפיכך, אנו ראשונים יש פרטנו את השלבים כרוכים בבידוד, כימות ואיכות הערכה של C. elegans דגימות RNA עבור RNA-seq. הבא, אנו מספקים צעד אחר צעד הוראות שימוש בממשק גלקסי עבור ניתוחים של נתוני NGS, החל בדיקות לבדיקות בקרת איכות שלאחר רצף ואחריו יישור, הרכבה, וכימותי הפרש של ביטוי גנים. בנוסף, כללנו כיוונים לבחון את רשימות גן נובע גלקסי ללימודי העשרה ביולוגיים באמצעות DAVID. כצעד סופי בזרימת העבודה, אנו מספקים להנחיות לטעינת נתוני Seq RNA על לשרתים ציבוריים כגון ארכיון לקרוא רצף (SRA) על צמח השדה ( http: // www.ncbi.nlm.nih.gov/sra) כדי להפוך אותו לנגיש בחופשיות לקהילה המדעית. בסך הכל, אנו צופים כי מאמר זה יספק מידע מקיף מספיק כדי ביולוגי תולעת התחייבות ניסויים-Seq RNA בפעם הראשונה, כמו גם משתמשים תכוף פועלים מספר קטן של דוגמאות.

Protocol

בידוד RNA 1. אמצעי זהירות נגבו את פני השטח כולו עובד, מכשירים טפטפות באמצעות תרסיס RNase, זמין מסחרית לחסל כל RNases הנוכחי. יש להשתמש בכפפו?…

Representative Results

ב C. elegans, חיסול של תאי גזע germline (GSCs) מרחיב את תוחלת החיים, משפר עמידות ללחץ, ומרוממת הגוף שומן 24, 28. הפסד של GSCs, או הביאו על ידי לייזר אבלציה או על ידי מוטציות כגון GLP-1, גורמת להארכת תוחלת החיים באמצעות הפעלת רשת ש?…

Discussion

המשמעות של פלטפורמת רצף גלקסי בביולוגיה המודרנית

פרויקט גלקסי הפך תפקיד עוזר ביולוגים ללא הכשרה ביואינפורמטיקה לעבד ולנתח נתוני רצף תפוקה גבוהה באופן מהיר ויעיל. פעם נחשב משימה הרקולס, הפלטפורמה הזמינה לציבור הזה עשתה הרצת אלגור…

Disclosures

The authors have nothing to disclose.

Acknowledgements

המחברים מבקשים להביע את תודתם המעבדות, הקבוצות ויחידים אשר פתחו גלקסי ודוד, וכך עשו NGS נגיש נרחב עבור הקהילה המדעית. העזרה והייעוץ הניתנים על ידי עמיתיו באוניברסיטת פיטסבורג במהלך אימון ביואינפורמטיקה שלנו הוא הודה. עבודה זו נתמכה על ידי Scholar ניו קרן אליסון הרפואי הזדקנות הפרס (AG-NS-0879-12) ואת מענק מטעם המכון הלאומי לבריאות (R01AG051659) כדי AG.

Materials

RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25 (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27 (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21 (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
  18. Consortium, C. e. S. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
  32. Wang, M. C., O’Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans’ lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27 (6), 867-869 (2011).

Play Video

Cite This Article
Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

View Video