Summary

מינוף משאבים CyVerse עבור<em> דה נובו</em> תמלול השוואתי של אורגניזמים לא מקופחים (לא מודל)

Published: May 09, 2017
doi:

Summary

This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.

Abstract

זרימת עבודה זו מאפשרת לחוקרי טירון למנף משאבים חישוביים מתקדמים, כגון מחשוב ענן, לביצוע תמלילי השוואה השוואתיים. היא משמשת גם תחלופה לביולוגים לפתח מיומנויות חישוביות של נתונים, כגון ביצוע פקודות באש, הדמיה וניהול של ערכות נתונים גדולות. כל קוד שורת פקודה והסברים נוספים של כל פקודה או צעד ניתן למצוא באתר ויקי ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). פלטפורמת Discovery Environment ופלטפורמות האטמוספירה מחוברים זה לזה באמצעות מאגר הנתונים CyVerse. ככזה, פעם אחת את הנתונים גלם גלם ראשונית הועלה אין צורך להעביר קבצים נתונים גדולים על חיבור לאינטרנט, למזער את כמות הזמן הדרוש כדי לבצע ניתוחים. פרוטוקול זה נועד לנתח רק שני טיפולים ניסיוניים או תנאים. ניתוח דיפרנציאלי ביטוי גנים מתבצע thrלהשוות השוואות, ולא יהיה מתאים לבחון מספר גורמים. עבודה זו מתוכננת גם להיות ידנית ולא אוטומטית. כל צעד חייב להיות מבוצע ונחקר על ידי המשתמש, מניב הבנה טובה יותר של נתונים ופלט אנליטית, ולכן תוצאות טובות יותר עבור המשתמש. לאחר השלמת הפרוטוקול הזה, יניב את התמליל המורכב של האורגניזמים (שאינם מודפסים), ללא צורך למפות לגנום הפניה מקודם (שבדרך כלל אינו זמין באורגניזם). אלה transcriptomes דה novo משמשים נוספים ניתוח ההפרש גנים ההפרש ניתוח לחקור גנים שונים בין שני תנאים ניסיוניים. גנים מבוטא דיפרנציאלי אז ביאורים תפקודית כדי להבין את התגובה הגנטית אורגניזמים יש תנאים ניסיוניים. בסך הכל, הנתונים שמקורם בפרוטוקול זה משמש לבדיקת השערות על תגובות ביולוגיות של אורגניזמים לא מוצלחים.

Introduction

הומו סאפיינס וכמה סוגים עיקריים של בעלי חיים דוגמת Drosophila melanogaster , Mus musculus , ו- Danio rerio מייצגים את רוב עבודות הגנום הפונקציונליות. עם זאת, עלות הפחתת במהירות של התפוקה גבוהה הטכנולוגיה רצף מספקת הזדמנויות עבור גנומיקה תפקודית שאינם מודל ( aka "מוזנחת" או "underverved") בעלי חיים 1 . זהו מעבר חשוב בגנום, שכן אורגניזמים שאינם דוגמניות מייצגים לעיתים קרובות מינים רלוונטיים מבחינה כלכלית ( לדוגמה , צדפות, שרימפס, סרטנים) ומציעים הזדמנויות לחקור פנוטיפים חדשים ומערכות ביולוגיות מחוץ לתחום המינים.

למרות שאורגניזמים לא מספקים מהווים הזדמנות אטרקטיבית לחקור מערכות ביולוגיות ייחודיות, מספר אתגרים עומדים בפני חוקרים במיוחד במהלך הניתוח הביואינפורמאטי. חלק מהאתגרים הם מולדים לעיבוד ערכות נתונים גדולות, בעוד שאחרות נובעות מחוסר משאבים גנטיים העומדים בפני חוקרים העובדים באורגניזמים לא מוצלחים כגון גנום התייחסות, אורגניזם אונטולוגיות ספציפיות וכו ' האתגרים של בידוד חומצות גרעין ורצף הם לעתים קרובות שגרתית בהשוואה לאלו של ניתוח נתונים, וככזה ניתוחים ביואינפורמטיים בדרך כלל מוכיחה להיות העלות הזלזל ביותר של פרויקטים רצף 2 . לדוגמה, ניתוח בסיסי של ביואינפורמטיקה מהדור הבא עשוי לכלול את השלבים הבאים: סינון איכות וגזירה של רצף גלם, הרכבה של קריאות קצרות לחתיכות רציפות גדולות יותר, וכן ביאור ו / או השוואות למערכות אחרות כדי להשיג הבנה ביולוגית. למרות הפשוטות לכאורה, זרימת עבודה זו דורשת ידע וידע חישובי מעבר לתחום מחשב המעבדה, ומניחה אותו מחוץ להישג ידם של מדענים רבים הלומדים לא-מודל אורגניזמים.

אתגרים פנימיים יכולים להיות תשתית או מבוססי ידע. האתגר התשתית הקלאסי הוא גישה משאבים חישוביים מתאימים. לדוגמה, הרכבה והערות מבוססות על אלגוריתמים אינטנסיביים חישוביים הדורשים מחשבים רבי עוצמה או אשכולות מחשב, כאשר יש כמות גדולה של זיכרון RAM (256 GB-1 TB) ומספר מעבדים / ליבות לרוץ. למרבה הצער, חוקרים רבים או שאין להם גישה למשאבים כאלה מחשוב או אין להם את הידע הדרוש כדי לקיים אינטראקציה עם מערכות אלה. חוקרים אחרים עשויים לקבל גישה לאשכולות מיחשוב עתירי ביצועים באמצעות האוניברסיטאות או המוסדות שלהם, אך הגישה למשאבים אלה עשויה להיות מוגבלת ולעתים היא גורמת לחיובים לכל שעת חישוב, כלומר מספר מעבדי המעבד מוכפל במספר השעון בזמן אמת שעות "כי המעבדים האלה פועלים. מינוף מערכת cyberinfrastructure ממומן על ידי הקרן הלאומית למדע ארה"ב sUch כמו CyVerse 3 המספק גישה חופשית לחישוב משאבים עבור חוקרים, בארצות הברית וברחבי העולם, יכול לעזור להקל על האתגרים התשתית, כפי שיודגם כאן.

דוגמה לאתגר טיפוסי המבוסס על ידע היא הבנת התוכנה הדרושה לניתוח מלא. כדי לנהל ביעילות פרויקט מבוסס רצף, החוקרים צריכים להכיר את מספר עצום של כלי תוכנה שפותחו עבור ניתוחים ביואינפורמטיים. הלמידה של כל חבילה קשה בפני עצמו, אך היא החריפה על ידי העובדה כי חבילות כל הזמן להיות משודרג, מחדש, להרכיב זרימות עבודה חדשות, ולפעמים להיות מוגבל לשימוש תחת רישיונות חדשים. בנוסף, הקישור בין התשומות והתפוקות של כלים אלה מחייב לפעמים שינוי סוגי נתונים כדי להפוך אותם לתואמים, תוך הוספת כלי עבודה נוסף. לבסוף, זה גם קשה לדעת איזו חבילת תוכנה היאE הטובה ביותר "לניתוח, ולעתים קרובות לזהות את התוכנה הטובה ביותר עבור תנאי הניסוי בפרט הוא עניין של הבדלים מתוחכמים. במקרים מסוימים, ביקורות שימושיות של תוכנות זמינות, אך עקב המשך השחרור של עדכונים חדשים ואפשרויות תוכנה, אלה במהירות להתעדכן.

עבור חוקרים החוקרים אורגניזמים לא מוצלחים, אלה אתגרים מולדים באים בנוסף לאתגרים הקשורים לנתח נתונים באורגניזם חדש. אלו האתגרים הספציפיים לאורגניזם מסוים מודגמים בצורה הטובה ביותר במהלך ביאור הגן. לדוגמה, לאורגניזמים לא מוצלחים אין לעיתים קרובות אורגניזם מודל הקשור באופן הדוק, שניתן להשתמש בו באופן סביר לזיהוי אנתולוגיה ותפקוד גנים ( למשל, חסרי חוליות ודרסופילים ). כלים ביואינפורמטיים רבים דורשים גם "אימון" כדי לזהות מוטיבים מבניים, אשר ניתן להשתמש בהם כדי לזהות את תפקוד הגן. עם זאת, נתוני האימונים בדרך כלל זמינים רק עבור modאל אורגניזמים, והדרכה מודלים מרקוב מוסתר (HMMs) הוא מחוץ לתחום של ביולוגים, ואפילו ביואינפורמטיקאים רבים. לבסוף, גם אם ניתן לבצע ביאורים באמצעות נתונים מאורגניזמים של מודל, כמה אונטולוגיות גנטיות הקשורות לאורגניזמים של מודל אינן הגיוניות כאשר הביולוגיה וההיסטוריה הטבעית של האורגניזם הנתון לזיהוי נחשבות ( למשל , העברת מידע מתסיסנית לשרימפס ).

לאור אתגרים אלה, משאבים ביואינפורמטיים צריכים להיות מפותחים עם חוקרים המנהלים ניתוחי נובו על אורגניזמים לא מוצלחים במיוחד בראש. בשנים הקרובות של פרויקטים גנומיים פונקציה רצף יעזור לסגור את הפער בין המודל לאורגניזמים לא מצונזר ( https://genome10k.soe.ucsc.edu/ ), אבל יש כלים רבים כי יהיה צורך להתפתח כדי להתמודד עם האתגרים נחשב prec CyVerse מוקדש ליצירת מערכות אקולוגיות של iNteroperability על ידי קישור הקיים cyberinfrastructure יישומי צד שלישי כדי לספק ניהול נתונים, כלי ניתוח ביואינפורמטיים, ויזואליזציות נתונים למדענים החיים. יכולת פעולה הדדית מסייעת להחליק את המעברים בין יישומים ופלטפורמות ביואינפורמטיים על ידי אספקת משאבי מחשוב ניתנים להרחבה והגבלת המרות בתבנית קובץ וכמות הנתונים המועברים בין פלטפורמות. CyVerse מציעה מספר פלטפורמות, כולל Discovery Environment (DE 4 , Atmosphere 5 ו- Data Store 3. ה- DE מבוסס אינטרנט ויש לו כלים נפוצים רבים לביו-אינפורמטיקה שהוסבו לפורמטים ידידותיים למשתמש ולנקודות לחיצה (הנקראים "יישומים "), והוא ממשק המשתמש הגרפי (GUI) עבור מאגר המידע, שבו מאוחסנים ומנוהלים ממשקי משתמש גדולים ( כלומר, קריאת הגלם, הגנום המורכב) .האווירה היא שירות מחשוב ענן המציע גמישות רבה יותר עבור החוקריםבאמצעות Virtual Machine computational Resources, אשר יש מגוון רחב של כלים ביואינפורמטיקה מותקנת מראש. שתי הפלטפורמות הללו מקושרות לחנות הנתונים, וניתן להשתמש בהן יחד ליצירת זרימות עבודה כמו זו המתוארת כאן. דוח זה מתמקד הרכבה transcriptome דה novo ואת ההפרש ביטוי ביטוי גנים עבודה, וכן כתובות נוספות כמה שיטות עבודה מומלצות הקשורות בפיתוח וביצוע ניתוח ביואינפורמטיבי. הסבר על המשימה הרחבה יותר של CyVerse ( http://www.cyverse.org/about ) ותיאורי פלטפורמה מפורטים ( http://www.cyverse.org/learning-center ) זמינים לציבור. כל הניתוחים המתוארים כאן משתמשים ב- Discovery Environment 4 (DE) ובאטמוספרה 5 , ומוצגים באופן שיהפוך אותם לנגישים לחוקרים מכל הרמות החישוביות. DE workflows ו Atmosphתמונות ere ניתן להפנות ישירות באמצעות כתובות כדי להבטיח לטווח ארוך, אמינות, reusability, ו reproducibility.

Protocol

הערה: פרוטוקול הכולל כבר ממוספרים על פי תיקיות שיווצרו בשם בשלב 1.2 ( איור 1 ו -2 ). פרוטוקול זה מייצג ניתוח השוואתי סטנדרטי novo transcriptome, וכל צעד מפורט כאן עשוי לא להיות נחוץ עבור כל החוקרים. זרימת עבודה זו מתועדת ביסודיות על וויקי של מורה נלווה, אשר מכיל גם את כל הקבצים הנוספים וקישורים למסמכים של מפתחי צד 3 עניין עבור כל חבילת ניתוח ( טבלה 1 ). קישורים לחומר זה ייכללו בכל פרוטוקול זה לצורך גישה קלה למידע זה. שיטות העבודה המומלצות הן הערות המסופקות למשתמשים כהצעות לקבלת הדרך הטובה ביותר לביצוע משימות או למשתמשים לשקול, והן יועברו דרך הערות בפרוטוקול. תיקיה של קלט נתונים למשל פלט אנליטית זמין לציבור למשתמשים, והוא מאורגן כפי שהוצע בפרוטוקול ( דה novo </Em> הרכבה transcriptome וניתוח. 1. הגדר את הפרויקט, העלה Raw רצף קורא, וכן להעריך קורא באמצעות FastQC קבל גישה לאטמוספירה ולסביבת הגילוי. בקש חשבון CyVerse בחינם על-ידי ניווט אל דף הרישום ( לדוגמה, person@institution.edu). מלא את הפרטים הדרושים ושלח. נווט אל דף האינטרנט הראשי (http://www.cyverse.org/) ובחר "כניסה" בסרגל הכלים העליון. בחר "Cyverse Login" והיכנס באמצעות אישורי CyVerse. נווט לכרטיסייה יישומים ושירותים, ובקש גישה לאווירה אטומית. הגישה לסביבת הגילוי ניתנת באופן אוטומטי. הגדר את הפרויקט והעבר נתונים לחנות הנתונים. היכנס לסביבת הגילוי (https://de.iplantcollaborative.org/de). בחר בכרטיסייה "נתונים" כדי להציג תפריט שמכיל את כל התיקיות בחנות הנתונים. </Li> יצירת תיקיית הפרויקט הראשי יהיה בית כל הנתונים הקשורים לפרויקט. מצא את סרגל הכלים בחלק העליון של חלון הנתונים ובחר File | תיקייה חדשה. אל תשתמש ברווחים או תווים מיוחדים בשמות התיקיות או בשמות קובץ קלט / פלט כגון "! @ # () [] [{}: $% ^ & *." במקום זאת, השתמש בקווים תחתונים או מקפים, כלומר "_" או "-" כאשר הדבר מתאים. יצירת חמש תיקיות בתוך תיקיית הפרויקט הראשי כדי לארגן ניתוחים ( איור 1 ) שם התיקיות כדלקמן ללא פסיקים או מרכאות: "1_Raw_Sequence", "2_High_Quality_Sequence", "3_Assembly", "4_Differential_Expression", "5_Annotated_Assembly". תיקיות משנה יוצבו בתוך כל תיקיות הפרויקט הראשי ( איור 2 ). דמות1: סקירה כללית של ארגון תיקיות הפרויקט ואת דה נובו Transcriptome הרכבה וניתוח זרימת עבודה. משתמשים יעלו גלם הגלם קורא לתוך תיקיית הפרויקט הראשי על חנות נתונים, ולאחר מכן למקם את התוצאות מכל צעד לתוך תיקיות נפרדות. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה. איור 2: סקירה מפורטת של האסיפה של De Novo Transcriptome וניתוח זרימת עבודה המתרחשת בתוך CyBerse Cyberinfrastructure. ההרכבה כולה ואת זרימת העבודה יושלם בחמישה שלבים אשר מקבלים כל תיקיה משלהם (מודגש, סמלים תיקייה ממוספרים). לכל אחד מחמשת תיקוני העבודה הממוספרים יש תיקיות משנה המכילות נתוני פלט מניתוחים ביואינפורמטיים (תיקייהסמלים). קלט עבור ניתוח לבוא מתיקיה אחת ולאחר מכן לעבור לתיקייה אחרת דרך הפלט של תוכנית ניתוח (תיבות מלבן). הנתונים הסופיים משלושת השלבים הראשונים מושווים ומוכנים לפרסום. בסופו של דבר, תוכנית זו תשואות תיקיית פרוייקט הראשי שיש לו ניתוח בשלבים עבור משתפי פעולה ו / או כתבי היד בודקים יכולים להבין במהירות את זרימת העבודה לחזור על זה באמצעות כל קובץ במידת הצורך. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה. העלאת קבצי רצף FASTQ גולמיים לתוך התיקיה "1_Raw_Sequence" לתוך תיקיית משנה תחת הכותרת "A_Raw_Reads" באמצעות אחת משלוש השיטות הבאות. השתמש בתכונת ההעלאה הפשוטה של ​​מאגר הנתונים כדי לנווט אל סרגל הכלים 'חלון נתונים' על-ידי לחיצה על לחצן הנתונים בשולחן העבודה הראשי של DE, ובחר באפשרות טען | העלה פשוט משולחן העבודה. בחר בלחצן עיוןכדי לנווט אל קבצי הגלם FASTQ הגלם במחשב המקומי. שיטה זו מתאימה רק עבור קבצים תחת 2 GB. בחר בלחצן העלאה בחלק התחתון של המסך כדי לשלוח את ההעלאה. הודעה תירשם בפינה השמאלית העליונה של ה- DE בסמל הפעמון שהעלאה נשלחה. הודעה נוספת תירשם כאשר ההעלאה תושלם. לחלופין, השתמש ב- Cyberduck להעברת קבצים גדולים יותר (https://wiki.cyverse.org/wiki/x/pYcVAQ). התקן את Cyberduck ולאחר מכן הפעל כתוכנית בשולחן העבודה של המחשב המקומי. לבסוף, להוריד iCommands ולהתקין על המחשב המקומי בהתאם להוראות (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands). הערכה הועלה, רצף גלם קורא באמצעות App FastQC ב DE. בחר את "Apps" כפתור על שולחן העבודה הראשי DE לפתוח חלון המכיל את כל היישומים ניתוח זמין DE. חפש ופתח את הניצחוןדאו עבור כלי FastQC בסרגל החיפוש בחלק העליון של החלון. פתח את גירסת ריבוי הקבצים אם יש יותר מקובץ FASTQ אחד. בחר קובץ | תיקייה חדשה כדי ליצור תיקייה בשם "B_FastQC_Raw_Reads" ובחר תיקייה זו כתיקיית הפלט. טען את הקבצים לקרוא FASTQ לחלון הכלי שנקרא "בחר נתוני קלט" ובחר "הפעלה ניתוח". פתח את הקובץ .html או .pdf כדי להציג את התוצאות לאחר השלמת הניתוח. FastQC מפעילה מספר ניתוחים כי הבדיקה היבטים שונים של קבצים לקרוא ( איור 3 ). 2. חתוך ואיכות מסנן גלם קורא תשואה רצף באיכות גבוהה הערה: השתמש באפליקציה Trimmomatic או באפליקציה Sickle. חפש את היישום Trimmomatic לתכנות ב DE ופתח אותו כמו קודם. טען את התיקייה של קבצי FASTQ גלם לקרוא את הקטע "הגדרות". בחר אם SEקבצי quencing הם יחיד או לזווג סוף. השתמש בקובץ הבקרה הרגיל המסופק על-ידי בחירה בלחצן עיון והדבקה / iplant / home / Shared / Trinity_transdecoder_trinotate_databases בתיבה "צופה:". בחר את הקובץ בשם Trimmomaticv0.33_control_file ולהפעיל את הניתוח. הקובץ ניתן להוריד, את ההגדרות נערך, ולאחר מכן נטען לתוך תיקיית הפרויקט השני כדי ליצור סקריפט מותאם אישית זמירה. אופציונלי: אם ניתוח FastQC זיהה רצפי מתאם, השתמש בהגדרת ILLUMINACLIP כדי לקצץ את מתאמי Illumina. בחר את קובץ המתאם המתאים בתיקייה / iplant / home / Shared / Trinity_transdecoder_trinotate_databases כמפורט למעלה. איכות רצף זמירה קורא באמצעות מגל. חיפוש ולפתוח את האפליקציה מגל ב DE. בחר את FASTQ trimmed קורא כקלט קורא, ושנה את שם קבצי הפלט. כלול הגדרות איכות באפשרויות. הגדרות אופייניות הן פורמט איכות: illumina, sanger, solexa; איכות tגובה: 20; אורך מינימלי: 50. העבר את כל הפלט לתוך התיקייה גזוז ומסונן (2_High_Quality_Sequence). הערכת הסופי קורא באמצעות FastQC ולהשוות את דוחות FastQC הקודם. בחר בקובץ .html כדי להציג דף אינטרנט של כל התוצאות. בחר את התיקייה של קבצי תמונה (.png) המסופקים בפלט אם לא ניתן לצפות בהם. 3. De Novo Transcriptome האסיפה באמצעות טריניטי באווירה פתח את הגרסה העדכנית ביותר של מופע האטמוספירה על ידי ניווט אל דף הוויקי (https://wiki.cyverse.org/wiki/x/dgGtAQ). בחר את הקישור לגרסה העדכנית ביותר של התמונה 'טריניטי' ו- 'Trinotate'. לחלופין, חיפוש "Trinotate" באטמוספירה תמונה כלי חיפוש (https://atmo.iplantcollaborative.org/application/images) להעלות את כל הגרסאות של טריניטי ו Trinotate תמונות. בחר את הלחצן "היכנס להפעלה" ולאחר מכן תן שם לאווירה האטומיתנטייה. בחר גודל מופע של "medium3" (CPU: 4, Mem: 32GB) או "גדול 3" (מעבד: 8, זיכרון: 64 GB). הפעל את המופע, והמתן עד שהוא יבנה. במקרים נדירים, CyVerse עובר תחזוקה לעדכון פלטפורמות. מופעים קיימים זמינים במהלך עדכונים אלה, אך ייתכן שלא ניתן ליצור מופעים חדשים. בקר בדף מצב CyVerse כדי לראות את המצב הנוכחי של כל פלטפורמה (http://status.cyverse.org/). פתח את המופע ברגע שהוא מוכן על ידי לחיצה על השם ולאחר מכן בחירת "שולחן עבודה מרוחק" בתחתית התפריט בצד ימין. אפשר Java ו- VNC Viewer אם תתבקש. בחר בלחצן "התחבר" בחלון VNC Viewer ולאחר מכן בחר "Continue". היכנס כדי לפתוח חלון נפרד שיהיה מופע מחשוב ענן חדש. העבר את קובצי הקריאה FASTQ המסודרים ו / או המסוננים למופע באמצעות אחת משלוש השיטות המתוארות בשלבים 1.3.1 – 1.3.4. לָנוּדואר דפדפן האינטרנט כדי לגשת DE ולהוריד קבצים בדיוק כמו קודם על המחשב המקומי. או להשתמש iCommands מותקן על התמונות האלה במהירות להעביר ערכות נתונים גדולים. ריצה טריניטי להרכיב באיכות גבוהה קורא. הגדר את תיקיית הניתוח במופע Atmosphere. השתמש בסקריפט הזמין ב- DE (/ iplant / home / Shared / Trinity_transdecoder_trinotate_databases) או העתק והדבק את הפקודות מדף הוויקי (https://wiki.cyverse.org/wiki/x/dgGtAQ). הסבר על כל הפקודות ניתן למצוא בדף הוויקי. לאחר תיקיית ניתוח ומסדי נתונים Trinotate הם הקימו, להפעיל את המאסף טריניטי באמצעות פקודות מלמעלה. ישנם מספר קבצי פלט, אך החשוב ביותר הוא קובץ ההרכבה הסופי שכותרתו "Trinity.fasta". שנה את שם הקובץ FASTA כדי להיות ייחודי לאורגניזם וטיפול של הקורא שנאסף לפני העברתו לתוך חנות נתונים (תיקייה 3_Assembly) כדי למזער בלבול פוטנציאלי. הערה: ספירת פלט טבלאות עבור ניתוח ביטוי ביטוי גנטי לתוך תיקייה (4_Differential_Expression). הערכת הרכבה באמצעות rnaQUAST ( איור 4 ). העבר את קבצי הפלט של Trinity לתיקייה "3_Assembly" ב- DE ותווית התיקייה "A_Trinity_de_novo_assembly". תן כל transcriptome כי היה מורכב תיקיית משנה בתוך התיקיה "A_Trinity_de_novo_assembly" עם שמות ייחודיים כולל השם המדעי של אורגניזמים וטיפולים הקשורים transcriptome. צור תיקיית משנה נוספת בשם "B_rnaQUAST_Output" בתיקייה "3_Assembly". פתח את היישום שכותרתו "rnaQUAST 1.2.0 (מבוסס denovo)" ואת שם הניתוח ובחר "B_rnaQUAST_Output" כמו תיקיית הפלט. הוסף את קובץ ה- FASTA של קובץ ה- novo לקטע "קלט נתונים". בסעיף "פלט נתונים", הקלד שם ייחודי עבור ה- novo </eמ '> הרכבה. פעולה זו תיצור תיקיה של קבצי פלט rnaQUAST בתוך התיקיה "B_rnaQUAST_Output". בחר אפשרויות נוספות "GenemarkS-T ג 'יני חיזוי," "BUSCO," ו "פרמטרים" קטעים. בחר prokaryote בסעיף "GenemarkS-T ג'ין חיזוי" אם האורגניזם הוא לא אוקריוטים. הפעל את BUSCO כדי לבחור את כפתור הדפדוף והעתק את הנתיב iplant / home / shared / iplantcollaborative / example_data / BUSCO.sample.data לתוך תיבת "View:" ולחץ על Enter. בחר את התיקייה הספציפית ביותר של BUSCO הזמינה עבור האורגניזם. הערה: חברת BUSCO תעריך את הרכבה של גנים מרכזיים של השושלת, ותפיק את אחוז הגנים הליבה. יש תיקיות כלליות, כגון eukaryote, ושושלות ספציפיות יותר, למשל arthropoda. חפש "מפענח תעתיק" ולהפעיל Transdecoder על דה נובO השילוש הרכבה פלט FASTA הקובץ בסביבת דיסקברי. העבר את קובץ הפלט .pep לתוך התיקייה דה נובו (3_Assembly) לשימוש בשלב 5 ביאור. 4. Pairwise הפרש דיפרנציאלי באמצעות Deseq2 ב DE פתח את היישום DESeq2 ב- DE כפי שתואר לעיל. תן שם לניתוח ובחר את תיקיית הפלט כ- 4_Differential_Expression. בקטע "תשומות", בחר את קובץ הטבלה של ספירת ההרכבה של Trinity ואת העמודה שבה ניתן למצוא את שמות הקונטיג בטבלה זו. הזן את כותרות העמודות מנתוני טבלת הנתונים של הטבלה כדי לקבוע אילו עמודות יושוו. כלול את הפסיקים בין כל אחד מהתנאים. אל תכלול את כותרת העמודה הראשונה שמכילה את שמות הקונטיג. עבור משכפל, לחזור על אותו שם ( למשל , טיפול 1rep1, טיפול 1, 2 טיפול, טיפול 1 יהיה להפוך טיפול 1, טיפול 1, טיפול 1). בהקו השני, לספק את השניים של שני התנאים להיות לעומת ( למשל , טיפול 1, טיפול 2). התאם את שמות כותרות העמודות המסופקות בשורה הראשונה. הערה: כותרות העמודות חייבות להיות אלפאנומריות ולא יכולות להכיל תווים מיוחדים. 5. ביאור באמצעות Trinotate הפעל כל חלק של Trinotate באטמוספרה מחשוב ענן למשל. הערה: פקודות בש מסופקות בקובץ txt להעתקה, להדבקה, ולאחר מכן לשנות אותו לפני ריצה ב- DE (/ iplant / home / Shared / Trinity_transdecoder_trinotate_databases) או בדף הוויקי (https://wiki.cyverse.org/ ויקי / x / dgGtAQ). אם annotating הרכבות מרובות, ביאורים כל הרכבה אחת בכל פעם ולאחר מכן להעביר הסתיים הערות קבצים בחזרה לתיקיה "5_Annotation" כל אחד עם תיקיה ייחודית המתאימה עם שם הרכבה. הפעל את הפקודה bash לחיפוש תמלילי Trinity. שנה את מספר האשכולות כך שיתאימו למספר המעבדיםעל למשל, כלומר בינוני יש 4 מעבדים גדולים יש 8 מעבדים. לפרטים נוספים, עיין בשלב 3.1.2. שנה את הפקודה Trinity.fasta כדי להתאים את שם הקובץ FASTA הרכבה. הערה: חיפוש + BLAST יחייב את רוב הזמן. זה יכול להיות ימים לפני שהוא משלים. פעילות המחשב ענן ניתן לבדוק באווירה מבלי להעלות את מציג VNC. הפעל את הפקודה bash לחיפוש חלבונים Transdecoder- החזוי. כמו קודם, לשנות את מספר האשכולות ואת שם הקובץ כדי להתאים את התנאים 5.2.1. הפעל את הפקודה bash עבור HMMER ושנה את מספר החוטים כמפורט לעיל. הפעל את הפקודה bash עבור האות ו tmHMM במידת הצורך. SignalP לחזות פפטידים האות tmHMM מנבא מוטיבים חלבון טרנסממברני. טוען תוצאות למסד הנתונים SQLite לאחר שכל הניתוחים לעיל הושלמו, הפעל את הפקודה bash לטעון קבצי פלט לתוך מסד נתונים הסופית SQLite. הסר פקודות כלשהןלניתוחים שלא הופעלו. ייצא את מסד הנתונים SQLite לקובץ .xls לצפייה בצופים בטבלה פופולרית.

Representative Results

לאחר הפרויקט הארגון קבצים נוצרו ( איור 1 ו -2 ), את המשימה הראשונה זה זרימת עבודה זו היא להעריך את קבצי הגלם גלם, ולאחר מכן לנקות אותם על ידי זמירה וסינון איכות. FastQC יפיק נתונים קריא אדם קריא על ציוני האיכות ואת אורך sequences מתבנית קובץ FASTQ. הנתונים FastQC מושווים אז לפני ואחרי זמירה כדי להעריך אם הקריאה הסופית הם באיכות גבוהה ולכן מתאים להרכבה. "לכל בסיס רצף איכות" מראה את האיכות הממוצעת של קורא בכל זוג בסיס של רצף. עדיף יש ציון איכות פרד מעל 20-28 המצוינות על ידי הצבעים על דמויות FastQC. "לכל ציון איכות רצף" קובע אם איכות סינון של קורא עשוי להיות נחוץ. אם יותר מדי קורא יש ציון ממוצע מתחת 20-25 אז זה עשוי להיות נחוץ כדי לסנן על פי איכות הקריאה הממוצע. "לכל תוכן בסיס רצף" צריך להראות הפצה אפילו על פני כל ארבעת הבסיסים נוקליאוטידים. אם יש הטיה התוכן נוקליאוטידים מוצג, אז קצוות הקצוות עשוי להיות נחוץ. "לכל תוכן בסיס GC צריך להיות גם על פני כל המיקומים.אם יש רטט קורא אולי צריך להיות trimmed כמו 1.4.4.3" רצף תוכן GC "צריך להיות חלוקה נורמלית.מתאם או פולימראז התגובה שרשרת (PCR ) המוצרים יכולים זיהום בספריה רצף ו להטות את התפלגות נורמלית.במקרה זה, מתאם זמירה ייתכן שיהיה צורך. "רצף אורך ההפצה" נותן את אורכי הממוצע של כל הקריאות.קורא קטן מ 35-45 זוגות בסיס מסוננים בדרך כלל החוצה. "רצף שכפול רמות" להראות כמה פעמים רצף קריאה נתון נתפסת בתוך הספרייה.משוכפל מאוד לקרוא רצף לספור מסופקים בסעיף "ייצוג יתר רצפים". FastQC גם מנסה לזהות אם כפולות קוראהם רצף מתאם או רצפים ידועים אחרים הקשורים פלטפורמות רצף. תווית של "ללא פגיעה" פירושה כי רצף יש לחקור עוד באמצעות NC BLAST 6 כדי לקבוע אם זה רצף רלוונטי ביולוגית, או אם זה צריך להיות מוסר. DE יש גם כמה גרסאות של BLAST זמין. היישום DE BLASTN זמין בכתובת: https://de.iplantcollaborative.org/de/?type=apps&amp;app-id=6f94cc92-6d28-45c6-aef1-036be697671d . לאחר רצף גלם כבר הוקרן כדי לייצר באיכות גבוהה קורא, קורא צריך להיות התאספו כדי ליצור רצף רציף (contists). בקיצור, אסיפות נוצרות על ידי יישור כל רצף קצר קורא למצוא רצפים דומים. תחומי רצף דומים יותר מאשר אורך מסוים נחשבים להיות saלי כי ההסתברות של רצף דומה אקראי של אורך מסוים הוא כמעט אפס. טריניטי יהיה פלט קבצי יומן, קבצי fasta עבור כל שלב בתהליך ההרכבה. עם זאת, הפלט החשוב ביותר הוא קובץ ההרכבה הסופי המכיל את contigs, אשר שכותרתו "Trinity.fasta" ומצא את התיקייה הראשית. קובץ זה מכיל את כל המתאספים המורכבים, ובעצם אינו כמעט "קריא". לכן, כלי rnaQUAST ניתן להשתמש כדי להבין את ההרכבה לעומק יותר. כלי rnaQUAST יהיה פלט הנתונים שיאפשרו למשתמשים להשוות מכלולים כדי לקבוע אילו הם הכי שלם ( איור 4 ). מידע נוסף על כל דמות מ- rnaQUAST ניתן למצוא באתר ויקי ( https://wiki.cyverse.org/wiki/x/fwuEAQ ). אם BUSCO 7 היה לרוץ, של עניין מסוים הוא specity.txt הקובץ אשר מציג את מספר שלם ו pגנים אמנותיים של BUSCO ומספר תחזיות גן GeneMarkS-T באסיפה. גנים של BUSCO הם קבוצות של גנים מאורגנים המשותפים לקבוצה של אורגניזמים. הם יכולים לשמש כדי להעריך עד כמה האסיפה היא לכידת קבוצות של גנים אשר צפויים להיות נוכחים בכל סוג של אורגניזם, אשר מבוסס על clades phylogenetic. אפליקציית BUSCO עצמאית זמינה גם ב- DE ( https://de.iplantcollaborative.org/de/?type=apps&amp;app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ). ניתוח דיפרנציאלי ביטוי גנים מזהה תמלילים שיש להם דפוסים שונים של ביטוי על פני טיפולים מ ספירות פשוטות לכל שולחנות תמליל התאספו. DESeq2 משתמש במודל ליניארי כללי (GLM) כדי לקבוע וריאציה מממוצע מנורמל. ניסויים עם משכפל הם העדיפו כך וריאציה טכניים וררצף אום יכול להיות מנורמל על ידי אלגוריתם DESeq2. DESEq2 DEG ניתוח תשואות דמויות קובץ .html הדו"ח המכיל את כל נתוני הפלט ותיאור. לחלופין, EdgeR יכול לשמש במקום DESeq2, ואת אותו דוח. HTML יופק עם הדמיות EdgeR במקום. החוקרים עשויים להריץ גם את Deseq2 וגם את EdgeR כדי למצוא גנים המבוטאים באופן דיפרנציאלי שזוהו על ידי שני האלגוריתמים עבור כל ניסוי נתון. Trinotate תיצור קובץ .xls פלט שניתן לפתוח בכל תוכנה גיליון אלקטרוני. קבצי Dx .txt ואת קובץ .xls ביאור ניתן לנתח דמיינו ביישומים במורד רבים הקיימים מחוץ פלטפורמת CyVerse. איור 3: דוחות FastQC של קריאה רצף גולמי, Trimmed קורא, ו סופיים trimmed ו מסונן קורא. השוואה שיטתית של רצף קריאהS לאחר כל שלב עיבוד מראש. קריאות באיכות גבוהה יש צורך להרכיב transcriptomes דה novo . FastQC יכול לעזור לחוקרים להבין את האיכות הראשונית של הנתונים שלהם רצף, ולעקוב אחר כמה יעיל הקריאות כבר מעובד מראש. תוצאות מ FastQC יהיה תלוי האורגניזמים דגימות להיות רצף, אבל אחידות על פני כל הדגימות כי יושווה במורד הזרם היא המטרה העיקרית של עיבוד מראש קורא. וידאו הדרכה ותיעוד זמינים מחברי ומפתחי FastQC. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה. תרשים מס '4: דוחות של שלושה אספות נפרדות. RnaQUAST ניתן להשתמש כדי להשוות מספר רב של אסיפות לקרוא באמצעות אותו מאסף, או מרובים Ssemblers באמצעות הקריאה הראשונית אותו. RnaQUAST ממנף את BUSCO כדי ליצור סטטיסטיקות סיכום על מכלולים המבוססים על גנים הליבה ידועים נוכח טקסונומי clades. מספר האי-התאמה לכל תמליל וכמה תמלילים מתאימים לגנים קנוניים, חלק מתואם, מספקים תובנה לגבי הדיוק של המרכיבים. ארבעת subplots האחרון המוצג כאן לספק נתונים סטטיסטיים סיכום של contig ו אורך isoform ואת הכיסוי של isoforms צפוי. NAx מייצג את אחוז (x) של contists עם אורך ארוך יותר מאשר אורך (bp) על ציר ה- y. החלק המורכב הוא התמליל המורכב הארוך ביותר המחולק לאורכו. חלק מכוסה הוא אחוז של תמלילי להשלים התאספו / isoforms כצפוי על ידי הליבה prokaryotic או גנים eukaryotic מ BUSCO. תיאור של כל הגרפים שנוצרו על ידי rnaQUAST זמין ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "target =" _ blank "> אנא לחץ כאן כדי להציג גרסה גדולה יותר של דמות זו. שם האפליקציה פלטפורמה CyVerse תיעוד של צד שלישי תיעוד CyVerse זמן ריצה משוער עבור נתונים לדוגמא קישור לאפליקציה FastQC DE Http: //www.bioinformatics. Babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOvYY Https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768 15 דקות Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 112b9aa8-c4a7-11e5-8209- 5f3310948295 טרימומטי v0.33 DE Https://github.com/timflutre/trimmomatic Https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-prOgrammable-0.33 30 דק Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 9c2a30dc-028d- 11e6-a915-ab4311791e69 מַגָל DE Https://github.com/najoshi/sickle Https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming 30 דק Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 68b278f8-d4d6-414d-9a64-b685a7714f7c שְׁלִישִׁיָה אַטמוֹספֵרָה Https://github.com/trinityrnaseq/trinityrnaseq/wiki Https: //pods.iplantcollaborative. / Wiki / להציג / atmman / טריניטי + – + + טרינוט + אווירה שבוע 1 Https: //atmo.iplantcollaborative. Org / application / images / 1261 DE Https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 2-5 ימים Https: // wikI.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 RnaQUAST v1.2.0 DE, אטמוספירה Http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html Https: //pods.iplantcollaborative. Org / wiki / display / TUT / rnaQUAST + 1.2.0 +% 28denovo + based% 29 + שימוש + DE 30 דק Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 980dd11a-1666- 11e6-9122-930 Ba8f23352 Transdecoder DE Https://transdecoder.github.io Https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0 2-3 שעות Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179 Deseq2 DE Https://bioconductor.org/packages/release/bioc/html/DESeq2.html Https: //pods.iplantcollaborative. Org / wiki / pages /Viewpage.action? PageId = 28115142 2-3 שעות Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 9574e87c-4f90- 11e6-a594-008 Cfa5ae621 EdgeR DE Https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf Https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144 2-3 שעות Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 4a08ceda-54fe- 11e6-862f-008 Cfa5ae621 טרינוטציה אַטמוֹספֵרָה Https://trinotate.github.io/ Https: //pods.iplantcollaborative. / Wiki / להציג / atmman / טריניטי + – + + טרינוט + אווירה שבוע 1 Https: //atmo.iplantcollaborative. Org / application / images / 1261 טבלה 1: ניתוח תוכניות, פלטפורמות שהן זמינות, אNd משאבים נוספים הזמינים עבור זרימות העבודה בהזמנה ראשונה. כל גרסאות החבילה קיימות עד אפריל 2016.

Discussion

ישנם חמישה שלבים קריטיים בפרוטוקול זה יהיה ליצור כל תיקיה נפרדת משלהם של תיקיית הפרויקט הראשי ( תרשימים 1 ו -2 ). כל הנתונים העיקריים סידור גלם הוא מקודש: זה צריך להיות נטען ונשמר בתיקייה הראשונה שכותרתו "1_Raw_Sequence" ולא השתנה בכל דרך שהיא. ניתן לטעון נתונים באחת משלוש דרכים. ממשק DE יכול לשמש להעלאת קבצים ישירות. זוהי הדרך הקלה ביותר להעלות נתונים, אבל גם ייקח את הארוך ביותר להעביר. Cyberduck יש ממשק גרפי ומאפשר למשתמשים לגרור ולשחרר קבצים כדי להעביר את DE. ICommands הוא כלי שורת פקודה שניתן להשתמש בו כדי להעביר נתונים אל ומחוץ לחנות הנתונים, ליצור ספריות ולנהל ערכות נתונים, וכנראה הדרך המהירה ביותר להעביר קבצי נתונים. ניתן לשתף את כל הנתונים בחנות הנתונים עם משתמשי CyVerse אחרים (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment), שפורסם באמצעות כתובת אתר שנוצרה (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), או שניתן לארח אותו באופן ציבורי ובאנונימיות ( לא נדרש שם משתמש) נתונים קהילתיים זמינים (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). בתוך התיקיה, רצף גלם קורא מנותחים עם FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) כדי להעריך כיצד לקצץ ולסנן את הקריאות כדי ליצור באיכות גבוהה קורא. לאחר זמירה וסינון איכות זה שימושי כדי להשוות את יציאות FastQC כדי לקבוע אם איכות הקריאה השתנתה כדי לקבוע כי יש gotten טוב יותר מבלי לאבד מידע ( איור 3 ). שים לב שציר ה- x של FastQC אינו ליניארי, אלא הוא מקושר לתרשימים רבים של פלט, דבר שעשוי להוביל לפרשנות שגויה של התוצאות. הקריאה ו מסונן קורא משמשים אז להרכיב transcriptomes דה novo באמצעות מופע מחשוב ענן אטמוספירה. זֶהמחשב ענן משתמש במסך המחשב המקומי, במקלדת ובעכבר, אך יש לו תוכנה משלו (Trinity ו- Trinotate) והחומרה מותקנת. הפעלת תוכניות על המחשב ענן למשל לא ישפיע על המחשב המקומי בכל דרך. דה novo הרכבה ביאור במורד יהיה ככל הנראה להיות שני שלבים לרוץ הארוך ביותר זה זרימת עבודה. לכן, הם הושלמו על האטמוספירה, כדי למנוע בעיות מחשב משותף משותף המעבדה כי היה להפריע את ניתוח כמו הפסקות חשמל, הפעלה מחדש לאחר עדכונים אוטומטיים לילה מאוחרת, או קריסות שנגרמו על ידי משתמשים אחרים. הערה באמצעות Trinotate משתמשת ב- BLAST + 8 , HMMER 9 , tmHMM 10 ו- PFAM 11 . הפלט הסופי של ביאור הוא מסד נתונים SQLite וקובץ .xls. את הפלט ניתן להשתמש מחוץ CyVerse ב פלטפורמות ניתוח במורד כמו KEGG 12 , 13 .

זרימת עבודה זוהוא מוכן לשימוש DE ואטמוספירה. זה מבטל את הצורך להשקיע זמן התקנה, קביעת תצורה, ופתרון בעיות כל חבילת ניתוח וכל התלות כל כלי דורש. זה מייעל את הניתוחים של החוקרים, ממזער מאמץ מבוזבז, ומוריד את מחסום הכניסה עבור מדענים רבים. זרימת עבודה זו מרכיבה באופן ספציפי או יחיד או זוג בסוף קורא מתוך פלטפורמת רצף Illumina, אבל כלים רבים קיימים DE ואטמוספרה כדי להתמודד עם סוגים אחרים של טכנולוגיות רצף. כלים זרימת עבודה זו ניתן להחליף בקלות עם כלי חלופי המתאים להתמודד עם כל סוג של טכנולוגיית רצף נכנסות. הדבר נכון גם לגבי גרסאות חדשות של כלי ניתוח או כלים חדשים לחלוטין.

זרימת עבודה זו תוכננה במיוחד כדי להרכיב, להשוות, ולהוסיף הערות רק כמה transcriptomes בכל פעם. לכן, משתמשים עשויים למצוא את זה זמן רב כדי להרכיב transcriptomes מרובים עבור גנטיקה האוכלוסייה השוואתית. אָנָלִיזָהצינורות יהיו זמינים למשתמשי גנטיקה האוכלוסייה בעתיד הקרוב ואת הקישור אל צינור ניתן למצוא בדף ויקי (https://wiki.cyverse.org/wiki/x/dgGtAQ). הבדל ביטוי גנים שלב ניתוח יכול להתמודד עם משכפל, אבל זה השוואה pairwise ולא להעריך במדויק גורמים מרובים ( למשל , התנאים משתנים עם הזמן, יותר משני טיפולים). זרימות עבודה אוטומטיות קיימות עבור אורגניזמים עם גנום התייחסות ( למשל , TRAPLINE 14 ). בעוד זרימות עבודה אוטומטיות הן הקלה ביותר לשימוש עבור טירונים, מכלולים דה novo דורשים הערכה והתחשבות עבור כל צעד המתואר כאן. בנוסף, המשתמשים נדרשים להשתמש בצינורות אוטומטיים כאשר הם נבנים, ולכן הם מטבעם לא גמישים כדי לענות על הדרישות המשתנות של המשתמשים.

כמו רוב פרוטוקול זה מתבצעת דרך האינטרנט, משתמשים עשויים להיתקל בבעיות עם הגדרות הדפדפן שלהם. קוֹדֶם כֹּל,חוסמי חלונות קופצים עלולים למנוע את פתיחתם של חלונות כלל, או לשמור על פתיחת חלונות עד לקבלת אישור ל- CyVerse בדפדפן. האווירה משתמשת ב- VNC לגישה לשולחנות עבודה מרוחקים, אך ניתן להשתמש בתוכנה אחרת. זה פרוטוקול כולו נערך בגירסה 45.0.2 פיירפוקס ועליו לעבוד עם כל דפדפני אינטרנט פופולריים, אבל כמה חוסר עקביות עשוי להופיע. זרימת העבודה תעודכן כאשר טריניטי משחרר גרסאות חדשות (https://github.com/trinityrnaseq/trinityrnaseq/wiki). הגרסאות החדשות ביותר ומידע עדכני על זרימת העבודה ניתן למצוא בדף הדרכה של הוויקי ( טבלה 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). משתמשים יכולים לפנות לתמיכה ישירות או לפרסם שאלות ב- Ask CyVerse (ask.cyverse.org/) כדי לפתור בעיות כלשהן עם זרימת העבודה.

ב DE מספר Apps קיימים כדי להשיג כל שלב של פרוטוקול זה. לדוגמה, משתמשים עשויים להריץ את Scythe (https://github.com/najoshi/sickle) במקום Trimmomatic15 לקריאה זמירה או לרוץ EdgeR 16 במקום Deseq 17 , 18 . אמנם מחוץ להיקף של כתב היד הזה, אפליקציות DE ניתן להעתיק, לערוך, ומשוחררים על ידי משתמשים (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copping,+and+Editing+DE+ אפליקציות) או אפליקציות חדשות ניתן להוסיף על ידי משתמשים (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+++++CyVerse+Discovery+Evironment). כמו כן, ניתן לשנות את תמונות האטמוספירה ולבצע יצירתן מחדש כדי ליצור זרימות עבודה חדשות או משנות התואמות את צורכי המשתמשים באופן ספציפי יותר (https://wiki.cyverse.org/wiki/x/TwHX). עבודה זו משמשת כמבוא לשימוש בשורת הפקודה כדי להעביר נתונים ולבצע ניתוחים. המשתמשים יכולים לשקול שימוש במשאבי שורת פקודה מתקדמים יותר, כגון ממשקי תכנות יישומים של CyVerse (API) (http://www.cyverse.org/science-apis), או עיצוב אפליקציות DE משלהם, הדורשות ידעעל האופן שבו כלי הניתוח מופעל בשורת הפקודה (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).

Disclosures

The authors have nothing to disclose.

Acknowledgements

The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).

Materials

Trimmomatic v0.33 USADELLAB.org https://github.com/timflutre/trimmomatic https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle Joshi and Fass https://github.com/najoshi/sickle https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity Broad Institute and Hebrew University of Jersalem https://github.com/trinityrnaseq/trinityrnaseq/wiki https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0 Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html https://de.iplantcollaborative.org
/de/?type=apps&app-
id=980dd11a-1666-11e6-9122-
930ba8f23352
Transdecoder Broad Institute and Commonwealth Scientific and Industrial Research Organisation https://transdecoder.github.io https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR Robinson et al. 2010. https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate Broad Institute and Hebrew University of Jersalem https://trinotate.github.io/ https://atmo.iplantcollaborative.org/application/images/1261

References

  1. Hasselmann, M., Ferretti, L., Zayed, A. Beyond fruit-flies: population genomic advances in non-Drosophila arthropods. Brief. Funct. Genomics. 14 (6), 424-431 (2015).
  2. Scholz, M. B., Lo, C. -. C., Chain, P. S. Next generation sequencing and bioinformatic bottlenecks: the current state of metagenomic data analysis. Anal. Biotech. 23 (1), 9-15 (2012).
  3. Merchant, N., et al. The iPlant Collaborative: Cyberinfrastructure for Enabling Data to Discovery for the Life Sciences. PLoS Biol. 14 (1), e1002342 (2016).
  4. Oliver, S. L., Lenards, A. J., Barthelson, R. A., Merchant, N., McKay, S. J. Using the iPlant collaborative discovery environment. Cur. Protoc. Bioinformatics. , 1-22 (2013).
  5. Skidmore, E., Kim, S., Kuchimanchi, S., Singaram, S., Merchant, N., Stanzione, D. iPlant atmosphere: a gateway to cloud infrastructure for the plant sciences. Proc. 2011 ACM. , 59-64 (2011).
  6. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic local alignment search tool. J. Mol. Bio. 215 (3), 403-410 (1990).
  7. Simão, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V., Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. , (2015).
  8. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  9. Eddy, S. R. Profile hidden Markov models. Bioinformatics. 14 (9), 755-763 (1998).
  10. Krogh, A., Larsson, B., von Heijne, G., Sonnhammer, E. L. Predicting transmembrane protein topology with a hidden markov model: application to complete genomes. J. Mol. Biol. 305 (3), 567-580 (2001).
  11. Finn, R. D., Coggill, P., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 44 (D1), D279-D285 (2016).
  12. Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
  13. Kanehisa, M., Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
  14. Wolfien, M., et al. TRAPLINE: a standardized and automated pipeline for RNA sequencing data analysis, evaluation and annotation. BMC Bioinformatics. 17, 21 (2016).
  15. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  16. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  17. Anders, S. Analysing RNA-Seq data with the DESeq package. Mol. Biol. 43 (4), 1-17 (2010).
  18. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Bio. 15 (12), 1-21 (2014).

Play Video

Cite This Article
Joyce, B. L., Haug-Baltzell, A. K., Hulvey, J. P., McCarthy, F., Devisetty, U. K., Lyons, E. Leveraging CyVerse Resources for De Novo Comparative Transcriptomics of Underserved (Non-model) Organisms. J. Vis. Exp. (123), e55009, doi:10.3791/55009 (2017).

View Video