This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
זרימת עבודה זו מאפשרת לחוקרי טירון למנף משאבים חישוביים מתקדמים, כגון מחשוב ענן, לביצוע תמלילי השוואה השוואתיים. היא משמשת גם תחלופה לביולוגים לפתח מיומנויות חישוביות של נתונים, כגון ביצוע פקודות באש, הדמיה וניהול של ערכות נתונים גדולות. כל קוד שורת פקודה והסברים נוספים של כל פקודה או צעד ניתן למצוא באתר ויקי ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). פלטפורמת Discovery Environment ופלטפורמות האטמוספירה מחוברים זה לזה באמצעות מאגר הנתונים CyVerse. ככזה, פעם אחת את הנתונים גלם גלם ראשונית הועלה אין צורך להעביר קבצים נתונים גדולים על חיבור לאינטרנט, למזער את כמות הזמן הדרוש כדי לבצע ניתוחים. פרוטוקול זה נועד לנתח רק שני טיפולים ניסיוניים או תנאים. ניתוח דיפרנציאלי ביטוי גנים מתבצע thrלהשוות השוואות, ולא יהיה מתאים לבחון מספר גורמים. עבודה זו מתוכננת גם להיות ידנית ולא אוטומטית. כל צעד חייב להיות מבוצע ונחקר על ידי המשתמש, מניב הבנה טובה יותר של נתונים ופלט אנליטית, ולכן תוצאות טובות יותר עבור המשתמש. לאחר השלמת הפרוטוקול הזה, יניב את התמליל המורכב של האורגניזמים (שאינם מודפסים), ללא צורך למפות לגנום הפניה מקודם (שבדרך כלל אינו זמין באורגניזם). אלה transcriptomes דה novo משמשים נוספים ניתוח ההפרש גנים ההפרש ניתוח לחקור גנים שונים בין שני תנאים ניסיוניים. גנים מבוטא דיפרנציאלי אז ביאורים תפקודית כדי להבין את התגובה הגנטית אורגניזמים יש תנאים ניסיוניים. בסך הכל, הנתונים שמקורם בפרוטוקול זה משמש לבדיקת השערות על תגובות ביולוגיות של אורגניזמים לא מוצלחים.
הומו סאפיינס וכמה סוגים עיקריים של בעלי חיים דוגמת Drosophila melanogaster , Mus musculus , ו- Danio rerio מייצגים את רוב עבודות הגנום הפונקציונליות. עם זאת, עלות הפחתת במהירות של התפוקה גבוהה הטכנולוגיה רצף מספקת הזדמנויות עבור גנומיקה תפקודית שאינם מודל ( aka "מוזנחת" או "underverved") בעלי חיים 1 . זהו מעבר חשוב בגנום, שכן אורגניזמים שאינם דוגמניות מייצגים לעיתים קרובות מינים רלוונטיים מבחינה כלכלית ( לדוגמה , צדפות, שרימפס, סרטנים) ומציעים הזדמנויות לחקור פנוטיפים חדשים ומערכות ביולוגיות מחוץ לתחום המינים.
למרות שאורגניזמים לא מספקים מהווים הזדמנות אטרקטיבית לחקור מערכות ביולוגיות ייחודיות, מספר אתגרים עומדים בפני חוקרים במיוחד במהלך הניתוח הביואינפורמאטי. חלק מהאתגרים הם מולדים לעיבוד ערכות נתונים גדולות, בעוד שאחרות נובעות מחוסר משאבים גנטיים העומדים בפני חוקרים העובדים באורגניזמים לא מוצלחים כגון גנום התייחסות, אורגניזם אונטולוגיות ספציפיות וכו ' האתגרים של בידוד חומצות גרעין ורצף הם לעתים קרובות שגרתית בהשוואה לאלו של ניתוח נתונים, וככזה ניתוחים ביואינפורמטיים בדרך כלל מוכיחה להיות העלות הזלזל ביותר של פרויקטים רצף 2 . לדוגמה, ניתוח בסיסי של ביואינפורמטיקה מהדור הבא עשוי לכלול את השלבים הבאים: סינון איכות וגזירה של רצף גלם, הרכבה של קריאות קצרות לחתיכות רציפות גדולות יותר, וכן ביאור ו / או השוואות למערכות אחרות כדי להשיג הבנה ביולוגית. למרות הפשוטות לכאורה, זרימת עבודה זו דורשת ידע וידע חישובי מעבר לתחום מחשב המעבדה, ומניחה אותו מחוץ להישג ידם של מדענים רבים הלומדים לא-מודל אורגניזמים.
אתגרים פנימיים יכולים להיות תשתית או מבוססי ידע. האתגר התשתית הקלאסי הוא גישה משאבים חישוביים מתאימים. לדוגמה, הרכבה והערות מבוססות על אלגוריתמים אינטנסיביים חישוביים הדורשים מחשבים רבי עוצמה או אשכולות מחשב, כאשר יש כמות גדולה של זיכרון RAM (256 GB-1 TB) ומספר מעבדים / ליבות לרוץ. למרבה הצער, חוקרים רבים או שאין להם גישה למשאבים כאלה מחשוב או אין להם את הידע הדרוש כדי לקיים אינטראקציה עם מערכות אלה. חוקרים אחרים עשויים לקבל גישה לאשכולות מיחשוב עתירי ביצועים באמצעות האוניברסיטאות או המוסדות שלהם, אך הגישה למשאבים אלה עשויה להיות מוגבלת ולעתים היא גורמת לחיובים לכל שעת חישוב, כלומר מספר מעבדי המעבד מוכפל במספר השעון בזמן אמת שעות "כי המעבדים האלה פועלים. מינוף מערכת cyberinfrastructure ממומן על ידי הקרן הלאומית למדע ארה"ב sUch כמו CyVerse 3 המספק גישה חופשית לחישוב משאבים עבור חוקרים, בארצות הברית וברחבי העולם, יכול לעזור להקל על האתגרים התשתית, כפי שיודגם כאן.
דוגמה לאתגר טיפוסי המבוסס על ידע היא הבנת התוכנה הדרושה לניתוח מלא. כדי לנהל ביעילות פרויקט מבוסס רצף, החוקרים צריכים להכיר את מספר עצום של כלי תוכנה שפותחו עבור ניתוחים ביואינפורמטיים. הלמידה של כל חבילה קשה בפני עצמו, אך היא החריפה על ידי העובדה כי חבילות כל הזמן להיות משודרג, מחדש, להרכיב זרימות עבודה חדשות, ולפעמים להיות מוגבל לשימוש תחת רישיונות חדשים. בנוסף, הקישור בין התשומות והתפוקות של כלים אלה מחייב לפעמים שינוי סוגי נתונים כדי להפוך אותם לתואמים, תוך הוספת כלי עבודה נוסף. לבסוף, זה גם קשה לדעת איזו חבילת תוכנה היאE הטובה ביותר "לניתוח, ולעתים קרובות לזהות את התוכנה הטובה ביותר עבור תנאי הניסוי בפרט הוא עניין של הבדלים מתוחכמים. במקרים מסוימים, ביקורות שימושיות של תוכנות זמינות, אך עקב המשך השחרור של עדכונים חדשים ואפשרויות תוכנה, אלה במהירות להתעדכן.
עבור חוקרים החוקרים אורגניזמים לא מוצלחים, אלה אתגרים מולדים באים בנוסף לאתגרים הקשורים לנתח נתונים באורגניזם חדש. אלו האתגרים הספציפיים לאורגניזם מסוים מודגמים בצורה הטובה ביותר במהלך ביאור הגן. לדוגמה, לאורגניזמים לא מוצלחים אין לעיתים קרובות אורגניזם מודל הקשור באופן הדוק, שניתן להשתמש בו באופן סביר לזיהוי אנתולוגיה ותפקוד גנים ( למשל, חסרי חוליות ודרסופילים ). כלים ביואינפורמטיים רבים דורשים גם "אימון" כדי לזהות מוטיבים מבניים, אשר ניתן להשתמש בהם כדי לזהות את תפקוד הגן. עם זאת, נתוני האימונים בדרך כלל זמינים רק עבור modאל אורגניזמים, והדרכה מודלים מרקוב מוסתר (HMMs) הוא מחוץ לתחום של ביולוגים, ואפילו ביואינפורמטיקאים רבים. לבסוף, גם אם ניתן לבצע ביאורים באמצעות נתונים מאורגניזמים של מודל, כמה אונטולוגיות גנטיות הקשורות לאורגניזמים של מודל אינן הגיוניות כאשר הביולוגיה וההיסטוריה הטבעית של האורגניזם הנתון לזיהוי נחשבות ( למשל , העברת מידע מתסיסנית לשרימפס ).
לאור אתגרים אלה, משאבים ביואינפורמטיים צריכים להיות מפותחים עם חוקרים המנהלים ניתוחי נובו על אורגניזמים לא מוצלחים במיוחד בראש. בשנים הקרובות של פרויקטים גנומיים פונקציה רצף יעזור לסגור את הפער בין המודל לאורגניזמים לא מצונזר ( https://genome10k.soe.ucsc.edu/ ), אבל יש כלים רבים כי יהיה צורך להתפתח כדי להתמודד עם האתגרים נחשב prec CyVerse מוקדש ליצירת מערכות אקולוגיות של iNteroperability על ידי קישור הקיים cyberinfrastructure יישומי צד שלישי כדי לספק ניהול נתונים, כלי ניתוח ביואינפורמטיים, ויזואליזציות נתונים למדענים החיים. יכולת פעולה הדדית מסייעת להחליק את המעברים בין יישומים ופלטפורמות ביואינפורמטיים על ידי אספקת משאבי מחשוב ניתנים להרחבה והגבלת המרות בתבנית קובץ וכמות הנתונים המועברים בין פלטפורמות. CyVerse מציעה מספר פלטפורמות, כולל Discovery Environment (DE 4 , Atmosphere 5 ו- Data Store 3. ה- DE מבוסס אינטרנט ויש לו כלים נפוצים רבים לביו-אינפורמטיקה שהוסבו לפורמטים ידידותיים למשתמש ולנקודות לחיצה (הנקראים "יישומים "), והוא ממשק המשתמש הגרפי (GUI) עבור מאגר המידע, שבו מאוחסנים ומנוהלים ממשקי משתמש גדולים ( כלומר, קריאת הגלם, הגנום המורכב) .האווירה היא שירות מחשוב ענן המציע גמישות רבה יותר עבור החוקריםבאמצעות Virtual Machine computational Resources, אשר יש מגוון רחב של כלים ביואינפורמטיקה מותקנת מראש. שתי הפלטפורמות הללו מקושרות לחנות הנתונים, וניתן להשתמש בהן יחד ליצירת זרימות עבודה כמו זו המתוארת כאן. דוח זה מתמקד הרכבה transcriptome דה novo ואת ההפרש ביטוי ביטוי גנים עבודה, וכן כתובות נוספות כמה שיטות עבודה מומלצות הקשורות בפיתוח וביצוע ניתוח ביואינפורמטיבי. הסבר על המשימה הרחבה יותר של CyVerse ( http://www.cyverse.org/about ) ותיאורי פלטפורמה מפורטים ( http://www.cyverse.org/learning-center ) זמינים לציבור. כל הניתוחים המתוארים כאן משתמשים ב- Discovery Environment 4 (DE) ובאטמוספרה 5 , ומוצגים באופן שיהפוך אותם לנגישים לחוקרים מכל הרמות החישוביות. DE workflows ו Atmosphתמונות ere ניתן להפנות ישירות באמצעות כתובות כדי להבטיח לטווח ארוך, אמינות, reusability, ו reproducibility.
ישנם חמישה שלבים קריטיים בפרוטוקול זה יהיה ליצור כל תיקיה נפרדת משלהם של תיקיית הפרויקט הראשי ( תרשימים 1 ו -2 ). כל הנתונים העיקריים סידור גלם הוא מקודש: זה צריך להיות נטען ונשמר בתיקייה הראשונה שכותרתו "1_Raw_Sequence" ולא השתנה בכל דרך שהיא. ניתן לטעון נתונים באחת משלוש דרכים. ממשק DE יכול לשמש להעלאת קבצים ישירות. זוהי הדרך הקלה ביותר להעלות נתונים, אבל גם ייקח את הארוך ביותר להעביר. Cyberduck יש ממשק גרפי ומאפשר למשתמשים לגרור ולשחרר קבצים כדי להעביר את DE. ICommands הוא כלי שורת פקודה שניתן להשתמש בו כדי להעביר נתונים אל ומחוץ לחנות הנתונים, ליצור ספריות ולנהל ערכות נתונים, וכנראה הדרך המהירה ביותר להעביר קבצי נתונים. ניתן לשתף את כל הנתונים בחנות הנתונים עם משתמשי CyVerse אחרים (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment), שפורסם באמצעות כתובת אתר שנוצרה (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), או שניתן לארח אותו באופן ציבורי ובאנונימיות ( לא נדרש שם משתמש) נתונים קהילתיים זמינים (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). בתוך התיקיה, רצף גלם קורא מנותחים עם FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) כדי להעריך כיצד לקצץ ולסנן את הקריאות כדי ליצור באיכות גבוהה קורא. לאחר זמירה וסינון איכות זה שימושי כדי להשוות את יציאות FastQC כדי לקבוע אם איכות הקריאה השתנתה כדי לקבוע כי יש gotten טוב יותר מבלי לאבד מידע ( איור 3 ). שים לב שציר ה- x של FastQC אינו ליניארי, אלא הוא מקושר לתרשימים רבים של פלט, דבר שעשוי להוביל לפרשנות שגויה של התוצאות. הקריאה ו מסונן קורא משמשים אז להרכיב transcriptomes דה novo באמצעות מופע מחשוב ענן אטמוספירה. זֶהמחשב ענן משתמש במסך המחשב המקומי, במקלדת ובעכבר, אך יש לו תוכנה משלו (Trinity ו- Trinotate) והחומרה מותקנת. הפעלת תוכניות על המחשב ענן למשל לא ישפיע על המחשב המקומי בכל דרך. דה novo הרכבה ביאור במורד יהיה ככל הנראה להיות שני שלבים לרוץ הארוך ביותר זה זרימת עבודה. לכן, הם הושלמו על האטמוספירה, כדי למנוע בעיות מחשב משותף משותף המעבדה כי היה להפריע את ניתוח כמו הפסקות חשמל, הפעלה מחדש לאחר עדכונים אוטומטיים לילה מאוחרת, או קריסות שנגרמו על ידי משתמשים אחרים. הערה באמצעות Trinotate משתמשת ב- BLAST + 8 , HMMER 9 , tmHMM 10 ו- PFAM 11 . הפלט הסופי של ביאור הוא מסד נתונים SQLite וקובץ .xls. את הפלט ניתן להשתמש מחוץ CyVerse ב פלטפורמות ניתוח במורד כמו KEGG 12 , 13 .
זרימת עבודה זוהוא מוכן לשימוש DE ואטמוספירה. זה מבטל את הצורך להשקיע זמן התקנה, קביעת תצורה, ופתרון בעיות כל חבילת ניתוח וכל התלות כל כלי דורש. זה מייעל את הניתוחים של החוקרים, ממזער מאמץ מבוזבז, ומוריד את מחסום הכניסה עבור מדענים רבים. זרימת עבודה זו מרכיבה באופן ספציפי או יחיד או זוג בסוף קורא מתוך פלטפורמת רצף Illumina, אבל כלים רבים קיימים DE ואטמוספרה כדי להתמודד עם סוגים אחרים של טכנולוגיות רצף. כלים זרימת עבודה זו ניתן להחליף בקלות עם כלי חלופי המתאים להתמודד עם כל סוג של טכנולוגיית רצף נכנסות. הדבר נכון גם לגבי גרסאות חדשות של כלי ניתוח או כלים חדשים לחלוטין.
זרימת עבודה זו תוכננה במיוחד כדי להרכיב, להשוות, ולהוסיף הערות רק כמה transcriptomes בכל פעם. לכן, משתמשים עשויים למצוא את זה זמן רב כדי להרכיב transcriptomes מרובים עבור גנטיקה האוכלוסייה השוואתית. אָנָלִיזָהצינורות יהיו זמינים למשתמשי גנטיקה האוכלוסייה בעתיד הקרוב ואת הקישור אל צינור ניתן למצוא בדף ויקי (https://wiki.cyverse.org/wiki/x/dgGtAQ). הבדל ביטוי גנים שלב ניתוח יכול להתמודד עם משכפל, אבל זה השוואה pairwise ולא להעריך במדויק גורמים מרובים ( למשל , התנאים משתנים עם הזמן, יותר משני טיפולים). זרימות עבודה אוטומטיות קיימות עבור אורגניזמים עם גנום התייחסות ( למשל , TRAPLINE 14 ). בעוד זרימות עבודה אוטומטיות הן הקלה ביותר לשימוש עבור טירונים, מכלולים דה novo דורשים הערכה והתחשבות עבור כל צעד המתואר כאן. בנוסף, המשתמשים נדרשים להשתמש בצינורות אוטומטיים כאשר הם נבנים, ולכן הם מטבעם לא גמישים כדי לענות על הדרישות המשתנות של המשתמשים.
כמו רוב פרוטוקול זה מתבצעת דרך האינטרנט, משתמשים עשויים להיתקל בבעיות עם הגדרות הדפדפן שלהם. קוֹדֶם כֹּל,חוסמי חלונות קופצים עלולים למנוע את פתיחתם של חלונות כלל, או לשמור על פתיחת חלונות עד לקבלת אישור ל- CyVerse בדפדפן. האווירה משתמשת ב- VNC לגישה לשולחנות עבודה מרוחקים, אך ניתן להשתמש בתוכנה אחרת. זה פרוטוקול כולו נערך בגירסה 45.0.2 פיירפוקס ועליו לעבוד עם כל דפדפני אינטרנט פופולריים, אבל כמה חוסר עקביות עשוי להופיע. זרימת העבודה תעודכן כאשר טריניטי משחרר גרסאות חדשות (https://github.com/trinityrnaseq/trinityrnaseq/wiki). הגרסאות החדשות ביותר ומידע עדכני על זרימת העבודה ניתן למצוא בדף הדרכה של הוויקי ( טבלה 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). משתמשים יכולים לפנות לתמיכה ישירות או לפרסם שאלות ב- Ask CyVerse (ask.cyverse.org/) כדי לפתור בעיות כלשהן עם זרימת העבודה.
ב DE מספר Apps קיימים כדי להשיג כל שלב של פרוטוקול זה. לדוגמה, משתמשים עשויים להריץ את Scythe (https://github.com/najoshi/sickle) במקום Trimmomatic15 לקריאה זמירה או לרוץ EdgeR 16 במקום Deseq 17 , 18 . אמנם מחוץ להיקף של כתב היד הזה, אפליקציות DE ניתן להעתיק, לערוך, ומשוחררים על ידי משתמשים (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copping,+and+Editing+DE+ אפליקציות) או אפליקציות חדשות ניתן להוסיף על ידי משתמשים (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+++++CyVerse+Discovery+Evironment). כמו כן, ניתן לשנות את תמונות האטמוספירה ולבצע יצירתן מחדש כדי ליצור זרימות עבודה חדשות או משנות התואמות את צורכי המשתמשים באופן ספציפי יותר (https://wiki.cyverse.org/wiki/x/TwHX). עבודה זו משמשת כמבוא לשימוש בשורת הפקודה כדי להעביר נתונים ולבצע ניתוחים. המשתמשים יכולים לשקול שימוש במשאבי שורת פקודה מתקדמים יותר, כגון ממשקי תכנות יישומים של CyVerse (API) (http://www.cyverse.org/science-apis), או עיצוב אפליקציות DE משלהם, הדורשות ידעעל האופן שבו כלי הניתוח מופעל בשורת הפקודה (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |