DiCoExpress הוא כלי מבוסס סקריפט המיושם ב- R לביצוע ניתוח RNA-Seq מבקרת איכות לביטוי משותף. DiCoExpress מטפלת בעיצוב מלא ולא מאוזן עד 2 גורמים ביולוגיים. מדריך וידאו זה מנחה את המשתמש דרך התכונות השונות של DiCoExpress.
שימוש נכון במודלים סטטיסטיים בניתוח נתוני NGS דורש רמה מתקדמת של מומחיות. לאחרונה יש קונצנזוס הולך וגובר על שימוש במודלים ליניאריים כלליים לניתוח דיפרנציאלי של נתוני RNA-Seq ועל היתרון של מודלים של תערובת לביצוע ניתוח ביטוי משותף. כדי להציע הגדרה מנוהלת לשימוש בגישות מידול אלה, פיתחנו את DiCoExpress המספק צינור R מתוקנן לביצוע ניתוח RNA-Seq. ללא ידע מסוים בסטטיסטיקה או בתכנות R, מתחילים יכולים לבצע ניתוח RNA-Seq מלא מבקרות איכות לביטוי משותף באמצעות ניתוח דיפרנציאלי המבוסס על ניגודים בתוך מודל ליניארי כללי. ניתוח העשרה מוצע הן ברשימות הגנים המתבטאים באופן דיפרנציאלי, והן באשכולות הגנים המתבטאים במשותף. מדריך וידאו זה נתפס כפרוטוקול שלב אחר שלב כדי לעזור למשתמשים לנצל את מלוא היתרונות של DiCoExpress ואת הפוטנציאל שלו בהעצמת הפרשנות הביולוגית של ניסוי RNA-Seq.
טכנולוגיית ריצוף RNA (RNA-Seq) מהדור הבא היא כיום תקן הזהב של ניתוח תעתיק1. מאז ימיה הראשונים של הטכנולוגיה, המאמצים המשולבים של ביואינפורמטיקאים וביוסטטיסטיקאים הביאו לפיתוח שיטות רבות המתמודדות עם כל השלבים החיוניים של ניתוחי תעתיק, ממיפוי ועד כימות תעתיק2. רוב הכלים העומדים לרשות הביולוג כיום מפותחים בסביבת תוכנת R למחשוב סטטיסטי וגרפים3, וחבילות רבות לניתוח נתונים ביולוגיים זמינות במאגר המוליכים הביולוגיים4. חבילות אלה מציעות שליטה מלאה והתאמה אישית של הניתוח, אך הן מגיעות במחיר של שימוש נרחב בממשק שורת פקודה. מכיוון שביולוגים רבים מרגישים יותר בנוח עם גישת “הצבע ולחץ”5, הדמוקרטיזציה של ניתוחי RNA-Seq דורשת פיתוח של ממשקים או פרוטוקולים ידידותיים יותר למשתמש6. לדוגמה, ניתן לבנות ממשקי אינטרנט של חבילות R באמצעות Shiny7, וניתוח נתוני שורת הפקודה נעשה אינטואיטיבי יותר עם ממשק R-studio8 . פיתוח ערכות לימוד ייעודיות, שלב אחר שלב, יכול גם לעזור למשתמש החדש. בפרט, מדריך וידאו משלים טקסט קלאסי, מה שמוביל להבנה מעמיקה יותר של כל שלבי ההליך.
לאחרונה פיתחנו את DiCoExpress9, כלי לניתוח ניסויי RNA-Seq רב-תכליתיים ב-R באמצעות שיטות הנחשבות לטובות ביותר בהתבסס על מחקרי השוואה ניטרליים10,11,12. החל מטבלת ספירה, DiCoExpress מציעה שלב בקרת איכות נתונים ואחריו ניתוח ביטוי גנים דיפרנציאלי (חבילת edgeR13) באמצעות מודל ליניארי כללי (GLM) ויצירת אשכולות ביטוי משותף באמצעות מודלים של תערובת גאוס (חבילת coseq12). DiCoExpress מטפלת בתכנון מלא ולא מאוזן של עד 2 גורמים ביולוגיים (כלומר, גנוטיפ וטיפול) וגורם טכני אחד (כלומר, שכפול). המקוריות של DiCoExpress טמונה בארכיטקטורת הספריות שלה המאחסנת ומארגנת נתונים, סקריפטים ותוצאות ובאוטומציה של כתיבת הניגודים ומאפשרת למשתמש לחקור שאלות רבות בתוך אותו מודל סטטיסטי. כמו כן נעשה מאמץ לספק פלטים גרפיים הממחישים את התוצאות הסטטיסטיות.
סביבת העבודה DiCoExpress זמינה ב-https://forgemia.inra.fr/GNet/dicoexpress. הוא מכיל ארבע ספריות, שני קובצי PDF ושני קובצי טקסט. הנתונים/ הספריה מכילה את מערכי נתוני הקלט; עבור פרוטוקול זה, נשתמש במערך הנתונים “הדרכה”. ה-Sources/directory מכיל שבע פונקציות R הדרושות לביצוע הניתוח, והמשתמש אינו יכול לשנות אותן. הניתוח מופעל באמצעות סקריפטים המאוחסנים בספרייה Template_scripts/ . זה המשמש בפרוטוקול זה נקרא DiCoExpress_Tutorial_JoVE.R וניתן להתאים אותו בקלות לכל פרויקט תמלול. כל התוצאות נכתבות בספריית התוצאות/ ומאוחסנות בספריית משנה הקרויה על פי הפרויקט. קובץ README.md מכיל מידע שימושי על ההתקנה, וכל פרט ספציפי הנוגע לשיטה ולשימוש בה ניתן למצוא בקובץ DiCoExpress_Reference_Manual.pdf.
מדריך וידאו זה מנחה את המשתמש דרך התכונות השונות של DiCoExpress במטרה להתגבר על חוסר הרצון שחשים ביולוגים באמצעות כלים מבוססי שורת פקודה. אנו מציגים כאן ניתוח של מערך נתונים מלאכותי של RNA-Seq המתאר ביטוי גנים בשלושה שכפולים ביולוגיים של ארבעה גנוטיפים, עם או בלי טיפול. כעת נעבור על השלבים השונים של זרימת העבודה של DiCoExpress המתוארים באיור 1. הסקריפט המתואר בסעיף פרוטוקול וקבצי קלט זמינים באתר: https://forgemia.inra.fr/GNet/dicoexpress
הכנת קבצי נתונים
ארבעת קבצי ה- csv המאוחסנים ב- Data/ directory צריכים להיקרא בהתאם לשם הפרויקט. בדוגמה שלנו, כל השמות, אם כן, מתחילים ב-“Tutorial”, ואנו נגדיר Project_Name = “Tutorial” בשלב 4 של הפרוטוקול. יש לציין את המפריד המשמש בקובצי csv במשתנה Sep בשלב 4. במערך הנתונים “הדרכה” שלנו, המפריד הוא טבלה. עבור משתמשים מתקדמים, ניתן לצמצם את ערכת הנתונים המלאה לערכת משנה על-ידי מתן רשימת הוראות Project_Name חדשה באמצעות המשתנה Filter. אפשרות זו מונעת עותקים מיותרים של קבצי הקלט ומאמתת את עקרונות FAIR14.
מבין ארבעת קבצי ה- csv, רק קבצי COUNTS ו- TARGET הם חובה. הם מכילים את הספירות הגולמיות עבור כל גן (כאן Tutorial_COUNTS.csv) ואת תיאור התכנון הניסויי (כאן Tutorial_TARGET.csv). קובץ TARGET.csv מתאר כל דגימה (דגימה אחת בכל שורה) עם מודאליות עבור כל גורם ביולוגי או טכני (בעמודות). אנו ממליצים בחום שהשמות שנבחרו עבור האופנים יתחילו באות ולא במספר. לא ניתן לשנות את שם העמודה האחרונה (“שכפל”. לבסוף, השמות לדוגמה (עמודה ראשונה) חייבים להתאים לשמות בכותרות של הקובץ COUNTS.csv (Genotype1_control_rep1 בדוגמה שלנו). קובץ ההעשרה.csv שבו כל שורה מכילה Gene_ID אחת ומונח ביאור אחד נדרש רק אם המשתמש מתכנן להפעיל את ניתוח ההעשרה. אם לגן אחד יש כמה ביאורים, הם יצטרכו להיכתב בשורות שונות. קובץ הביאור.csv הוא אופציונלי ומשמש להוספת תיאור קצר של כל גן בקבצי הפלט. הדרך הטובה ביותר לקבל קובץ ביאור היא לאחזר את המידע ממאגרי מידע ייעודיים (לדוגמה, Thalemine: https://bar.utoronto.ca/thalemine/begin.do עבור Arabidopsis).
התקנת דיקו אקספרס
DiCoExpress דורש חבילות R ספציפיות. השתמש במקור שורת הפקודה(“.. /Sources/Install_Packages.R”) במסוף R כדי לבדוק את מצב התקנת החבילה הנדרשת. עבור משתמשים בלינוקס, פתרון נוסף הוא להתקין את המיכל המוקדש ל- DiCoExpress וזמין ב- https://forgemia.inra.fr/GNet/dicoexpress/container_registry. מעצם הגדרתו, מיכל זה מכיל DiCoExpress עם כל החלקים הדרושים, כגון ספריות ויחסי תלות אחרים.
מכיוון ש-RNA-Seq הפך לשיטה נפוצה במחקרים ביולוגיים, יש צורך מתמיד לפתח כלים אנליטיים רב-תכליתיים וידידותיים למשתמש. שלב קריטי ברוב תהליכי העבודה האנליטיים הוא לעתים קרובות לזהות בביטחון את הגנים המתבטאים באופן דיפרנציאלי בין תנאים ביולוגיים ו/או טיפולים15. הייצור של תוצאות אמינ?…
The authors have nothing to disclose.
עבודה זו נתמכה בעיקר על ידי הנפש ANR (ANR-16-CE20-0009). המחברים מודים ל- F. Desprez על בניית המכולה של DiCoExpress. עבודת KB נתמכת על ידי תוכנית ההשקעה לעתיד ANR-10-BTBR-01-01 Amaizing. מעבדות GQE ו-IPS2 נהנות מתמיכת Saclay Plant Sciences-SPS (ANR-17-EUR-0007).