Summary

ניתוח ניסויי RNA-Seq מולטי-פקטוריאליים עם DiCoExpress

Published: July 29, 2022
doi:

Summary

DiCoExpress הוא כלי מבוסס סקריפט המיושם ב- R לביצוע ניתוח RNA-Seq מבקרת איכות לביטוי משותף. DiCoExpress מטפלת בעיצוב מלא ולא מאוזן עד 2 גורמים ביולוגיים. מדריך וידאו זה מנחה את המשתמש דרך התכונות השונות של DiCoExpress.

Abstract

שימוש נכון במודלים סטטיסטיים בניתוח נתוני NGS דורש רמה מתקדמת של מומחיות. לאחרונה יש קונצנזוס הולך וגובר על שימוש במודלים ליניאריים כלליים לניתוח דיפרנציאלי של נתוני RNA-Seq ועל היתרון של מודלים של תערובת לביצוע ניתוח ביטוי משותף. כדי להציע הגדרה מנוהלת לשימוש בגישות מידול אלה, פיתחנו את DiCoExpress המספק צינור R מתוקנן לביצוע ניתוח RNA-Seq. ללא ידע מסוים בסטטיסטיקה או בתכנות R, מתחילים יכולים לבצע ניתוח RNA-Seq מלא מבקרות איכות לביטוי משותף באמצעות ניתוח דיפרנציאלי המבוסס על ניגודים בתוך מודל ליניארי כללי. ניתוח העשרה מוצע הן ברשימות הגנים המתבטאים באופן דיפרנציאלי, והן באשכולות הגנים המתבטאים במשותף. מדריך וידאו זה נתפס כפרוטוקול שלב אחר שלב כדי לעזור למשתמשים לנצל את מלוא היתרונות של DiCoExpress ואת הפוטנציאל שלו בהעצמת הפרשנות הביולוגית של ניסוי RNA-Seq.

Introduction

טכנולוגיית ריצוף RNA (RNA-Seq) מהדור הבא היא כיום תקן הזהב של ניתוח תעתיק1. מאז ימיה הראשונים של הטכנולוגיה, המאמצים המשולבים של ביואינפורמטיקאים וביוסטטיסטיקאים הביאו לפיתוח שיטות רבות המתמודדות עם כל השלבים החיוניים של ניתוחי תעתיק, ממיפוי ועד כימות תעתיק2. רוב הכלים העומדים לרשות הביולוג כיום מפותחים בסביבת תוכנת R למחשוב סטטיסטי וגרפים3, וחבילות רבות לניתוח נתונים ביולוגיים זמינות במאגר המוליכים הביולוגיים4. חבילות אלה מציעות שליטה מלאה והתאמה אישית של הניתוח, אך הן מגיעות במחיר של שימוש נרחב בממשק שורת פקודה. מכיוון שביולוגים רבים מרגישים יותר בנוח עם גישת “הצבע ולחץ”5, הדמוקרטיזציה של ניתוחי RNA-Seq דורשת פיתוח של ממשקים או פרוטוקולים ידידותיים יותר למשתמש6. לדוגמה, ניתן לבנות ממשקי אינטרנט של חבילות R באמצעות Shiny7, וניתוח נתוני שורת הפקודה נעשה אינטואיטיבי יותר עם ממשק R-studio8 . פיתוח ערכות לימוד ייעודיות, שלב אחר שלב, יכול גם לעזור למשתמש החדש. בפרט, מדריך וידאו משלים טקסט קלאסי, מה שמוביל להבנה מעמיקה יותר של כל שלבי ההליך.

לאחרונה פיתחנו את DiCoExpress9, כלי לניתוח ניסויי RNA-Seq רב-תכליתיים ב-R באמצעות שיטות הנחשבות לטובות ביותר בהתבסס על מחקרי השוואה ניטרליים10,11,12. החל מטבלת ספירה, DiCoExpress מציעה שלב בקרת איכות נתונים ואחריו ניתוח ביטוי גנים דיפרנציאלי (חבילת edgeR13) באמצעות מודל ליניארי כללי (GLM) ויצירת אשכולות ביטוי משותף באמצעות מודלים של תערובת גאוס (חבילת coseq12). DiCoExpress מטפלת בתכנון מלא ולא מאוזן של עד 2 גורמים ביולוגיים (כלומר, גנוטיפ וטיפול) וגורם טכני אחד (כלומר, שכפול). המקוריות של DiCoExpress טמונה בארכיטקטורת הספריות שלה המאחסנת ומארגנת נתונים, סקריפטים ותוצאות ובאוטומציה של כתיבת הניגודים ומאפשרת למשתמש לחקור שאלות רבות בתוך אותו מודל סטטיסטי. כמו כן נעשה מאמץ לספק פלטים גרפיים הממחישים את התוצאות הסטטיסטיות.

סביבת העבודה DiCoExpress זמינה ב-https://forgemia.inra.fr/GNet/dicoexpress. הוא מכיל ארבע ספריות, שני קובצי PDF ושני קובצי טקסט. הנתונים/ הספריה מכילה את מערכי נתוני הקלט; עבור פרוטוקול זה, נשתמש במערך הנתונים “הדרכה”. ה-Sources/directory מכיל שבע פונקציות R הדרושות לביצוע הניתוח, והמשתמש אינו יכול לשנות אותן. הניתוח מופעל באמצעות סקריפטים המאוחסנים בספרייה Template_scripts/ . זה המשמש בפרוטוקול זה נקרא DiCoExpress_Tutorial_JoVE.R וניתן להתאים אותו בקלות לכל פרויקט תמלול. כל התוצאות נכתבות בספריית התוצאות/ ומאוחסנות בספריית משנה הקרויה על פי הפרויקט. קובץ README.md מכיל מידע שימושי על ההתקנה, וכל פרט ספציפי הנוגע לשיטה ולשימוש בה ניתן למצוא בקובץ DiCoExpress_Reference_Manual.pdf.

מדריך וידאו זה מנחה את המשתמש דרך התכונות השונות של DiCoExpress במטרה להתגבר על חוסר הרצון שחשים ביולוגים באמצעות כלים מבוססי שורת פקודה. אנו מציגים כאן ניתוח של מערך נתונים מלאכותי של RNA-Seq המתאר ביטוי גנים בשלושה שכפולים ביולוגיים של ארבעה גנוטיפים, עם או בלי טיפול. כעת נעבור על השלבים השונים של זרימת העבודה של DiCoExpress המתוארים באיור 1. הסקריפט המתואר בסעיף פרוטוקול וקבצי קלט זמינים באתר: https://forgemia.inra.fr/GNet/dicoexpress

הכנת קבצי נתונים
ארבעת קבצי ה- csv המאוחסנים ב- Data/ directory צריכים להיקרא בהתאם לשם הפרויקט. בדוגמה שלנו, כל השמות, אם כן, מתחילים ב-“Tutorial”, ואנו נגדיר Project_Name = “Tutorial” בשלב 4 של הפרוטוקול. יש לציין את המפריד המשמש בקובצי csv במשתנה Sep בשלב 4. במערך הנתונים “הדרכה” שלנו, המפריד הוא טבלה. עבור משתמשים מתקדמים, ניתן לצמצם את ערכת הנתונים המלאה לערכת משנה על-ידי מתן רשימת הוראות Project_Name חדשה באמצעות המשתנה Filter. אפשרות זו מונעת עותקים מיותרים של קבצי הקלט ומאמתת את עקרונות FAIR14.

מבין ארבעת קבצי ה- csv, רק קבצי COUNTS ו- TARGET הם חובה. הם מכילים את הספירות הגולמיות עבור כל גן (כאן Tutorial_COUNTS.csv) ואת תיאור התכנון הניסויי (כאן Tutorial_TARGET.csv). קובץ TARGET.csv מתאר כל דגימה (דגימה אחת בכל שורה) עם מודאליות עבור כל גורם ביולוגי או טכני (בעמודות). אנו ממליצים בחום שהשמות שנבחרו עבור האופנים יתחילו באות ולא במספר. לא ניתן לשנות את שם העמודה האחרונה (“שכפל”. לבסוף, השמות לדוגמה (עמודה ראשונה) חייבים להתאים לשמות בכותרות של הקובץ COUNTS.csv (Genotype1_control_rep1 בדוגמה שלנו). קובץ ההעשרה.csv שבו כל שורה מכילה Gene_ID אחת ומונח ביאור אחד נדרש רק אם המשתמש מתכנן להפעיל את ניתוח ההעשרה. אם לגן אחד יש כמה ביאורים, הם יצטרכו להיכתב בשורות שונות. קובץ הביאור.csv הוא אופציונלי ומשמש להוספת תיאור קצר של כל גן בקבצי הפלט. הדרך הטובה ביותר לקבל קובץ ביאור היא לאחזר את המידע ממאגרי מידע ייעודיים (לדוגמה, Thalemine: https://bar.utoronto.ca/thalemine/begin.do עבור Arabidopsis).

התקנת דיקו אקספרס
DiCoExpress דורש חבילות R ספציפיות. השתמש במקור שורת הפקודה(“.. /Sources/Install_Packages.R”) במסוף R כדי לבדוק את מצב התקנת החבילה הנדרשת. עבור משתמשים בלינוקס, פתרון נוסף הוא להתקין את המיכל המוקדש ל- DiCoExpress וזמין ב- https://forgemia.inra.fr/GNet/dicoexpress/container_registry. מעצם הגדרתו, מיכל זה מכיל DiCoExpress עם כל החלקים הדרושים, כגון ספריות ויחסי תלות אחרים.

Protocol

1. דיקו אקספרס פתח הפעלת סטודיו R והגדר את הספריה ל- Template_scripts. פתח את הסקריפט DiCoExpress_Tutorial.R בסטודיו R. טען פונקציות DiCoExpress בהפעלת R עם הפקודות הבאות:> מקור(“.. /מקורות/Load_Functions.R”)> Load_Functions()> Data_Directory = “.. /נתונים”> Results_Directory = “.. /תוצאות/” טען קבצי נתונים בהפעלת R באמצעות הפקו…

Representative Results

כל יציאות DiCoExpress נשמרות במדריך / ספרייה, עצמה ממוקמת בתוך התוצאות / ספריה. אנו מספקים כאן הדרכה להערכת האיכות הכוללת של הניתוח. בקרת איכותפלט בקרת האיכות, הממוקם בספרייה Quality_Control/ , חיוני כדי לוודא שתוצאות ניתוח RNA-Seq אמינות. קובץ Data_Quality_Control.pdf מכיל מספר עלילות המתקב?…

Discussion

מכיוון ש-RNA-Seq הפך לשיטה נפוצה במחקרים ביולוגיים, יש צורך מתמיד לפתח כלים אנליטיים רב-תכליתיים וידידותיים למשתמש. שלב קריטי ברוב תהליכי העבודה האנליטיים הוא לעתים קרובות לזהות בביטחון את הגנים המתבטאים באופן דיפרנציאלי בין תנאים ביולוגיים ו/או טיפולים15. הייצור של תוצאות אמינ?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

עבודה זו נתמכה בעיקר על ידי הנפש ANR (ANR-16-CE20-0009). המחברים מודים ל- F. Desprez על בניית המכולה של DiCoExpress. עבודת KB נתמכת על ידי תוכנית ההשקעה לעתיד ANR-10-BTBR-01-01 Amaizing. מעבדות GQE ו-IPS2 נהנות מתמיכת Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. . Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
  8. Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  9. Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  10. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  11. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  12. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  13. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  14. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Play Video

Cite This Article
Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

View Video