Summary

בחירה בסיוע של סמנים ביולוגיים לפי גודל אפקט ניתוח מפלה ליניארי (LEfSe) בנתוני מיקרוביום

Published: May 16, 2022
doi:

Summary

LEfSe (גודל אפקט LDA) הוא כלי לכריית סמנים ביולוגיים בממדים גבוהים לזיהוי תכונות גנומיות (כגון גנים, מסלולים וטקסונומיות) המאפיינות באופן משמעותי שתי קבוצות או יותר בנתוני מיקרוביום.

Abstract

יש תשומת לב הולכת וגוברת לגנומים ביולוגיים סגורים בסביבה ובבריאות. כדי לחקור ולחשוף את ההבדלים הבין-קבוצתיים בין דגימות או סביבות שונות, חשוב לגלות סמנים ביולוגיים עם הבדלים סטטיסטיים בין קבוצות. היישום של ניתוח מפלה ליניארי גודל אפקט (LEfSe) יכול לעזור למצוא סמנים ביולוגיים טובים. בהתבסס על נתוני הגנום המקוריים, מתבצעים בקרת איכות וכימות של רצפים שונים המבוססים על מסה או גנים. ראשית, מבחן הדירוג Kruskal-Wallis שימש כדי להבחין בין הבדלים ספציפיים בין קבוצות סטטיסטיות וביולוגיות. לאחר מכן, מבחן הדירוג של וילקוקסון בוצע בין שתי הקבוצות שהושגו בשלב הקודם כדי להעריך אם ההבדלים היו עקביים. לבסוף, ניתוח מפלה ליניארי (LDA) נערך כדי להעריך את ההשפעה של סמנים ביולוגיים על קבוצות שונות באופן משמעותי בהתבסס על ציוני LDA. לסיכום, LEfSe סיפק את הנוחות לזיהוי סמנים ביולוגיים גנומיים המאפיינים הבדלים סטטיסטיים בין קבוצות ביולוגיות.

Introduction

סמנים ביולוגיים הם מאפיינים ביולוגיים שניתן למדוד ויכולים להצביע על כמה תופעות כגון זיהום, מחלה או סביבה. ביניהם, סמנים ביולוגיים פונקציונליים עשויים להיות פונקציות ביולוגיות ספציפיות של מינים בודדים או משותף למינים מסוימים, כגון גן, חלבון, מטבוליט ומסלולים. חוץ מזה, סמנים ביולוגיים טקסונומיים מצביעים על מין יוצא דופן, קבוצה של אורגניזמים (ממלכה, פילום, מעמד, סדר, משפחה, סוג, מינים), משתנה רצף האמפליקונים (ASV)1, או היחידה הטקסונומית המבצעית (OTU)2. על מנת למצוא סמנים ביולוגיים במהירות ובדייקנות רבה יותר, יש צורך בכלי לניתוח הנתונים הביולוגיים. ההבדלים בין שיעורים יכולים להיות מוסברים על ידי LEfSe בשילוב עם בדיקות סטנדרטיות למשמעות סטטיסטית ובדיקות נוספות המקודדות עקביות ביולוגית ורלוונטיות השפעה3. LEfSe זמין כמודול גלקסיה, נוסחת קונדה, תמונת docker, ונכלל בביובקרי (VM וענן)4. בדרך כלל, ניתוח המגוון המיקרוביאלי משתמש לעתים קרובות בבדיקה לא פרמטרית להפצה לא בטוחה של קהילת מדגם. בדיקת סכום הדירוג היא שיטת בדיקה לא פרמטרית, המשתמשת בדירוג הדגימות כדי להחליף את ערך הדגימות. על פי ההבדל של קבוצות מדגם, זה יכול להיות מחולק לשתי דגימות עם מבחן סכום הדירוג וילקוקסון לתוך דגימות מרובות עם מבחן Kruskal-Wallis 5,6. ראוי לציין, כאשר ישנם הבדלים משמעותיים בין קבוצות מרובות של דגימות, יש לבצע בדיקת סכום דרגה של השוואה זוגית של דגימות מרובות. LDA (אשר מייצג ניתוח מפלה ליניארי) שהומצא על ידי רונלד פישר בשנת 1936, הוא סוג של למידה מפוקחת, הידוע גם בשם מפלה ליניארי של פישר7. זהו אלגוריתם קלאסי ופופולרי בתחום הנוכחי של כריית נתונים למידת מכונה.

כאן, בדיקת LEfSe עברה אופטימיזציה על ידי שרתי קונדה וגלקסי. שלוש קבוצות של רצפי גנים rRNA 16S מנותחות כדי להדגים את ההבדלים המשמעותיים בין קבוצות שונות עם עשרות LDA של קהילות מיקרוביות ותוצאות הדמיה.

Protocol

הערה: הפרוטוקול היה מקור ושונה מהמחקר של Segata et al.3. השיטה מסופקת https://bitbucket.org/biobakery/biobakery/wiki/lefse. 1. הכנת קובץ קלט לניתוח הכן את קובץ הקלט (טבלה 1) של LEfSe, אשר יכול להיווצר בקלות על ידי זרימות עבודה רבות8 או פרוטוקולים קודמים9 עם ה…

Representative Results

LDA עשרות קהילות מיקרוביות עם הבדלים משמעותיים בכל קבוצה על ידי ניתוח רצפי הגנים rRNA 16S של שלוש דגימות מוצג באיור 8. צבע ההיסטוגרמה מייצג קבוצות שונות, בעוד האורך מייצג את ציון LDA, שהוא ההשפעה של המין עם הבדלים משמעותיים בין קבוצות שונות. ההיסטוגרמה מציגה את המינים עם הבדלים מש?…

Discussion

כאן מתואר הפרוטוקול לזיהוי ואפיון של סמנים ביולוגיים בקבוצות שונות. פרוטוקול זה יכול להיות מותאם בקלות עבור סוגי מדגם אחרים, כגון OTUs של מיקרואורגניזמים. השיטה הסטטיסטית של LEfSe יכולה למצוא את המיקרואורגניזמים האופייניים בכל קבוצה (ברירת המחדל היא LDA >2), כלומר, המיקרואורגניזמים הנפוצים יותר…

Disclosures

The authors have nothing to disclose.

Acknowledgements

עבודה זו נתמכה על ידי מענק מקרנות מחקר בסיסיות עבור מכוני המחקר המרכזיים לרווחת הציבור (TKS17020205) והקרן לפיתוח המדע והטכנולוגיה, ומכון המחקר טיאנג’ין להנדסת תחבורה מים (TIWTE), M.O.T. (KJFZJJ17020201).

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Play Video

Cite This Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video