LEfSe (גודל אפקט LDA) הוא כלי לכריית סמנים ביולוגיים בממדים גבוהים לזיהוי תכונות גנומיות (כגון גנים, מסלולים וטקסונומיות) המאפיינות באופן משמעותי שתי קבוצות או יותר בנתוני מיקרוביום.
יש תשומת לב הולכת וגוברת לגנומים ביולוגיים סגורים בסביבה ובבריאות. כדי לחקור ולחשוף את ההבדלים הבין-קבוצתיים בין דגימות או סביבות שונות, חשוב לגלות סמנים ביולוגיים עם הבדלים סטטיסטיים בין קבוצות. היישום של ניתוח מפלה ליניארי גודל אפקט (LEfSe) יכול לעזור למצוא סמנים ביולוגיים טובים. בהתבסס על נתוני הגנום המקוריים, מתבצעים בקרת איכות וכימות של רצפים שונים המבוססים על מסה או גנים. ראשית, מבחן הדירוג Kruskal-Wallis שימש כדי להבחין בין הבדלים ספציפיים בין קבוצות סטטיסטיות וביולוגיות. לאחר מכן, מבחן הדירוג של וילקוקסון בוצע בין שתי הקבוצות שהושגו בשלב הקודם כדי להעריך אם ההבדלים היו עקביים. לבסוף, ניתוח מפלה ליניארי (LDA) נערך כדי להעריך את ההשפעה של סמנים ביולוגיים על קבוצות שונות באופן משמעותי בהתבסס על ציוני LDA. לסיכום, LEfSe סיפק את הנוחות לזיהוי סמנים ביולוגיים גנומיים המאפיינים הבדלים סטטיסטיים בין קבוצות ביולוגיות.
סמנים ביולוגיים הם מאפיינים ביולוגיים שניתן למדוד ויכולים להצביע על כמה תופעות כגון זיהום, מחלה או סביבה. ביניהם, סמנים ביולוגיים פונקציונליים עשויים להיות פונקציות ביולוגיות ספציפיות של מינים בודדים או משותף למינים מסוימים, כגון גן, חלבון, מטבוליט ומסלולים. חוץ מזה, סמנים ביולוגיים טקסונומיים מצביעים על מין יוצא דופן, קבוצה של אורגניזמים (ממלכה, פילום, מעמד, סדר, משפחה, סוג, מינים), משתנה רצף האמפליקונים (ASV)1, או היחידה הטקסונומית המבצעית (OTU)2. על מנת למצוא סמנים ביולוגיים במהירות ובדייקנות רבה יותר, יש צורך בכלי לניתוח הנתונים הביולוגיים. ההבדלים בין שיעורים יכולים להיות מוסברים על ידי LEfSe בשילוב עם בדיקות סטנדרטיות למשמעות סטטיסטית ובדיקות נוספות המקודדות עקביות ביולוגית ורלוונטיות השפעה3. LEfSe זמין כמודול גלקסיה, נוסחת קונדה, תמונת docker, ונכלל בביובקרי (VM וענן)4. בדרך כלל, ניתוח המגוון המיקרוביאלי משתמש לעתים קרובות בבדיקה לא פרמטרית להפצה לא בטוחה של קהילת מדגם. בדיקת סכום הדירוג היא שיטת בדיקה לא פרמטרית, המשתמשת בדירוג הדגימות כדי להחליף את ערך הדגימות. על פי ההבדל של קבוצות מדגם, זה יכול להיות מחולק לשתי דגימות עם מבחן סכום הדירוג וילקוקסון לתוך דגימות מרובות עם מבחן Kruskal-Wallis 5,6. ראוי לציין, כאשר ישנם הבדלים משמעותיים בין קבוצות מרובות של דגימות, יש לבצע בדיקת סכום דרגה של השוואה זוגית של דגימות מרובות. LDA (אשר מייצג ניתוח מפלה ליניארי) שהומצא על ידי רונלד פישר בשנת 1936, הוא סוג של למידה מפוקחת, הידוע גם בשם מפלה ליניארי של פישר7. זהו אלגוריתם קלאסי ופופולרי בתחום הנוכחי של כריית נתונים למידת מכונה.
כאן, בדיקת LEfSe עברה אופטימיזציה על ידי שרתי קונדה וגלקסי. שלוש קבוצות של רצפי גנים rRNA 16S מנותחות כדי להדגים את ההבדלים המשמעותיים בין קבוצות שונות עם עשרות LDA של קהילות מיקרוביות ותוצאות הדמיה.
כאן מתואר הפרוטוקול לזיהוי ואפיון של סמנים ביולוגיים בקבוצות שונות. פרוטוקול זה יכול להיות מותאם בקלות עבור סוגי מדגם אחרים, כגון OTUs של מיקרואורגניזמים. השיטה הסטטיסטית של LEfSe יכולה למצוא את המיקרואורגניזמים האופייניים בכל קבוצה (ברירת המחדל היא LDA >2), כלומר, המיקרואורגניזמים הנפוצים יותר…
The authors have nothing to disclose.
עבודה זו נתמכה על ידי מענק מקרנות מחקר בסיסיות עבור מכוני המחקר המרכזיים לרווחת הציבור (TKS17020205) והקרן לפיתוח המדע והטכנולוגיה, ומכון המחקר טיאנג’ין להנדסת תחבורה מים (TIWTE), M.O.T. (KJFZJJ17020201).