Summary

المساعدة في اختيار المؤشرات الحيوية بواسطة حجم تأثير التحليل التمييزي الخطي (LEfSe) في بيانات الميكروبيوم

Published: May 16, 2022
doi:

Summary

LEfSe (حجم تأثير LDA) هو أداة لتعدين المؤشرات الحيوية عالية الأبعاد لتحديد السمات الجينومية (مثل الجينات والمسارات والتصنيفات) التي تميز بشكل كبير مجموعتين أو أكثر في بيانات الميكروبيوم.

Abstract

هناك اهتمام متزايد نحو الجينوم البيولوجي المغلق في البيئة والصحة. لاستكشاف والكشف عن الاختلافات بين المجموعات بين العينات أو البيئات المختلفة ، من الأهمية بمكان اكتشاف المؤشرات الحيوية ذات الاختلافات الإحصائية بين المجموعات. يمكن أن يساعد تطبيق التحليل التمييزي الخطي لحجم التأثير (LEfSe) في العثور على مؤشرات حيوية جيدة. استنادا إلى بيانات الجينوم الأصلية ، يتم إجراء مراقبة الجودة والقياس الكمي للتسلسلات المختلفة بناء على التصنيفات أو الجينات. أولا ، تم استخدام اختبار رتبة Kruskal-Wallis للتمييز بين الاختلافات المحددة بين المجموعات الإحصائية والبيولوجية. بعد ذلك ، تم إجراء اختبار رتبة ويلكوكسون بين المجموعتين اللتين تم الحصول عليهما في الخطوة السابقة لتقييم ما إذا كانت الاختلافات متسقة. وأخيرا، أجري تحليل تمييزي خطي (LDA) لتقييم تأثير المؤشرات الحيوية على مجموعات مختلفة اختلافا كبيرا استنادا إلى درجات LDA. باختصار ، وفر LEfSe الراحة لتحديد المؤشرات الحيوية الجينومية التي تميز الاختلافات الإحصائية بين المجموعات البيولوجية.

Introduction

المؤشرات الحيوية هي خصائص بيولوجية يمكن قياسها ويمكن أن تشير إلى بعض الظواهر مثل العدوى أو المرض أو البيئة. من بينها ، قد تكون المؤشرات الحيوية الوظيفية وظائف بيولوجية محددة لنوع واحد أو مشتركة بين بعض الأنواع ، مثل الجينات والبروتين والمستقلب والمسارات. إلى جانب ذلك ، تشير المؤشرات الحيوية التصنيفية إلى نوع غير عادي ، أو مجموعة من الكائنات الحية (المملكة ، الفصيلة ، الطبقة ، الترتيب ، العائلة ، الجنس ، الأنواع) ، أو Varient Sequence Amplicon (ASV)1 ، أو وحدة التصنيف التشغيلية (OTU)2. من أجل العثور على المؤشرات الحيوية بسرعة ودقة أكبر ، من الضروري وجود أداة لتحليل البيانات البيولوجية. يمكن تفسير الاختلافات بين الفئات بواسطة LEfSe إلى جانب الاختبارات القياسية للدلالة الإحصائية والاختبارات الإضافية التي تشفر الاتساق البيولوجي وأهمية التأثير3. يتوفر LEfSe كوحدة مجرة ، وصيغة كوندا ، وصورة عامل رصيف ، ويتم تضمينه في bioBakery (VM و cloud)4. بشكل عام ، غالبا ما يستخدم تحليل التنوع الميكروبي اختبارا غير بارامتري للتوزيع غير المؤكد لمجتمع العينة. اختبار مجموع الرتب هو طريقة اختبار غير بارامترية ، والتي تستخدم رتبة العينات لتحل محل قيمة العينات. وفقا لاختلاف مجموعات العينات ، يمكن تقسيمها إلى عينتين مع اختبار مجموع رتبة ويلكوكسون وإلى عينات متعددة مع اختبار Kruskal-Wallis 5,6. ومن الجدير بالذكر أنه عندما تكون هناك اختلافات كبيرة بين مجموعات متعددة من العينات، ينبغي إجراء اختبار مجموع الرتب للمقارنة الزوجية لعينات متعددة. LDA (الذي يرمز إلى التحليل التمييزي الخطي) الذي اخترعه رونالد فيشر في عام 1936 ، هو نوع من التعلم تحت الإشراف ، والمعروف أيضا باسم Fisher’s Linear Discriminant7. إنها خوارزمية كلاسيكية وشعبية في المجال الحالي لاستخراج بيانات التعلم الآلي.

هنا ، تم تحسين فحص LEfSe بواسطة خوادم Conda و Galaxy. يتم تحليل ثلاث مجموعات من تسلسلات جينات 16S rRNA لإظهار الاختلافات الكبيرة بين المجموعات المختلفة مع درجات LDA من المجتمعات الميكروبية ونتائج التصور.

Protocol

ملاحظة: تم الحصول على البروتوكول وتعديله من بحث Segata et al.3. يتم توفير الطريقة في https://bitbucket.org/biobakery/biobakery/wiki/lefse. 1. إعداد ملف الإدخال للتحليل قم بإعداد ملف الإدخال (الجدول 1) الخاص ب LEfSe ، والذي يمكن إنشاؤه بسهولة بواسطة العديد من مهام سير العمل…

Representative Results

يظهر الشكل 8 درجات LDA للمجتمعات الميكروبية ذات الاختلافات الكبيرة في كل مجموعة من خلال تحليل تسلسل جينات 16S rRNA لثلاث عينات. يمثل لون الرسم البياني مجموعات مختلفة ، بينما يمثل الطول درجة LDA ، وهو تأثير الأنواع ذات الاختلافات الكبيرة بين المجموعات المختلفة. يوضح الرسم البياني…

Discussion

هنا ، يتم وصف بروتوكول تحديد وتوصيف المؤشرات الحيوية داخل مجموعات مختلفة. يمكن بسهولة تكييف هذا البروتوكول مع أنواع العينات الأخرى ، مثل OTUs للكائنات الحية الدقيقة. يمكن للطريقة الإحصائية بواسطة LEfSe العثور على الكائنات الحية الدقيقة المميزة في كل مجموعة (الافتراضي هو LDA >2) ، أي الكائنات الح…

Disclosures

The authors have nothing to disclose.

Acknowledgements

تم دعم هذا العمل من خلال منحة من صناديق البحوث الأساسية للمعاهد المركزية لبحوث الرفاه العام (TKS170205) ومؤسسة تطوير العلوم والتكنولوجيا ، ومعهد تيانجين لبحوث هندسة النقل المائي (TIWTE) ، M.O.T. (KJFZJJ170201).

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Play Video

Cite This Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video