Summary

Unterstützte Auswahl von Biomarkern durch lineare Diskriminanzanalyse-Effektgröße (LEfSe) in Mikrobiomdaten

Published: May 16, 2022
doi:

Summary

LEfSe (LDA Effect Size) ist ein Werkzeug für das hochdimensionale Biomarker-Mining zur Identifizierung genomischer Merkmale (wie Gene, Signalwege und Taxonomien), die zwei oder mehr Gruppen in Mikrobiomdaten signifikant charakterisieren.

Abstract

Es gibt eine wachsende Aufmerksamkeit für geschlossene biologische Genome in der Umwelt und in der Gesundheit. Um die Unterschiede zwischen den Gruppen zwischen verschiedenen Proben oder Umgebungen zu untersuchen und aufzudecken, ist es wichtig, Biomarker mit statistischen Unterschieden zwischen den Gruppen zu entdecken. Die Anwendung der linearen Diskriminanzanalyse Effect Size (LEfSe) kann helfen, gute Biomarker zu finden. Basierend auf den ursprünglichen Genomdaten werden Qualitätskontrollen und Quantifizierungen verschiedener Sequenzen basierend auf Taxa oder Genen durchgeführt. Zunächst wurde der Kruskal-Wallis-Rangtest verwendet, um zwischen spezifischen Unterschieden zwischen statistischen und biologischen Gruppen zu unterscheiden. Dann wurde der Wilcoxon-Rangtest zwischen den beiden im vorherigen Schritt erhaltenen Gruppen durchgeführt, um zu beurteilen, ob die Unterschiede konsistent waren. Schließlich wurde eine lineare Diskriminanzanalyse (LDA) durchgeführt, um den Einfluss von Biomarkern auf signifikant unterschiedliche Gruppen basierend auf LDA-Scores zu bewerten. Zusammenfassend lässt sich sagen, dass LEfSe die Möglichkeit bot, genomische Biomarker zu identifizieren, die statistische Unterschiede zwischen biologischen Gruppen charakterisieren.

Introduction

Biomarker sind biologische Eigenschaften, die gemessen werden können und auf einige Phänomene wie Infektionen, Krankheiten oder Umwelt hinweisen können. Unter ihnen können funktionelle Biomarker spezifische biologische Funktionen einzelner Spezies oder einiger Arten sein, wie Gen, Protein, Metabolit und Signalwege. Außerdem weisen taxonomische Biomarker auf eine ungewöhnliche Art, eine Gruppe von Organismen (Königreich, Stamm, Klasse, Ordnung, Familie, Gattung, Art), den Amplicon Sequence Varient (ASV)1 oder die Operational Taxonomic Unit (OTU)2 hin. Um Biomarker schneller und genauer zu finden, ist ein Werkzeug zur Analyse der biologischen Daten notwendig. Die Unterschiede zwischen den Klassen können durch LEfSe in Verbindung mit Standardtests für statistische Signifikanz und zusätzlichen Tests zur Kodierung biologischer Konsistenz und Effektrelevanzerklärt werden 3. LEfSe ist als Galaxiemodul, als Conda-Formel, als Docker-Image und in bioBakery (VM und Cloud)4 enthalten. Im Allgemeinen wird bei der Analyse der mikrobiellen Vielfalt häufig ein nicht-parametrischer Test für die unsichere Verteilung einer Stichprobengemeinschaft verwendet. Der Rangsummentest ist ein nichtparametrisches Testverfahren, bei dem der Rang von Stichproben verwendet wird, um den Wert von Stichproben zu ersetzen. Entsprechend der Differenz der Stichprobengruppen kann sie mit dem Wilcoxon-Rangsummentest in zwei Stichproben und mit dem Kruskal-Wallis-Test 5,6 in mehrere Stichproben unterteilt werden. Insbesondere wenn signifikante Unterschiede zwischen mehreren Gruppen von Stichproben bestehen, sollte ein Rangsummentest des paarweisen Vergleichs mehrerer Stichproben durchgeführt werden. LDA (was für Linear Discriminant Analysis steht), das 1936 von Ronald Fisher erfunden wurde, ist eine Art überwachtes Lernen, auch bekannt als Fisher’s Linear Discriminant7. Es ist ein klassischer und beliebter Algorithmus im aktuellen Bereich des Machine Learning Data Mining.

Hier wurde der LEfSe-Assay von Conda- und Galaxy-Servern optimiert. Drei Gruppen von 16S rRNA-Gensequenzen werden analysiert, um die signifikanten Unterschiede zwischen verschiedenen Gruppen mit LDA-Scores mikrobieller Gemeinschaften und Visualisierungsergebnissen zu demonstrieren.

Protocol

HINWEIS: Das Protokoll wurde aus der Forschung von Segata et al.3 bezogen und modifiziert. Die Methode wird am https://bitbucket.org/biobakery/biobakery/wiki/lefse bereitgestellt. 1. Vorbereitung der Eingabedatei für die Analyse Bereiten Sie die Eingabedatei (Tabelle 1) von LEfSe vor, die von vielen Workflows8 oder früheren Protokollen9 mit den Originaldateien (Beispieldatei und entsprechende S…

Representative Results

Die LDA-Scores von mikrobiellen Gemeinschaften mit signifikanten Unterschieden in jeder Gruppe durch Analyse der 16S rRNA-Gensequenzen von drei Proben sind in Abbildung 8 dargestellt. Die Farbe des Histogramms repräsentiert verschiedene Gruppen, während die Länge den LDA-Score darstellt, der den Einfluss der Spezies mit signifikanten Unterschieden zwischen verschiedenen Gruppen darstellt. Das Histogramm zeigt die Arten mit signifikanten Unterschieden, deren LDA-Wert größer als der vorei…

Discussion

Hier wird das Protokoll zur Identifizierung und Charakterisierung von Biomarkern innerhalb verschiedener Gruppen beschrieben. Dieses Protokoll kann leicht für andere Probentypen, wie OTUs von Mikroorganismen, angepasst werden. Die statistische Methode vonLEfSe kann die charakteristischen Mikroorganismen in jeder Gruppe finden (Standard ist LDA >2), dh die Mikroorganismen, die in dieser Gruppe im Vergleich zu den anderen 12 häufiger vorkommen. LEfSe ist sowohl in nativen als auch in Web-Linux-Ver…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde durch ein Stipendium der Grundlagenforschungsfonds für die zentralen Forschungsinstitute des öffentlichen Wohlergehens (TKS170205) und der Stiftung für die Entwicklung von Wissenschaft und Technologie sowie des Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201) unterstützt.

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Play Video

Cite This Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video