LEfSe (LDA Effect Size) ist ein Werkzeug für das hochdimensionale Biomarker-Mining zur Identifizierung genomischer Merkmale (wie Gene, Signalwege und Taxonomien), die zwei oder mehr Gruppen in Mikrobiomdaten signifikant charakterisieren.
Es gibt eine wachsende Aufmerksamkeit für geschlossene biologische Genome in der Umwelt und in der Gesundheit. Um die Unterschiede zwischen den Gruppen zwischen verschiedenen Proben oder Umgebungen zu untersuchen und aufzudecken, ist es wichtig, Biomarker mit statistischen Unterschieden zwischen den Gruppen zu entdecken. Die Anwendung der linearen Diskriminanzanalyse Effect Size (LEfSe) kann helfen, gute Biomarker zu finden. Basierend auf den ursprünglichen Genomdaten werden Qualitätskontrollen und Quantifizierungen verschiedener Sequenzen basierend auf Taxa oder Genen durchgeführt. Zunächst wurde der Kruskal-Wallis-Rangtest verwendet, um zwischen spezifischen Unterschieden zwischen statistischen und biologischen Gruppen zu unterscheiden. Dann wurde der Wilcoxon-Rangtest zwischen den beiden im vorherigen Schritt erhaltenen Gruppen durchgeführt, um zu beurteilen, ob die Unterschiede konsistent waren. Schließlich wurde eine lineare Diskriminanzanalyse (LDA) durchgeführt, um den Einfluss von Biomarkern auf signifikant unterschiedliche Gruppen basierend auf LDA-Scores zu bewerten. Zusammenfassend lässt sich sagen, dass LEfSe die Möglichkeit bot, genomische Biomarker zu identifizieren, die statistische Unterschiede zwischen biologischen Gruppen charakterisieren.
Biomarker sind biologische Eigenschaften, die gemessen werden können und auf einige Phänomene wie Infektionen, Krankheiten oder Umwelt hinweisen können. Unter ihnen können funktionelle Biomarker spezifische biologische Funktionen einzelner Spezies oder einiger Arten sein, wie Gen, Protein, Metabolit und Signalwege. Außerdem weisen taxonomische Biomarker auf eine ungewöhnliche Art, eine Gruppe von Organismen (Königreich, Stamm, Klasse, Ordnung, Familie, Gattung, Art), den Amplicon Sequence Varient (ASV)1 oder die Operational Taxonomic Unit (OTU)2 hin. Um Biomarker schneller und genauer zu finden, ist ein Werkzeug zur Analyse der biologischen Daten notwendig. Die Unterschiede zwischen den Klassen können durch LEfSe in Verbindung mit Standardtests für statistische Signifikanz und zusätzlichen Tests zur Kodierung biologischer Konsistenz und Effektrelevanzerklärt werden 3. LEfSe ist als Galaxiemodul, als Conda-Formel, als Docker-Image und in bioBakery (VM und Cloud)4 enthalten. Im Allgemeinen wird bei der Analyse der mikrobiellen Vielfalt häufig ein nicht-parametrischer Test für die unsichere Verteilung einer Stichprobengemeinschaft verwendet. Der Rangsummentest ist ein nichtparametrisches Testverfahren, bei dem der Rang von Stichproben verwendet wird, um den Wert von Stichproben zu ersetzen. Entsprechend der Differenz der Stichprobengruppen kann sie mit dem Wilcoxon-Rangsummentest in zwei Stichproben und mit dem Kruskal-Wallis-Test 5,6 in mehrere Stichproben unterteilt werden. Insbesondere wenn signifikante Unterschiede zwischen mehreren Gruppen von Stichproben bestehen, sollte ein Rangsummentest des paarweisen Vergleichs mehrerer Stichproben durchgeführt werden. LDA (was für Linear Discriminant Analysis steht), das 1936 von Ronald Fisher erfunden wurde, ist eine Art überwachtes Lernen, auch bekannt als Fisher’s Linear Discriminant7. Es ist ein klassischer und beliebter Algorithmus im aktuellen Bereich des Machine Learning Data Mining.
Hier wurde der LEfSe-Assay von Conda- und Galaxy-Servern optimiert. Drei Gruppen von 16S rRNA-Gensequenzen werden analysiert, um die signifikanten Unterschiede zwischen verschiedenen Gruppen mit LDA-Scores mikrobieller Gemeinschaften und Visualisierungsergebnissen zu demonstrieren.
Hier wird das Protokoll zur Identifizierung und Charakterisierung von Biomarkern innerhalb verschiedener Gruppen beschrieben. Dieses Protokoll kann leicht für andere Probentypen, wie OTUs von Mikroorganismen, angepasst werden. Die statistische Methode vonLEfSe kann die charakteristischen Mikroorganismen in jeder Gruppe finden (Standard ist LDA >2), dh die Mikroorganismen, die in dieser Gruppe im Vergleich zu den anderen 12 häufiger vorkommen. LEfSe ist sowohl in nativen als auch in Web-Linux-Ver…
The authors have nothing to disclose.
Diese Arbeit wurde durch ein Stipendium der Grundlagenforschungsfonds für die zentralen Forschungsinstitute des öffentlichen Wohlergehens (TKS170205) und der Stiftung für die Entwicklung von Wissenschaft und Technologie sowie des Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201) unterstützt.