LEfSe (LDA Effect Size) is een hulpmiddel voor hoogdimensionale biomarkermijnbouw om genomische kenmerken (zoals genen, paden en taxonomieën) te identificeren die twee of meer groepen in microbioomgegevens aanzienlijk karakteriseren.
Er is steeds meer aandacht voor gesloten biologische genomen in het milieu en in de gezondheid. Om de intergroepsverschillen tussen verschillende monsters of omgevingen te onderzoeken en te onthullen, is het cruciaal om biomarkers met statistische verschillen tussen groepen te ontdekken. De toepassing van Lineaire discriminante analyse Effect Size (LEfSe) kan helpen bij het vinden van goede biomarkers. Op basis van de originele genoomgegevens worden kwaliteitscontrole en kwantificering van verschillende sequenties op basis van taxa of genen uitgevoerd. Ten eerste werd de Kruskal-Wallis-rangtest gebruikt om onderscheid te maken tussen specifieke verschillen tussen statistische en biologische groepen. Vervolgens werd de Wilcoxon-rangtest uitgevoerd tussen de twee groepen die in de vorige stap waren verkregen om te beoordelen of de verschillen consistent waren. Ten slotte werd een lineaire discriminante analyse (LDA) uitgevoerd om de invloed van biomarkers op significant verschillende groepen te evalueren op basis van LDA-scores. Kortom, LEfSe bood het gemak voor het identificeren van genomische biomarkers die statistische verschillen tussen biologische groepen karakteriseren.
Biomarkers zijn biologische kenmerken die kunnen worden gemeten en kunnen wijzen op bepaalde verschijnselen zoals infectie, ziekte of omgeving. Onder hen kunnen functionele biomarkers specifieke biologische functies van afzonderlijke soorten zijn of gemeenschappelijk voor sommige soorten, zoals gen, eiwit, metaboliet en routes. Bovendien duiden taxonomische biomarkers op een ongewone soort, een groep organismen (koninkrijk, phylum, klasse, orde, familie, geslacht, soort), de Amplicon Sequence Varient (ASV)1 of de Operational Taxonomic Unit (OTU)2. Om biomarkers sneller en nauwkeuriger te vinden, is een tool voor het analyseren van de biologische gegevens noodzakelijk. De verschillen tussen klassen kunnen worden verklaard door LEfSe in combinatie met standaardtests voor statistische significantie en aanvullende tests die coderen voor biologische consistentie en effectrelevantie3. LEfSe is beschikbaar als galaxy-module, een conda-formule, een docker-image en opgenomen in bioBakery (VM en cloud)4. Over het algemeen maakt de analyse van microbiële diversiteit vaak gebruik van een niet-parametrische test voor de onzekere verdeling van een steekproefgemeenschap. De rangsomtest is een niet-parametrische testmethode, waarbij de rang van monsters wordt gebruikt om de waarde van monsters te vervangen. Afhankelijk van het verschil in monstergroepen kan het worden verdeeld in twee monsters met de Wilcoxon rank sum test en in meerdere samples met de Kruskal-Wallis test 5,6. Met name wanneer er significante verschillen zijn tussen meerdere groepen monsters, moet een rangsomtest van paarsgewijze vergelijking van meerdere monsters worden uitgevoerd. LDA (wat staat voor Linear Discriminant Analysis) uitgevonden door Ronald Fisher in 1936, is een vorm van supervised learning, ook bekend als Fisher’s Linear Discriminant7. Het is een klassiek en populair algoritme in het huidige veld van machine learning datamining.
Hier is de LEfSe-test geoptimaliseerd door Conda- en Galaxy-servers. Drie groepen van 16S rRNA-gensequenties worden geanalyseerd om de significante verschillen tussen verschillende groepen aan te tonen met LDA-scores van microbiële gemeenschappen en visualisatieresultaten.
Hier wordt het protocol voor de identificatie en karakterisering van biomarkers binnen verschillende groepen beschreven. Dit protocol kan eenvoudig worden aangepast voor andere monstertypen, zoals OTA’s van micro-organismen. De statistische methode van LEfSe kan de karakteristieke micro-organismen in elke groep vinden (standaard is LDA >2), dat wil zeggen, de micro-organismen die overvloediger voorkomen in deze groep in vergelijking met de anderen12. LEfSe is beschikbaar in zowel native als web Li…
The authors have nothing to disclose.
Dit werk werd ondersteund door een subsidie van Fundamental Research Funds voor de Central Public Welfare Research Institutes (TKS170205) en De Foundation for Development of Science and Technology, en Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).