Summary

Geassisteerde selectie van biomarkers door lineaire discriminante analyse-effectgrootte (LEfSe) in microbioomgegevens

Published: May 16, 2022
doi:

Summary

LEfSe (LDA Effect Size) is een hulpmiddel voor hoogdimensionale biomarkermijnbouw om genomische kenmerken (zoals genen, paden en taxonomieën) te identificeren die twee of meer groepen in microbioomgegevens aanzienlijk karakteriseren.

Abstract

Er is steeds meer aandacht voor gesloten biologische genomen in het milieu en in de gezondheid. Om de intergroepsverschillen tussen verschillende monsters of omgevingen te onderzoeken en te onthullen, is het cruciaal om biomarkers met statistische verschillen tussen groepen te ontdekken. De toepassing van Lineaire discriminante analyse Effect Size (LEfSe) kan helpen bij het vinden van goede biomarkers. Op basis van de originele genoomgegevens worden kwaliteitscontrole en kwantificering van verschillende sequenties op basis van taxa of genen uitgevoerd. Ten eerste werd de Kruskal-Wallis-rangtest gebruikt om onderscheid te maken tussen specifieke verschillen tussen statistische en biologische groepen. Vervolgens werd de Wilcoxon-rangtest uitgevoerd tussen de twee groepen die in de vorige stap waren verkregen om te beoordelen of de verschillen consistent waren. Ten slotte werd een lineaire discriminante analyse (LDA) uitgevoerd om de invloed van biomarkers op significant verschillende groepen te evalueren op basis van LDA-scores. Kortom, LEfSe bood het gemak voor het identificeren van genomische biomarkers die statistische verschillen tussen biologische groepen karakteriseren.

Introduction

Biomarkers zijn biologische kenmerken die kunnen worden gemeten en kunnen wijzen op bepaalde verschijnselen zoals infectie, ziekte of omgeving. Onder hen kunnen functionele biomarkers specifieke biologische functies van afzonderlijke soorten zijn of gemeenschappelijk voor sommige soorten, zoals gen, eiwit, metaboliet en routes. Bovendien duiden taxonomische biomarkers op een ongewone soort, een groep organismen (koninkrijk, phylum, klasse, orde, familie, geslacht, soort), de Amplicon Sequence Varient (ASV)1 of de Operational Taxonomic Unit (OTU)2. Om biomarkers sneller en nauwkeuriger te vinden, is een tool voor het analyseren van de biologische gegevens noodzakelijk. De verschillen tussen klassen kunnen worden verklaard door LEfSe in combinatie met standaardtests voor statistische significantie en aanvullende tests die coderen voor biologische consistentie en effectrelevantie3. LEfSe is beschikbaar als galaxy-module, een conda-formule, een docker-image en opgenomen in bioBakery (VM en cloud)4. Over het algemeen maakt de analyse van microbiële diversiteit vaak gebruik van een niet-parametrische test voor de onzekere verdeling van een steekproefgemeenschap. De rangsomtest is een niet-parametrische testmethode, waarbij de rang van monsters wordt gebruikt om de waarde van monsters te vervangen. Afhankelijk van het verschil in monstergroepen kan het worden verdeeld in twee monsters met de Wilcoxon rank sum test en in meerdere samples met de Kruskal-Wallis test 5,6. Met name wanneer er significante verschillen zijn tussen meerdere groepen monsters, moet een rangsomtest van paarsgewijze vergelijking van meerdere monsters worden uitgevoerd. LDA (wat staat voor Linear Discriminant Analysis) uitgevonden door Ronald Fisher in 1936, is een vorm van supervised learning, ook bekend als Fisher’s Linear Discriminant7. Het is een klassiek en populair algoritme in het huidige veld van machine learning datamining.

Hier is de LEfSe-test geoptimaliseerd door Conda- en Galaxy-servers. Drie groepen van 16S rRNA-gensequenties worden geanalyseerd om de significante verschillen tussen verschillende groepen aan te tonen met LDA-scores van microbiële gemeenschappen en visualisatieresultaten.

Protocol

OPMERKING: Het protocol is afkomstig van en aangepast uit het onderzoek van Segata et al.3. De methode wordt op https://bitbucket.org/biobakery/biobakery/wiki/lefse gegeven. 1. Voorbereiding van het invoerbestand voor analyse Bereid het invoerbestand (tabel 1) van LEfSe voor, dat eenvoudig kan worden gegenereerd door veel workflows8 of eerdere protocollen9 met de originele bestanden (voorbeeldbes…

Representative Results

De LDA-scores van microbiële gemeenschappen met significante verschillen in elke groep door de 16S rRNA-gensequenties van drie monsters te analyseren, zijn weergegeven in figuur 8. De kleur van het histogram vertegenwoordigt verschillende groepen, terwijl de lengte de LDA-score vertegenwoordigt, wat de invloed is van de soort met significante verschillen tussen verschillende groepen. Het histogram toont de soort met significante verschillen waarvan de LDA-score groter is dan de vooraf inges…

Discussion

Hier wordt het protocol voor de identificatie en karakterisering van biomarkers binnen verschillende groepen beschreven. Dit protocol kan eenvoudig worden aangepast voor andere monstertypen, zoals OTA’s van micro-organismen. De statistische methode van LEfSe kan de karakteristieke micro-organismen in elke groep vinden (standaard is LDA >2), dat wil zeggen, de micro-organismen die overvloediger voorkomen in deze groep in vergelijking met de anderen12. LEfSe is beschikbaar in zowel native als web Li…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit werk werd ondersteund door een subsidie van Fundamental Research Funds voor de Central Public Welfare Research Institutes (TKS170205) en De Foundation for Development of Science and Technology, en Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Play Video

Cite This Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video