Summary

Selezione assistita di biomarcatori mediante LEfSe (Linear Discriminant Analysis Effect Size) nei dati del microbioma

Published: May 16, 2022
doi:

Summary

LEfSe (LDA Effect Size) è uno strumento per l’estrazione di biomarcatori ad alta dimensione per identificare caratteristiche genomiche (come geni, percorsi e tassonomie) che caratterizzano in modo significativo due o più gruppi nei dati del microbioma.

Abstract

C’è una crescente attenzione verso i genomi biologici chiusi nell’ambiente e nella salute. Per esplorare e rivelare le differenze tra i diversi campioni o ambienti, è fondamentale scoprire biomarcatori con differenze statistiche tra i gruppi. L’applicazione dell’analisi lineare discriminante Effect Size (LEfSe) può aiutare a trovare buoni biomarcatori. Sulla base dei dati del genoma originale, vengono effettuati il controllo di qualità e la quantificazione di diverse sequenze basate su taxa o geni. In primo luogo, il test di rango di Kruskal-Wallis è stato utilizzato per distinguere tra differenze specifiche tra gruppi statistici e biologici. Quindi, è stato eseguito il test di rango di Wilcoxon tra i due gruppi ottenuti nella fase precedente per valutare se le differenze erano coerenti. Infine, è stata condotta un’analisi discriminante lineare (LDA) per valutare l’influenza dei biomarcatori su gruppi significativamente diversi in base ai punteggi LDA. Per riassumere, LEfSe ha fornito la comodità per identificare i biomarcatori genomici che caratterizzano le differenze statistiche tra i gruppi biologici.

Introduction

I biomarcatori sono caratteristiche biologiche che possono essere misurate e possono indicare alcuni fenomeni come infezioni, malattie o ambiente. Tra questi, i biomarcatori funzionali possono essere funzioni biologiche specifiche di singole specie o comuni ad alcune specie, come geni, proteine, metaboliti e percorsi. Inoltre, i biomarcatori tassonomici indicano una specie insolita, un gruppo di organismi (regno, phylum, classe, ordine, famiglia, genere, specie), l’Amplicon Sequence Varient (ASV)1 o l’Operational Taxonomic Unit (OTU)2. Per trovare i biomarcatori in modo più rapido e accurato, è necessario uno strumento per analizzare i dati biologici. Le differenze tra le classi possono essere spiegate da LEfSe abbinato a test standard per la significatività statistica e test aggiuntivi che codificano la coerenza biologica e la rilevanza dell’effetto3. LEfSe è disponibile come modulo galattico, formula conda, immagine docker e incluso in bioBakery (VM e cloud)4. Generalmente, l’analisi della diversità microbica utilizza spesso un test non parametrico per la distribuzione incerta di una comunità campione. Il test rank sum è un metodo di test non parametrico, che utilizza il rango dei campioni per sostituire il valore dei campioni. In base alla differenza dei gruppi di campioni, può essere diviso in due campioni con il test di somma di rango di Wilcoxon e in più campioni con il test di Kruskal-Wallis 5,6. In particolare, quando ci sono differenze significative tra più gruppi di campioni, è necessario eseguire un test di rango di confronto a coppie di più campioni. LDA (che sta per Linear Discriminant Analysis) inventato da Ronald Fisher nel 1936, è un tipo di apprendimento supervisionato, noto anche come Fisher’s Linear Discriminant7. È un algoritmo classico e popolare nell’attuale campo del data mining di machine learning.

Qui, il test LEfSe è stato ottimizzato dai server Conda e Galaxy. Tre gruppi di sequenze di geni rRNA 16S vengono analizzati per dimostrare le differenze significative tra i diversi gruppi con punteggi LDA di comunità microbiche e risultati di visualizzazione.

Protocol

NOTA: Il protocollo è stato originato e modificato dalla ricerca di Segata et al.3. Il metodo è fornito in https://bitbucket.org/biobakery/biobakery/wiki/lefse. 1. Preparazione del file di input per l’analisi Preparare il file di input (Tabella 1) di LEfSe, che potrebbe essere facilmente generato da molti flussi di lavoro8 o protocolli precedenti9 con i file originali (file di esempio e file di…

Representative Results

I punteggi LDA delle comunità microbiche con differenze significative in ciascun gruppo analizzando le sequenze del gene rRNA 16S di tre campioni sono mostrati nella Figura 8. Il colore dell’istogramma rappresenta diversi gruppi, mentre la lunghezza rappresenta il punteggio LDA, che è l’influenza della specie con differenze significative tra i diversi gruppi. L’istogramma mostra le specie con differenze significative il cui punteggio LDA è maggiore del valore preimpostato. Il valore prede…

Discussion

Qui viene descritto il protocollo per l’identificazione e la caratterizzazione dei biomarcatori all’interno di diversi gruppi. Questo protocollo può essere facilmente adattato ad altri tipi di campioni, come le OTU di microrganismi. Il metodo statistico di LEfSe può trovare i microrganismi caratteristici in ciascun gruppo (il default è LDA >2), cioè i microrganismi che sono più abbondanti in questo gruppo rispetto agli altri12. LEfSe è disponibile sia in versione nativa che web Linux in cui …

Disclosures

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è stato sostenuto da una sovvenzione dei Fondi di ricerca fondamentale per gli Istituti centrali di ricerca sul benessere pubblico (TKS170205) e la Fondazione per lo sviluppo della scienza e della tecnologia e dell’Istituto di ricerca di Tianjin per l’ingegneria del trasporto idrico (TIWTE), M.O.T. (KJFZJJ170201).

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Play Video

Cite This Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video