LEfSe (LDA Effect Size) è uno strumento per l’estrazione di biomarcatori ad alta dimensione per identificare caratteristiche genomiche (come geni, percorsi e tassonomie) che caratterizzano in modo significativo due o più gruppi nei dati del microbioma.
C’è una crescente attenzione verso i genomi biologici chiusi nell’ambiente e nella salute. Per esplorare e rivelare le differenze tra i diversi campioni o ambienti, è fondamentale scoprire biomarcatori con differenze statistiche tra i gruppi. L’applicazione dell’analisi lineare discriminante Effect Size (LEfSe) può aiutare a trovare buoni biomarcatori. Sulla base dei dati del genoma originale, vengono effettuati il controllo di qualità e la quantificazione di diverse sequenze basate su taxa o geni. In primo luogo, il test di rango di Kruskal-Wallis è stato utilizzato per distinguere tra differenze specifiche tra gruppi statistici e biologici. Quindi, è stato eseguito il test di rango di Wilcoxon tra i due gruppi ottenuti nella fase precedente per valutare se le differenze erano coerenti. Infine, è stata condotta un’analisi discriminante lineare (LDA) per valutare l’influenza dei biomarcatori su gruppi significativamente diversi in base ai punteggi LDA. Per riassumere, LEfSe ha fornito la comodità per identificare i biomarcatori genomici che caratterizzano le differenze statistiche tra i gruppi biologici.
I biomarcatori sono caratteristiche biologiche che possono essere misurate e possono indicare alcuni fenomeni come infezioni, malattie o ambiente. Tra questi, i biomarcatori funzionali possono essere funzioni biologiche specifiche di singole specie o comuni ad alcune specie, come geni, proteine, metaboliti e percorsi. Inoltre, i biomarcatori tassonomici indicano una specie insolita, un gruppo di organismi (regno, phylum, classe, ordine, famiglia, genere, specie), l’Amplicon Sequence Varient (ASV)1 o l’Operational Taxonomic Unit (OTU)2. Per trovare i biomarcatori in modo più rapido e accurato, è necessario uno strumento per analizzare i dati biologici. Le differenze tra le classi possono essere spiegate da LEfSe abbinato a test standard per la significatività statistica e test aggiuntivi che codificano la coerenza biologica e la rilevanza dell’effetto3. LEfSe è disponibile come modulo galattico, formula conda, immagine docker e incluso in bioBakery (VM e cloud)4. Generalmente, l’analisi della diversità microbica utilizza spesso un test non parametrico per la distribuzione incerta di una comunità campione. Il test rank sum è un metodo di test non parametrico, che utilizza il rango dei campioni per sostituire il valore dei campioni. In base alla differenza dei gruppi di campioni, può essere diviso in due campioni con il test di somma di rango di Wilcoxon e in più campioni con il test di Kruskal-Wallis 5,6. In particolare, quando ci sono differenze significative tra più gruppi di campioni, è necessario eseguire un test di rango di confronto a coppie di più campioni. LDA (che sta per Linear Discriminant Analysis) inventato da Ronald Fisher nel 1936, è un tipo di apprendimento supervisionato, noto anche come Fisher’s Linear Discriminant7. È un algoritmo classico e popolare nell’attuale campo del data mining di machine learning.
Qui, il test LEfSe è stato ottimizzato dai server Conda e Galaxy. Tre gruppi di sequenze di geni rRNA 16S vengono analizzati per dimostrare le differenze significative tra i diversi gruppi con punteggi LDA di comunità microbiche e risultati di visualizzazione.
Qui viene descritto il protocollo per l’identificazione e la caratterizzazione dei biomarcatori all’interno di diversi gruppi. Questo protocollo può essere facilmente adattato ad altri tipi di campioni, come le OTU di microrganismi. Il metodo statistico di LEfSe può trovare i microrganismi caratteristici in ciascun gruppo (il default è LDA >2), cioè i microrganismi che sono più abbondanti in questo gruppo rispetto agli altri12. LEfSe è disponibile sia in versione nativa che web Linux in cui …
The authors have nothing to disclose.
Questo lavoro è stato sostenuto da una sovvenzione dei Fondi di ricerca fondamentale per gli Istituti centrali di ricerca sul benessere pubblico (TKS170205) e la Fondazione per lo sviluppo della scienza e della tecnologia e dell’Istituto di ricerca di Tianjin per l’ingegneria del trasporto idrico (TIWTE), M.O.T. (KJFZJJ170201).