LEfSe(LDA Effect Size)は、マイクロバイオームデータ内の2つ以上のグループを有意に特徴付けるゲノム特徴(遺伝子、経路、分類法など)を特定するための高次元バイオマーカーマイニング用のツールです。
環境や健康における閉鎖的な生物学的ゲノムに対する関心が高まっています。異なるサンプルまたは環境間のグループ間の差異を調査および明らかにするためには、グループ間で統計的な差異を有するバイオマーカーを発見することが極めて重要である。線形判別分析の効果サイズ(LEfSe)の適用は、優れたバイオマーカーを見つけるのに役立ちます。元のゲノムデータに基づいて、品質管理、分類群または遺伝子に基づく異なる配列の定量化が行われる。まず、クラスカル-ウォリス順位検定を用いて、統計群と生物学的群の特定の差異を区別した。次に、前のステップで得られた2つのグループ間でウィルコクソン順位検定を実施し、差が一貫しているかどうかを評価しました。最後に、線形判別分析(LDA)を実施し、LDAスコアに基づいて有意に異なるグループに対するバイオマーカーの影響を評価した。要約すると、LEfSeは、生物学的グループ間の統計的差異を特徴付けるゲノムバイオマーカーを同定するための利便性を提供しました。
バイオマーカーは、測定可能な生物学的特性であり、感染、疾患、または環境などのいくつかの現象を示すことができる。その中で、機能的バイオマーカーは、遺伝子、タンパク質、代謝産物および経路などの単一種の特定の生物学的機能、またはいくつかの種に共通するものであり得る。さらに、分類学的バイオマーカーは、異常な種、生物群(王国、門、クラス、秩序、家族、属、種)、アンプリコン配列可変量(ASV)1、または運用分類学単位(OTU)2を示す。バイオマーカーをより迅速かつ正確に見つけるためには、生体データを解析するためのツールが必要です。クラス間の違いは、LEfSeと統計的有意性の標準検定、および生物学的一貫性および効果関連性をコードする追加検定と組み合わせることによって説明することができます3。LEfSeは、銀河モジュール、コンダ式、ドッカー画像として利用可能で、bioBakery(VMおよびクラウド)4に含まれています。一般に、微生物多様性の分析では、サンプルコミュニティの不確実な分布に対してノンパラメトリック検定が使用されることがよくあります。ランク合計検定はノンパラメトリック検定法で、サンプルのランクを使用してサンプルの値を置き換えます。サンプルグループの違いに応じて、ウィルコクソン順位和検定では2つのサンプルに、クラスカル・ウォリス検定では複数のサンプルに分けることができます5,6。特に、複数のサンプルグループ間に有意差がある場合は、複数のサンプルのペアワイズ比較のランク和検定を実行する必要があります。1936年にロナルド・フィッシャーによって発明されたLDA(線形判別分析の略)は、教師あり学習の一種であり、フィッシャーの線形判別式7としても知られています。これは、機械学習データマイニングの現在の分野で古典的で人気のあるアルゴリズムです。
ここでは、LEfSeアッセイはCondaおよびGalaxyサーバーによって最適化されています。16S rRNA遺伝子配列の3つのグループを解析して、微生物群集のLDAスコアおよび可視化結果を有する異なるグループ間の有意差を実証する。
ここでは、異なるグループ内のバイオマーカーの同定および特性評価のためのプロトコルが記載されている。このプロトコルは、微生物のOTUなどの他のサンプルタイプに容易に適合させることができます。LEfSeによる統計的方法は、各群に特徴的な微生物(デフォルトはLDA>2)、すなわち、他の群と比較してこの群においてより豊富に存在する微生物を見出すことができる12。LE…
The authors have nothing to disclose.
本研究は、中央公共福祉研究所基礎研究費(TKS170205)と科学技術振興財団、天津水交通工学研究所(TIWTE)M.O.T.(KJFZJJ170201)の助成を受けて実施されました。