Summary

마이크로바이옴 데이터에서 선형 판별 분석 효과 크기(LEfSe)에 의한 바이오마커 보조 선택

Published: May 16, 2022
doi:

Summary

LEfSe (LDA 효과 크기)는 미생물 데이터에서 둘 이상의 그룹을 유의하게 특성화하는 게놈 특징 (예 : 유전자, 경로 및 분류법)을 확인하기 위해 고차원 바이오마커 마이닝을위한 도구입니다.

Abstract

환경과 건강에서 폐쇄 된 생물학적 게놈에 대한 관심이 커지고 있습니다. 서로 다른 샘플 또는 환경 간의 그룹 간 차이를 탐구하고 밝히기 위해서는 그룹 간의 통계적 차이가있는 바이오마커를 발견하는 것이 중요합니다. 선형 판별 분석 효과 크기 (LEfSe)의 적용은 좋은 바이오 마커를 찾는 데 도움이 될 수 있습니다. 원래의 게놈 데이터에 기초하여, 품질 관리, 및 탁사 또는 유전자에 기초한 상이한 서열의 정량화가 수행된다. 첫째, Kruskal-Wallis 순위 검정을 사용하여 통계적 그룹과 생물학적 그룹 간의 특정 차이를 구별하였다. 그 후, Wilcoxon 순위 검정을 이전 단계에서 얻은 두 그룹 사이에서 수행하여 차이가 일관적인지 여부를 평가하였다. 마지막으로, LDA 점수에 기초하여 유의하게 상이한 그룹에 대한 바이오마커의 영향을 평가하기 위해 선형 판별 분석(LDA)이 수행되었다. 요약하면, LEfSe는 생물학적 그룹 간의 통계적 차이를 특성화하는 게놈 바이오마커를 식별하기 위한 편리함을 제공했다.

Introduction

바이오마커는 측정될 수 있고 감염, 질병 또는 환경과 같은 일부 현상을 나타낼 수 있는 생물학적 특성이다. 그 중에서도, 기능적 바이오마커는 단일 종의 특정 생물학적 기능이거나 유전자, 단백질, 대사산물 및 경로와 같은 일부 종에 공통적일 수 있다. 게다가, 분류학적 바이오마커는 특이한 종, 유기체 그룹(왕국, 계통, 부류, 질서, 가족, 속, 종), 앰플리콘 서열 변종(ASV)1 또는 운영 분류 단위(OTU)2를 나타낸다. 바이오마커를 보다 빠르고 정확하게 찾기 위해서는 생물학적 데이터를 분석하기 위한 도구가 필요하다. 클래스 간의 차이는 LEfSe가 통계적 유의성에 대한 표준 테스트 및 생물학적 일관성 및 효과 관련성을 인코딩하는 추가 테스트와 결합하여 설명 할 수 있습니다3. LEfSe는 은하 모듈, 콘다 공식, 도커 이미지로 제공되며 bioBakery (VM 및 클라우드)4에 포함되어 있습니다. 일반적으로, 미생물 다양성의 분석은 종종 샘플 군집의 불확실한 분포에 대해 비모수 검정을 사용한다. 순위 합계 테스트는 표본의 순위를 사용하여 표본 값을 대체하는 비모수 테스트 방법입니다. 샘플 그룹의 차이에 따라 Wilcoxon 순위 합계 테스트가있는 두 개의 샘플과 Kruskal-Wallis 테스트 5,6을 사용하여 여러 샘플로 나눌 수 있습니다. 특히, 여러 표본 그룹 간에 상당한 차이가 있는 경우, 여러 샘플의 쌍 비교에 대한 순위-합계 테스트가 수행되어야 합니다. LDA (선형 판별 분석의 약자)는 1936 년 로널드 피셔 (Ronald Fisher)가 발명 한 것으로, 피셔의 선형 판별 7 (Fisher’s Linear Discriminant7)으로도 알려진 감독 학습의 한 유형입니다. 현재 기계 학습 데이터 마이닝 분야에서 고전적이고 인기있는 알고리즘입니다.

여기서 LEfSe 분석은 Conda와 Galaxy 서버에 의해 최적화되었습니다. 16S rRNA 유전자 서열의 세 그룹을 분석하여 미생물 군집의 LDA 점수와 시각화 결과를 갖는 상이한 그룹 간의 유의한 차이를 입증한다.

Protocol

참고 : 프로토콜은 Segata et al.3의 연구에서 공급되고 수정되었습니다. 이 방법은 https://bitbucket.org/biobakery/biobakery/wiki/lefse 에서 제공됩니다. 1. 분석을 위한 입력파일 준비 LEfSe의 입력 파일(표 1)을 준비합니다. 이 파일은 원본 파일(샘플 파일 및 해당 종 주석 파일)을 사용하여 많은 워크플로우8 또는 이전 프로토콜(<sup class=…

Representative Results

세 샘플의 16S rRNA 유전자 서열을 분석하여 각 군에서 유의한 차이를 갖는 미생물 군집의 LDA 점수를 도 8에 나타내었다. 히스토그램의 색상은 서로 다른 그룹을 나타내는 반면, 길이는 LDA 점수를 나타내며, 이는 다른 그룹간에 상당한 차이가있는 종의 영향입니다. 히스토그램은 LDA 점수가 사전 설정된 값보다 큰 유의한 차이를 가진 종을 보여줍니다. 기본 사전 설정 값은 2.0이?…

Discussion

여기에서, 상이한 그룹 내의 바이오마커의 확인 및 특성화를 위한 프로토콜이 기재되어 있다. 이 프로토콜은 미생물의 OTU와 같은 다른 샘플 유형에 쉽게 적용 할 수 있습니다. LEfSe에 의한 통계적 방법은 각 그룹에서 특징적인 미생물(디폴트는 LDA >2), 즉 다른12에 비해 이 그룹에서 더 풍부한 미생물을 찾을 수 있다. LEfSe는 사용자가 웹 페이지에서 LEfSe 분석을 수행 할 수있는 네이?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

이 사업은 중앙공공복지연구소(TKS170205)와 과학기술개발재단, 천진수자원연구소(TIWTE), M.O.T.(KJFZJJ170201)의 보조금으로 지원받았다.

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Play Video

Cite This Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video