Summary

생물의학 보고서를 통해 질병에서 세포 소기관 경로의 역할을 밝히기 위한 지식 그래프 접근 방식

Published: October 13, 2023
doi:

Summary

생물 의학 보고서에 설명된 대로 미토콘드리아 단백질 및 심혈관 질환과의 연관성을 조사하기 위한 계산 프로토콜인 CaseOLAP LIFT 및 사용 사례가 제시됩니다. 이 프로토콜은 사용자가 선택한 세포 구성 요소 및 질병을 연구하는 데 쉽게 적용할 수 있습니다.

Abstract

빠르게 증가하는 방대한 양의 생물 의학 보고서는 각각 수많은 엔티티와 풍부한 정보를 포함하고 있으며 생물 의학 텍스트 마이닝 응용 프로그램을위한 풍부한 리소스를 나타냅니다. 이러한 도구를 통해 연구자는 이러한 발견을 통합, 개념화 및 번역하여 질병 병리학 및 치료법에 대한 새로운 통찰력을 발견할 수 있습니다. 이 프로토콜에서는 텍스트 데이터 세트(예: 생물 의학 문헌)에서 사용자가 선택한 정보를 추출하여 세포 구성 요소와 질병 연관성을 조사하는 새로운 계산 파이프라인인 CaseOLAP LIFT를 제시합니다. 이 소프트웨어는 질병 관련 문서 내에서 세포 내 단백질과 그 기능적 파트너를 식별합니다. 추가 질병 관련 문서는 소프트웨어의 라벨 대체 방법을 통해 식별됩니다. 결과적인 단백질-질병 연관성을 맥락화하고 여러 관련 생물 의학 리소스의 정보를 통합하기 위해 추가 분석을 위해 지식 그래프가 자동으로 구성됩니다. 우리는 이 방법을 사용하여 뚜렷한 심혈관 질환 표현형에서 미토콘드리아 단백질의 역할을 설명하는 예를 제공하기 위해 온라인으로 다운로드한 ~3,400만 개의 텍스트 문서 말뭉치와 함께 한 가지 사용 사례를 제시합니다. 또한 딥 러닝 모델을 결과 지식 그래프에 적용하여 이전에 보고되지 않은 단백질과 질병 간의 관계를 예측하여 예측 확률>0.90 및 AUROC(AUROC) 아래 면적이 테스트 세트에서 0.91인 1,583개의 연관성을 얻었습니다. 이 소프트웨어는 분석에 사용할 수 있는 광범위한 원시 데이터와 함께 고도로 사용자 정의 가능하고 자동화된 워크플로를 제공합니다. 따라서 이 방법을 사용하면 텍스트 말뭉치 내에서 향상된 신뢰성으로 단백질-질병 연관성을 식별할 수 있습니다.

Introduction

질병 관련 단백질을 연구하면 병인에 대한 과학적 지식이 향상되고 잠재적인 치료법을 식별하는 데 도움이 됩니다. 출판 제목, 초록 및 전체 텍스트 문서가 포함된 PubMed의 3,400만 개의 기사와 같은 여러 대규모 생물의학 출판물 모음은 단백질과 질병을 연결하는 새로운 발견을 보고합니다. 그러나 이러한 발견은 다양한 출처에 걸쳐 단편화되어 있으며 새로운 생물 의학적 통찰력을 생성하기 위해 통합되어야 합니다. 단백질-질환 연관성 1,2,3,4,5,6,7을 통합하기 위한 여러 생물의학 자원이 존재한다. 그러나 이러한 선별된 리소스는 종종 불완전하며 최신 연구 결과를 포함하지 않을 수 있습니다. 텍스트 마이닝 접근법은 큰 텍스트 말뭉치에서 단백질-질병 연관성을 추출하고 합성하는 데 필수적이며, 이는 과학 문헌에서 이러한 생물 의학 개념에 대한 보다 포괄적인 이해를 가져올 것입니다.

단백질-질병 관계를 밝히기 위한 다수의 생물의학 텍스트-마이닝 접근법이 존재 하며(8,9,10,11,12,13,14), 그리고 다른 것들은 본문 13,15,16,17에 언급된 단백질, 질병, 또는 다른 생물의학적 실체를 식별함으로써 이러한 관계를 결정하는 데 부분적으로 기여한다. 18,19. 그러나 이러한 도구 중 상당수는 주기적으로 업데이트되는 가지를 제외하고는 최신 문헌에 대한 액세스가 부족합니다 8,11,13,15. 유사하게, 많은 도구들은 또한 광범위하게 사전 정의된 질병이나 단백질에 국한되어 있기 때문에 제한된 연구 범위를 가지고 있다 9,13. 또한 텍스트 내에서 거짓 긍정을 식별하는 몇 가지 접근 방식이 있습니다. 다른 사람들은 단백질 이름(9,11) 또는 그 이하의 해석가능한 이름 개체 인식 기술(15,20)의 해석 가능하고 글로벌한 블랙리스트로 이러한 문제를 해결했습니다. 대부분의 리소스는 미리 계산된 결과만 제공하지만 일부 도구는 웹 앱 또는 액세스 가능한 소프트웨어 코드 8,9,11을 통해 상호 작용을 제공합니다.

위의 제한 사항을 해결하기 위해 텍스트 데이터 세트에서 단백질(예: 세포 구성 요소와 관련된 단백질)과 질병 간의 연관성을 조사하기 위한 유연하고 사용자 정의 가능한 플랫폼으로 레이블 대체 및 전체 텍스트가 있는 CaseOLAP 프로토콜(CaseOLAP LIFT)을 제시합니다. 이 플랫폼은 유전자 온톨로지(GO) 용어 특이적 단백질(예: 세포 기관 특이적 단백질)의 자동 큐레이션, 누락된 문서 주제 레이블의 대체, 전체 텍스트 문서 분석, 분석 도구 및 예측 도구를 제공합니다(그림 1, 그림 2표 1). CaseOLAP LIFT는 사용자가 제공한 GO 용어(예: 세포 소기관 구획)를 사용하여 세포 소기관 특이적 단백질을 선별하고 STRING 21, Reactome22 및 GRNdb23을 사용하여 기능적으로 관련된 단백질을 선별합니다. 질병 연구 문서는 PubMed 주석이 달린 의료 주제 헤더(MeSH) 레이블로 식별됩니다. 레이블이 지정되지 않은 문서의 ~15.1%의 경우 제목에서 하나 이상의 MeSH 용어 동의어가 발견되거나 초록에서 두 개 이상이 발견되면 레이블이 귀속됩니다. 이렇게 하면 이전에 분류되지 않은 출판물을 텍스트 마이닝 분석에서 고려할 수 있습니다. CaseOLAP LIFT를 사용하면 사용자가 지정된 기간(예: 2012-2022) 내에 출판물 섹션(예: 제목 및 초록만, 전체 텍스트 또는 방법을 제외한 전체 텍스트)을 선택할 수 있습니다. 또한 이 소프트웨어는 사용 사례별 단백질 이름 블랙리스트를 반자동으로 선별하여 다른 접근 방식에 존재하는 위양성 단백질-질병 연관성을 크게 줄입니다. 전반적으로 이러한 개선은 더 큰 사용자 정의 및 자동화를 가능하게 하고, 분석에 사용할 수 있는 데이터의 양을 확장하며, 대규모 생물 의학 텍스트 말뭉치에서 보다 신뢰할 수 있는 단백질-질병 연관성을 생성합니다.

CaseOLAP LIFT는 생물 의학 지식을 통합하고 지식 그래프를 사용하여 다양한 생물 의학 개념의 관계를 나타내며, 이를 활용하여 그래프의 숨겨진 관계를 예측합니다. 최근에, 그래프 기반 계산 방법들이 생물의학 개념24,25, 약물 용도 변경 및 개발(26,27,28), 그리고 단백질체학 데이터(29)로부터의 임상적 의사결정을 위한 통합 및 조직화를 포함하는 생물학적 설정에 적용되었다.

지식 그래프 구성 설정에서 CaseOLAP LIFT의 유용성을 입증하기 위해 미토콘드리아 단백질과 8가지 범주의 심혈관 질환 간의 연관성 조사에 대한 사용 사례를 강조합니다. ~362,000개의 질병 관련 문서의 증거를 분석하여 질병과 관련된 상위 미토콘드리아 단백질 및 경로를 식별했습니다. 다음으로, 이러한 단백질, 기능적으로 관련된 단백질 및 텍스트 마이닝 결과를 지식 그래프에 통합했습니다. 이 그래프는 딥러닝 기반 링크 예측 분석에 활용되어 지금까지 생물의학 간행물에서 보고되지 않은 단백질-질병 연관성을 예측했습니다.

소개 섹션에서는 프로토콜의 배경 정보와 목표를 설명합니다. 다음 섹션에서는 계산 프로토콜의 단계에 대해 설명합니다. 이어서, 이 프로토콜의 대표적인 결과가 설명된다. 마지막으로 계산 프로토콜 사용 사례, 장점, 단점 및 향후 응용 프로그램에 대해 간략하게 설명합니다.

Protocol

1. 도커 컨테이너 실행 터미널 창을 사용하고 docker pull caseolap/caseolap_lift:latest를 입력하여 CaseOLAP LIFT Docker 컨테이너를 다운로드합니다. 모든 프로그램 데이터와 출력을 저장할 디렉토리를 만듭니다 (예 : mkdir caseolap_lift_shared_folder). 폴더의 전체 파일 경로(예: /Users/caseolap/caseolap_lift_shared_folder)를 사용하여 docker run –name caseolap_lift -it -v PATH_TO_FOLDER:/caseolap_lift_shared_folder caseolap/caseolap_lift:latest PATH_TO_FOLDER bash 명령을 사용하여 docker 컨테이너를 시작합니다. 섹션 2의 향후 명령은 이 터미널 창에서 실행됩니다. 컨테이너 내에서 탄력적 검색을 시작합니다. 새 터미널 창에서 docker exec -it –user elastic caseolap_lift bash /workspace/start_elastic_search.sh를 입력합니다.참고: 이 프로토콜에서 CaseOLAP LIFT는 대화식으로 실행되며 모든 단계는 순차적으로 수행됩니다. 이 분석은 매개 변수 파일로 전달하여 종단 간 실행할 수도 .txt. 이 연구에 사용된 매개 변수.txt / workspace/caseolap_lift/parameters.txt에 있습니다. 각 단계에 대한 자세한 내용을 보려면 – -help 플래그를 사용하여 명령을 실행하거나 GitHub 리포지토리(https://github.com/CaseOLAP/caseolap_lift)의 설명서를 참조하세요. 2. 질병 및 단백질 준비 cd /workspace/가 있는 caseolap_lift 폴더로 이동합니다caseolap_lift config/knowledge_base_links.json의 다운로드 링크가 최신 상태이고 각 기술 자료 리소스의 최신 버전에 대해 정확한지 확인합니다. 기본적으로 파일은 한 번만 다운로드됩니다. 이러한 파일을 업데이트하고 다시 다운로드하려면 2.4단계에서 -r을 사용하여 전처리 단계를 실행합니다. 이 연구에 사용할 GO 용어 및 질병 범주를 결정합니다. 모든 GO 항과 MeSH 식별자에 대한 식별자는 각각 http://geneontology.org/ 및 https://meshb.nlm.nih.gov/ 에서 찾을 수 있습니다. 명령줄 옵션을 사용하여 전처리 모듈을 실행합니다. 이 전처리 단계는 특정 질병을 조합하고, 연구할 단백질을 나열하고, 텍스트 마이닝을 위한 단백질 동의어를 수집합니다. -c 플래그를 사용하여 사용자 정의 연구된 GO 항을 표시하고 – d 플래그를 사용하여 질병 MeSH 트리 번호를 표시하고 -a로 약어를 지정합니다.예제 명령:파이썬 caseolap_lift.py 전처리 -a “CM ARR CHD VD IHD CCD VOO OTH” -d “C14.280.238, C14.280.434 C14.280.067, C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195, C14.280.282, C14.280.383, C14.280.470,C14.280.945,C14.280.459,C14.280.720” -c “GO:0005739” –include-synonyms –include-ppi -k 1 -s 0.99 –include-pw -n 4 -r 0.5 –include-tfd 출력 폴더에서 이전 단계의 범주.txt, core_proteins.txt 및 proteins_of_interest.txt 파일을 검사합니다. 범주.txt의 모든 질병 범주가 정확하고 core_proteins.txt 및 proteins_of_interest.txt 내에서 적절한 양의 단백질이 식별되는지 확인합니다. 필요한 경우 단계 2.4를 반복하고 더 많거나 적은 수의 단백질을 포함하도록 파라미터를 수정합니다.참고: 연구에 포함된 단백질의 수는 단백질-단백질 상호작용, 공유 반응기 경로가 있는 단백질 및 전사 인자 의존성이 있는 단백질을 포함하는 –include-ppi, –include-pw 및 –include-tfd 플래그에 의해 결정됩니다. 특정 기능은 -k, -s, -n 및 -r과 같은 추가 플래그로 지정됩니다(문서 참조). 3. 텍스트 마이닝 이전 단계의 범주.txt, core_proteins.txt 및 proteins_of_interest.txt 파일이 출력 폴더에 있는지 확인합니다. 이러한 파일을 텍스트 마이닝을 위한 입력으로 사용합니다. 선택적으로 config 폴더에서 문서 구문 분석 및 인덱싱과 관련된 구성을 조정합니다. 구성 및 문제 해결에 대한 자세한 내용은 이전 버전의 CaseOLAP 프로토콜을 참조하십시오8. python caseolap_lift.py text_mining로 text-mining 모듈을 실행합니다. -l 플래그를 추가하여 분류되지 않은 문서의 주제를 대체하고 -t 플래그를 추가하여 질병 관련 문서의 전체 텍스트를 다운로드하십시오. 다른 선택적 플래그는 다운로드할 출판물의 날짜 범위를 지정하고(-d) 단백질 이름을 스크리닝하는 옵션을 제공합니다(3.3단계에서 설명). 구문 분석된 문서의 샘플은 그림 3에 나와 있습니다.예제 명령: python caseolap_lift.py text_mining -d “2012-10-01,2022-10-01” -l -t참고: 계산 프로토콜 시간의 대부분은 3.2단계에서 소요되며, 이 시간은 24시간 이상일 수 있습니다. 런타임은 다운로드할 텍스트 모음의 크기에 따라 달라지며, 날짜 범위와 레이블 대체 및 전체 텍스트 기능을 사용할 수 있는지 여부에 따라 달라집니다. (권장) 단백질 이름을 스크리닝합니다. 질병 관련 간행물에서 확인된 단백질 이름은 단백질 질병 연관성에 기여하지만 위양성(즉, 다른 단어와의 동음이의어)이 발생하기 쉽습니다. 이 문제를 해결하려면 블랙리스트(config/remove_these_synonyms.txt)에 가능한 동음이의어를 열거하여 다운스트림 단계에서 제외되도록 합니다.검사할 이름 찾기: 결과 폴더 아래에서 관심 있는 점수에 따라 all_proteins 또는 core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt)에서 빈도가 가장 높은 단백질 이름과 ranked_proteins의 폴더에서 가장 높은 점수를 받은 단백질 이름을 찾습니다. 이름이 많은 경우 점수가 가장 높은 이름을 검사하는 우선 순위를 지정합니다. 이름 검사: python caseolap_lift.py text_mining -c 다음에 단백질 이름을 입력하여 최대 10개의 이름 포함 발행물을 표시합니다. 그런 다음 각 이름에 대해 이름이 단백질 특이적인지 확인합니다. 점수 다시 계산: python caseolap_lift.py text_mining -s를 입력합니다. 3.1단계의 이름이 올바르게 나타날 때까지 3.1단계, 3.2단계 및 3.3단계를 반복합니다. 4. 결과 분석 텍스트 마이닝 결과가 분석 단계의 입력으로 사용될 결과 폴더(예: result /all_proteins 및 result/core_proteins 디렉터리 및 관련 파일)에 있는지 확인합니다. 구체적으로, 각 단백질-질환 연관성의 강도를 나타내는 점수가 카세올라프.csv 텍스트 마이닝의 결과에 보고되어 있다. GO 용어 관련 단백질만 포함하도록 –analyze_core_proteins 를 지정하거나 기능적으로 관련된 모든 단백질을 포함하도록 –analyze_all_proteins 를 지정하여 분석에 사용할 텍스트 마이닝 결과 집합을 나타냅니다. 각 질병에 대한 상위 단백질과 경로를 식별합니다. 유의미한 단백질-질병 연관성은 점수가 지정된 임계값을 초과하는 것으로 정의됩니다. Z-점수는 각 질병 범주 내에서 CaseOLAP 점수를 변환하고 지정된 임계값( -z 플래그로 표시됨)을 초과하는 점수를 가진 단백질을 유의한 것으로 간주합니다.참고: 각 질병에 중요한 생물학적 경로는 반응기 경로 분석을 위한 입력으로 중요한 단백질을 사용하여 자동으로 식별됩니다. 이러한 모든 단백질은 analysis_results 폴더의 결과 result_table.csv에 보고되고 관련 수치 및 경로 분석 결과는 analysis_results 폴더에 자동으로 생성됩니다.예제 명령: python caseolap_lift.py analyze_results -z 3.0 –analyze_core_proteins 해석 결과를 검토하고 필요에 따라 조정합니다. 단백질의 수와 따라서 각 질병 범주에 중요한 농축 반응기 경로는 분석에 사용된 z-점수 임계값에 따라 달라집니다. output/analysis_results/zscore_cutoff_table.csv에서 생성된 z-점수 표는 각 질병 범주에 중요한 여러 단백질을 산출하면서 가능한 한 높은 z-점수 임계값을 선택하는 데 도움이 되도록 각 질병 범주에 중요한 단백질의 수를 나타냅니다. 5. 예측 분석 지식 그래프를 구성합니다.전처리(2.4단계)에서 생성된 kg 폴더와 all_proteins 또는 core_proteins 폴더(3.2단계) 아래의 텍스트 마이닝 결과에서 생성된 caseolap.csv을 포함하여 필요한 파일이 results 폴더에 있는지 확인합니다. 지식 그래프를 디자인합니다. 다운스트림 작업에 따라 전체 지식 그래프의 구성 요소를 포함하거나 제외합니다. 지식 그래프는 텍스트 마이닝의 단백질 질병 점수와 2.4단계에서 사용된 지식 기반 리소스에 대한 연결로 구성됩니다(그림 4). –include_mesh 플래그가 있는 MeSH 질병 트리, –include_ppi가 있는 STRING의 단백질-단백질 상호 작용, –include_pw가 있는 공유 반응기 경로, –include_tfd가 있는 GRNdb/GTEx의 전사 인자 의존성을 포함합니다. 지식 그래프 생성 모듈을 실행합니다. GO 용어 관련 단백질만 포함하려면 –analyze_core_proteins 를 지정하거나 기능적으로 관련된 모든 단백질을 포함하려면 –analyze_all_proteins 를 지정하여 분석에 사용할 텍스트 마이닝 결과 집합을 나타냅니다. 기본적으로 원시 CaseOLAP 점수는 단백질과 질병 노드 사이의 가장자리 가중치로 로드됩니다. 간선 가중치를 스케일링하려면 –use_z_score 또는 음수가 아닌 z-점수를 –scale_z_score로 표시합니다.예제 명령: python caseolap_lift.py prepare_knowledge_graph –scale_z_score 새로운 단백질-질병 연관성을 예측합니다.지식 그래프 파일 merged_edges.tsv 및 merged_nodes.tsv가 이전 단계(5.1.3단계)의 출력인지 확인합니다. python kg_analysis/run_kg_analysis.py를 입력하여 지식 그래프 예측 스크립트를 실행하여 지금까지 과학 문헌 내에서 보고되지 않은 단백질-질병 연관성을 예측합니다. 이것은 GraPE30으로 구현되며 DistMult31을 사용하여 다층 퍼셉트론이 단백질-질병 연관성을 예측하는 데 사용하는 지식 그래프 임베딩을 생성합니다. output/kg_analysis 폴더에는 예측 확률 >0.90(predictions.csv)과 모델 평가 지표(eval_results.csv)가 있는 예측이 저장됩니다.참고: 이 작업에서 선택한 모델 매개변수(예: 임베딩 방법, 링크 예측 모델, 하이퍼파라미터)는 대표 연구에 맞게 조정되었습니다. 이 코드는 다른 분석의 예이자 시작점 역할을 합니다. 모델 매개변수를 탐색하려면 GraPE의 설명서(https://github.com/AnacletoLAB/grape)를 참조하십시오.

Representative Results

대표적인 결과는 미토콘드리아 단백질(표 2)과 8가지 심혈관 질환 범주(표 3) 간의 연관성을 연구하기 위해 이 프로토콜에 따라 생성되었습니다. 이 범주에서 2012년부터 2022년 10월까지 출판된 363,567개의 출판물을 찾았습니다(MeSH 메타데이터로 분류된 362,878개, 레이블 대체로 분류된 6,923개). 모든 출판물에는 제목이 있었고, 276,524개에는 초록이 있었고, 51,065개에는 전문이 있었습니다. 전반적으로, 1,687 개의 쿼리 된 미토콘드리아 단백질 중 584 개가 간행물 내에서 확인되었으며, 8,026 개의 쿼리된 기능적으로 관련된 단백질 중 3,284 개가 확인되었습니다. 총 14개의 고유한 단백질이 모든 질병 범주에서 유의미한 점수로 확인되었으며 z-점수 임계값은 3.0이었습니다(그림 5). 이러한 단백질의 리액텀 경로 분석은 모든 질병에 중요한 12개의 경로를 밝혀냈습니다(그림 6). 모든 단백질, 경로, 질병 및 점수는 지식 그래프에 통합되었습니다(표 4). 이 지식 그래프는 12,688개의 새로운 단백질-질병 연관성을 예측하는 데 활용되었으며 0.90의 확률 점수로 필터링되어 1,583개의 높은 신뢰도 예측을 산출했습니다. 두 가지 단백질-질병 연관성의 강조된 예가 그림 7에 나와 있으며, 단백질과 기능적으로 관련된 다른 관련 생물학적 개체의 맥락에서 설명됩니다. 모델 평가 메트릭은 표 5에 보고됩니다. 그림 1: 워크플로의 동적 보기. 이 그림은 이 워크플로의 네 가지 주요 단계를 나타냅니다. 먼저, 관련 단백질은 사용자가 제공한 GO 용어(예: 세포 성분)를 기반으로 큐레이팅되고, 질병 범주는 사용자가 제공한 질병 MeSH 식별자를 기반으로 준비됩니다. 둘째, 단백질과 질병 간의 연관성은 텍스트 마이닝 단계에서 계산됩니다. 특정 날짜 범위 내의 출판물은 다운로드되고 인덱싱됩니다. 질병 연구 출판물은 (MeSH 라벨을 통해 , 선택적으로 귀속된 라벨을 통해 ) 식별되며, 전체 텍스트가 다운로드되고 색인이 생성됩니다. 단백질 이름은 출판물 내에서 쿼리되고 단백질-질병 연관성 점수를 계산하는 데 사용됩니다. 다음으로, 텍스트 마이닝 후, 이 점수는 상위 단백질 및 경로 연관성을 식별하는 데 도움이 됩니다. 마지막으로, 이러한 단백질, 질병 및 생물 의학 지식 기반 내에서의 관계를 포괄하는 지식 그래프가 구성됩니다. 새로운 단백질-질병 연관성은 구성된 지식 그래프를 기반으로 예측됩니다. 이 단계에서는 생물 의학 지식 기반 및 PubMed에서 가장 최근에 사용 가능한 데이터를 사용합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 2: 워크플로의 기술 아키텍처. 이 워크플로의 기술적 세부 사항은 이 그림에 설명되어 있습니다. 사용자는 질병 카테고리 및 GO 용어의 MeSH 트리 번호를 제공합니다. 텍스트 문서는 PubMed에서 다운로드되고, 질병 관련 문서는 제공된 MeSH 레이블을 기반으로 식별되며, 주제 표시 MeSH 레이블이 없는 문서는 귀속된 범주 레이블을 받습니다. 제공된 GO 용어와 관련된 단백질이 획득됩니다. 이 단백질 세트는 단백질-단백질 상호 작용, 공유 생물학적 경로 및 전사 인자 의존성을 통해 기능적으로 관련된 단백질을 포함하도록 확장됩니다. 이 단백질은 질병 관련 문서 내에서 쿼리되고 CaseOLAP에 의해 점수가 매겨집니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 3: 처리된 문서의 예. 구문 분석되고 인덱싱된 텍스트 문서의 예가 여기에 나와 있습니다. 순서대로 관련 필드는 색인 이름(_index, _type), PubMed ID(_id, pmid), 문서 하위 섹션(제목, 초록, full_text, 소개, 방법, 결과, 토론) 및 기타 메타데이터(연도, MeSH, 위치, 저널)를 나타냅니다. 표시 목적으로만 문서 하위 섹션은 줄임표로 잘립니다. MeSH 필드에는 문서 주제가 포함되어 있으며, 이는 레이블 대체 단계에서 제공될 수 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 4: 지식 그래프 스키마 및 생물의학 리소스. 이 그림은 지식 그래프 스키마를 보여 줍니다. 각 노드와 에지는 각각 노드 또는 에지 유형을 나타냅니다. 심혈관 질환(CVD)과 단백질 사이의 경계는 CaseOLAP 점수에 의해 가중치가 부여됩니다. 단백질-단백질 상호 작용(PPI) 가장자리는 STRING 신뢰도 점수에 의해 가중치가 부여됩니다. GRNdb/GTEx 유래 전사 인자 의존성(TFD) 가장자리, MeSH 유래 질병 트리 가장자리 및 반응기 유래 경로 가장자리는 가중치가 적용되지 않습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 5: 주요 단백질-질병 연관성. 이 그림은 각 질병 범주에 중요한 미토콘드리아 단백질을 나타냅니다. Z-점수 변환은 3.0의 임계값을 사용하여 중요한 단백질을 식별하기 위해 각 범주 내의 CaseOLAP 점수에 적용되었습니다. (맨 위) 각 질병에 중요한 미토콘드리아 단백질의 수: 이 바이올린 플롯은 각 질병 범주의 단백질에 대한 z-점수의 분포를 나타냅니다. 각 질병 범주에 유의한 단백질의 총 수는 각 바이올린 플롯 위에 표시됩니다. 총 14개의 고유한 단백질이 모든 질병에 걸쳐 유의한 것으로 확인되었으며 일부 단백질은 여러 질병에 유의했습니다. (아래) 최고 점수 단백질: 히트맵은 모든 질병에서 가장 높은 평균 z-점수를 얻은 상위 10개 단백질을 표시합니다. 블랭크 값은 단백질과 질환 사이에 획득된 점수가 없음을 나타낸다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 6: 주요 경로-질병 연관성. 이 그림은 반응기 경로 분석을 통해 결정된 연구된 질병 범주와 관련된 상위 생물학적 경로를 보여줍니다. 모든 경로 분석은 p < 0.05로 필터링되었습니다. 히트맵 값은 경로 내의 모든 단백질의 평균 z-점수를 나타냅니다. (맨 위) 모든 질병 중에서 보존된 경로: 전체적으로, 14개의 단백질이 모든 질병 범주와 관련이 있는 것으로 확인되었고, 모든 질병 범주 중에서 12개의 보존된 경로가 밝혀졌다. 덴드로그램은 유사한 생물학적 기능을 가진 경로를 연결하기 위해 경로 계층 구조를 기반으로 구성되었습니다. 덴드로그램 높이는 경로 계층 구조 내의 상대적 깊이를 나타냅니다. 광범위한 생물학적 기능은 팔다리가 더 길고 더 구체적인 경로는 팔다리가 더 짧습니다. (아래) 질병 범주와 구별되는 경로: 경로 분석은 각 질병에서 유의미한 z-점수를 달성하는 단백질을 사용하여 수행되었습니다. 각 질병과 관련된 p-값이 가장 낮은 상위 3개 경로가 별표로 표시되고 표시됩니다. 경로는 여러 질병에서 상위 3위 안에 들 수 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 7: 지식 그래프 완성을 위한 딥 러닝 적용. 질병별 지식 그래프에 딥러닝을 적용하는 예가 이 그림에 나와 있습니다. 단백질과 질병 사이의 숨겨진 관계가 예측되며 이는 파란색으로 표시됩니다. 두 예측에 대해 계산된 확률이 표시되며, 값의 범위는 0.0에서 1.0까지이고 1.0은 강력한 예측을 나타냅니다. 단백질-단백질 상호작용, 전사 인자 의존성 및 공유된 생물학적 경로를 나타내는 알려진 상호작용을 가진 여러 단백질이 포함됩니다. 시각화를 위해 강조 표시된 예제와 관련된 몇 개의 노드에 대한 하위 그래프가 표시됩니다. 키: IHD = 허혈성 심장 질환; R-HSA-1430728 = 대사; O14949 = 시토크롬 b-c1 복합체 서브유닛 8; P17568 = NADH 탈수소효소 (유비퀴논) 1 베타 서브컴플렉스 서브유닛 7; Q9NYF8 Bcl-2 관련 전사 인자 1, 점수: 7.24 x 10-7; P49821 = NADH 탈수소효소(유비퀴논) 플라보단백질 1, 미토콘드리아, 점수: 1.06 x 10-5; P31930 = 시토크롬 b-c1 복합체 서브유닛 1, 미토콘드리아, 점수: 4.98 x 10-5; P99999 = 시토크롬 c, 점수: 0.399. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 표 1: 워크플로 및 속도 제한 단계. 이 표에는 워크플로의 각 단계에 대한 계산 시간의 대략적인 추정치가 나와 있습니다. 파이프라인의 구성 요소를 포함하는 옵션은 분석을 완료하는 데 필요한 총 런타임을 변경합니다. 총 예상 시간은 하드웨어 사양 및 소프트웨어 설정을 포함하여 사용 가능한 계산 리소스에 따라 달라집니다. 대략적인 추정치로 프로토콜은 6개의 코어, 32Gb의 RAM 및 2Tb의 스토리지가 있는 컴퓨팅 서버에서 실행하는 데 36시간의 활성 런타임이 걸렸지만 다른 장치에서는 더 빠르거나 느릴 수 있습니다. 이 표를 다운로드하려면 여기를 클릭하십시오. 표 2: 세포 구성 요소 단백질의 자동 조립. 이 표는 주어진 세포 구성 요소(즉, GO 항)와 관련된 단백질의 수, 단백질-단백질 상호작용(PPI), 공유 경로(PW) 및 전사 인자 의존성(TFD)을 통해 기능적으로 관련된 단백질의 수를 보여줍니다. 총 단백질의 수는 이전의 모든 범주를 합친 단백질의 수입니다. 기능적으로 관련된 모든 단백질은 CaseOLAP LIFT의 기본 매개변수를 사용하여 얻었습니다. 이 표를 다운로드하려면 여기를 클릭하십시오. 표 3: MeSH 레이블 대체 통계. 이 표에는 질병 범주, 범주에 포함된 모든 질병의 상위 용어로 사용된 MeSH 트리 번호, 2012-2022년 각 범주에서 발견된 PubMed 문서 수 및 레이블 대체 단계에 따라 포함된 추가 문서 수가 표시됩니다. 이 표를 다운로드하려면 여기를 클릭하십시오. 표 4: 지식 그래프 구성 통계. 이 표는 다양한 노드 및 간선 유형을 포함하여 구성된 지식 그래프의 크기에 대한 통계를 설명합니다. CaseOLAP 점수는 단백질과 심혈관 질환(CVD) 범주 간의 관계를 나타냅니다. 이 표를 다운로드하려면 여기를 클릭하십시오. 표 5: 지식 그래프 예측 통계 및 검증. 이 표는 새로운/숨겨진 단백질-질병 연관성의 지식 그래프 링크 예측에 대한 평가 메트릭을 보고합니다. 지식 그래프 에지는 70/30 학습 및 테스트 데이터 세트로 분할되었으며 에지의 그래프 연결은 두 데이터 세트에서 모두 유지되었습니다. 정확도는 올바르게 분류된 예측의 비율을 나타내고 균형 잡힌 정확도는 클래스 불균형을 수정합니다. 특이성은 올바르게 분류된 부정적인 예측의 비율을 나타냅니다. 정밀도는 모든 긍정 예측에서 올바른 긍정 예측의 비율을 나타내는 반면, 재현율은 모든 긍정 가장자리(즉, 텍스트 마이닝을 통해 식별된 단백질-질병 연관성) 중에서 올바른 긍정 예측의 비율을 나타냅니다. F1 점수는 정밀도와 재현율의 조화 평균입니다. AUROC(수신기 작동 특성 곡선) 아래 영역은 모델이 양성 예측과 음성 예측을 얼마나 잘 구분하는지 설명하며, 1.0은 완벽한 분류기를 나타냅니다. 정밀도-재현율 곡선(AUPRC) 아래 영역은 다양한 확률 임계값에서 정밀도와 재현율 간의 균형을 측정하며, 값이 높을수록 성능이 우수함을 나타냅니다. 이 표를 다운로드하려면 여기를 클릭하십시오.

Discussion

CaseOLAP LIFT는 연구자들이 기능성 단백질(예: 세포 구성 요소, 생물학적 과정 또는 분자 기능과 관련된 단백질)과 생물학적 범주(예: 질병) 간의 연관성을 조사할 수 있도록 합니다. 설명된 프로토콜은 지정된 순서로 실행되어야 하며, 프로토콜 섹션 4 및 프로토콜 섹션 5는 결과에 따라 달라지므로 프로토콜 섹션 2 및 프로토콜 섹션 3이 가장 중요한 단계입니다. 프로토콜 섹션 1의 대안으로 CaseOLAP LIFT 코드는 GitHub 리포지토리(https://github.com/CaseOLAP/caseolap_lift)에서 복제하고 액세스할 수 있습니다. 소프트웨어 개발 중 테스트에도 불구하고 버그가 발생할 수 있습니다. 그렇다면 실패한 단계를 반복해야 합니다. 문제가 지속되면 프로토콜 섹션 1을 반복하여 최신 버전의 Docker 컨테이너가 사용되도록 하는 것이 좋습니다. 추가 지원을 위해 GitHub 리포지토리에서 문제를 만들어 추가 지원을 받을 수 있습니다.

이 방법은 조사자가 관심 있는 개체를 식별하고 기존 생물의학 리소스에서 쉽게 액세스할 수 없는 이들 간의 잠재적 연관성을 밝힐 수 있도록 하여 가설 생성을 지원합니다. 그 결과 단백질-질병 연관성을 통해 연구자들은 점수의 해석 가능한 지표를 통해 새로운 통찰력을 얻을 수 있습니다: 인기 점수는 질병과 관련하여 가장 많이 연구된 단백질을 나타내고, 고유성 점수는 단백질에 가장 고유한 질병을 나타내며, 결합된 CaseOLAP 점수는 이 둘의 조합입니다. 거짓 양성 식별(예: 동음이의어로 인한)을 방지하기 위해 일부 텍스트 마이닝 도구는 9,11을 피하기 위해 용어 블랙리스트를 사용합니다. 마찬가지로 CaseOLAP LIFT도 블랙리스트를 활용하지만 사용자가 블랙리스트를 사용 사례에 맞게 조정할 수 있습니다. 예를 들어, 관상 동맥 질환 (CAD)을 연구 할 때, “CAD”는 단백질 “카스파 아제 활성화 데 옥시 리보 뉴 클레아제”의 이름으로 간주되어서는 안됩니다. 그러나 다른 주제를 연구할 때 “CAD”는 일반적으로 단백질을 가리킬 수 있습니다.

CaseOLAP LIFT는 텍스트 마이닝에 사용할 수 있는 데이터의 양에 맞게 조정됩니다. 날짜 범위 기능은 계산 부담을 완화하고 가설 생성을 위한 유연성을 제공합니다(예: 단백질-질병 연관성에 대한 과학적 지식이 시간이 지남에 따라 어떻게 변했는지 연구). 한편, 레이블 대체 및 전체 텍스트 구성 요소는 텍스트 마이닝에 사용할 수 있는 데이터의 범위를 향상시킵니다. 계산 비용을 줄이기 위해 두 구성 요소 모두 기본적으로 비활성화되어 있지만 사용자는 두 구성 요소 중 하나를 포함하도록 결정할 수 있습니다. 레이블 대체는 보수적이며 대부분의 출판물을 올바르게 분류하지만(87% 정밀도) 다른 범주 레이블을 놓치고 있습니다(2% 재현율). 이 방법은 현재 질병 키워드를 일치시키는 규칙 기반 휴리스틱에 의존하고 있으며, 문서 토픽 모델링 기법을 사용하여 성능을 향상시킬 계획입니다. 분류되지 않은 많은 보고서가 최근 출판물인 경향이 있기 때문에 최근 날짜 범위(예: 지난 3년 이내의 모든 출판물)를 조사하는 연구는 레이블 대체를 비활성화하는 것이 더 좋습니다. 전체 텍스트 구성 요소는 런타임 및 저장소 요구 사항을 증가시킵니다. 특히, 소수의 문서만이 전체 텍스트를 사용할 수 있습니다(우리 연구에서 문서의 ~14%). 간행물의 방법 섹션에 언급된 단백질 이름이 질병 주제와 관련될 가능성이 적다고 가정하면 방법 섹션을 제외한 전체 텍스트 기사를 쿼리하는 것이 좋습니다.

결과 단백질-질병 연관성 점수는 클러스터링, 차원 감소 또는 농축 분석(예: GO, 경로)과 같은 기존 분석에 유용하며 일부 구현은 이 소프트웨어 패키지에 포함되어 있습니다. 기존 생물의학 지식 내에서 이러한 점수를 맥락화하기 위해 지식 그래프가 자동으로 구성되고 그래프 시각화 도구(예: Neo4j32, Cytoscape33)를 사용하여 탐색할 수 있습니다. 지식 그래프는 예측 분석(예: 보고되지 않은 단백질-질병 관계의 링크 예측, 단백질 네트워크의 군집 감지, 상금 수집 경로 보행 방법)에도 사용할 수 있습니다.

우리는 예측된 단백질-질병 연관성에 대한 모델 평가 메트릭을 조사했습니다(표 5). 이 모델은 각 단백질-질병 연관성에 0.0에서 1.0 사이의 확률 점수를 할당하며, 점수가 1.0에 가까울수록 예측에 대한 신뢰도가 높음을 나타냅니다. AUROC, 정확도, 균형 정확도, 특이성, 재현율 등 다양한 지표를 기반으로 한 모델 성능에 대한 내부 평가는 그의 작업에서 전반적으로 우수한 성능을 나타냈다. 그러나 평가는 또한 모델의 정밀도(0.15)에 대해 다소 낮은 점수를 강조하여 AUPRC 및 F1 점수가 모두 낮아졌습니다. 이 메트릭을 개선하기 위한 향후 연구는 모델의 전반적인 성능을 높이는 데 도움이 될 것입니다. 우리는 보다 정교한 지식 그래프 임베딩 및 그래프 예측 모델을 구현함으로써 이를 달성할 수 있다고 생각합니다. 모델의 정밀도 0.15를 기반으로 조사관은 약 15%의 긍정적인 식별을 예상해야 합니다. 특히, 모델에 의해 예측된 모든 12,688개의 단백질-질병 연관성 중 약 15%가 진양성 연관성입니다. 이는 높은 확률 점수(예: >0.90)를 갖는 단백질-질병 연관성만을 고려함으로써 완화될 수 있습니다. 이 사용 사례에서 확률 임계값 0.90으로 필터링하면 1,583개의 연결에 대한 신뢰도가 높은 예측이 이루어졌습니다. 조사관은 높은 타당성을 보장하기 위해 이러한 예측을 수동으로 검사하는 것이 도움이 될 수도 있습니다(예: 그림 7 참조). 예측에 대한 외부 평가에 따르면 광범위한 큐레이팅 된 데이터베이스 DisGeNet 19의 310 개의 단백질 질환 연관성 중103 개가 텍스트 마이닝 연구에서 확인되었으며 88 개의 추가 연관성이 확률 점수 >0.90으로 지식 그래프 분석에 의해 예측되었습니다.

전반적으로 CaseOLAP LIFT는 큰 텍스트 말뭉치에서 기능성 단백질 그룹과 여러 범주의 질병 간의 연관성에 대한 맞춤형 분석을 설계할 때 향상된 유연성과 유용성을 제공합니다. 이 패키지는 새로운 사용자 친화적인 명령줄 인터페이스로 간소화되었으며 도커 컨테이너로 출시되어 프로그래밍 환경 및 소프트웨어 종속성 구성과 관련된 문제를 줄입니다. 심혈관 질환에서 미토콘드리아 단백질을 연구하기 위한 CaseOLAP LIFT 파이프라인은 쉽게 적응할 수 있습니다. 예를 들어, 이 기술의 향후 적용에는 GO 용어와 관련된 모든 단백질과 모든 생물의학 범주 간의 연관성을 조사하는 것이 포함될 수 있습니다. 또한, 이 텍스트 마이닝 플랫폼에서 식별된 순위가 매겨진 단백질-질병 연관성은 고급 자연어 기술을 사용하기 위한 데이터 세트를 준비하는 데 중요합니다. 결과 지식 그래프를 통해 연구자는 이러한 결과를 생물학적 정보 지식으로 변환하고 후속 그래프 기반 분석의 토대를 마련할 수 있습니다.

Disclosures

The authors have nothing to disclose.

Acknowledgements

이 작업은 국립 보건원 (NIH) R35 HL135772에서 PP로, NIH T32 HL13945에서 ARP 및 DS, NIH T32 EB016640에서 ARP로, 국립 과학 재단 연구 연수생 (NRT)이 ARP 및 DS에 1829071, I.A., J.R., A.V., K.B. 및 UCLA의 TC Laubisch Endowment에 대한 NIH R01 HL146739.

Materials

Software – Docker Docker N/A docker.com

References

  1. The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
  2. Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
  3. Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
  4. Rehm, H. L., et al. ClinGen – The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
  5. Caulfield, M., et al. . The National Genomics Research and Healthcare Knowledgebase. , (2019).
  6. Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
  7. Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043 (2017).
  8. Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108 (2019).
  9. Yu, K. -. H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
  10. Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
  11. Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
  12. Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
  13. Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135 (2021).
  14. Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680 (2016).
  15. Wei, C. -. H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
  16. Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171 (2013).
  17. Wei, C. -. H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
  18. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
  19. Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
  20. Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
  21. Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
  22. Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
  23. Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
  24. Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96 (2021).
  25. Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304 (2022).
  26. Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726 (2017).
  27. Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
  28. Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118 (2021).
  29. Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
  30. Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
  31. Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
  32. . Neo4j Graph Data Platform Available from: https://neo4j.com/ (2022)
  33. Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Play Video

Cite This Article
Pelletier, A. R., Steinecke, D., Sigdel, D., Adam, I., Caufield, J. H., Guevara-Gonzalez, V., Ramirez, J., Verma, A., Bali, K., Downs, K., Wang, W., Bui, A., Ping, P. A Knowledge Graph Approach to Elucidate the Role of Organellar Pathways in Disease via Biomedical Reports. J. Vis. Exp. (200), e65084, doi:10.3791/65084 (2023).

View Video