생물 의학 보고서에 설명된 대로 미토콘드리아 단백질 및 심혈관 질환과의 연관성을 조사하기 위한 계산 프로토콜인 CaseOLAP LIFT 및 사용 사례가 제시됩니다. 이 프로토콜은 사용자가 선택한 세포 구성 요소 및 질병을 연구하는 데 쉽게 적용할 수 있습니다.
빠르게 증가하는 방대한 양의 생물 의학 보고서는 각각 수많은 엔티티와 풍부한 정보를 포함하고 있으며 생물 의학 텍스트 마이닝 응용 프로그램을위한 풍부한 리소스를 나타냅니다. 이러한 도구를 통해 연구자는 이러한 발견을 통합, 개념화 및 번역하여 질병 병리학 및 치료법에 대한 새로운 통찰력을 발견할 수 있습니다. 이 프로토콜에서는 텍스트 데이터 세트(예: 생물 의학 문헌)에서 사용자가 선택한 정보를 추출하여 세포 구성 요소와 질병 연관성을 조사하는 새로운 계산 파이프라인인 CaseOLAP LIFT를 제시합니다. 이 소프트웨어는 질병 관련 문서 내에서 세포 내 단백질과 그 기능적 파트너를 식별합니다. 추가 질병 관련 문서는 소프트웨어의 라벨 대체 방법을 통해 식별됩니다. 결과적인 단백질-질병 연관성을 맥락화하고 여러 관련 생물 의학 리소스의 정보를 통합하기 위해 추가 분석을 위해 지식 그래프가 자동으로 구성됩니다. 우리는 이 방법을 사용하여 뚜렷한 심혈관 질환 표현형에서 미토콘드리아 단백질의 역할을 설명하는 예를 제공하기 위해 온라인으로 다운로드한 ~3,400만 개의 텍스트 문서 말뭉치와 함께 한 가지 사용 사례를 제시합니다. 또한 딥 러닝 모델을 결과 지식 그래프에 적용하여 이전에 보고되지 않은 단백질과 질병 간의 관계를 예측하여 예측 확률>0.90 및 AUROC(AUROC) 아래 면적이 테스트 세트에서 0.91인 1,583개의 연관성을 얻었습니다. 이 소프트웨어는 분석에 사용할 수 있는 광범위한 원시 데이터와 함께 고도로 사용자 정의 가능하고 자동화된 워크플로를 제공합니다. 따라서 이 방법을 사용하면 텍스트 말뭉치 내에서 향상된 신뢰성으로 단백질-질병 연관성을 식별할 수 있습니다.
질병 관련 단백질을 연구하면 병인에 대한 과학적 지식이 향상되고 잠재적인 치료법을 식별하는 데 도움이 됩니다. 출판 제목, 초록 및 전체 텍스트 문서가 포함된 PubMed의 3,400만 개의 기사와 같은 여러 대규모 생물의학 출판물 모음은 단백질과 질병을 연결하는 새로운 발견을 보고합니다. 그러나 이러한 발견은 다양한 출처에 걸쳐 단편화되어 있으며 새로운 생물 의학적 통찰력을 생성하기 위해 통합되어야 합니다. 단백질-질환 연관성 1,2,3,4,5,6,7을 통합하기 위한 여러 생물의학 자원이 존재한다. 그러나 이러한 선별된 리소스는 종종 불완전하며 최신 연구 결과를 포함하지 않을 수 있습니다. 텍스트 마이닝 접근법은 큰 텍스트 말뭉치에서 단백질-질병 연관성을 추출하고 합성하는 데 필수적이며, 이는 과학 문헌에서 이러한 생물 의학 개념에 대한 보다 포괄적인 이해를 가져올 것입니다.
단백질-질병 관계를 밝히기 위한 다수의 생물의학 텍스트-마이닝 접근법이 존재 하며(8,9,10,11,12,13,14), 그리고 다른 것들은 본문 13,15,16,17에 언급된 단백질, 질병, 또는 다른 생물의학적 실체를 식별함으로써 이러한 관계를 결정하는 데 부분적으로 기여한다. 18,19. 그러나 이러한 도구 중 상당수는 주기적으로 업데이트되는몇 가지를 제외하고는 최신 문헌에 대한 액세스가 부족합니다 8,11,13,15. 유사하게, 많은 도구들은 또한 광범위하게 사전 정의된 질병이나 단백질에 국한되어 있기 때문에 제한된 연구 범위를 가지고 있다 9,13. 또한 텍스트 내에서 거짓 긍정을 식별하는 몇 가지 접근 방식이 있습니다. 다른 사람들은 단백질 이름(9,11) 또는 그 이하의 해석가능한 이름 개체 인식 기술(15,20)의 해석 가능하고 글로벌한 블랙리스트로 이러한 문제를 해결했습니다. 대부분의 리소스는 미리 계산된 결과만 제공하지만 일부 도구는 웹 앱 또는 액세스 가능한 소프트웨어 코드 8,9,11을 통해 상호 작용을 제공합니다.
위의 제한 사항을 해결하기 위해 텍스트 데이터 세트에서 단백질(예: 세포 구성 요소와 관련된 단백질)과 질병 간의 연관성을 조사하기 위한 유연하고 사용자 정의 가능한 플랫폼으로 레이블 대체 및 전체 텍스트가 있는 CaseOLAP 프로토콜(CaseOLAP LIFT)을 제시합니다. 이 플랫폼은 유전자 온톨로지(GO) 용어 특이적 단백질(예: 세포 기관 특이적 단백질)의 자동 큐레이션, 누락된 문서 주제 레이블의 대체, 전체 텍스트 문서 분석, 분석 도구 및 예측 도구를 제공합니다(그림 1, 그림 2 및 표 1). CaseOLAP LIFT는 사용자가 제공한 GO 용어(예: 세포 소기관 구획)를 사용하여 세포 소기관 특이적 단백질을 선별하고 STRING 21, Reactome22 및 GRNdb23을 사용하여 기능적으로 관련된 단백질을 선별합니다. 질병 연구 문서는 PubMed 주석이 달린 의료 주제 헤더(MeSH) 레이블로 식별됩니다. 레이블이 지정되지 않은 문서의 ~15.1%의 경우 제목에서 하나 이상의 MeSH 용어 동의어가 발견되거나 초록에서 두 개 이상이 발견되면 레이블이 귀속됩니다. 이렇게 하면 이전에 분류되지 않은 출판물을 텍스트 마이닝 분석에서 고려할 수 있습니다. CaseOLAP LIFT를 사용하면 사용자가 지정된 기간(예: 2012-2022) 내에 출판물 섹션(예: 제목 및 초록만, 전체 텍스트 또는 방법을 제외한 전체 텍스트)을 선택할 수 있습니다. 또한 이 소프트웨어는 사용 사례별 단백질 이름 블랙리스트를 반자동으로 선별하여 다른 접근 방식에 존재하는 위양성 단백질-질병 연관성을 크게 줄입니다. 전반적으로 이러한 개선은 더 큰 사용자 정의 및 자동화를 가능하게 하고, 분석에 사용할 수 있는 데이터의 양을 확장하며, 대규모 생물 의학 텍스트 말뭉치에서 보다 신뢰할 수 있는 단백질-질병 연관성을 생성합니다.
CaseOLAP LIFT는 생물 의학 지식을 통합하고 지식 그래프를 사용하여 다양한 생물 의학 개념의 관계를 나타내며, 이를 활용하여 그래프의 숨겨진 관계를 예측합니다. 최근에, 그래프 기반 계산 방법들이 생물의학 개념24,25, 약물 용도 변경 및 개발(26,27,28), 그리고 단백질체학 데이터(29)로부터의 임상적 의사결정을 위한 통합 및 조직화를 포함하는 생물학적 설정에 적용되었다.
지식 그래프 구성 설정에서 CaseOLAP LIFT의 유용성을 입증하기 위해 미토콘드리아 단백질과 8가지 범주의 심혈관 질환 간의 연관성 조사에 대한 사용 사례를 강조합니다. ~362,000개의 질병 관련 문서의 증거를 분석하여 질병과 관련된 상위 미토콘드리아 단백질 및 경로를 식별했습니다. 다음으로, 이러한 단백질, 기능적으로 관련된 단백질 및 텍스트 마이닝 결과를 지식 그래프에 통합했습니다. 이 그래프는 딥러닝 기반 링크 예측 분석에 활용되어 지금까지 생물의학 간행물에서 보고되지 않은 단백질-질병 연관성을 예측했습니다.
소개 섹션에서는 프로토콜의 배경 정보와 목표를 설명합니다. 다음 섹션에서는 계산 프로토콜의 단계에 대해 설명합니다. 이어서, 이 프로토콜의 대표적인 결과가 설명된다. 마지막으로 계산 프로토콜 사용 사례, 장점, 단점 및 향후 응용 프로그램에 대해 간략하게 설명합니다.
CaseOLAP LIFT는 연구자들이 기능성 단백질(예: 세포 구성 요소, 생물학적 과정 또는 분자 기능과 관련된 단백질)과 생물학적 범주(예: 질병) 간의 연관성을 조사할 수 있도록 합니다. 설명된 프로토콜은 지정된 순서로 실행되어야 하며, 프로토콜 섹션 4 및 프로토콜 섹션 5는 결과에 따라 달라지므로 프로토콜 섹션 2 및 프로토콜 섹션 3이 가장 중요한 단계입니다. 프로토콜 섹션 1의 대안으로 CaseOLAP LIFT 코드는 GitHub 리포지토리(https://github.com/CaseOLAP/caseolap_lift)에서 복제하고 액세스할 수 있습니다. 소프트웨어 개발 중 테스트에도 불구하고 버그가 발생할 수 있습니다. 그렇다면 실패한 단계를 반복해야 합니다. 문제가 지속되면 프로토콜 섹션 1을 반복하여 최신 버전의 Docker 컨테이너가 사용되도록 하는 것이 좋습니다. 추가 지원을 위해 GitHub 리포지토리에서 문제를 만들어 추가 지원을 받을 수 있습니다.
이 방법은 조사자가 관심 있는 개체를 식별하고 기존 생물의학 리소스에서 쉽게 액세스할 수 없는 이들 간의 잠재적 연관성을 밝힐 수 있도록 하여 가설 생성을 지원합니다. 그 결과 단백질-질병 연관성을 통해 연구자들은 점수의 해석 가능한 지표를 통해 새로운 통찰력을 얻을 수 있습니다: 인기 점수는 질병과 관련하여 가장 많이 연구된 단백질을 나타내고, 고유성 점수는 단백질에 가장 고유한 질병을 나타내며, 결합된 CaseOLAP 점수는 이 둘의 조합입니다. 거짓 양성 식별(예: 동음이의어로 인한)을 방지하기 위해 일부 텍스트 마이닝 도구는 9,11을 피하기 위해 용어 블랙리스트를 사용합니다. 마찬가지로 CaseOLAP LIFT도 블랙리스트를 활용하지만 사용자가 블랙리스트를 사용 사례에 맞게 조정할 수 있습니다. 예를 들어, 관상 동맥 질환 (CAD)을 연구 할 때, “CAD”는 단백질 “카스파 아제 활성화 데 옥시 리보 뉴 클레아제”의 이름으로 간주되어서는 안됩니다. 그러나 다른 주제를 연구할 때 “CAD”는 일반적으로 단백질을 가리킬 수 있습니다.
CaseOLAP LIFT는 텍스트 마이닝에 사용할 수 있는 데이터의 양에 맞게 조정됩니다. 날짜 범위 기능은 계산 부담을 완화하고 가설 생성을 위한 유연성을 제공합니다(예: 단백질-질병 연관성에 대한 과학적 지식이 시간이 지남에 따라 어떻게 변했는지 연구). 한편, 레이블 대체 및 전체 텍스트 구성 요소는 텍스트 마이닝에 사용할 수 있는 데이터의 범위를 향상시킵니다. 계산 비용을 줄이기 위해 두 구성 요소 모두 기본적으로 비활성화되어 있지만 사용자는 두 구성 요소 중 하나를 포함하도록 결정할 수 있습니다. 레이블 대체는 보수적이며 대부분의 출판물을 올바르게 분류하지만(87% 정밀도) 다른 범주 레이블을 놓치고 있습니다(2% 재현율). 이 방법은 현재 질병 키워드를 일치시키는 규칙 기반 휴리스틱에 의존하고 있으며, 문서 토픽 모델링 기법을 사용하여 성능을 향상시킬 계획입니다. 분류되지 않은 많은 보고서가 최근 출판물인 경향이 있기 때문에 최근 날짜 범위(예: 지난 3년 이내의 모든 출판물)를 조사하는 연구는 레이블 대체를 비활성화하는 것이 더 좋습니다. 전체 텍스트 구성 요소는 런타임 및 저장소 요구 사항을 증가시킵니다. 특히, 소수의 문서만이 전체 텍스트를 사용할 수 있습니다(우리 연구에서 문서의 ~14%). 간행물의 방법 섹션에 언급된 단백질 이름이 질병 주제와 관련될 가능성이 적다고 가정하면 방법 섹션을 제외한 전체 텍스트 기사를 쿼리하는 것이 좋습니다.
결과 단백질-질병 연관성 점수는 클러스터링, 차원 감소 또는 농축 분석(예: GO, 경로)과 같은 기존 분석에 유용하며 일부 구현은 이 소프트웨어 패키지에 포함되어 있습니다. 기존 생물의학 지식 내에서 이러한 점수를 맥락화하기 위해 지식 그래프가 자동으로 구성되고 그래프 시각화 도구(예: Neo4j32, Cytoscape33)를 사용하여 탐색할 수 있습니다. 지식 그래프는 예측 분석(예: 보고되지 않은 단백질-질병 관계의 링크 예측, 단백질 네트워크의 군집 감지, 상금 수집 경로 보행 방법)에도 사용할 수 있습니다.
우리는 예측된 단백질-질병 연관성에 대한 모델 평가 메트릭을 조사했습니다(표 5). 이 모델은 각 단백질-질병 연관성에 0.0에서 1.0 사이의 확률 점수를 할당하며, 점수가 1.0에 가까울수록 예측에 대한 신뢰도가 높음을 나타냅니다. AUROC, 정확도, 균형 정확도, 특이성, 재현율 등 다양한 지표를 기반으로 한 모델 성능에 대한 내부 평가는 그의 작업에서 전반적으로 우수한 성능을 나타냈다. 그러나 평가는 또한 모델의 정밀도(0.15)에 대해 다소 낮은 점수를 강조하여 AUPRC 및 F1 점수가 모두 낮아졌습니다. 이 메트릭을 개선하기 위한 향후 연구는 모델의 전반적인 성능을 높이는 데 도움이 될 것입니다. 우리는 보다 정교한 지식 그래프 임베딩 및 그래프 예측 모델을 구현함으로써 이를 달성할 수 있다고 생각합니다. 모델의 정밀도 0.15를 기반으로 조사관은 약 15%의 긍정적인 식별을 예상해야 합니다. 특히, 모델에 의해 예측된 모든 12,688개의 단백질-질병 연관성 중 약 15%가 진양성 연관성입니다. 이는 높은 확률 점수(예: >0.90)를 갖는 단백질-질병 연관성만을 고려함으로써 완화될 수 있습니다. 이 사용 사례에서 확률 임계값 0.90으로 필터링하면 1,583개의 연결에 대한 신뢰도가 높은 예측이 이루어졌습니다. 조사관은 높은 타당성을 보장하기 위해 이러한 예측을 수동으로 검사하는 것이 도움이 될 수도 있습니다(예: 그림 7 참조). 예측에 대한 외부 평가에 따르면 광범위한 큐레이팅 된 데이터베이스 DisGeNet 19의 310 개의 단백질 질환 연관성 중103 개가 텍스트 마이닝 연구에서 확인되었으며 88 개의 추가 연관성이 확률 점수 >0.90으로 지식 그래프 분석에 의해 예측되었습니다.
전반적으로 CaseOLAP LIFT는 큰 텍스트 말뭉치에서 기능성 단백질 그룹과 여러 범주의 질병 간의 연관성에 대한 맞춤형 분석을 설계할 때 향상된 유연성과 유용성을 제공합니다. 이 패키지는 새로운 사용자 친화적인 명령줄 인터페이스로 간소화되었으며 도커 컨테이너로 출시되어 프로그래밍 환경 및 소프트웨어 종속성 구성과 관련된 문제를 줄입니다. 심혈관 질환에서 미토콘드리아 단백질을 연구하기 위한 CaseOLAP LIFT 파이프라인은 쉽게 적응할 수 있습니다. 예를 들어, 이 기술의 향후 적용에는 GO 용어와 관련된 모든 단백질과 모든 생물의학 범주 간의 연관성을 조사하는 것이 포함될 수 있습니다. 또한, 이 텍스트 마이닝 플랫폼에서 식별된 순위가 매겨진 단백질-질병 연관성은 고급 자연어 기술을 사용하기 위한 데이터 세트를 준비하는 데 중요합니다. 결과 지식 그래프를 통해 연구자는 이러한 결과를 생물학적 정보 지식으로 변환하고 후속 그래프 기반 분석의 토대를 마련할 수 있습니다.
The authors have nothing to disclose.
이 작업은 국립 보건원 (NIH) R35 HL135772에서 PP로, NIH T32 HL13945에서 ARP 및 DS, NIH T32 EB016640에서 ARP로, 국립 과학 재단 연구 연수생 (NRT)이 ARP 및 DS에 1829071, I.A., J.R., A.V., K.B. 및 UCLA의 TC Laubisch Endowment에 대한 NIH R01 HL146739.