概要

CorExplorer 웹 포털을 통한 종양 유전자 발현 인자 분석

Published: October 11, 2019
doi:

概要

우리는 CorExplorer 웹 포털, 기계 학습 알고리즘 CorEx (상관 관계 설명)에 의해 발견 된 종양 RNA 염기서열 분석 인자의 탐구를위한 자원을 소개하고 생존, 데이터베이스 주석에 비해 요인을 분석 할 수있는 방법을 보여줍니다, 단백질-단백질 상호 작용, 그리고 종양 생물학 및 치료 내정간섭에 통찰력을 얻기 위하여 서로.

Abstract

차동 유전자 발현 분석은 질병 상태를 이해하는 중요한 기술이다. 기계 학습 알고리즘 CorEx는 정밀 종양학을 발전시키는 데 도움이 될 수있는 방식으로 종양 RNA-seq에서 유전자 그룹의 차등 발현을 분석하는 데 유용성을 보여주었습니다. 그러나 CorEx는 기존 이해를 분석하고 연결하는 데 어려움을 겪고 있는 많은 요소를 생성합니다. 이러한 연결을 용이하게하기 위해, 우리는 사용자가 대화 형으로 데이터를 탐구하고 분석과 관련된 일반적인 질문에 대답 할 수있는 웹 사이트, CorExplorer를 구축했습니다. 우리는 4개의 종양 모형을 위한 RNA seq 유전자 발현 데이터에 CorEx를 훈련했습니다: 난소, 폐, 흑색종 및 colorectal. 그런 다음 해당 생존, 단백질 단백질 상호 작용, 유전자 온톨로지 (GO) 및 교토 백과 사전 (KEGG) 경로 농축및 인자 그래프 시각화와 연관된 히트맵을 웹 사이트에 통합했습니다. 여기서 우리는 이 외부 데이터의 맥락에서 학습된 종양 요인의 중요성을 이해하기 위한 데이터베이스의 사용을 설명하기 위해 예제 프로토콜을 사용합니다.

Introduction

10년 전에 도입된 이래, RNA-seq는 유전자 발현1을측정하기 위한 유비쿼터스 도구가 되었습니다. 이는 샘플의 전체 전사체의 신속하고 저렴한 드노보 프로파일링을 가능하게 하기 때문이다. 그러나 RNA-seq 종양 데이터는 본질적으로 복잡하고 종종 샘플링되지 않는 기본 생물학을 반영하는 반면 데이터 자체는 고차원적이고 시공적입니다. 이는 신뢰할 수 있는 신호를 추출하는 데 중요한 과제를 제시합니다. CorEx 알고리즘은 다변량 상호 정보를 활용하여 이러한 상황에서 미묘한 패턴을 찾습니다2,3 . 이 기술은 이전에 암 게놈 아틀라스 (TCGA)에서 난소 종양 RNA-seq 견본을 분석하기 위하여 적응되고 이 맥락에서 더 일반적으로 사용되는 분석 방법4에비해 중요한 이점이 있는 것처럼 보였다.

RNA-seq의 사용은 종양학을 포함하여 연구 응용 프로그램에서 엄청나게 널리 퍼져 있지만, 이러한 노력은 임상 개입의 목적을 위해 광범위한 활용으로 이어지지 않았습니다5. 그 이유 중 하나는 이러한 특정 문제를 대상으로 하는 사용자 친화적인 알고리즘과 소프트웨어가 부족하기 때문입니다. 이러한 격차를 해소하기 위해 CorEx 는 다양한 배경을 가진 연구원들이 CorEx 기계 학습 알고리즘에서 발견한 종양 RNA-seq 샘플의 유전자 발현 인자를 연구할 수 있도록 CorExplorer 웹 포털을 설계했습니다. CorExplorer 포털은 폐, 결장, 흑색종 및 난소6, 7,8,9를 포함한 여러 가지 종양 유형의 요인에 대한 대화형 시각화 및 쿼리를 지원합니다. 10, 연구자들이 데이터 상관 관계를 선별하고 치료 목적으로 환자를 계층화하기 위한 후보 경로를 식별할 수 있도록 돕기 위한 의도로.

CorExplorer 포털은 여러 유형의 사용자에게 유용할 수 있습니다. 포털은 공공 데이터베이스에 종양 유전자 발현 차이를 구동하는 광범위한 요인을 이해하고 아마도 유사한 종양의 맥락에서 개별 유전자 발현 프로필을 배치하고자하는 사용자를 염두에 두고 설계되었습니다. 특성. 여기에 설명된 대표 프로토콜 외에도 CorExplorer 조사는 추가 테스트를 위한 가설을 제시하고 CorExplorer 외부의 데이터 집합에 대한 CorEx 결과를 비교 및 대조하고 연결하는 출발점이 될 수 있습니다. 개별 종양에 있는 하나 또는 몇몇 유전자의 병리학적인 발현 서명은 좌표적으로 영향을 받을 수 있는 더 큰 단에. 마지막으로, 현장에서 시작하는 사람들을 위해 RNA-seq에 기계 학습의 응용프로그램에 대한 사용자 친화적 인 소개역할을 할 수 있습니다.

Protocol

1. 관심 유전자를 포함하는 요인을 탐구 웹 브라우저를 열고 http://corex.isi.edu, CorExplorer 홈 페이지로 이동합니다. 빠른 링크아래의 오른쪽에, 난소 (TCGA-OV) 옆에 + 확장 버튼을 클릭하여 TCGA 난소 암 데이터에 훈련 된 코렉스 요인 그래프의 요약을 볼 수 있습니다 (그림1참조). 선택적으로 다른 사람을 클릭하여 비교합니다. 요인 그래프 검사가 끝나면폐 (TCGA-LUAD)폐암 RNA-seq에 대한 CorExplorer 페이지에 액세스합니다.CorExplorer ‘인자 그래프’ 창을 사용하여 관심 유전자에 대한 코렉스 인자 그래프를 탐색합니다. 요인 그래프 표시 창 위로 마우스 커서를 이동합니다. 마우스 스크롤 휠 또는 트랙패드를 사용하여 요인 그래프를 확대하여 각 인자의 가장 중요한 유전자및 서로 다른 레이어의 노드 간 연결과 같은 그래프의 세부 정보를 확인합니다. 또는 클릭하고 드래그하여 뷰 영역 또는 노드를 이동합니다. 대상 유전자를 찾으려면(여기서 BRCA1을 사용하겠습니다), 요인 그래프 창 상단의 유전자 드롭다운 메뉴를 클릭합니다. ‘BRCA1’을 입력하여 드롭다운 목록에서 선택하고 Return을 눌러 뷰확대를 요인 26으로 만드십시오. 그래프 디스플레이 위로 마우스위치를 재배치하고 축소를 클릭하여 축소하여 레벨 2 노드, L2_8 및 요인 26에 인접한 관련 요소를 확인합니다. 최소 링크 중량 슬라이더에 표시된 임계값보다 큰 유전자만 표시됩니다. 요인과 관련된 모든 유전자를 보려면 L1_26 노드를 클릭하고 팝업 창에서 추가 유전자 로드를 선택합니다. ‘완료’라는 단어가 나타나면 팝업 창을 닫습니다. 이제 요인 그래프 창 위의 헤더 섹션으로 돌아가서 최소 링크 가중치 수정자를 잡고 드래그합니다. 이제 링크 가중치 슬라이더가 0.05로 이동함에 따라 BRCA2를 포함한 L1_26 계수의 다른 유전자가 가중치 순서로 나타납니다. 선택적으로, 레이아웃을 개선하기 위해 잡아 드래그하여 노드를 재배치합니다. 요인에 대하여 환자의 계층화가 생존 창에서 질의해서 생존에 어떻게 영향을 미치는지 결정합니다. 생존 창에서 p-val으로 정렬을선택 취소한 다음 단일 계수 드롭다운 메뉴에서 요소 26을 선택하여 요인 26에 대한 생존 곡선을 표시합니다. 생존 그래프를 아래로 스크롤하여 x축을 따라 위험에 처한 환자 수를 표시합니다. Annotation 창 내에서 쿼리하여 생물학적 함수와의 연관성을 찾습니다. 어구 창에서 거짓 검색률(FDR)이 아닌 계수 드롭다운 메뉴를 계수 로 정렬하려면 FDR 정렬을선택 취소합니다. 스크롤하여 클릭하여 주석 창 드롭다운에서 요인 26을 선택하여 요인에 대한 보강 주석을 표시합니다. DNA 복구가 표시될 때까지 항명 목록을 아래로 스크롤한 다음 클릭하여 그래프 디스플레이에서 노란색으로 강조 표시된 관련 유전자를 즉시 확인합니다. 그림 2의중간 패널을 참조하십시오. 요인은 선택된 비응고를 가진 유전자를 위해 풍부하게 되는지 여부에 따라 선택되는 다른 GO 용어로 사라지거나 나타나는지, 예를 들면 ‘DNA 손상에 응하여 본질적인 세포 사멸 신호 통로’. 서로 다른 기능을 가진 창을 추가하여 요인을 더 자세히 살펴보십시오. 상단 메뉴 모음에서 창 추가 드롭다운에서 PPI를 선택하여 단백질 단백질 상호작용 네트워크(PPI) 창을 추가한 다음 추가 버튼을 클릭하여 표시 영역에 PPI 그래프 창을 추가합니다. PPI 그래프 창에서 단백질-단백질 상호 작용을 나타내기 위해 인자 ‘Layer1: 26’을 선택합니다. 연결밀도를 기록합니다. 상단 메뉴 모음에서 PPI대신 추가 창 드롭다운에서 히트맵을 선택한 다음 추가 단추를 클릭하여 표시 영역에 히트맵 창을 추가합니다. 히트맵 창에서 계수 ‘Layer1: 26’을 선택하여 유전자 발현 패턴을 표시합니다. 서바이벌 윈도우도 볼 수 있도록 히트맵 창을 잡고 재배치합니다. 히트맵 상단을 따라 주황색/파란색/회색 막대가 생존 그래프의 환자 위험 지층에 어떻게 해당하는지 관찰합니다. 결과는 그림 2의하단에 표시됩니다. 2. 유전자 중량, 생존 및 분석 데이터를 사용하여 CorEx 요인을 필터링하고 해석 생존 및 클러스터 품질을 사용하여 관심 요인을 필터링합니다. 상단의 데이터 집합 드롭다운 메뉴에서 TCGA_OVCA를 선택하여 TCGA 난소암 RNA-seq의 CorExplorer 페이지로 이동합니다. 페이지가 로드되면, 생존 창에서 다른 지층의 생존 차도가 가장 큰 요인이 114라는 점에 유의하십시오. 요인 그래프 창 상단에서 요인 드롭다운에서 ‘레이어1: 114’를 선택합니다. 마우스로 링크 무게 슬라이더를 잡고 0.5까지 이동합니다. 요인 114 (1609)에 있는 유전자의 다수는, 아무도 가중 >0.35가 없는, 상대적으로 약한 군집화를 나타낸다는 것을 주의하십시오. 다음으로, 생존 창내의 인자 목록을 확장하고 생존 창 드롭다운에서 다음 최고의 인자인 인자 39를 선택하여 관련 생존 곡선을 보여줍니다. 해당 어고창에서 요인 39를 클릭하여 선택합니다. 중요한 GO 및 KEGG 주석이 표시됩니다. 요인 39에서 유전자의 생물학적 역할에 대한 더 나은 이해를 얻으려면, 이웃 주석 정보를 사용하여 요인을 다음과 같이 해석한다. 요인 그래프 창 상단에서 요인 드롭다운에서 계수 ‘레이어1: 39’를 선택합니다. 그런 다음 요인 그래프 창 위로 마우스를 이동하고 축소하여 14, 32, 39, 42, 52 및 82(그림 3참조)의6가지 요소로 전체 L2_14 클러스터를 표시합니다. L2_14 노드에 연결된 요인의 상대적 유의를 이해하려면 먼저 각 L2_14 요인에 대한 생존 차이를 확인합니다. 생존 창에서 p-val으로 정렬을 선택 취소한 다음 연속적으로 각 요인 번호를 클릭합니다. 이렇게 하면 14, 32 및 39 요인만 생존 연관성을 표시합니다. 이제 상단 메뉴 모음에서 창 추가 드롭다운에서 PPI를 다시 선택합니다. 표시 영역에 PPI 그래프 창을 추가하려면 추가를 누릅니다. PPI 그래프 창에서, 유의한 단백질-단백질 상호작용을 나타내기 위해 인자 ‘Layer1: 52’를 선택한다. 이 시점에서 창의 예제 레이아웃그림 3에나와 있습니다. PPI 창 하단의 StringDB 링크에서 보기를 클릭하여 StringDB 온라인 데이터베이스에 연결합니다. 첫 번째 화면에서 계속을 클릭한 다음 이전과 같이 네트워크 그래프 아래의 분석 탭을 선택하여 PPI 네트워크 유전자에 대한 온라인 GO 분석을 가져옵니다. 최고 세포 성분은 ‘MHC 클래스 II 단백질 복합체’입니다. CorExplorer 탭과 PPI 창으로 돌아가서 요인 드롭다운에서 이번에는 계수 32를 선택합니다. StringDB에서 StringDB 분석으로 연결되는 링크를 클릭합니다. 최고 세포 성분은 ‘MHC 클래스 I 단백질 복합체’이며, 이전 단계에서 인자 52에 대한 클래스 II와는 대조적입니다! 마지막으로 PPI 창으로 돌아가 상단의 요인 드롭다운 메뉴에서 ‘Layer1: 39’를 선택합니다. StringDB에서 링크 보기를 클릭하여 StringDB 분석에 연결합니다. 첫 번째 화면에서 계속을 클릭한 다음 네트워크 그래프 아래의 분석 탭을 선택하여 PPI 네트워크 유전자에 대한 온라인 GO 분석을 가져옵니다. 최고 분자 기능이 ‘CXCR3 케모카인 수용체 결합’임을 관찰하십시오. 3. 생존 및 데이터베이스 주석을 사용하여 유망한 치료 조합을 찾습니다. 데이터 집합 드롭다운 메뉴에서 TCGA_SKCM을 선택하여 TCGA 흑색종 CorExplorer로 전환합니다. 생존 차동이 가장 큰 요인은 요인 171입니다. 스크롤하여 요인 171 주석을 검토하고 ‘면역 반응’과 ‘사이토 카인 매개 신호 경로’가 상단 근처에 있다는 점에 유의하십시오 (최고 난소 요인에 대한 것처럼). 보완 요인을 찾으려면 상위 참조 항과 함께 상위 생존 관련 요인을 검사합니다. 이렇게 하려면 상단 메뉴 모음의 데이터 집합 개요 링크를 클릭하여 데이터 집합 처리 세부 정보가 포함된 테이블과 생존 차분의 p 값에 따른 상위 요인요약이 포함된 별도의 탭을 엽니다. 첫 번째 비 면역 요인은 88입니다. TCGA_SKCM 브라우저 탭으로 돌아갑니다. 생존, 추가 및 그래프 창에서 계수 88을 선택합니다. 상위 여러 GO 용어는 ‘rRNA 처리’ 및 ‘미토콘드리아 조직’과 관련이 있으며, 면역 관련 요인과 구별되는 것으로 확인합니다. 생존 창에서, 쌍을 이루는 인자 드롭다운에서, ’88_171’을 선택하여 결합된 171 및 88 발현 인자에 대한 중간 계층의 환자에 대한 생존이 어떻게 개선되는지 확인합니다. 어노미와 생존 비교는 그림 4에나와 있습니다. 4. 검색 페이지를 사용하여 종양 유형 전반에 걸친 유전자 발현 변이의 공통점과 차이점 찾기 첫 페이지로 돌아가려면 CorExplorer 제목을 클릭합니다. 상단 메뉴 모음에서 검색을 클릭하여 CorExplorer 사이트의 모든 데이터 집합을 검색할 수 있는 페이지로 이동합니다. 유전자 검색 상자에서 ‘FLT1′(VEGFR1)을 입력하고 반환 또는 검색을누릅니다. FLT1은 OVCA – 76, LUAD – 162, SKCM – 195 및 SKCM – 184뿐만 아니라 COAD – 112 및 COAD – 74와 같은 인자에서 상대적으로 높은 중량으로 발견된다. 또는 모든 데이터 집합에서 관련 GO 용어를 검색합니다. ‘GO 검색’ 상자에서 ‘혈관 발생’을 입력하고 반환을 누르거나 검색을눌러 시도하십시오. SKCM-195를 제외한 모든 FLT1 요인은 ‘혈관신생’ 유전자-인자(195)에 대해 통계적으로 풍부하게 함유되어 있으며, 실제로 는 주석을 가지고 있지만 기본 10-8 임계값 미만입니다. 이 및 이전 단계에 대한 검색 결과는 그림 5에나와 있습니다. 추가 예로서, GO 검색 상자에서, 첫 번째 유형 ‘표피 성장 인자 수용체.’ 폐암에 대한 잘 알려진 계층화 인자인 이 기간에 는 LUAD만이 농축됩니다. 다음으로 검색 상자에 ‘중간엽’을 입력합니다. 이 용어는 OVCA를 위한 유전자 발현 단에서 풍부하게, 여기서 잘 연구된 계층화 인자이다.

Representative Results

폐암 데이터 세트에서 유전자 ‘BRCA1’을 검색하면 코렉스 인자 26과 가장 밀접한 관련이 있는 것으로나타났다(도 2). 이 요인에 대한 GO 용어 농축은 매우 높은 것으로 보이며, DNA 수리가 단지 1 x10-19의FDR을 나타낸다. 선택은 또한 자식으로 여섯 밀접하게 관련된 요인이 두 번째 수준 클러스터 L2_8에 주의를 기울입니다. GO 용어 주석 또는 인자 그래프의 GO 농축 드롭다운에서 ‘DNA 복구’를 선택하면 각 요인에서 연관된 유전자가 강조되고, 요인 26은예상대로지금까지 가장 많이 갖는다. 단백질-단백질 상호작용 네트워크는 인자 26에서 유전자의 긴밀하게 연결된 기능을 더욱 뒷받침하여 강하게 연결된다. 관련 생존 그래프는 환자 생존과의 가능한 연관성을 시사하지만, 이것은 더 큰 데이터 세트에서 확인되어야 할 것이다. 생존으로 시작 하면 특정 유전자 발현 그룹과 관련 된 향상 된 생존에 대 한 이유의 해부를 허용할 수 있습니다. 일례로, 난소암에 대한 생존에 영향을 미치는 최상위 인자는 면역계와 관련된 유전자에 대해 강하게 농축되는 번호 39로나타났다(도 3). 동일한 수준 2 노드와 관련되었던 5개의 그밖 요인은 또한 면역성이 있는 것으로 표시됩니다, 그러나 생존 충격은 그(것)들 사이에서 강하게 가변하는 것처럼 보입니다, 와 39는 가장 높고 52는 가장 낮습니다. 인자에 대한 단백질 단백질 상호 작용 창을 추가하는 것은 즉각적인 상호 작용 네트워크를 보여주고 StringDB12 웹 사이트에 연결하여 PPI 네트워크 유전자에 대한 다양한 농축물을 쿼리할 수 있게 한다. 차례로 L2_14 요인의 각각에 대해 이것을 함으로써, 하나는 PPI 네트워크 유전자를 위한 StringDB 농축이 생존과의 협회에 대한 다음과 같은 가능한 설명을 제안한다는 것을 발견한다. 인자 32는 세포독성 T 림프구에 의해 인식되는 주요 조직 적합성 복합체(MHC) 클래스 I 단백질 복합체를 구성하는 유전자를 함유하고 있다. 인자 39는 CD8+ T 림프구와 관련된 사이토카인 신호 및 CXCR3 수용체 결합에 해당한다. 이 두 요인 은 각각 상응하는 유전자의 상대적으로 높은 발현을 나타내는 환자에 대한 유의한 생존 이점을 부여하는 것으로 보인다. 세포 독성 CD8 + T 림프구는 주로 항 종양 면역에 대한 책임이 있습니다. 인자 52는, 반면에, 세포독성 T 림프구에 의해 직접적인 것이 아니라 CD4+ T 헬퍼 세포에 의해 주로 인식되는 MHC 클래스 II 복합체에서 단백질을 코딩하는 유전자로 구성된다. 나머지 L2_14 요인은 림프구 인구의 두 가지 유형을 구별하지 않는 일반화된 면역 계통 활성화를 반영합니다. MCH 클래스 I 세포 항원의 세포독성 T 림프구 인식에 특이적인 생존 연관성은 일반적으로 항종양 면역에 대한 우리의 이해와 일치하며 흑색종13,14와같은 다른 암으로부터. 웹 포털은 효과적인 종양 특이적 조합 치료를 제안할 수 있는 보완적인 기능을 가진 요인의 쌍의 발견을 지원합니다. 데이터 집합 개요는 생존과 상관 관계를 보여 주면서도 뚜렷한 GO 보강이 있는 요인을 검색할 수 있습니다. 흑색종 (TCGA_SKCM; 도 4)상위 생존 인자(171)는 면역 관련인 반면, 인자 88은 미토콘드리아 조직과 관련된 유전자에 대한 농축을 나타낸다는 것을 알 수 있다. 실제로, 이것은 흑색종15에있는 표적으로 건의되었습니다. CorExplorer 페이지에 생존 창을 추가하면 각 인자의 인자 쌍을 사용하여 계층화를 개별적으로 비교할 수 있으며, 두 그룹 모두에서 유리한 유전자 발현 패턴이 둘 중 하나에 비해 생존 추세가 더 우수하다는 것을 보여 줍니다. 혼자 요인. 최고 지층은 그러나 향상되는 것처럼 보이지 않습니다, 면역 요법만 몇몇 환자를 위한 제일 선택권일지도 모르다 건의합니다. 종양 간의 공통성과 차이는 유전자 또는 GO 용어에 대한 데이터 세트를 검색하여 볼 수 있습니다(그림 5). 일례로, FLT1(일명 VEGFR1)은 잘 연구된 친혈관신생마커(16,17)이다. 검색 표시줄에 넣으면 모든 종양에는 FLT1이 중요한 역할을하는 요인이 있습니다. 반대로, GO 용어 ‘혈관신생’이 검색 페이지에 입력되면 FLT1 그룹 6개 중 5개가 그 농축과 함께 나타난다. SKCM-195를 제외한 모든 FLT1 인자는 ‘혈관신생’ 유전자에 대해 통계적으로 풍부하게 함유되어 있다. 여섯 번째 요소는 실제로 참조가 있지만 기본 10-8 임계값 미만입니다. 인자 목록 내의 가중치가 대체 농축 계산기에서 활용될 때, 예를 들어, 유전자 세트 농축 분석(GSEA)18,제6 인자는 ‘혈관신생’ 유전자에 대해서도 현저하게 농축되는 것으로 밝혀졌다. 유전자 발현 패턴이 생물학적 해석을 지원하기에 적절한 품질인지 확인하기 위해 히트맵을 확인하는 것이 중요합니다. 강한 명확한 변이를 보여주는 히트맵은 낮은 발현을 갖는 일부 유전자와 낮은 발현을 갖는 일부 유전자와 낮은 에서 높은 또는 더 복잡한 패턴에 이르기까지 인자 유전자의 조정된 발현을 나타낼 수 있다(도 6). 고품질 그룹화의 주요 마커는 인자 점수의 함수로서 발현의 원활한 변이를 가진 여러 유전자의 존재이다. 요인 히트맵은 요인 점수에 따라 정렬된 샘플을 표시하므로 왼쪽에서 오른쪽으로 부드러운 그라데이션이 이동해야 합니다. 그러나, 이것은 적어도 두 개의 다른 방법으로 발생 하지 못할 수 있습니다. 가장 일반적으로, 상관 관계는 매우 시끄러운 수 있습니다(그림 5C),생존 및 생물 학적 기능에 관한 모든 추론의 견고성과 유용성에 의문을 제기. 또한 소수의 샘플에서만 발생하는 패턴은 CorEx 알고리즘에서 가정한 세 가지 식 상태의 모델을 따르지 않아 샘플의 잘못된 분류가 발생할 수 있습니다(그림 5D의오른쪽). 그림 1: 코익러 프론트 페이지. 빠른 링크에서 난소암 옆 +를 클릭하면 요인 그래프 세부 사항이 표시됩니다. CorEx 계층 모델은 하단 레이어의 입력 변수(이 경우 유전자 발현)와 더 높은 계층의 잠재 인자로 구성됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 2: 유전자 이름을 사용하여 탐색을 안내합니다. 이 그림은 BRCA1과 강하게 관련된 코렉스 폐암 요인의 탐사를 설명하는 일련의 스크린샷을 보여줍니다. 먼저 요인 그래프에 대한 유전자 드롭다운 상자에서 ‘BRCA1’을 선택하면 그래프 뷰가 BRCA1의 가중치가 가장 큰 인자를 확대합니다. 비트를 축소하면 레이어 두 노드 L2_8이 해당 요소를 다른 관련 요소에 연결합니다. 생존과 주석을 비교할 수 있습니다: GO 용어 DNA 수리를 클릭하면 주석이 추가된 유전자가 강조됩니다. PPI 창은 인자에 있는 유전자를 위한 네트워크 상호 작용을 보여주기 위하여 추가됩니다. 히트 맵을 추가하는 창 추가 버튼을 사용하여 생존과 발현 패턴의 연관성을 나타내며, DNA 복구 유전자의 증가된 발현이 생존 감소와 연관될 수 있음을 시사한다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 3: 임상 데이터(생존)를 사용하여 탐사를 안내합니다. 난소암을 위한 최고 생존 관련 요인 (39)를 탐구하는 것은 이웃 요인 중 흥미로운 관계를 제시합니다. 요인 그래프에서 요인 39를 선택하고 약간 축소한 후, 요인 39에 연결된 레이어 2 인자는 5개의 다른 관련 인자를 가지는 것으로 보입니다. 추가 생존 창은 관련 생존 차동의 직접 비교를 허용합니다. 요인 39 및 32 둘 다 양성 생존 상관관계를 나타내며, 인자(52)와는 대조적으로, 그렇지 않다. 단백질-단백질 상호 작용 네트워크는 모두 잘 정의되어 있습니다. StringDB에 연결하면 GO 주석의 비교가 허용됩니다(도시되지 않음): 인자 39는 세포독성 CD8+ T 림프구 활성화 및 인자 32와 관련된 사이토카인 신호 네트워크와 연관되어 MHC 클래스 I 항원 제시 단백질에 의해 지배되고 있습니다. 이러한 림프구에 의한 트리거 인식; 이웃 요인은, 그러나, CD4+ 도우미 T 세포와 같은 그밖 면역 계통 분대에 의해 지배되고 생존 상관관계를 보여주지 않습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 4: 최고 생존 요인을 탐구하는 것은 잠재적인 치료 조합을 건의합니다. 홈 페이지 메뉴 모음의 ‘Dataset’ 링크는 상위 GO 어너표(표시되지 않음)와 함께 p 값으로 정렬된 생존 요인의 간결한 테이블로 연결됩니다. 흑색종을 위한 이 정보를 사용하여, 미토콘드리아 조직에 대한 인자 88과 면역 기능에 대한 인자 171의 조합은 상보적으로 나타난다. 그림에는 각 요소에 대한 별관 창이 나란히 표시되어 대비됩니다. 두 인자에 의해 계층화된 환자에 대한 생존 곡선은 개별적으로 또는 함께 조합이 어느 인자에 비해 생존 차이를 증가시킨다는 것을 나타낸다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 5: 검색 페이지는 범암 분석을 용이하게 합니다. 유전자 또는 GO 생물학적 프로세스 용어는 홈 페이지에서 검색 링크를 사용하여 모든 데이터 집합에서 검색할 수 있습니다. 도면은 FLT1 유전자 및 GO 용어 ‘혈관신생’에 대한 검색 결과를 나타낸다. 결과는 암에 걸쳐 ‘혈관 신생’이라는 용어로 주석이 달린 인자에 FLT1의 존재를 보여줍니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 6: 히트맵을 사용하여 요인 점수에 따라 유전자와 샘플 간의 상관 관계를 정성적으로 평가할 수 있습니다. 고품질 유전자 발현 관계는 환자가 히트맵의 요인 점수로 정렬될 때 원활한 그라데이션으로 표시됩니다. 요인 18의 가장 왼쪽 히트맵은 한 가지 예입니다. 패턴은 또한 요인 11에 대한 중간 큰 히트맵에서와 같이 위아래 식의 복잡한 서명을 포함할 수 있습니다. 낮은 품질 패턴은 때때로 인자 9 히트맵에서와 같이 환자의 하위 그룹에 대한 발현의 급격한 변화를 나타내거나 오른쪽 하단의 인자 161 히트맵과 같이 매우 시끄러운 상관관계입니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Discussion

우리는 CorEx 알고리즘에 의해 종양 RNA-seq에서 배운 최대 상관 유전자 발현 인자의 대화 형 탐색을위한 공개적으로 접근 할 수있는 웹 서버 인 CorExplorer 사이트를 발표했습니다. 우리는 웹 사이트가 종양 유전자 발현에 따라 환자를 계층화하는 데 어떻게 사용될 수 있는지, 그리고 그러한 계층화가 생물학적 기능 및 생존에 어떻게 부합하는지 보여주었습니다.

RNA-seq 분석을 위한 다른 웹 서버가 구축되었습니다. 종양에 대한 차동 및 공동 발현 분석은 cbioPortal19,20의다른 데이터 유형과 검사및 통합될 수 있다. 서버 GenePattern21,Mev22및 Morpheus23은주 성분 분석(PCA), kmeans 또는 자체 정리 맵(SoM)과 같은 확립된 클러스터링 기술을 통합합니다. 보다 혁신적인 노력으로는 자동 규칙 생성 분류기를 기반으로 하는 CamurWeb24와임의의 포리스트 분류기 와 올가미를 구현하는 TACCO25가있습니다. 여기서 사용되는 CorEx 알고리즘은 데이터의 패턴을 설명하는 요인의 계층 구조를 찾기 위해 다변량 정보를 최적화합니다. 비선형 및 계층 적 요인 학습은 PCA4를통해 발견 된 선형 글로벌 요인에 비해 향상된 해석성을 산출하는 것으로 보입니다. 추가적으로, 견본 신호의 기술의 세분화한 구문 분석은 정확한 종양 비교 vis-à-vis더 일반적으로 이용되는 넓은 특수형을 허용합니다. 중복 및 계층 적 요인 분석의 이 조합은 CorExplorer를 대부분의 다른 접근 방식과 구별하고 시각화 및 요약을 위한 새로운 도구가 필요합니다.

CorExplorer 요인 분석의 중요한 부분은 겹치는 계층 구조 내에 배치되는 유익한 유전자 패턴을 가진 몇 가지뿐만 아니라 100 개 이상의 요인을 탐색 할 수있는 기능입니다. CorExplorer는 생물학적 및 임상 적 연관성에 대한 이러한 무수한 요인의 채굴을 용이하게하고 개별 종양의 매우 상세한 특성화를 허용합니다. 이러한 많은 요인에 대한 감독되지 않은 학습은 모든 것이 질병 생물학과 관련이 있는 것은 아니라는 것을 의미합니다. 이러한 경우에, 관심 있는 요인을 꺼내거나 생존과 같은 임상 데이터와 관련된 요인을 검색하기 위해 주석 또는 알려진 유전자를 사용하는 것이 필수적입니다. 따라서 CorExplorer를 사용하면 사용자가 이 매우 중요한 필터링 단계를 구현할 수 있습니다. 종양에 있는 요인 유전자 패턴의 존재는 개인화한 종양학 처리에 접근을 건의할 조차 수 있습니다. 또한, 잠재적으로 유용한 치료 조합의 발견을 허용하는 각 종양에 대한 인자 점수의 복합성.

생존과 상관관계가 높은 요인에 대해 유의한 GO 주석이 나타나지 않는 경우도 있습니다. 이것은 시끄러운 또는 샘플링된 데이터 의 밑에 생길 수 있는 동안, 중요한 농축 점수를 등록하기에 는 너무 작은 클러스터 크기 또는 일관된 생물학 없이 다양한 통로에서 단 하나 유전자의 ‘바구니’인 단 과 같은 그밖 가능한 원인이 있습니다 협회. 부가적으로, KEGG 및 GO 생물학적 과정과 다른 비긴어의 카테고리, 예를 들어 세포 구획이 적절할 수 있다. 프로토콜에서 설명한 대로 StringDB에 연결하여 액세스할 수 있습니다. CorExplorer 사이트에 유전자 온톨로지 농축 분석은 현재 요인에 있는 유전자 가중치를 고려하지 않습니다, 그러나 이것은 가능성이 가까운 장래에 해결될 것입니다. 외부 도구를 사용하여 추가 분석을 위해 전체 인자 유전자 목록을 다운로드할 수 있는 ‘창 추가’에서 유전자 목록 옵션을 사용할 수 있습니다.

웹 사이트의 목적을 위해 CorEx는 각 데이터 집합에서 5번 실행되었으며 전체 상관 관계가 가장 큰 실행은 유지되었습니다. 여러 실행 결과에 대한 통계적 표현을 갖는 것이 더 유익할 수 있으며 향후 작업의 목표입니다. 또한 서버에서 사용할 수 있는 종양 유형 집합은 다소 작지만 사용자의 관심에 따라 시간이 지남에 따라 확장될 것으로 예상됩니다.

위에서 설명한 바와 같이, CorExplorer는 임상 및 데이터베이스 정보와 함께 코렉스 RNA-seq 인자 관계를 시각화하여 다양한 심문 모드를 가능하게 합니다. 우리는 이 공구가 종양학에 있는 발견 그리고 임상 신청을 위한 RNA seq 분석의 힘을 이용하기 위하여 추가 작업으로 이끌어 낼 것이라는 점을 희망합니다.

開示

The authors have nothing to disclose.

Acknowledgements

GV는 DARPA 어워드 W911NF-16-0575에 의해 지원되었습니다.

Materials

Public server for CorExplorer website USC http://corex.isi.edu Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP.
Web browser Google/Apple Chrome/Safari Verified web browsers.

参考文献

  1. Petryszak, R., et al. The RNASeq-er API-a gateway to systematically updated analysis of public RNA-seq data. バイオインフォマティクス. 33, 2218-2220 (2017).
  2. Steeg, G. V., Galstyan, A. Maximally Informative Hierarchical Representations of High-Dimensional Data. Proceedings of the Eighteenth International Conference on Artificial Intelligence and Statistics (AISTATS). , (2015).
  3. Ver Steeg, G., Galstyan, A. Discovering structure in high-dimensional data through correlation explanation. Advances in Neural Information Processing Systems. , (2014).
  4. Pepke, S., Ver Steeg, G. Comprehensive discovery of subsample gene expression components by information explanation: therapeutic implications in cancer. BMC medical Genomics. 10, 12 (2017).
  5. Byron, S. A., Van Keuren-Jensen, K. R., Engelthaler, D. M., Carpten, J. D., Craig, D. W. Translating RNA sequencing into clinical diagnostics: opportunities and challenges. Nature Reviews Genetics. 17, 257 (2016).
  6. Cancer Genome Atlas Research Network. Comprehensive molecular profiling of lung adenocarcinoma. Nature. 511, 543 (2014).
  7. Cancer Genome Atlas Network. Comprehensive molecular characterization of human colon and rectal cancer. Nature. 487, 330 (2012).
  8. Akbani, R., et al. Genomic classification of cutaneous melanoma. Cell. 161, 1681-1696 (2015).
  9. Cancer Genome Atlas Research Network. Integrated genomic analyses of ovarian carcinoma. Nature. 474, 609 (2011).
  10. Grossman, R. L., et al. Toward a shared vision for cancer genomic data. New England Journal of Medicine. 375, 1109-1112 (2016).
  11. Moynahan, M. E., Chiu, J. W., Koller, B. H., Jasin, M. Brca1 controls homology-directed DNA repair. Molecular Cell. 4, 511-518 (1999).
  12. Szklarczyk, D., et al. STRING v11: protein–protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2018).
  13. Durgeau, A., Virk, Y., Corgnac, S., Mami-Chouaib, F. Recent advances in targeting CD8 T-cell immunity for more effective cancer immunotherapy. Frontiers in Immunology. 9, 14 (2018).
  14. Sato, E., et al. Intraepithelial CD8+ tumor-infiltrating lymphocytes and a high CD8+/regulatory T cell ratio are associated with favorable prognosis in ovarian cancer. Proceedings of the National Academy of Sciences of the United States of America. 102, 18538-18543 (2005).
  15. De Moura, M. B., et al. Mitochondrial respiration-an important therapeutic target in melanoma. PLoS One. 7, 40690 (2012).
  16. Folkman, J., Merler, E., Abernathy, C., Williams, G. Isolation of a tumor factor responsible for angiogenesis. Journal of Experimental Medicine. 133, 275-288 (1971).
  17. Takahashi, S. Vascular endothelial growth factor (VEGF), VEGF receptors and their inhibitors for antiangiogenic tumor therapy. Biological and Pharmaceutical Bulletin. 34, 1785-1788 (2011).
  18. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102, 15545-15550 (2005).
  19. Cerami, E., et al. The cBio Cancer Genomics Portal: An Open Platform for Exploring Multidimensional Cancer Genomics Data. Cancer Discovery. 2, 401-404 (2012).
  20. Gao, J., et al. Integrative Analysis of Complex Cancer Genomics and Clinical Profiles Using the cBioPortal. Science Signalling. 6, 1 (2013).
  21. Reich, M., et al. GenePattern 2.0. Nature Genetics. 38, 500 (2006).
  22. Wang, Y. E., Kutnetsov, L., Partensky, A., Farid, J., Quackenbush, J. WebMeV: A Cloud Platform for Analyzing and Visualizing Cancer Genomic Data. がん研究. 77, 11-14 (2017).
  23. . Morpheus Available from: https://software.broadinstitute.org/morpheus (2019)
  24. Weitschek, E., Lauro, S. D., Cappelli, E., Bertolazzi, P., Felici, G. CamurWeb: a classification software and a large knowledge base for gene expression data of cancer. BMC Bioinformatics. 19, 354 (2018).
  25. Chou, P. -. H., et al. tACCo, a Database Connecting transcriptome Alterations, pathway Alterations and Clinical outcomes in Cancers. Scientific Reports. 9, 3877 (2019).

Play Video

記事を引用
Pepke, S., Nelson, W. M., Ver Steeg, G. Analyzing Tumor Gene Expression Factors with the CorExplorer Web Portal. J. Vis. Exp. (152), e60431, doi:10.3791/60431 (2019).

View Video