우리는 CorExplorer 웹 포털, 기계 학습 알고리즘 CorEx (상관 관계 설명)에 의해 발견 된 종양 RNA 염기서열 분석 인자의 탐구를위한 자원을 소개하고 생존, 데이터베이스 주석에 비해 요인을 분석 할 수있는 방법을 보여줍니다, 단백질-단백질 상호 작용, 그리고 종양 생물학 및 치료 내정간섭에 통찰력을 얻기 위하여 서로.
차동 유전자 발현 분석은 질병 상태를 이해하는 중요한 기술이다. 기계 학습 알고리즘 CorEx는 정밀 종양학을 발전시키는 데 도움이 될 수있는 방식으로 종양 RNA-seq에서 유전자 그룹의 차등 발현을 분석하는 데 유용성을 보여주었습니다. 그러나 CorEx는 기존 이해를 분석하고 연결하는 데 어려움을 겪고 있는 많은 요소를 생성합니다. 이러한 연결을 용이하게하기 위해, 우리는 사용자가 대화 형으로 데이터를 탐구하고 분석과 관련된 일반적인 질문에 대답 할 수있는 웹 사이트, CorExplorer를 구축했습니다. 우리는 4개의 종양 모형을 위한 RNA seq 유전자 발현 데이터에 CorEx를 훈련했습니다: 난소, 폐, 흑색종 및 colorectal. 그런 다음 해당 생존, 단백질 단백질 상호 작용, 유전자 온톨로지 (GO) 및 교토 백과 사전 (KEGG) 경로 농축및 인자 그래프 시각화와 연관된 히트맵을 웹 사이트에 통합했습니다. 여기서 우리는 이 외부 데이터의 맥락에서 학습된 종양 요인의 중요성을 이해하기 위한 데이터베이스의 사용을 설명하기 위해 예제 프로토콜을 사용합니다.
10년 전에 도입된 이래, RNA-seq는 유전자 발현1을측정하기 위한 유비쿼터스 도구가 되었습니다. 이는 샘플의 전체 전사체의 신속하고 저렴한 드노보 프로파일링을 가능하게 하기 때문이다. 그러나 RNA-seq 종양 데이터는 본질적으로 복잡하고 종종 샘플링되지 않는 기본 생물학을 반영하는 반면 데이터 자체는 고차원적이고 시공적입니다. 이는 신뢰할 수 있는 신호를 추출하는 데 중요한 과제를 제시합니다. CorEx 알고리즘은 다변량 상호 정보를 활용하여 이러한 상황에서 미묘한 패턴을 찾습니다2,3 . 이 기술은 이전에 암 게놈 아틀라스 (TCGA)에서 난소 종양 RNA-seq 견본을 분석하기 위하여 적응되고 이 맥락에서 더 일반적으로 사용되는 분석 방법4에비해 중요한 이점이 있는 것처럼 보였다.
RNA-seq의 사용은 종양학을 포함하여 연구 응용 프로그램에서 엄청나게 널리 퍼져 있지만, 이러한 노력은 임상 개입의 목적을 위해 광범위한 활용으로 이어지지 않았습니다5. 그 이유 중 하나는 이러한 특정 문제를 대상으로 하는 사용자 친화적인 알고리즘과 소프트웨어가 부족하기 때문입니다. 이러한 격차를 해소하기 위해 CorEx 는 다양한 배경을 가진 연구원들이 CorEx 기계 학습 알고리즘에서 발견한 종양 RNA-seq 샘플의 유전자 발현 인자를 연구할 수 있도록 CorExplorer 웹 포털을 설계했습니다. CorExplorer 포털은 폐, 결장, 흑색종 및 난소6, 7,8,9를 포함한 여러 가지 종양 유형의 요인에 대한 대화형 시각화 및 쿼리를 지원합니다. 10, 연구자들이 데이터 상관 관계를 선별하고 치료 목적으로 환자를 계층화하기 위한 후보 경로를 식별할 수 있도록 돕기 위한 의도로.
CorExplorer 포털은 여러 유형의 사용자에게 유용할 수 있습니다. 포털은 공공 데이터베이스에 종양 유전자 발현 차이를 구동하는 광범위한 요인을 이해하고 아마도 유사한 종양의 맥락에서 개별 유전자 발현 프로필을 배치하고자하는 사용자를 염두에 두고 설계되었습니다. 특성. 여기에 설명된 대표 프로토콜 외에도 CorExplorer 조사는 추가 테스트를 위한 가설을 제시하고 CorExplorer 외부의 데이터 집합에 대한 CorEx 결과를 비교 및 대조하고 연결하는 출발점이 될 수 있습니다. 개별 종양에 있는 하나 또는 몇몇 유전자의 병리학적인 발현 서명은 좌표적으로 영향을 받을 수 있는 더 큰 단에. 마지막으로, 현장에서 시작하는 사람들을 위해 RNA-seq에 기계 학습의 응용프로그램에 대한 사용자 친화적 인 소개역할을 할 수 있습니다.
우리는 CorEx 알고리즘에 의해 종양 RNA-seq에서 배운 최대 상관 유전자 발현 인자의 대화 형 탐색을위한 공개적으로 접근 할 수있는 웹 서버 인 CorExplorer 사이트를 발표했습니다. 우리는 웹 사이트가 종양 유전자 발현에 따라 환자를 계층화하는 데 어떻게 사용될 수 있는지, 그리고 그러한 계층화가 생물학적 기능 및 생존에 어떻게 부합하는지 보여주었습니다.
RNA-seq 분석을 위한 다른 웹 서버가 구축되었습니다. 종양에 대한 차동 및 공동 발현 분석은 cbioPortal19,20의다른 데이터 유형과 검사및 통합될 수 있다. 서버 GenePattern21,Mev22및 Morpheus23은주 성분 분석(PCA), kmeans 또는 자체 정리 맵(SoM)과 같은 확립된 클러스터링 기술을 통합합니다. 보다 혁신적인 노력으로는 자동 규칙 생성 분류기를 기반으로 하는 CamurWeb24와임의의 포리스트 분류기 와 올가미를 구현하는 TACCO25가있습니다. 여기서 사용되는 CorEx 알고리즘은 데이터의 패턴을 설명하는 요인의 계층 구조를 찾기 위해 다변량 정보를 최적화합니다. 비선형 및 계층 적 요인 학습은 PCA4를통해 발견 된 선형 글로벌 요인에 비해 향상된 해석성을 산출하는 것으로 보입니다. 추가적으로, 견본 신호의 기술의 세분화한 구문 분석은 정확한 종양 비교 vis-à-vis더 일반적으로 이용되는 넓은 특수형을 허용합니다. 중복 및 계층 적 요인 분석의 이 조합은 CorExplorer를 대부분의 다른 접근 방식과 구별하고 시각화 및 요약을 위한 새로운 도구가 필요합니다.
CorExplorer 요인 분석의 중요한 부분은 겹치는 계층 구조 내에 배치되는 유익한 유전자 패턴을 가진 몇 가지뿐만 아니라 100 개 이상의 요인을 탐색 할 수있는 기능입니다. CorExplorer는 생물학적 및 임상 적 연관성에 대한 이러한 무수한 요인의 채굴을 용이하게하고 개별 종양의 매우 상세한 특성화를 허용합니다. 이러한 많은 요인에 대한 감독되지 않은 학습은 모든 것이 질병 생물학과 관련이 있는 것은 아니라는 것을 의미합니다. 이러한 경우에, 관심 있는 요인을 꺼내거나 생존과 같은 임상 데이터와 관련된 요인을 검색하기 위해 주석 또는 알려진 유전자를 사용하는 것이 필수적입니다. 따라서 CorExplorer를 사용하면 사용자가 이 매우 중요한 필터링 단계를 구현할 수 있습니다. 종양에 있는 요인 유전자 패턴의 존재는 개인화한 종양학 처리에 접근을 건의할 조차 수 있습니다. 또한, 잠재적으로 유용한 치료 조합의 발견을 허용하는 각 종양에 대한 인자 점수의 복합성.
생존과 상관관계가 높은 요인에 대해 유의한 GO 주석이 나타나지 않는 경우도 있습니다. 이것은 시끄러운 또는 샘플링된 데이터 의 밑에 생길 수 있는 동안, 중요한 농축 점수를 등록하기에 는 너무 작은 클러스터 크기 또는 일관된 생물학 없이 다양한 통로에서 단 하나 유전자의 ‘바구니’인 단 과 같은 그밖 가능한 원인이 있습니다 협회. 부가적으로, KEGG 및 GO 생물학적 과정과 다른 비긴어의 카테고리, 예를 들어 세포 구획이 적절할 수 있다. 프로토콜에서 설명한 대로 StringDB에 연결하여 액세스할 수 있습니다. CorExplorer 사이트에 유전자 온톨로지 농축 분석은 현재 요인에 있는 유전자 가중치를 고려하지 않습니다, 그러나 이것은 가능성이 가까운 장래에 해결될 것입니다. 외부 도구를 사용하여 추가 분석을 위해 전체 인자 유전자 목록을 다운로드할 수 있는 ‘창 추가’에서 유전자 목록 옵션을 사용할 수 있습니다.
웹 사이트의 목적을 위해 CorEx는 각 데이터 집합에서 5번 실행되었으며 전체 상관 관계가 가장 큰 실행은 유지되었습니다. 여러 실행 결과에 대한 통계적 표현을 갖는 것이 더 유익할 수 있으며 향후 작업의 목표입니다. 또한 서버에서 사용할 수 있는 종양 유형 집합은 다소 작지만 사용자의 관심에 따라 시간이 지남에 따라 확장될 것으로 예상됩니다.
위에서 설명한 바와 같이, CorExplorer는 임상 및 데이터베이스 정보와 함께 코렉스 RNA-seq 인자 관계를 시각화하여 다양한 심문 모드를 가능하게 합니다. 우리는 이 공구가 종양학에 있는 발견 그리고 임상 신청을 위한 RNA seq 분석의 힘을 이용하기 위하여 추가 작업으로 이끌어 낼 것이라는 점을 희망합니다.
The authors have nothing to disclose.
GV는 DARPA 어워드 W911NF-16-0575에 의해 지원되었습니다.
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |