我们介绍了CorExplorer门户网站,一种用于探索机器学习算法CorEx(相关解释)发现的肿瘤RNA测序因子的资源,并展示了如何分析与生存、数据库注释相关的因素,蛋白质-蛋白质相互作用,彼此深入了解肿瘤生物学和治疗干预。
微分基因表达分析是了解疾病状态的重要技术。机器学习算法CorEx在分析肿瘤RNA-seq中基因群的差分表达方面显示出了效用,有助于推进肿瘤学的精确化。但是,CorEx 会产生许多因素,这些因素对于分析和连接现有理解可能具有挑战性。为了方便这种连接,我们建立了一个网站,CorExplorer,允许用户以交互方式探索数据并回答与其分析相关的常见问题。我们对CorEx进行了四种肿瘤类型的RNA-seq基因表达数据的培训:卵巢、肺、黑色素瘤和结肠直肠。然后,我们将相应的生存、蛋白质-蛋白质相互作用、基因本体学 (GO) 和京都基因和基因组百科全书 (KEGG) 通路富集和热图纳入网站,以便与因子图可视化关联。在这里,我们使用示例协议来说明数据库的使用,以理解所学肿瘤因子在此外部数据上下文中的重要性。
自十多年前引入以来,RNA-seq已成为测量基因表达1的无处不在的工具。这是因为它允许快速和廉价的样本的整个转录组分析。然而,RNA-seq肿瘤数据反映了一种基础生物学,它本质上是复杂的,而且往往采样不足,而数据本身是高维和嘈杂的。这对提取可靠信号提出了重大挑战。CorEx算法利用多变量相互信息来查找这种情况下微妙的模式2,3。这项技术以前曾被改编用于分析来自癌症基因组图谱(TCGA)的卵巢肿瘤RNA-seq样本,在这种情况下,它似乎比更常用的分析方法4具有显著的优势。
虽然RNA-seq的使用在研究应用,包括肿瘤学中非常普遍,但这些努力并没有导致临床干预的广泛应用5。部分原因在于缺乏针对这些具体问题的用户友好型算法和软件。为了帮助弥补这一差距,我们设计了CorExplorer门户网站,使来自不同背景的研究人员能够研究CorEx机器学习算法发现的肿瘤RNA-seq样本的基因表达因子。CorExplorer 门户支持交互式可视化和查询来自几个不同肿瘤类型的因素,包括肺、结肠、黑色素瘤和卵巢6、7、8、9、 10,旨在帮助研究人员筛选数据相关性,并确定为治疗目的对患者进行分层的候选途径。
我们预计 CorExplorer 门户可能对多种类型的用户有用。该门户的设计考虑到了用户,希望了解导致公共数据库中肿瘤基因表达差异的广泛因素,并可能将单个基因表达配置文件置于具有类似肿瘤的肿瘤上下文中特征。除了此处概述的代表性协议外,CorExplorer 调查可以作为一个起点,为进一步测试提出假设、比较和对比 CorEx 在 CorExplorer 外部数据集上的发现,以及连接单个肿瘤中一个或几个基因的病理表达特征,对可能协调受影响的较大群体。最后,它可以作为用户友好的介绍,将机器学习应用于RNA-seq,适用于该领域入门人员。
我们介绍了CorExplorer网站,这是一个可公开访问的Web服务器,用于交互式探索通过CorEx算法从肿瘤RNA-seq中学到的最大相关基因表达因子。我们已经展示了该网站如何被用来根据肿瘤基因表达对患者进行分层,以及这种分层如何与生物功能和生存相对应。
其他用于RNA-seq分析的Web服务器已经建成。肿瘤的差分和共表达分析可以检查和综合与其他数据类型在cbioPortal19,20。服务器 GenePattern21、Mev22和 Morpheus23集成了已建立的聚类技术,如主组件分析 (PCA)、kmeans 或自组织映射 (SOM)。更多的创新工作包括基于自动规则生成分类器的CamurWeb24和TACCO25,后者实现随机森林分类器和套索。此处使用的 CorEx 算法优化了多变量信息,以便找到解释数据模式的因素的层次结构。与通过PCA4找到的线性全局因子相比,非线性和分层因子学习似乎具有更好的可解释性。此外,该技术对样本信号的细粒度分析允许与更常用的广泛亚型进行精确的肿瘤比较。重叠和分层因子分析的这种组合使 CorExplorer 与大多数其他方法不同,并且需要新的可视化和汇总工具。
CorExplorer 因子分析的一个关键部分是,它不仅能够探索多个因子,而且能够探索位于重叠层次结构中的信息性基因模式的 100 多个因子。CorExplorer 有助于挖掘这些生物和临床关联的无数因素,并允许对单个肿瘤进行非常详细的表征。对如此众多因素的无监督学习意味着并非全部与疾病生物学相关。在这种情况下,必须使用注释或已知基因来拉出感兴趣的因素,或搜索与临床数据相关的因素,如生存。因此,CorExplorer 允许用户实现这个非常重要的筛选步骤。肿瘤中因子基因模式的存在甚至可能建议一种个性化肿瘤治疗的方法。此外,每个肿瘤的因子分数的多重性,允许发现潜在的有用的治疗组合。
有时,对于与生存高度相关的因素,没有出现显著的 GO 注释。虽然这可能是由于噪声或采样数据不足,还有其他可能的原因,如集群规模太小,无法记录显著的富集分数,或组是单一基因的”篮子”从不同的途径没有连贯的生物协会。此外,一类不同于KEGG和GO生物过程的注释,例如细胞隔间,可能是适当的。这些可以通过链接到 StringDB 来访问,如协议中所示。CorExplorer网站上的基因本体浓缩分析目前没有考虑到基因权重的一个因素,不过这很可能在不远的将来得到纠正。请注意,在”添加窗口”下提供了一个基因列表选项,允许下载完整的因子基因列表,以便使用外部工具进行进一步分析。
就网站而言,CorEx 在每个数据集上运行了五次,并保留了导致最大总相关性的运行。对多次运行的结果进行统计表示可能更具信息性,是未来工作的目标。此外,服务器上可用的肿瘤类型集相当小,但我们预计会根据用户兴趣随着时间的推移而扩展。
如上所述,CorExplorer 将 CorEx RNA-seq 因子关系以及临床和数据库信息可视化,从而支持各种不同的询问模式。我们希望,这一工具将引导进一步的工作,利用RNA-seq分析的力量,发现和临床应用在肿瘤学。
The authors have nothing to disclose.
GV 得到了 DARPA 奖 W911NF-16-0575 的支持。
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |