介绍了一个计算协议,CaseOLAP LIFT和一个用例,用于研究线粒体蛋白及其与心血管疾病的关联,如生物医学报告中所述。该协议可以很容易地适应研究用户选择的细胞成分和疾病。
迅速增长和大量的生物医学报告,每份报告都包含众多实体和丰富的信息,为生物医学文本挖掘应用提供了丰富的资源。这些工具使研究人员能够整合、概念化和转化这些发现,以发现对疾病病理学和治疗方法的新见解。在该协议中,我们提出了CaseOLAP LIFT,这是一种新的计算管道,通过从文本数据集(例如,生物医学文献)中提取用户选择的信息来研究细胞成分及其疾病关联。该软件在疾病相关文档中识别亚细胞蛋白及其功能伴侣。通过软件的标签插补方法 识别 其他与疾病相关的文档。为了将由此产生的蛋白质 – 疾病关联置于上下文中并整合来自多个相关生物医学资源的信息,自动构建知识图谱以进行进一步分析。我们提出了一个用例,其中包含~3400万在线下载的文本文档,以提供使用该方法阐明线粒体蛋白在不同心血管疾病表型中的作用的示例。此外,将深度学习模型应用于生成的知识图谱,以预测以前未报告蛋白质与疾病之间的关系,从而产生了1,583个关联,预测概率>0.90,测试集上的受试者工作特征曲线下面积(AUROC)为0.91。该软件具有高度可定制和自动化的工作流程,具有广泛的原始数据可用于分析;因此,使用这种方法,可以在文本语料库中以增强的可靠性识别蛋白质 – 疾病关联。
研究疾病相关蛋白质可以增强发病机制的科学知识,并有助于确定潜在的治疗方法。生物医学出版物的几个大型文本语料库,例如PubMed包含出版物标题,摘要和全文文件的3400万篇文章,报告了将蛋白质与疾病联系起来的新发现。然而,这些发现分散在各种来源中,必须整合以产生新的生物医学见解。存在几种生物医学资源来整合蛋白质 – 疾病关联1,2,3,4,5,6,7。然而,这些策划的资源通常是不完整的,可能不包括最新的研究结果。文本挖掘方法对于在大文本语料库中提取和合成蛋白质 – 疾病关联至关重要,这将导致对科学文献中这些生物医学概念的更全面理解。
存在多种生物医学文本挖掘方法来揭示蛋白质 – 疾病关系8,9,10,11,12,13,14,其他方法通过识别文本13,15,16,17中提到的蛋白质,疾病或其他生物医学实体,部分有助于确定这些关系,18,19.然而,其中许多工具无法获得最新的文献,除了少数定期更新的文献8,11,13,15。同样,许多工具的研究范围也有限,因为它们仅限于广泛的预定义疾病或蛋白质9,13。有几种方法也容易识别文本中的误报;其他人则通过蛋白质名称的可解释和全局黑名单9,11或更少可解释的名称实体识别技术15,20解决了这些问题。虽然大多数资源仅提供预先计算的结果,但某些工具通过 Web 应用程序或可访问的软件代码8、9、11 提供交互性。
为了解决上述限制,我们提出了以下协议,带有标签插补和全文的CaseOLAP(CaseOLAP LIFT),作为一个灵活且可定制的平台,用于研究蛋白质(例如,与细胞成分相关的蛋白质)与文本数据集中的疾病之间的关联。该平台具有基因本体(GO)术语特异性蛋白质(例如细胞器特异性蛋白质)的自动管理功能,缺失文档主题标签的插补,全文文档的分析以及分析工具和预测工具(图1,图2和表1)。CaseOLAP LIFT 通过使用用户提供的 GO 术语(例如细胞器区室)和功能相关蛋白质来管理细胞器特异性蛋白质,并使用 STRING 21、Reactome22 和 GRNdb23。疾病研究文件由其 PubMed 注释的医学主题标题 (MeSH) 标签标识。对于~15.1%的未标记文档,如果在标题中找到至少一个MeSH术语同义词或在摘要中找到至少两个,则估算标签。这使得在文本挖掘分析中可以考虑以前未分类的出版物。CaseOLAP LIFT还允许用户在指定的时间范围内(例如,2012-2022年)选择出版物的各个部分(例如,仅标题和摘要,全文或不包括方法的全文)。该软件还可以半自动地管理特定于用例的蛋白质名称黑名单,从而大大减少其他方法中存在的假阳性蛋白质疾病关联。总体而言,这些改进实现了更大的可定制性和自动化,扩大了可用于分析的数据量,并从大型生物医学文本语料库中产生了更可靠的蛋白质 – 疾病关联。
CaseOLAP LIFT结合了生物医学知识,并使用知识图谱表示各种生物医学概念的关系,该知识图谱用于预测图中隐藏的关系。最近,基于图的计算方法已应用于生物学环境,包括整合和组织生物医学概念24,25,药物再利用和开发26,27,28,以及蛋白质组学数据的临床决策29。
为了展示CaseOLAP LIFT在构建知识图谱中的实用性,我们重点介绍了一个关于线粒体蛋白与八类心血管疾病之间关联的研究用例。分析了来自~362,000份疾病相关文件的证据,以确定与疾病相关的顶级线粒体蛋白和途径。接下来,将这些蛋白质,它们的功能相关蛋白质及其文本挖掘结果合并到知识图谱中。该图被用于基于深度学习的链接预测分析,以预测迄今为止在生物医学出版物中尚未报道的蛋白质 – 疾病关联。
引言部分描述了我们协议的背景信息和目标。以下部分介绍计算协议的步骤。随后,描述了该协议的代表性结果。最后,我们简要讨论了计算协议的用例、优点、缺点和未来的应用。
CaseOLAP LIFT使研究人员能够研究功能蛋白(例如,与细胞成分,生物过程或分子功能相关的蛋白质)与生物学类别(例如,疾病)之间的关联。所描述的协议应按指定的顺序执行,协议部分 2 和协议部分 3 是最关键的步骤,因为协议部分 4 和协议部分 5 取决于它们的结果。作为协议第 1 部分的替代方法,可以从 GitHub 存储库 (https://github.com/CaseOLAP/caseolap_lift) 克隆和访问 CaseOLAP LIFT 代码。应该注意的是,尽管在软件开发过程中进行了测试,但仍可能发生错误。如果是这样,则应重复失败的步骤。如果问题仍然存在,建议重复协议第 1 节,以确保使用最新版本的 docker 容器。通过在 GitHub 存储库上创建问题以获得其他支持,可以获得进一步的帮助。
该方法通过使研究人员能够识别感兴趣的实体并揭示它们之间的潜在关联来支持假设生成,这些关联在现有的生物医学资源中可能不容易获得。由此产生的蛋白质 – 疾病关联使研究人员能够通过分数的可解释指标获得新的见解:流行度分数表示与疾病相关的研究最多的蛋白质,独特性分数表示蛋白质最独特的疾病,组合CaseOLAP评分是两者的组合。为了防止误报识别(例如,由于同音异义词),一些文本挖掘工具利用术语黑名单来避免 9,11。同样,CaseOLAP LIFT也使用黑名单,但允许用户根据他们的用例定制黑名单。例如,在研究冠状动脉疾病(CAD)时,“CAD”不应被视为蛋白质“半胱天冬酶激活脱氧核糖核酸酶”的名称。然而,在研究其他主题时,“CAD”通常可能指的是蛋白质。
CaseOLAP LIFT适应可用于文本挖掘的数据量。日期范围功能减轻了计算负担,并为假设生成创造了灵活性(例如,研究关于蛋白质-疾病关联的科学知识如何随时间变化)。同时,标签插补和全文组件增强了可用于文本挖掘的数据范围。默认情况下,这两个组件都处于禁用状态,以降低计算成本,但用户可以决定包含任何一个组件。标签插补是保守的,它正确地对大多数出版物进行了分类(87%的准确率),但错过了其他类别的标签(2%的召回率)。此方法目前依赖于与疾病关键字匹配的基于规则的启发式方法,并且计划通过使用文档主题建模技术来提高性能。由于许多未分类的报告往往是最近的出版物,因此调查最近日期范围(例如,过去 3 年内的所有出版物)的研究最好禁用标签插补。全文组件增加了运行时和存储要求。值得注意的是,只有少数文件有全文可用(在我们的研究中~14%的文件)。假设出版物方法部分中提到的蛋白质名称不太可能与疾病主题相关,建议查询不包括方法部分的全文文章。
由此产生的蛋白质-疾病关联评分对于传统分析非常有用,例如聚类、降维或富集分析(例如,GO、途径),本软件包中包含一些实现。为了将这些分数置于现有生物医学知识中的上下文中,会自动构建知识图谱,并可以使用图形可视化工具(例如,Neo4j32,Cytoscape 33)进行探索。知识图谱还可用于预测分析(例如,未报告的蛋白质-疾病关系的链接预测、蛋白质网络的社区检测、奖品路径行走方法)。
我们已经检查了预测的蛋白质-疾病关联的模型评估指标(表5)。该模型为每个蛋白质-疾病关联分配一个介于 0.0 和 1.0 之间的概率分数,分数接近 1.0 表示预测的置信度更高。对模型性能的内部评估基于各种指标,包括AUROC,准确性,平衡准确性,特异性和召回率,表明他的工作具有出色的整体性能。然而,评估也强调模型的精度(0.15)得分相当差,导致AUPRC和F1得分较低。未来改进该指标的研究将有助于提高模型的整体性能。我们设想这可以通过实现更复杂的知识图嵌入和图预测模型来实现。根据模型的精度 0.15,研究人员应预期大约 15% 的阳性识别;特别是,在该模型预测的所有12,688种蛋白质 – 疾病关联中,大约15%是真正的阳性关联。这可以通过仅考虑具有高概率评分的蛋白质-疾病关联来缓解(例如,>0.90);在我们的用例中,概率阈值为 0.90 的筛选导致 1,583 个关联的高置信度预测。研究人员可能会发现手动检查这些预测以确保高有效性也很有帮助(参见 图 7 作为示例)。对我们预测的外部评估确定,在我们的文本挖掘研究中,来自广泛策划数据库DisGeNet19的310个蛋白质 – 疾病关联中确定了103个,并且通过我们的知识图谱分析预测了另外88个关联,概率得分为>0.90。
总体而言,CaseOLAP LIFT在设计功能蛋白组与大文本语料库中多种疾病之间关联的自定义分析方面具有更高的灵活性和可用性。该软件包在新的用户友好的命令行界面中进行了简化,并作为 docker 容器发布,从而减少了与配置编程环境和软件依赖项相关的问题。用于研究心血管疾病中线粒体蛋白的CaseOLAP LIFT管道可以很容易地适应;例如,该技术的未来应用可能涉及研究与任何GO术语相关的任何蛋白质与任何生物医学类别之间的关联。此外,该文本挖掘平台确定的蛋白质 – 疾病关联排名对于准备使用高级自然语言技术的数据集非常重要。由此产生的知识图谱使研究人员能够将这些发现转化为生物学信息知识,并为后续基于图的分析奠定基础。
The authors have nothing to disclose.
这项工作得到了美国国立卫生研究院(NIH)R35 HL135772到P.P.,NIH T32 HL13945到A.R.P.和D.S.,NIH T32 EB016640到A.R.P.,国家科学基金会研究实习(NRT)1829071到A.R.P.和D.S.,NIH R01 HL146739为I.A.,J.R.,A.V.,K.B.和TC Laubisch捐赠给加州大学洛杉矶分校的P.P.。