近年来,知识图谱 (KG) 作为存储实体之间关系和执行更高层次推理的工具而广受欢迎。生物医学和临床实践中的 KG 旨在为更高效、更灵活地诊断和治疗复杂疾病提供优雅的解决方案。在这里,我们提供了系统综述,以表征 KG 在复杂疾病研究领域的最先进技术。我们涵盖以下主题:(1)知识来源,(2)实体提取方法,(3)关系提取方法和(4)KGs在复杂疾病中的应用。因此,我们提供了域的完整情况。最后,我们通过确定进一步研究的差距和机会,讨论了该领域的挑战,并提出了幼儿园在复杂疾病诊断和治疗方面的潜在研究方向。
癌症和神经退行性疾病等复杂疾病是由多种基因和环境因素相互作用引起的,在全球范围内发病率和死亡率很高。根据国际癌症研究机构发布的最新全球癌症负担数据,2020年全球约有1929万新发癌症病例和996万癌症死亡病例。随着现代医学和信息学的快速稳定发展,以生物医学文献、电子病历(EMR)和生物医学数据库等形式获取和记录了大量复杂疾病的信息。从上述媒体中提取和整合这些信息以促进临床诊断和治疗已成为重大挑战。
最近,知识图谱 (KG) 技术已成为通过理解生物医学术语之间的相互联系来克服这些挑战的有前途的策略。KG由节点和边组成,其中节点代表实体或概念,边用于连接两个节点,表示实体之间的关系或实体的属性。KG作为人类知识的集合体,越来越受到研究的关注。目前,KG对各种生物医学研究(例如医学问答系统)大有裨益。检索系统 [5, 6]、数据分析系统 [7] 和药物再利用 [8, 9]。特别是,已经构建和开发了复杂的疾病知识图谱(CDKG)。例如,Li等[10]构建了肝细胞癌的综合KG,包括药物、疾病、蛋白质、DNA等实体。Xiu等[11]构建了消化系统肿瘤的知识图谱。CDKG 已显示出潜在的强大能力,可以在复杂疾病理论研究和临床实践中提供更有效的应用。在最近的一篇相关综述中,David等[12]对知识图谱在一般生物医学领域的构建和应用进行了综述,但没有详细说明如何构建知识图谱。此外,其重点是生物医学领域,并没有专门关注疾病领域。Abu-Salih等[13]详细概述了多个特定领域的知识图谱,如教育、医疗保健、金融和医疗保健。Alshahrani等[14]仅提供了生物医学领域知识嵌入方法的详细概述。
节点代表实体或概念
边用于连接两个节点,表示实体之间的关系或实体的属性
与一般领域的传统知识图谱相比,CDKG对数据内容的质量要求更高,生物医学数据的获取、预处理和整合难度更大。此外,基于构建的CDKG开发医疗应用具有重要意义和价值。在下文中,我们将全面概述 CDKG 的构造和应用。首先,介绍了两种构建KG的策略,即通过从文本中提取知识来构建KG和通过合并数据库来构建KG。详细概述了从头开始构建 KG 的过程,并将此过程总结为七个步骤。其次,我们概述了 CDKG 和引入开放的共享信息提取任务。第三,总结了实体提取、关系提取等KG构建的关键技术;四、详细介绍KG在复杂疾病中的应用。最后,我们讨论当前的挑战和机遇。
由于 KG 的构建方式多种多样,我们根据知识来源将其分为两类:1)通过从文本中提取知识来构建KG,(2)通过合并数据库来构建KG。图 1 显示了从文本构建 CDKG 和从数据库构建 CDKG 的管道。如图所示,两类的主要区别在于不同侧重点的知识提取:前者的构建管道侧重于实体和关系提取,而后者则更注重不同数据库交互的知识融合。
通过从文本中提取知识来构建KG,是指用于KG构建的数据是从医学文本和数据库中提取的,主要来源是医学文本。数据库通常存储结构化数据,通常可以直接使用。相比之下,文本很难直接使用,因此采用信息提取技术从文本构建结构化数据。这是KG建设最常见的策略,难点在于从文本中提取目标知识。表1总结了通过从文本中提取知识来构建CDKG的方法。
通过合并数据库构建KG是指将多个数据库或知识库的数据合并起来,构建一个大型的综合知识图谱。难点在于消除不同来源数据之间的模糊性,以便后续的知识整合。
本文将CDKG构建归纳为(1)预处理、(2)数据模式设计、(3)知识提取、(4)实体归一化、(5)知识评估、(6)知识存储和(7)知识嵌入7个步骤。图 2 显示了通过从文本中提取知识来构建知识图谱的过程。
构建CDKG的第一步是预处理,通常由选择知识源和预处理数据两部分组成。知识来源应具有权威性,以确保知识的正确性。常用CDKG构建的知识源将在后面的章节中介绍。
知识来源主要是文本数据。然而,原始文本总是包含噪声,对文本进行预处理将使信息提取模型在提取结构化数据时更加高效。文本预处理包括分词、句子分割、词性(POS)标记、依赖解析等,可以为信息提取模型提供语法和语义特征,从而有助于提高模型性能。例如,Wang等[15]采用Stanford CoreNLP [16]进行分词、句子分段和POS标记。Xiu等[11]使用ICTCLAS工具对文本序列进行了分词和POS标记。Rossanez等[17]通过对文本进行依赖解析来简化句子结构。
第二步是设计数据模式。数据图式是知识图谱的核心,用于确定和规范知识图谱的实体类型和关系类型,例如规定某些类型的关系仅出现在特定实体对类型之间。
数据图式通常需要根据知识图谱的内容和规模进行设计。例如,Rotmensch等[18]构建了健康知识图谱(HKG)来模拟疾病与症状之间的关系。因此,将实体类型设置为疾病和症状,并且只有一种关系类型,表明疾病实体与症状实体之间的相关性。但在通过合并多个数据库构建的综合临床知识图谱(CKG)中,存在33种类型的实体和51种类型的关系[19]。
构建CDKG的第三步是知识提取,这是该过程的核心步骤。目标是从各种来源的非结构化数据中提取正确的知识。在这篇综述中,我们将知识提取分为两个任务:实体提取和关系提取。前一个任务从数据源中提取所有目标实体,关系提取任务从源中提取知识三元组。图 3A 显示了知识提取的过程。
知识提取的下一步是实体规范化。在生物医学领域,同一个实体通常有多个名称。例如,阿尔茨海默病也被称为老年痴呆。此外,构建 CDKG 通常涉及从多个不同的来源提取知识,其中同一实体使用不同的标准名称。因此,有必要进行实体归一化,以减少KG中知识的冗余和模糊性。
基于字典的方法通常用于生物医学领域的实体归一化。在这种方法中,设置实体的标准名称,并将实体的其他名称设置为同义词。然后,文本中实体的原始术语将映射到字典中的标准名称。
为了构建一种针对帕金森病的药物再利用,Zhang等[20]使用统一医学语言系统(UMLS)中的概念标识符作为知识图谱实体的标准名称,以统一医学知识库(KB)和生物医学文献中的不同名称。Yuan等[21]同时进行了实体提取和实体归一化。在实体归一化中,基于医学主题词(MeSH)和UMLS构建了明确的生物医学词典,然后采用基于字典的方法和启发式规则来消除实体歧义。启发式规则包括单数/复数形式、语言语义模式和共现语义类型。上述研究使用统一的归一化模型对多种实体类型进行归一化。但是,规范化模型取决于实体类型。因此,更合理的选择是对不同的实体类型采用不同的实体规范化方法。例如,PKG中有五种类型的生物医学实体[22],每种实体类型都使用不同的实体归一化模型(例如,tmChem [23]用于归一化化学类型实体)。Pubtator [24]是另一个常用的临时控制词汇表,用于建筑KG中的实体提取和实体归一化[25],并被更新和扩展为PubTator Central(PTC)[26]。
最近,基于深度学习的方法也在不断发展中,并已成为实体归一化的主要方法。神经网络已被用于计算实体提及表示和概念表示。Ji等[27]使用BERT获取包含上下文信息的实体表示,并将实体归一化任务视为二元分类任务。除了使用BioBERT获得密集表示外,Sung等[28]提出了BioSyn模型,该模型采用项频-逆文档频率(TF-IDF)来计算稀疏表示,然后两者的加权和来获得实体表示。Liu等[29]提出了一种预训练语言模型SapBERT,使实体表示不仅包含上下文语义特征,还包含同义语义特征,并在多个数据集上实现了非常高的性能。