笔记整理:姚凯,东南大学硕士,研究方向为知识图谱、多模态大语言模型
链接:https://arxiv.org/abs/1809.09414
1. 动机
知识图谱(KG)使用三元组来描述现实世界中的事实。它在智能分析和应用中得到了广泛的应用。然而,在施工过程中不可避免地引入了可能的噪音和成本。基于KG的任务或应用假设KG中的知识是完全正确的,不可避免地会带来潜在的偏差。为了提高KG可信度评估的可解释性,以及从较为全面的角度评估知识图谱的质量,本文提出了KGTtm模型。KGTtm模型综合了三元组中的内部语义信息和KG的全局推理信息,从三个层面衡量可信度,包括实体层面(实体对之间的相关性强度)、关系层面(关系向量的平移不变性)和KG全局层面(三元组相关可达路径的推理证明)。
2. 贡献
本文的主要贡献:
(1)提出了一种综合利用三元组语义信息和全局推断信息的知识图谱三元组可信度测量方法。模型可以在实体级、关系级和知识图谱全局级实现三个层次的度量置信度。
(2)在真实世界的大型知识图谱 Freebase创建的基准数据上验证了三元组可信度的有效性。
3. 方法
论文提出了三元组置信度的度量模型(Knowledge GraphTriple trust-worthiness measurement model, KGTtm),度量和整合实体层面、关系层面和知识图谱全局层面的置信值。模型上层是三个可信度评估单元(Estimator),下层是融合单元(Fusioner),输出为每个三元组生成最终的可信度值。结构如下。
图1 基于KGTtm模型的框架图
Estimator1的目的是解决(h, t)之间是否存在关系的问题。通过度量给定实体对(h,t)之间的关联强度,来衡量实体对之间发生未确定关系的可能性。
首先使用改进的ResourceRank算法,计算头尾实体之间的资源强度。
其中, 表示节点t所有前向节点的集合, 是节点 的出度, 表示节点 到节点t的带宽。考虑到孤立节点,假定每个节点的能量有 θ 的概率流到另一个节点,流量为 。
加上头尾实体的资源强度,Estimator1一共考虑了三元组实体层面6个特征,分别是:1)R(t|h) 2)头节点的入度ID(h) 3)头节点的出度OD(h) 4)尾节点的入度ID(t) 5)尾节点的出度OD(t) 6)从头节点到尾节点路径的深度。随后,将这些特征拼接为向量V,随后转换为概率值RR(h,t):
其中, 是非线性激活函数, 表示需要训练的参数矩阵。
Estimator2的目的是计算度量实体对(h,t)之间存在关系r的可能性。Estimator2使用基于平移的能量函数算法(Translation-based energy function,TEF),即关系向量r为头部实体嵌入h,与尾部实体嵌入t之间的平移运算。
定义能量函数E(h,r,t):
使用修改的sigmoid函数计算将E(h,r,t)转化为实体对(h,t)构成关系r的概率:
其中 δ , λ 是超参。
Estimator3目的是判断KG中的其他相关三元组是否可以推断出该三元组是可信的。在有向图中,从头实体到尾实体有通过一步或者多步可达的路径,表明头尾实体之间存在语义相关性和三元组之间蕴含的复杂推理模式。Estimator3使用可达路径推理算法(RPI)。先用一种基于语义距离的路径选择算法,选定路径,然后将每个选定路径映射到一个低维向量以便进行后续计算。
对于从头实体到尾实体的所有路径 中的 ,计算r和 中所有关系的语意距离:
对于 每条路径,将头尾实体关系的嵌入拼接,得到 ,送入循环神经网络RNNs编码,得到每条路径的输出 ,选取 最大的前k个拼接在一起,并进行非线性变换得到RP(h,r,t)。
最后的融合器Fusioner:将三个Estimator的输出拼接得到向量f(s),然后将其输入融合器并通过多个隐藏层进行转换。输出层是一个二进制分类器,输出p即为三元组可信度。
其中 表示第i个隐藏层, 是需训练的参数矩阵。
4. 实验
本文在FB15K上进行实验。FB15K有1345个关系和14951个实体,以及相对应的592213个三元组。同时,本文在FB15K中加入了与原数据集相等数量的负例三元组。负例生成方式为随机替换头实体、尾实体、或关系。
模型在三元组错误检测的任务上,采用准确率precision和F1-score两个指标来验证有效性。
表1与其他模型性能比较
如表1所示,相比MLP模型和双线性模型,KGTtm模型在两个评价指标上有10%以上的提升。相比传统的翻译模型也有一定的提升,由于本文方法充分利用了三元组的内部语义信息和知识图的全局推理信息,鲁棒性更强。
最后作者进行了消融实验,分别评估各个Estimator所起的作用,如表2所示:
表2 单一评估器错误检测结果
可以发现,每个模型得到的精度都在0.8以上,这证明了每个估计器的有效性。基于可达路径推理(RPI)的方法比其他两种估计方法的效果更好。结合所有的估计量,全局模型(KGTtm)得到的精度得到了很大的提高,这表明KGTtm模型具有良好的可扩展性和可扩展性。它可以很好地整合多个方面的信息,以获得更合理的可信度。
5. 总结
本文研究了知识图谱可信评估的问题,提出了KGTtm模型。KGTtm模型从三个层面衡量可信概率,包括实体层面(实体对之间的相关性强度)、关系层面(关系向量的平移不变性)和KG全局层面(三元组相关可达路径的推理证明)。针对不同的层次,模型设计三种Estimators来重点解决这些问题,考虑全面,同时模型具有较好的可解释性和可扩展性。实验结果表明,本文提出的KGTtm模型在三元组错误检测任务上,相比其他的典型模型,具有显著的性能提升。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。