论文浅尝 | Triple Trustworthiness Measurement for Knowledge Graph

news/2024/7/24 7:48:27 标签: 知识图谱, 人工智能

da6811b8eb9885df18f817803b31aaf4.png

笔记整理:姚凯,东南大学硕士,研究方向为知识图谱、多模态大语言模型

链接:https://arxiv.org/abs/1809.09414

1. 动机

知识图谱(KG)使用三元组来描述现实世界中的事实。它在智能分析和应用中得到了广泛的应用。然而,在施工过程中不可避免地引入了可能的噪音和成本。基于KG的任务或应用假设KG中的知识是完全正确的,不可避免地会带来潜在的偏差。为了提高KG可信度评估的可解释性,以及从较为全面的角度评估知识图谱的质量,本文提出了KGTtm模型。KGTtm模型综合了三元组中的内部语义信息和KG的全局推理信息,从三个层面衡量可信度,包括实体层面(实体对之间的相关性强度)、关系层面(关系向量的平移不变性)和KG全局层面(三元组相关可达路径的推理证明)。

2. 贡献

本文的主要贡献:

(1)提出了一种综合利用三元组语义信息和全局推断信息的知识图谱三元组可信度测量方法。模型可以在实体级、关系级和知识图谱全局级实现三个层次的度量置信度。

(2)在真实世界的大型知识图谱 Freebase创建的基准数据上验证了三元组可信度的有效性。

3. 方法

论文提出了三元组置信度的度量模型(Knowledge GraphTriple trust-worthiness measurement model, KGTtm),度量和整合实体层面、关系层面和知识图谱全局层面的置信值。模型上层是三个可信度评估单元(Estimator),下层是融合单元(Fusioner),输出为每个三元组生成最终的可信度值。结构如下。

f5de4e68a188e9e4065dd17892fb9fd4.png

图1 基于KGTtm模型的框架图

Estimator1的目的是解决(h, t)之间是否存在关系的问题。通过度量给定实体对(h,t)之间的关联强度,来衡量实体对之间发生未确定关系的可能性。

首先使用改进的ResourceRank算法,计算头尾实体之间的资源强度。

f0b34aa300f08608f12e20d9c99c5abb.png

其中,  表示节点t所有前向节点的集合,  是节点  的出度,  表示节点  到节点t的带宽。考虑到孤立节点,假定每个节点的能量有 θ 的概率流到另一个节点,流量为  。

加上头尾实体的资源强度,Estimator1一共考虑了三元组实体层面6个特征,分别是:1)R(t|h) 2)头节点的入度ID(h) 3)头节点的出度OD(h) 4)尾节点的入度ID(t)  5)尾节点的出度OD(t) 6)从头节点到尾节点路径的深度。随后,将这些特征拼接为向量V,随后转换为概率值RR(h,t):

5ae7a13a8e732a895109c7a9d73d4d36.png

其中,  是非线性激活函数,  表示需要训练的参数矩阵。

Estimator2的目的是计算度量实体对(h,t)之间存在关系r的可能性。Estimator2使用基于平移的能量函数算法(Translation-based energy function,TEF),即关系向量r为头部实体嵌入h,与尾部实体嵌入t之间的平移运算。

定义能量函数E(h,r,t):

61fe15067e91b9d3a6cfb930af96bff8.png

使用修改的sigmoid函数计算将E(h,r,t)转化为实体对(h,t)构成关系r的概率:

0364503c031e90aa1830f8e7bb703d52.png

其中 δ , λ 是超参。

Estimator3目的是判断KG中的其他相关三元组是否可以推断出该三元组是可信的。在有向图中,从头实体到尾实体有通过一步或者多步可达的路径,表明头尾实体之间存在语义相关性和三元组之间蕴含的复杂推理模式。Estimator3使用可达路径推理算法(RPI)。先用一种基于语义距离的路径选择算法,选定路径,然后将每个选定路径映射到一个低维向量以便进行后续计算。

对于从头实体到尾实体的所有路径  中的  ,计算r和  中所有关系的语意距离:

694064aba4755b1edbf6d9c5910c2fbb.png

对于  每条路径,将头尾实体关系的嵌入拼接,得到  ,送入循环神经网络RNNs编码,得到每条路径的输出  ,选取  最大的前k个拼接在一起,并进行非线性变换得到RP(h,r,t)。

最后的融合器Fusioner:将三个Estimator的输出拼接得到向量f(s),然后将其输入融合器并通过多个隐藏层进行转换。输出层是一个二进制分类器,输出p即为三元组可信度。

3d61f52d824de09b4028b3bb74602968.png

其中  表示第i个隐藏层,  是需训练的参数矩阵。

4. 实验

本文在FB15K上进行实验。FB15K有1345个关系和14951个实体,以及相对应的592213个三元组。同时,本文在FB15K中加入了与原数据集相等数量的负例三元组。负例生成方式为随机替换头实体、尾实体、或关系。

模型在三元组错误检测的任务上,采用准确率precision和F1-score两个指标来验证有效性。

表1与其他模型性能比较

0d85ba5c4804edc4386607e86df0fc48.png

如表1所示,相比MLP模型和双线性模型,KGTtm模型在两个评价指标上有10%以上的提升。相比传统的翻译模型也有一定的提升,由于本文方法充分利用了三元组的内部语义信息和知识图的全局推理信息,鲁棒性更强。

最后作者进行了消融实验,分别评估各个Estimator所起的作用,如表2所示:

表2 单一评估器错误检测结果

0d6a444e84e0f555da1c18493bcaf84e.png

可以发现,每个模型得到的精度都在0.8以上,这证明了每个估计器的有效性。基于可达路径推理(RPI)的方法比其他两种估计方法的效果更好。结合所有的估计量,全局模型(KGTtm)得到的精度得到了很大的提高,这表明KGTtm模型具有良好的可扩展性和可扩展性。它可以很好地整合多个方面的信息,以获得更合理的可信度。

5. 总结

本文研究了知识图谱可信评估的问题,提出了KGTtm模型。KGTtm模型从三个层面衡量可信概率,包括实体层面(实体对之间的相关性强度)、关系层面(关系向量的平移不变性)和KG全局层面(三元组相关可达路径的推理证明)。针对不同的层次,模型设计三种Estimators来重点解决这些问题,考虑全面,同时模型具有较好的可解释性和可扩展性。实验结果表明,本文提出的KGTtm模型在三元组错误检测任务上,相比其他的典型模型,具有显著的性能提升。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

11b9c7a8bcf331087c8953c208bd0bc7.png

点击阅读原文,进入 OpenKG 网站。


http://www.niftyadmin.cn/n/5236940.html

相关文章

FFmpeg之将视频转为16:9(横屏)或9:16(竖屏)(三十六)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒体系统工程师系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只…

【灵魂 |数据结构与算法】 数据结构必备经法(开山篇),一起修炼算法经法!

🤵‍♂️ 个人主页: AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!&…

开箱即用!教你如何正确使用华为云CodeArts IDE for C/C++!

华为云CodeArts IDE 定位华为云开发者桌面,是华为云面向开发者提供的一款智能化桌面集成开发环境。CodeArts for C/C集成了华为自研的C/C语言服务,并将良好的C/C编码体验、方便的访问华为云资源、简单的引用华为云服务于一身。实现C/C开发者在个人研发作…

二维码智慧门牌管理系统升级解决方案:重新制牌审核快速审批

文章目录 前言一、快速审批与重新安装一、其他系统优势 前言 随着城市化进程的加速,门牌号码的管理变得日益重要。然而,传统的门牌管理方式已经无法满足现代社会的需求。在这样的背景下,二维码智慧门牌管理系统应运而生。但随着系统使用&…

配置中心--Spring Cloud Config

目录 概述 环境说明 步骤 创建远端git仓库 准备配置文件 配置中心--服务端 配置中心--客户端 配置中心的高可用 配置中心--服务端 配置中心--客户端 消息总线刷新配置 配置中心--服务端 配置中心--客户端 概述 因为微服务架构有很多个服务,手动一个一…

关于#java#的问题:账户的初始余额是20000元,两个线程每次存储1000 元,分别各存储20000元

关于#java#的问题:账户的初始余额是20000元,两个线程每次存储1000 元,分别各存储20000元 模拟一个简单的银行系统,使用两个不同的线程向同一个账户存钱。账户的初始余额是20000元,两个线程每次存储1000 元,分别各存储20000元,不允…

记录 | Mac微信双开

目的:在 mac 上微信双开 (1) 先打开并登录第一个微信; 2)访达 -> 应用程序 -> 微信(双指同时摁)-> 显示包内容; 3)依次打开以下⽂件夹 Contents -> MacOS -> 双击 WeChat 即可…

【眼界 | 每日技术】日常生活中的那些技术,增长眼界系列(一)

🤵‍♂️ 个人主页: AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!&…