论文浅尝 | How to Keep a Knowledge Base Synchronized

https://mmbiz.qpic.cn/mmbiz_png/GNpj5fw72Eqiay3wE6zsGBICic9MEm28kfjlBfgQsicXLRBOSuNZRnNmHRGS2foLzmNaGzTFo20MibM78tlLJN1Uvw/640?wx_fmt=png&wxfrom=5&wx_lazy=1

Citation: Liang, J.,Zhang, S. & Xiao, Y. (2017). How to Keep a Knowledge Base Synchronized withIts Encyclopedia Source. Proceedings of the Twenty-Sixth International JointConference on Artificial Intelligence, 3749–3755.

论文链接:https://www.ijcai.org/proceedings/2017/0524.pdf

动机

随着知识图谱技术的快速发展,知识图谱正在越来越多的应用中扮演重要的角色。但是现有的知识图谱存在一个很明显的缺陷:图谱中的数据的实时性很差。绝大多数知识图谱从构建完成开始,其中的数据便不再更新。即使有更新,更新的周期也非常长。每一次的更新都是一次费时费力的、类似于重新构建知识图谱的过程。这样的更新机制一方面需要消耗大量网络带宽和计算资源,另一方面由于每次更新所消耗的代价太大,这就限制了更新的频率,使得知识图谱中数据的实时性非常差。由于缺乏一个实施的更新机制,图谱中这些没有同步更新的数据中存在大量的错误,这使得这些数据无法被利用。这种数据的滞后性给知识图谱的应用带来了很大的局限性。

贡献

(1)本文提出一个实时更新知识图谱数据的方法框架,可以以较高的准确率预测出哪些实体需要被更新,从而以较低的代价和较高的频率对知识图谱进行更新,从而实现了知识图谱的实时、动态更新。

(2)本文将其提出的知识图谱更新框架部署在 cn-dbpedia 上,用于对 cn-dbpedia 的实时更新,更新频率设置为每天更新一次,实践结果表明,更新的效果非常好。

 

方法

https://mmbiz.qpic.cn/mmbiz_png/GNpj5fw72Eqiay3wE6zsGBICic9MEm28kfibGV1Ur1gQPJ1ENCXibYU4JmvxibTiaKmLNmoVLJV6iaudSvsTJOtVhAaXA/640?wx_fmt=png&wxfrom=5&wx_lazy=1

本文所提出的知识图谱更新框架主要分为4个步骤:

1.    从互联网上抽取、识别出最近一段时间内热门的实体。(下面简称热词)

热词的抽取来源包括:热门新闻的标题、搜索引擎的热门搜索以及门户网站的热门话题。从这些来源抽取出热门的短语或句子,利用命名实体识别(NER)技术抽取出其中的实体。由于现有的 NER 技术的召回率都小于 90%,因此为了提高热词抽取的召回率,可以采用一种极端的方法:利用分词技术直接对这些句子和短语进行分词,然后穷举分词后得到的所有实体。如果百科页面中有该实体相关的页面,则该实体便抽取成功。

 

2.    根据第一步中抽取出的热词,对知识库做更新。

更新的原则是如果知识库中已经存在该实体,就到百科网站中对该实体做知识库实时更新,如果知识库中不存在该实体,就将该实体及其相关的百科信息添加到知识库中。

 

3.    从前两步被更新的实体的百科页面中的超链接中扩展得到和这些实体语义相关的更多实体,作为候选的待更新实体。

因为某一时间段的热词数量都是有限的,因此通过前两步抽取出的热词数量很少,为了更新更多的实体,需要对热词进行扩展抽取。扩展抽取的方法就是从已经抽取出来的热词的百科页面中的超链接中获取更多的实体。这一抽取方法是基于这样的原理:如果一个实体在某一时间段内属于热词,它的属性值有可能会被经常更新,那么和它语义相关的实体的属性也很有可能需要被更新。而实体百科页面中的链接正是表达了这样一种语义相关的关系。

 

4.    对第3步得到的候选的待更新实体进行优先级排序,按优先级从高到底,依次对候选队列中的实体到知识库进行更新。

本论文所提出的知识图谱更新框架追求一种实时性,即它对知识库更新的频率的要求是很高的。由于更新的频率非常高,再加上百科网站也存在一定的反爬取策略,因此每次能更新的实体数量是有上限的,本论文假定每天所挑选出的待更新的实体数量为 K。虽然并不能保证这 K 个实体最终都会有数据被更新,但是要想办法使得最后所挑选出的 K 个待更新实体中,有尽可能多的实体最终得到了更新,而尽可能减少挑选出那些最后不需要被更新的实体,减少无用功。因此所有待更新的实体中,只能挑出部分优先级高的进行更新。

本论文所提出的更新策略为:第1步中直接抽取出的热词具有最高的优先级,优先进行更新。对于后面扩展抽取出的相关实体,按照优先级由高到低依次进行更新,直至更新总数达到K或者待更新实体队列为空为止。本文提出的优先级刻画模型为:

https://mmbiz.qpic.cn/mmbiz_png/GNpj5fw72Eqiay3wE6zsGBICic9MEm28kfYTRRQKmEwBaexkSNd5fnjJdBmibYS6icFupzWnzK8oKokuqPicSIKzUZg/640?wx_fmt=png&wxfrom=5&wx_lazy=1

其中 x 为实体,E[u(x)]是实体 x 的优先级,P(x) 是实体 x 的预测更新频率,该值由本论文设计并训练的回归模型预测得出,ts (x) 是知识图谱中 x 最后一次被更新的时间。如果实体 x 不在知识图谱中,ts (x) 定义为负无穷。由此可以看出,如果候选实体更新队列中的有新的实体(现有知识图谱中没有的实体),那么这些新的实体的更新优先级会很高。

预测 P(x) 值得回归模型通过监督学习的方式训练得到。本论文为每个实体设计了8 个特征,包括实体在百科中存在的时长、总计被更新次数、用户访问次数、实体页面中所有超链接总数、实体百科页面长度等这些可以反应实体热度的特征。通过这些特征刻画实体的热度,然后通过监督学习的方式训练生成回归模型并用于预测实体的 P(x) 值。P(x) 值反映的是实体的被更新频率,该值越大,代表实体的热度越高,那么它被更新的优先级也更高。

 

实验

本文实验采用的数据集是 cn-dbpedia,将本文所提出的更新框架部署在 cn-dbpedia上,并将更新频率设置为每天更新一次。更新效果如下表所示:

https://mmbiz.qpic.cn/mmbiz_png/GNpj5fw72Eqiay3wE6zsGBICic9MEm28kfGiahWn8SOSomG5eEeyApDib4SzxWmiaXVBCxwRCE29Oy4GfS15SIjqKWA/640?wx_fmt=png&wxfrom=5&wx_lazy=1

一次成功的更新是指检查实体对应的百科页面中的相关信息,如果该实体的属性发生了改变、需要被更新,那么这次检查是成功的。实验结果表明,该框架在 cn-dbpedia 上更新的成功率较高,能够有效地对知识图谱进行动态的更新。

 

论文笔记整理:李丞,东南大学硕士,研究方向为知识图谱构建及更新。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

https://mmbiz.qpic.cn/mmbiz_jpg/GNpj5fw72EotiadhuOd6wlGaHBnEibHXIyUN9f1vq8QsMmnV71jxkmqhSLuZUNVC9LdPmC3mzD2u2s05gN2L4FOg/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

发表评论

电子邮件地址不会被公开。 必填项已用*标注