论文浅尝 | 基于开放世界的知识图谱补全

 

Citation: Baoxu Shi and Tim Weninger (2017). Open-World Knowledge Graph Completion 6, AAAI 2018、

传统的知识库补全算法如TransE等都是基于Close world assumption 的,也是就说补全的实体必须在知识图谱内。然而事实上大规模的知识图谱是一直进化的,整个图谱并不是一成不变的。因此当遇到不存在与以前知识库中的实体或者关系如何对知识库进行补全则是一个重要的研究问题。本文提出了一个基于开放世界假设的知识补全算法,该算法可以将未出现在知识库中的实体进行补全,进而克服传统知识库补全算法的问题。

 

整个算法的框架如下图所示:

该算法分为三个部分

1、  Relationship-Dependent Content Masking

由于本文的算法是可以抽取不在知识库中的实体,因此待抽取的实体则可能会在文本中出现。而文本中又会隐含大量的噪声和补全的三元组无关。为了去掉文本中的噪声,本文通过一个attention机制来计算文本和关系的相关程度进而获取关键词。Attention计算的公式如式1所示:

其中 表示实体在文本中的描述矩阵,矩阵中的每一行则是实体描述的编码。如我们要对<Michelle Obama,AlmaMater, ?>这个三元组进行补全。那么高权重的词则可能是P rinceton, Harvard, 和University虽然这些词并不是目标实体,但是他们通常会落在目标实体的附近,并对目标实体进行描述。

2、  Target Fusion

Target Fusion主要的作用是对上一步中获取的信息进行进一步的提纯。在这一步中主要采用在远程监督时据有良好效果的 CNN 模型。该模型如下图所示。

该模型将上文选出的关键词融合到一个表示向量中

3、  Semantic Averaging

上文只是对文本进行了编码,但是当出现实体时,模型也需要将他们进行编码。本文采用了一个非常简单的编码模型。通过实体中每个词编码的平均值来计算实体的表述。

最终模型通过一个 list-wise ranking 损失函数来计算,公式如下

该公式希望在预测head实体时 Pc 要大于 0.5 而预测 tail 实体时 Pc 要小于 0.5

S 则是一个 sigmoid 函数如下所示

实验:

本文在四个数据集上进行了实验

在开放世界的实体预测实验中实验结果显示,本文的算法答复超过基于封闭世界假设的 DKRL,进而可以证明本文算法的有效性

论文笔记整理:高桓,东南大学博士,研究方向为自然语言处理。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注