论文浅尝 | KG Embedding with Iterative Guidance from Soft Rules

 

论文链接:https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/16369/16011

发表会议:AAAI 2018

摘要

知识图谱表示学习旨在将实体和关系嵌入到向量空间,同时保留知识图谱的内在结构。传统方法主要基于关系三元组学习知识图谱的嵌入表示。本文认为,知识图谱中的逻辑规则对于表示学习也很有帮助,于是提出了一个新的表示学习模型RUGE (Rule-Guided Embedding)。RUGE的主要特点是,利用从知识图谱自动抽取的规则迭代地预测未标记三元组,并将其加入训练来增强表示学习。

方法介绍

RUGE框架如下图所示。与传统方法不同,该模型除了利用labeled三元组,还同时引入了unlabeled三元组和逻辑规则。RUGE利用自动抽取的规则,生成带有置信度的unlabeled三元组并加入训练。整个过程是迭代的,基于嵌入表示为unlabeled三元组计算soft label,然后利用soft label进行表示学习。

1. 学习资源

a)      soft规则:带有置信度的FOL规则。对于规则格式,举个例子:∀x, y :(x, rs, y) ⇒ (x, rt, y),表明具有关系 rs 的两个实体也具有关系 rt

b)      labeled 三元组:正例三元组标记为1,反例三元组标记为-1。传统方法主要利用这些 labeled 三元组进行表示学习。

c)      unlabeled 三元组:本文中的 unlabeled 三元组特指利用规则和已知三元组可以推导出的三元组。

其中,soft规则可以利用开源系统如AMIE+自动地从知识图谱中抽取。将soft规则中的变量替换为具体的实体,我们可以获得规则groundings。比如,基于规则∀x, y :(x,BornInCountry, y) ⇒ (x, Nationality, y),我们可以得到规则grounding:(EmmanuelMacron, BornInCountry, France) ⇒ (EmmanuelMacron,Nationality, France)。本文只考虑那些前件是labeled三元组的规则groundings,这些groundings的后件三元组,就是unlabeled三元组。

2.     三元组和规则建模

对于三元组建模,本文采用现有模型 ComplEx [2],三元组的真值可以直接计算得到。对于规则建模,也就是建模规则 groundings 的真值,本文采用 T-norm fuzzy logics [3],规则的真值等于其三元组真值的逻辑组合。用 表示的真值,那么。这个地方非常巧妙,通过这个公式,规则和三元组结合在了一起,并且我们可以基于规则真值来计算 unlabeled 三元组的真值。

3. 弱标记预测

至此,一方面,我们可以基于嵌入表示来计算 labeled 和 unlabeled 三元组的“真值”,用表示;另一方面,也可以基于规则 groundings 的真值来计算三元组的实际真值,即本文所指的 soft label,用表示。本文希望,这两个真值应该是接近的,且应当使得规则 groundings 为真。于是文本定义如下优化目标:

其中,第一个方框是两个真值的均方误差,是最小化的目标。第二个方框是一个约束条件,希望 groundings 的真值为1,置信度是。

4. 表示学习矫正

基于上一步,我们得到了unlabeled三元组的soft label。结合labeled三元组,本使用logistics loss进行统一优化,如下:

实验结果

本文的主要实验任务是传统的关系预测。数据集采用了FB15K和YAGO37. 实验结果如下表所示。我们可以看见,RUGE相比对比方法,取得了较好的结果。

参考

[1] Shu Guo, Quan Wang, Lihong Wang, Bin Wang, Li Guo: Knowledge Graph Embedding With Iterative Guidance From Soft Rules. AAAI 2018: 4816-4823

[2] Théo Trouillon, Johannes Welbl, Sebastian Riedel, Éric Gaussier,Guillaume Bouchard: Complex Embeddings for Simple Link Prediction. ICML 2016:2071-2080

[3] H´ajek, P. The metamathematics offuzzy logic. 1998

 

论文笔记整理:孙泽群,南京大学博士生,研究方向为知识图谱、知识融合。

 

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

通过预训练提升语言理解

 

官方地址:https://blog.openai.com/language-unsupervised/

文章:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

代码:https://github.com/openai/finetune-transformer-lm

本文利用Transformer和非监督预训练结合的方法,提出了一种能用于各种NLP任务的预训练框架,实验结果表明该模型使12项NLP任务中的9项做到了state-of-art的结果。这说明非监督预训练对提升NLP任务的监督学习有很大帮助。

继续阅读“通过预训练提升语言理解”

美团大脑 | 知识图谱的建模方法及其应用

 

本文转载自公众号: 美团技术团队.

作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索、推荐、问答、解释与决策等应用提供基础支撑。美团大脑围绕吃喝玩乐等多种场景,构建了生活娱乐领域超大规模的知识图谱,为用户和商家建立起全方位的链接。我们美团希望能够通过对应用场景下的用户偏好和商家定位进行更为深度的理解,进而为大众提供更好的智能化服务,帮大家吃得更好,生活更好。

继续阅读“美团大脑 | 知识图谱的建模方法及其应用”