论文浅尝 | 基于置信度的知识图谱表示学习框架

本文转载自公众号:PaperWeekly

作者丨谢若冰

单位丨腾讯微信搜索应用部

研究方向丨知识表示学习

知识图谱被广泛地用来描述世界上的实体和实体之间的关系,一般使用三元组(h,r,t)(head entity, relation, trail entity)的形式来存储知识,其中蕴含的知识数量巨大且时常更新。

目前,人工标注已经不能满足知识图谱更新和增长的速度,但自动化构建知识图谱的过程中往往容易引入一些噪声和冲突。

由于大多数传统知识表示学习(Knowledge, Representation Learning, KRL)方法都假设现有知识图谱中的知识是完全正确的,因此会带来潜在误差。

于是,如何从带有噪声或冲突的知识图谱中学习到更好的知识表示向量,同时又能够发现已有知识图谱中可能存在的错误,就成为了亟需解决的问题

继续阅读“论文浅尝 | 基于置信度的知识图谱表示学习框架”

论文浅尝 | Open world Knowledge Graph Completion

 

https://mmbiz.qpic.cn/mmbiz_png/GNpj5fw72Eqn7y9Fuu9OllQ0FpeggZj2FmR4QMXcXJyhuo5zleQmtEGIJsv17iaAfMDRzzRfA2LIibC46ib8EWqhA/640?wx_fmt=png&wxfrom=5&wx_lazy=1

来源:AAAI2018

论文链接:https://arxiv.org/pdf/1711.03438.pdf

代码链接:https://github.com/bxshi/ConMask

本文解决知识库补全的问题,但和传统的 KGC 任务的场景有所不同。以往知识库补全的前提是实体和关系都已经在 KG 中存在,文中把那类情况定义为 Closed-World KGC。从其定义可以发现它是严重依赖已有KG连接的,不能对弱连接有好的预测,并且无法处理从 KG 外部加入的新实体。对此这篇文章定义了 Open-World KGC,可以接收 KG 外部的实体并链接到 KG。论文提出的模型是 ConMask,ConMask 模型主要有三部分操作:

继续阅读“论文浅尝 | Open world Knowledge Graph Completion”

论文浅尝 | How to Keep a Knowledge Base Synchronized

https://mmbiz.qpic.cn/mmbiz_png/GNpj5fw72Eqiay3wE6zsGBICic9MEm28kfjlBfgQsicXLRBOSuNZRnNmHRGS2foLzmNaGzTFo20MibM78tlLJN1Uvw/640?wx_fmt=png&wxfrom=5&wx_lazy=1

Citation: Liang, J.,Zhang, S. & Xiao, Y. (2017). How to Keep a Knowledge Base Synchronized withIts Encyclopedia Source. Proceedings of the Twenty-Sixth International JointConference on Artificial Intelligence, 3749–3755.

论文链接:https://www.ijcai.org/proceedings/2017/0524.pdf

动机

随着知识图谱技术的快速发展,知识图谱正在越来越多的应用中扮演重要的角色。但是现有的知识图谱存在一个很明显的缺陷:图谱中的数据的实时性很差。绝大多数知识图谱从构建完成开始,其中的数据便不再更新。即使有更新,更新的周期也非常长。每一次的更新都是一次费时费力的、类似于重新构建知识图谱的过程。这样的更新机制一方面需要消耗大量网络带宽和计算资源,另一方面由于每次更新所消耗的代价太大,这就限制了更新的频率,使得知识图谱中数据的实时性非常差。由于缺乏一个实施的更新机制,图谱中这些没有同步更新的数据中存在大量的错误,这使得这些数据无法被利用。这种数据的滞后性给知识图谱的应用带来了很大的局限性。

继续阅读“论文浅尝 | How to Keep a Knowledge Base Synchronized”

论文浅尝 | Reinforcement Learning for Relation Classification

论文链接:http://aihuang.org/p/papers/AAAI2018Denoising.pdf

来源:AAAI 2018

Motivation

Distant Supervision 是一种常用的生成关系分类训练样本的方法,它通过将知识库与非结构化文本对齐来自动构建大量训练样本,减少模型对人工标注数据的依赖。但是这样标注出的数据会有很多噪音,例如,如果Obama和United States在知识库中的关系是 BornIn,那么“Barack Obama is the 44th President of the United States.”这样的句子也会被标注为BornIn关系。

为了减少训练样本中的噪音,本文希望训练一个模型来对样本进行筛选,以便构造一个噪音较小的数据集。模型在对样本进行筛选时,无法直接判断每条样本的好坏,只能在筛选完以后判断整个数据集的质量,这种 delayed reward 的情形很适合用强化学习来解决。

继续阅读“论文浅尝 | Reinforcement Learning for Relation Classification”