论文浅尝 | 面向时序知识图谱推理的循环事件网络

 

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答。

来源:arXiv (short version accepted at ICLR 2019Workshop on Representation Learning on Graphs and Manifolds)

链接:https://arxiv.org/abs/1904.05530

 

本文提出了一种建模时序、多关系、图结构数据的神经网络方法,称为循环事件网络(RE-NET),该模型由RNN事件序列编码器和近邻聚合模型组成。其中,近邻聚合模型将每一时刻主实体通过关系连接的邻居(一跳或两跳)进行信息聚合,与主实体(Subject)、关系(Relation)的向量表示一同作为RNN的输入,从而实现数据建模,用于预测某时刻主体事件s在关系r上对应的客体事件o,(假定图谱四元组表示为(s, r, o, t),任务目标是预测(s, r, ?, t)或(?, r, o, t)中的?)。

 

思路

本文方法的关键思路包括:

1. 时序图谱可以被看作具有多个相互关系的序列;

2. 实体间的多个相互关系可能发生在同一时刻;

3. 时序邻居关系之间存在强依赖;

4. 多关系情况下,当前邻居可以帮助预测未来(实体之间的)相互关系。

 

 

方法

框架描述

图1(左)描述事件图形式构成为:(Subject,Relation,Object,Time),其中Subject与Object为事件的主客体,Relation则代表事件本身,事件具有时间信息;

图1(右)是事件图embedding和Object事件预测的流程框架,该模型的整体框架由事件序列编码器(event sequence encoder)与近邻聚合模型(neighborhood aggregation module)构成。

对于某一主体实体es,假定我们需要推断它在t时刻的事件客体是什么,过程描述如下:

1.    对于历史时刻(图中为t-1, t-2, t-3),将各时刻es包含的邻居实体聚合为x,与es及关系er一起作为RNN的输入

2.    将RNN末端(即时间t)得到的隐状态取出,与es和关系er融合给出t时刻e和er对应的客体o的概率分布

3.    完成t时刻客体o的预测

 

事件序列编码器(event sequence encoder)

RE-NET的目标是表示时序图谱,假定 表示t时刻发生的事件集合,当我们要预测这个集合时,显然需要将t时刻之前的历史信息作为参照,得到一个条件概率表示 ,那么我们要预测的客体o则可以通过以下式子得到:

且可以改写为:

由此可以得到事件序列编码函数形如:

函数f的参数作为RNN编码器的输入。

 

近邻聚合模型(neighborhood aggregation module)

作者列举了四种可选近邻聚合策略:

Mean Aggregator取与主体s相关的客体o的平均作为聚合结果,并不考虑不同的o具有的重要性;

Attentive Aggregator对于主客体之间添加注意力,反映其之间的相关程度

Pooling Aggregator对主体和邻居之间做卷积,可表示为:

RGCN Aggregator使用多层神经网络进行邻居聚合,考虑两跳邻居,公式形如:

下图是对两跳邻居聚合的示意图:

 

实验

数据集

本文实验使用到了四个数据集:包含两个基于事件的时序知识图谱(Integrated Crisis Early Warning System (ICEWS18),Global Database of Events, Language, and Tone(GDELT))及两个包含时序信息的知识图谱(WIKI, YAGO)

每个数据集依据时间戳,均被划分为80%训练集,10%验证集,10%测试集;即训练集的时序排在验证集之前,验证集在测试集之前。

评价策略使用了Mean Reciprocal Ranks和Hits@1/3/10两种

 

实验结果

    本文参照的Baseline被分为统计方法(TransE, DisMult,ComplEx, R-GCN, ConvE)和时序推理方法(Know-Evolve, TA-TransE/DistMult,HyTE, TTransE)

 

实验结果如下表所示:

 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

0领域应用 | HiTA知识图谱 “药品-适应证”图谱数据发布!

 

本文转载自公众号:OMAHA联盟。

 

2019年8月,OMAHA对HiTA知识图谱服务平台(kg.omaha.org.cn)进行了更新,同步发布了医学知识图谱表达模型(schema)。2019年9月17日,首次发布了由OMAHA研发的知识图谱数据资源。发布内容主要围绕“药品-适应证”展开包括1.57万实体9.87万关系,其中约0.5万药品实体来源于“OMAHA七巧板医学术语集”相关药品概念,基本涵盖国内临床常用药品。

继续阅读“0领域应用 | HiTA知识图谱 “药品-适应证”图谱数据发布!”

CCKS 2019 | 百度 CTO 王海峰详解知识图谱与语义理解

 

以下文章来源于机器之心 ,作者Synced

机器之心

专业的人工智能媒体和产业服务平台

本文转载自公众号:机器之心。;

8 月 24 日至 27 日在杭州召开的 2019 年全国知识图谱与语义计算大会(CCKS 2019)上,百度 CTO 王海峰发表了题为《知识图谱与语义理解》的演讲。

CCKS 2019 由中国中文信息学会语言与知识计算专业委员会主办,浙江大学承办,以「知识智能」为主题,吸引了来自海内外的八百多名科研学者、工业界专家和知名企业代表参加。

对知识的研究贯穿于整个人工智能的发展史,知识图谱在人工智能技术领域的热度也逐年上升。王海峰认为,知识图谱是让机器像人类一样理解客观世界的基石。在演讲中,他用生动的实例展示了百度在知识图谱和语义理解领域的技术探索及应用,并探讨了其未来的发展方向。

继续阅读“CCKS 2019 | 百度 CTO 王海峰详解知识图谱与语义理解”

技术动态 | 知识图谱上的实体链接

以下文章来源于知识工场 ,作者王续武

知识工场

知识工场依托复旦大学等研究机构专注于各类知识图谱构建、管理与应用理论及关键技术研究。知识工场以构建能够满足机器语言认知需要的大规模、高质量知识图谱为基本目标,并以推进知识图谱在文本理解、智慧搜索以及机器智脑等领域中的深入应用为主要使命。

继续阅读“技术动态 | 知识图谱上的实体链接”

论文浅尝 | 面向自动问题生成的跨语言训练

 

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。

来源:ACL 2019

链接:https://128.84.21.199/pdf/1906.02525.pdf

 

动机

现有问题生成方法需要大量的“文本-问题”有标注数据对作为训练数据集,对于小语种语言(或缺少有标注数据的语言),有标注数据的缺少是无法实现高质量问题生成的主要原因。从上述因素出发,作者的动机是:利用已有大规模标注数据集(例如英文问题生成数据集,文中描述为 secondary language),用于提升小语种(文中称为 primary language)问题生成模型的性能。

继续阅读“论文浅尝 | 面向自动问题生成的跨语言训练”

领域应用 | 知识图谱在滴滴的应用 (CCKS 2019)

 

以下文章来源于滴滴科技合作 ,作者龚诚Angel

滴滴科技合作

分享滴滴科技合作最新资讯

本文转载自公众号:滴滴科技合作。                   

全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会语言与知识计算专业委员会组织和承办。2019年CCKS在杭州开幕。大会的主题是“知识智能”,旨在探讨大数据环境下语言理解、知识获取与智能服务的关键技术和应用。

继续阅读“领域应用 | 知识图谱在滴滴的应用 (CCKS 2019)”