阿里副总裁玄难:藏经阁计划首次在阿里应用落地

在全国知识图谱与语义计算大会(CCKS)上,阿里巴巴集团副总裁、藏经阁计划阿里负责人墙辉(玄难)宣布藏经阁计划首次在阿里应用落地,以及首次披露大规模知识构建技术细节,并从三个方面进行了解读。

本文转自阿里技术 公众号

继续阅读“阿里副总裁玄难:藏经阁计划首次在阿里应用落地”

CCKS 2018 | 最佳论文:南京大学提出 DSKG,将多层 RNN 用于知识图谱补全

本文转载自公众号:机器之心

选自CCKS 2018

作者:Lingbing Guo、Qingheng Zhang、Weiyi Ge、Wei Hu、Yuzhong Qu

机器之心编译

参与:Panda、刘晓坤

2018 年 8 月 14-17 日,主题为「知识计算与语言理解」的 2018 全国知识图谱与语义计算大会(CCKS 2018)在天津成功举办。该会议是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议,并致力于成为国内知识图谱、语义技术、链接数据等领域的核心会议。本届会议的最佳英文论文来自南京大学计算机软件新技术国家重点实验室和信息系统工程重点实验室,提出了一种用于知识图谱补全的深度序列模型 DSKG。机器之心对该论文进行了摘要介绍,感谢最佳论文作者胡伟教授对本文的确认。

论文:DSKG:一种用于知识图谱补全的深度序列模型(DSKG: A Deep Sequential Model for Knowledge Graph Completion)

  • 论文下载:https://pan.baidu.com/s/1dItQ-H6bbVq5yhQ7RGJgpQ
  • 项目地址:https://github.com/nju-websoft/DSKG

摘要:知识图谱(KG)补全的目标是填补知识图谱中缺失的事实,其中每个事实都可表示成一个形式为 (主体, 关系, 客体) 的三元组。当前的知识图谱补全模型都只能通过三元组中的两个元素(比如主体和关系)来预测剩余第三个元素。我们在这篇论文中提出了一种新模型,其中使用了专门针对知识图谱的多层循环神经网络(RNN)来将知识图谱中的三元组建模成序列。我们在两个基准数据集和一个更为困难的数据集上进行了传统的实体预测任务实验,结果表明我们的方法在许多评测指标上都优于多个之前最佳的知识图谱补全模型。此外,因为我们的模型具有序列特性,所以只需给定单个实体,就能预测整个三元组。我们的实验表明我们的模型在这种三元组预测新任务上表现也较好。

1 引言

Freebase [2] 和 WordNet [12] 等知识图谱(KG)通常会使用三元组来记录数以十亿计的真实世界事实,这些三元组可写成 (主体, 关系, 客体) 的形式(可简写为 (s,r,o)),其中 s 和 o 表示实体,r 表示 s 和 o 之间的关系。因为当前的知识图谱还远没有包含所有知识,所以还需要知识图谱补全任务。之前的模型关注的重点是被称为实体预测(也即链接预测)[3] 的一般任务,其要求基于给定的 (s,r,?) 或 (?,r,o) 来预测对应的 o 或 s,从而补全知识图谱中的三元组。图 1a 展示了一个实体预测的抽象模型。输入 s 和 r 首先被投射到某些向量或矩阵上,然后再组合这些向量或矩阵,得到一个连续表征 v_o,进而预测得到 o。

图 1:用于实体预测的不同模型。白圈和黑圈分别表示输入向量和输出向量。c 表示一个 RNN 单元,h 表示一个隐藏状态。DSKG 使用 c1、c2 来处理实体 s,使用 c3、c4 来处理关系 r。它们是不同的 RNN 单元。

尽管之前的模型已在实体预测上有良好的表现,但它们仍然可能不足以补全知识图谱。让我们假设一个模型可以基于给定的关系 r 而有效地补全一个实体 s。如果我们不提供任何关系,那么这个模型就无法填补 s,因为它无法选择用于完善这个实体的关系。实际上,知识图谱的底层数据模型并不允许任何不完整的元组 (s,r) 存在。

循环神经网络(RNN)是一种神经序列模型,已经在语言建模和机器翻译 [7,16] 等许多自然语言处理(NLP)任务上取得了优良的表现。知识图谱中的三元组可被近似地看作是一个长度为 3 的简单句子。比如,三元组 (USA, contains, NewYorkCity) 可被变换成句子「USA contains New York City」。这启发了我们使用 RNN 来建模知识图谱。但是,我们依然面临着以下难题:(1)三元组不是自然语言。它们是用一种固定的表达方式 (s,r,o) 建模的复杂结构。这样短的序列可能不足以为预测提供足够的上下文信息。与此同时,由于路径数量巨大,构建有价值的长序列又具有很高的成本且难度很大。(2)在三元组中,关系和实体是以固定顺序出现的两种不同类型的元素。将它们视为同类型元素很可能是不合适的。

为了解决上述问题,我们提出了 DSKG(用于知识图谱的深度序列模型),其使用了一种新结构的 RNN,并且使用了一种专门针对知识图谱的采样方法来进行训练。为了阐释我们的想法,我们设计了一个基本的 RNN 模型作为初始版本(如图 1b 所示)。这个基本模型将输入 s 和 r 视为同类型元素并循环式地处理它们。c 表示一个 RNN 单元,其以之前的隐藏状态和当前元素为输入,预测下一个隐藏状态。实体层中的单元处理像是 s 的实体,而关系层中的单元处理像是 r 的关系。在这个模型中,仅有一个单元按顺序处理所有输入元素,所以 s 和 r 是被输入同一个单元 c 来获得它们各自的输出。然后我们使用 h_s 来预测 s 和 h_r 的关系,进而预测 s→r 的客体。

由于这个基本 RNN 模型仅使用了一个 RNN 单元来处理所有输入序列,所以可能无法很好地建模复杂结构。在 NLP 领域,研究者通常会堆叠多个 RNN 单元来改善结果。我们借用这一思想构建了一个多层 RNN 模型(参见图 1c)。但因为实体和关系的特性非常不同,这个模型仍然不能准确建模知识图谱中的三元组。

如图 1d 所示,我们提出的 DSKG 分别使用了多层 RNN 来处理实体和关系。具体而言,DSKG 为实体层和关系层使用了不同的 RNN 单元,即图中的 c1、c2、c3、c4 全都是各不相同的 RNN 单元。我们相信这种专门针对知识图谱的架构可以在关系形式多样且复杂的情况下表现得更好。因为 DSKG 将预测实体(或关系)看作是一个分类任务,所以我们还提出了一种定制的采样方法,可根据当前训练标签的类型采样负例标签。此外,DSKG 还有能力预测一个实体的关系,这启发了我们使用一种方法来通过关系预测改善实体预测的结果。举个例子,在预测 (USA, contains, ?) 时,模型可以自动滤除人或电影这样的实体,因为这些实体与关系 contains 无关。

我们在两个基准数据集上执行了实体预测实验,结果表明 DSKG 在许多评测指标上都优于多种之前最佳的模型。更进一步,我们在 FB15K-237 [14] 上对 DSKG 进行了评估,结果表明 DSKG 优于其它模型。此外,我们还设计了一种用于三元组预测的知识图谱补全新实验,可作为实体预测的补充。我们的研究表明:相比于通用的多层 RNN 模型,DSKG 能得到更优的结果。我们已在线公开我们的源代码、数据集和实验结果。

3 方法

在这一节,我们首先将描述 RNN 及多层 RNN。然后,我们会提出 DSKG,这是一种专为知识图谱设计的多层 RNN 变体。为了有效地训练 DSKG,我们还提出了一种基于类型的采样方法。最后,我们会介绍一种使用关系预测增强实体预测的方法。

3.1 RNN 及多层 RNN

我们先来看仅有一个 RNN 单元的基本 RNN 模型。给定一个序列 (x_1,…,x_T) 作为输入,基本 RNN 模型的处理方式如下:

其中 f(·) 是一个激活函数,W_h、W_x、b 是参数。h_t 是在时间步骤 t 输出的隐藏状态。

多层 RNN 已经在 NLP 领域的复杂分层架构建模上得到了出色的表现 [5]。通过堆叠多个 RNN 单元,每个元素的复杂特征都可以被分层地处理(见图 1c)。我可以将其写成如下形式:

其中 是第 i 个 RNN 单元的参数。 是第 i 个 RNN 单元在时间步骤 t 的隐藏状态。因此,每个输入元素都会被每个单元按顺序处理,这可以看作是将深度神经网络(DNN)和 RNN 的概念结合到一起。最后,我们可以使用最后一个单元的隐藏状态作为时间步骤 t 的输出 h_t。

3.2 我们提出的深度序列模型

将知识图谱中的三元组看作是序列让我们可以使用 RNN 建模这个知识图谱。但是,这些长度为 3 的序列(即三元组)非常特别:每个三元组中的实体和关系都有非常不同特性而且总是互相交错在一起。因此,我们认为分别为实体和关系 RNN 构建各自的多层 RNN 能帮助模型学习到更为复杂的结构。根据这一直觉想法,我们提出了一种针对知识图谱的多层 RNN,其使用了不同的 RNN 单元来分别处理实体和关系。如图 1d 所示,使用这一架构,整个网络实际上是非循环式的,但仍然还是序列式的。我们可以将该结构写成如下形式:

其中 E 和 R 分别表示实体集和关系集。我们可根据 x_t 的类型选择当前的多层 RNN,然后应用公式 (2) 进行计算。

// 受限于篇幅,有关基于类型的采样方法和使用关系预测增强实体预测的方法在此略过。

4 实验

4.2 实体预测

遵照 [3,14,4] 以及其它许多研究,我们使用了 4 个评测指标:(1)排名第一的结果是正确实体的百分比(Hits@1);(2)正确实体在排名前十的结果的百分比(Hits@10);(3)平均倒数排名(MRR);(4)平均排名(MR)。另外要说明,我们使用的是过滤后的排名 [3],也就是说我们仅在排名阶段保留当前测试的实体。由于 DSKG 仅需单个实体就能预测关系,所以我们报告了所谓的「级联」结果。即,给定一个测试元组 (s,r,o),DSKG 首先预测关系 (s,?) 来得到 r 的排名,然后再预测 (s,r,?) 中的实体,得到 o 的排名。最后,将这两个排名相乘,得到用于比较的结果(即最差排名)。

表 1 给出了在 FB15K 和 WN18 上的实验结果。因为这两个数据集都包含很多逆向三元组,所以仅能学习逆向关系的 InverseModel 也得到了很好的结果。此外,我们可以看到 DSKG 在多数指标上都优于其它模型。尤其是 DSKG 在 Hits@1 指标上是最佳的,这表明 DSKG 能够相当好地准确学习预测实体。即使我们以级联方式评估 DSKG,也仍然得到了相当的结果。

表 1:在两个基准数据集上的实体预测结果。† 表示我们自己使用原研究提供的源代码执行的模型,因为原文献没有使用其中某些指标;- 表示结果未知,因为原文献未报告且我们不能获得/运行源代码

表 2 给出了在 FB15K-237 上的实体预测结果。可以看到:(1)所有模型的表现都下降了。具体来看,InverseModel 完全无力处理这个数据集,这表明所有模型都再也不能通过使用逆向关系直接提升它们的表现了。(2)DSKG 在所有指标上都显著优于其它模型。DSKG(级联)还在某些指标上达到了之前最佳的表现,比如 Hits@10。

表 2:在 FB15K-237 上的实体预测结果

表 3:数据集的统计信息

4.3 三元组预测

DSKG 不仅能预测实体,而且还能预测整个三元组。为了评估 DSKG 在直接预测三元组上的表现,我们构建了一个具有较大窗口的波束搜索器。另外也还有一些能够提升序列预测结果的复杂方法 [8]。具体而言,我们首先要求模型以所有实体为输入来预测关系,然后选出前 10 万个 (实体, 关系) 对来构建出 (s,r,?) 这样的不完整三元组。然后,该模型以这些不完整三元组为输入,预测它们的最后一个实体。最后,我们选择前 100 万个三元组作为输出,并按降序方式对它们进行排序以便评估。

我们使用了精度来评测这些输出的三元组。设 为输出的最佳 n 个三元组的集合, 表示一个知识图谱的所有正确三元组的集合(包括测试集、验证集和训练集), 表示预测得到三元组的集合(包括测试集和验证集)。则与最佳 n 个输出三元组相关的精度 p_n 的计算方式为:

其中, 分别表示 中正确的、预测的和错误的三元组数量。由此,我们可绘制 p_n 随 n 变化的曲线。

我们在三个数据集上执行了实验,并将 DSKG 与两个通用模型 G2 和 G4 进行了比较。G2 是一个通用的 2 层 RNN 模型(见图 1c)。G4 是一个通用的 4 层 RNN 模型,因为 DSKG 也使用了 4 个不同的 RNN 单元。它们也都应用了 DSKG 中所用的所有功能(采样器、dropout 等)。

图 2:在三个数据集上的三元组预测结果

从图 2 上面一行可以看到,DSKG 在所有数据集上都显著优于 G2 和 G4,尤其是在 FB15K-237 上。另外,G4 的表现也比 G2 差。这可能是因为更深度的网络和更多参数会让实体和关系嵌入不适合训练。图 2 下面一行给出了 DSKG 的三元组预测的详细比例。在 FB15K-237 上,DSKG 以 0.47 的精度(前 10 万)正确预测了超过 2000 个三元组。在另外两个更简单的数据集上,DSKG 表现更好。在 FB15K 上以 0.87 的精度(前 40 万)正确预测了 34155 个三元组,在 WN18 上以 0.91 的精度(前 17 万)正确预测了 5037 个三元组。注意,DSKG 在 WN18 上的精度最后出现了陡然下降,这是因为 WN18 仅有 10000 个三元组供预测,而 DSKG 已经输出了所有其所能预测的三元组。

5 分析

5.1 与其它模型的比较

为了分析 DSKG 各个部分的贡献,我们开发了一系列仅包含部分功能的子模型:

  • NR:在训练中没有使用关系损失的 DSKG。构建这个模型的目的是评估最小化关系损失对实体预测的影响。
  • NS(非序列):我们使用了 4 个全连接层(ReLU 作为激活函数)来替换 DSKG 中的 RNN,并减少了关系层和实体层之间的连接。最后,我们添加了一个密集层来组合这两个层的输出。这个模型与 DSKG 仍有一些其它共有特性(比如 dropout 和采样器)。构建该模型的目的是了解序列特性的影响。
  • NRE:没有使用基于关系预测增强实体预测的 DSKG(3.4 节)。

图 3:DSKG 以及其它模型在 FB15K-237 上的表现

图 3 给出了这些模型以及 G2 和 G4 模型在 FB15K-237 的验证集上的表现。我们可从结果中观察到:

  • 序列特性是 DSKG 的关键点。对比 DSKG 和 NR 与 NS,我们可以发现:(1)尽管 NR 保有序列结构,但它的表现仍不及 DSKG,因为 NR 没有学习预测关系;(2)NS 没有使用序列结构,也没有学习预测关系。因此,它是图 3 中结果最差的。
  • 针对知识图谱的多层 RNN 架构能显著提升表现。在 FB15K-237 上,DSKG 在所有指标上都优于 G2 和 G4,即使 DSKG 没有使用关系预测增强也一样。注意,在第 4.3 节,我们已经表明 DSKG 在三元组预测上优于 G2 和 G4。因此,DSKG 中使用的架构建模知识图谱的能力比通用型多层 RNN 模型更好。
  • 关系预测增强方法能进一步优化实体预测结果。DSKG 的表现总是优于 NRE,即使在 MR 指标上也是如此,因为 DSKG 能直接去除很多不正确的实体。

5.2 层数的影响

表 4:在 FB15K-237 上,不同层数的 DSKG 的实体预测结果;‡ 一行是第 4 节所使用的主要结果

5.3 嵌入大小的影响

表 5:在 FB15K-237 上,不同嵌入大小的 DSKG 的实体预测结果 

-End-

实验室介绍:南京大学万维网软件(Websoft)研究组在瞿裕忠教授的带领下,长期从事知识图谱(语义网)及相关技术的研发,研究组成员包括胡伟副教授、程龚副教授以及30余位博士和硕士研究生,近期的研究方向主要包括:智能问答、知识融合和语义搜索。
联系方式:胡伟,whu@nju.edu.cn,微信号:whu1982
网站:http://ws.nju.edu.cn


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

领域应用 | 基于知识图谱的警用安保机器人大数据分析技术研究

 

本文转载自公众号:警察技术杂志。

郝久月  樊志英   汪宁   王欣  

摘   要:构建大数据支撑下的智能应用是公安信息化发展的趋势,警用安保机器人大数据分析平台的核心功能包括机器人智能人机交互和前后端融合的大数据情报分析研判。阐述了知识图谱技术在警用安保机器人人机交互和情报分析领域应用的突出优势,并从知识构建、推理挖掘、决策服务等方面提出了警用安保机器人大数据分析系统建设的总体方案。

 

关键词:知识图谱   机器人   大数据   综合研判

 

 

引言

警用安保机器人综合运用物联网、人工智能、云计算、大数据等技术,具备自主感知、自主行走、自主保护、互动交流、便民服务、警用巡逻等能力,可辅助警察完成基础性、重复性、危险性的工作,持续推动警务服务升级。随着人工智能的不断发展,警用安保机器人更加关注机器人智能化能力,以及机器人与现有公安信息化流程无缝对接的大数据智能分析平台的建设能力。智能化已经成为衡量机器人性能的首要标准。

本文总结知识图谱技术在警用安保机器人大数据分析领域应用的技术优势,并围绕警用安保机器人后台智能人机交互和前后端融合的大数据情报分析研判两大核心功能提出系统建设的总体方案。

 

一、知识图谱技术

目前,人工智能的进展突出体现在以深度学习为代表的机器学习以及以知识图谱为代表的知识工程两大领域。脑科学领域的一些最新研究进展为机器人的研发带来了新的启示。相关研究显示,人脑在进行阅读、问答、计算等非反射性活动时,通常会调动大脑中的多个功能区域,同时进行协作决策。如图1所示,人脑的网络化协作过程主要是为了充分使用不同区域所获得和存储的信息,从而做出综合性的决策研判。由此可以看出,网络是一种建模多源信息和多种要素的有效方法。

知识图谱(Knowledge Graph)是一种语义网络,包含大量实体和概念及其之间的语义关系,知识图谱中所富含的实体、概念、属性、关系等信息,提供了从“关系”角度去分析问题的能力。因此,为了充分组织和管理人机交互过程中和机器人自感知过程中获取的海量数据,知识图谱技术的第一阶段,应从多源异构数据中识别出目标、行为、时空关系等构建系统的本体模型,进而,将要素通过相互作用的方式系统整合,形成目标关系的知识关联网络。因此,知识图谱在警用安保机器人智能化领域的应用具有巨大潜能。

 

二、警用知识库构建技术

机器人的人机语音交互功能是决定机器人友好性和智能性的关键因素,智能问答是未来智能化发展中人机交互的主要方式。智能问答的核心在于聊天语料和知识推理两部分。当前,互联网和专有网络上,研究人员已建立了通用问询知识库包含衣食住行等多个方面的常用知识。然而,针对警用安保机器人面向公安业务的知识库目前仍处于研究阶段。

从技术层面,问答系统按照知识来源可以分为检索式问答(Retrieval-based Question Answering, RQA)和基于知识库的问答(Knowledge Base Question Answering,KBQA)。RQA的知识来源为非结构化的文档,针对用户的问句对一个文档集合进行排序,并返回排序结果,或者将单个文档中与问题最相关的特定语句返回。KBQA的知识来源为结构化的知识库,针对用户的问句,利用知识库进行查询和推理,得出最终答案。区别于聊天机器人,KBQA更关注事实性问题;区别于RQA,KBQA返回的不是文档排序结果或相关的句子,而是直接给出答案。针对公安行业,警务安保机器人更应以正规、明确的方式对群众提问进行准确回答。因此采用KBQA的方式,构建警用安保机器人知识库,问答系统需要通过自然语言处理技术,将用户问句中的主题实体识别出来,并链接到知识库中对应的实体,通过关系路径推断推理出主题实体到答案节点的路径,从而得到最终的问题答案。

 

三、警用机器人后台情报分析技术

警用安保机器人具有全面的数据感知功能,将机器人前端感知数据与已建的公安大数据分析系统深度融合,将警用安保机器人巡逻工作纳入公安情报分析、处置流程中,使其成为情报分析系统的重要数据来源,后端的情报研判结果可以直接指挥机器人的下一步行动,形成公安大数据情报分析闭环。因此,公安情报分析能力是警用安保机器人大脑的重要组成部分。

在情报分析领域,传统的情报研判模型通常是由专家系统和逻辑推理计算完成,其存在两个方面的缺陷。首先,专家知识的获取严重依赖领域专家的知识总结能力,但在实际工作当中,专家知识的总结往往存在着挂一漏万的情况,大量细节性、隐含但非常关键的判定知识难以被引入到专家系统中,这就导致专家系统在实际应用场景中效果往往不够理想。另一方面,传统的推理系统往往将各个知识和要素当作孤立的个体对待,对于知识与知识、要素与要素、知识与要素之间的关联关系没有非常好的建模。这就导致对于决策信息的研判与分析十分片面和孤立,单纯依赖传统专家与推理系统分析研判模型难以满足公安等复杂场景下的实际业务需求。

基于知识图谱的情报分析模型采用网络组织的方式对数据对象进行组织,其固有优势明显,适合应用在机器人后台中提供分析决策能力。首先,在知识图谱中,要素对象和对象间关系是能够独立进行管理的,模型可以动态调整知识图谱中节点和边之间的关系,将目标的识别过程和知识的组织过程有效结合起来。其次,知识图谱本身和推理系统之间并不是耦合的,用户可以根据需要定义不同的推理规则,从而挖掘知识图谱当中的相关关系。这种知识与模型分离的数据管理方式,保障系统能够支持不同类型的推理决策模型,同时能够和后续的预测预警模块无缝对接,系统的灵活性大大提高。在系统进行知识升级时,如果是目标识别模块有所改进,可以通过更新知识图谱中的对象与关联关系网络进行知识模型升级;如果是后续的预测预警模块进行了升级,则可以脱离知识图谱,独立进行模型升级。

目前,基于知识图谱的情报分析技术已应用于各国的警务情报项目中。其中美国Palantir公司的Gotham平台构建出一套语义知识搜索挖掘平台,总结提炼八个信息实体:人、车、位置、罪案、逮捕、文件、备注与其他,并构建不同个体间的知识关联,极大提高了破案准确率和效率。在国内,知识图谱技术应用于辅助公安刑侦、经侦等警种的案件侦破工作。针对特定案件,按照人、事、地、物、组织构建社会关系网,结合专家研判经验规则和知识,迅速调用PB及以上量级数据之间的关系,分析推演出案件的研判结果。

 

四、警用安保机器人后端系统总体架构

警用安保机器人后端系统总体架构的核心功能包括:机器人人机交互平台和机器人大数据平台,如图2所示。

 

(一)机器人人机交互平台

包含了知识库的构建、知识存储、知识应用。前端机器人本体将采集到的语音输入至语音识别模块,经过自然语言处理,将结构化的实体输入知识问答系统,获取答案,并通过语音合成模块进行输出播放。

1. 知识库构建

如图3所示,进一步描述了知识库的构建过程。知识获取的主要目的是融合通用知识基础库与领域专业基础库,抽取其中的概念、实例、属性和关系。通用基础库是指从常识知识中选取和领域相关知识构成的知识库。领域基础库是用来描述领域相关的其他基本知识,如便民服务更关注的证件办理、安保巡逻更关注的安全常识,其来源于专业领域字典、核心词汇表等。其次,为了获取当前最新最实时的领域知识,建立领域更新库,不断更新和完善知识库内容。

 

2. 知识计算

包括属性计算、关系计算和实例计算。

3. 知识存储

经验证的海量知识存储于图数据和关系数据库中。

4. 知识应用

通过建立知识图谱,可开展语义检索、个性化推荐、知识问答。其中警用机器人直接调用知识问答应用。

(二)机器人大数据平台

包含了知识库构建、推理挖掘和决策支持。将机器人感知数据与公安大数据进行深度融合,形成公安情报分析知识库,利用关联分析等算法,实现可视化分析、关系人挖掘等上层应用,并将分析结果反馈到机器人本体,指导本体下一步工作。

1. 知识库构建

提取的人、事、地、物、组织等要素对象,将其作为知识图谱当中的实体进行建模。其次,基于实体—链接二维理论,将实体之间的关系(例如:社交关系、家庭、户籍、资金往来、住宿出行等关系)抽象为链接表示为连线,存储在图数据库中,形成不同主题的知识图谱。

2. 推理挖掘

能够从已有知识中发现隐含知识。在知识图谱之上,通过开发各类数据研判模型,如对象关系的异常检测、与特定事件关联关系的查询等,就可以有效支撑情报分析中的各项数据研判任务。

3. 决策支持

分析研判结果结合全息图像可视化、时空可视化、图可视化分析等可视化分析技术,将数据中多维度知识以易于人类理解的方式尽可能多地提供给决策专家。专家通过系统一键下发功能,可快速向前端警用安保机器人下发巡逻指令,到达指定地点,开展数据搜集或巡逻工作。

 

五、成果试用

在公安工作的众多场景,特别是安保工作中,有很多涉及到基于公安行业安保知识图谱的人机交互场景需求。例如:安保工作中的安保机器人自动区域巡逻、基于动态人脸识别与分析的重点人员现场识别与核验系统、基于安保人员人脸识别与证件识别双因子身份认证系统等场景中,通过安保机器人的引入,能大大提高安保工作的效率、水平和安全能力。同时通过将前端安保机器人与后台大数据分析平台建立高速、高效、安全的连接与互动通道,能够切实将后端的行业知识处理分析能力和行业知识图谱直接服务于一线工作,从而使前端感知机器人变成能够交互、学习、思考的智能交互机器人。这点在重要场所的安保机器人实验工作中已经得到检验,对系统架构、技术平台、安全互联、知识图谱的场景化应用进行了实地验证。下一步将继续扩大实验场景和范围,力争在完善功能、技术架构、知识图谱的基础上,将安保机器人的应用场景推向更大范围。

 

六、结语

随着大数据、云计算和人工智能等技术的快速发展,以智能化为核心的警用安保机器人大数据平台已初步应用于公安实战。利用知识图谱理论将公安多源、异构大数据进行有效组织,构建以“知识”为核心的知识库、关联网络和推理模型,可为警用安保机器人的应用提供重要的技术支撑。

 

参考文献:

[1] 陈甜甜.警用巡逻机器人发展研究[J]. 安全技术参考, 2017(4):3-11.

[2] 仇韫琦. 智能时代人机交互的新方式——KBQA的前世今生. http://mp.weixin.qq.com/s/LkRrPXEjGRugw9LMSS9uJg[EB/OL].2018.

[3] 张华平.从Palantir看公安大数据应用[EB/OL].http://mt.sohu.com /20160523/n450910580.

[4] 明略数据. 明略数据实现人机同行[J]. 网络安全和信息化, 2017(9):19.

[5] 王元卓, 贾岩涛, 赵泽亚. OpenKN网络大数据时代的知识计算引擎[J]. CCF 通讯, 2014, 10(11): 30-35.

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。


文章转载自公众号

警察技术杂志

 

领域应用 | NLP 和知识图谱:金融科技领域的“双子星”

 

本文转载自公众号:恒生技术之眼

 

自然语言处理(Natural Language Processing, NLP,语义计算)和知识图谱(Knowledge Graph, KG,知识计算)作为认知智能的关键技术,正成为智能金融浪潮中新的热点。这两种技术在金融领域的应用场景有高度的重合,往往是互为依托、互为补充。

当NLP和知识图谱双剑合璧,会优先在金融的哪些场景实现落地?

各场景“标配”的核心能力分别有哪些?

国内外NLP和知识图谱技术在金融行业的应用到了怎样的程度?

读完这篇文章,或许能帮助你对这些前沿科技中的中流砥柱,有一个更清晰和全面的认识。

金融行业因其与数据的高度相关性,成为人工智能最先应用的行业之一,而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分,正在快速进入金融领域,并日益成为智能金融的基石。

一般的Fintech公司只会集中在其中的某些业务方向,只要能深入掌握两到三种能力,就能具有相当的竞争力。在这些业务场景中,NLP和知识图谱技术往往需要共同应用,才能发挥出最大的效能。同时,一种核心能力可以在多个智能金融应用场景中得到应用,这些应用场景包括:智能投研、智能投顾、智能风控、智能客服、智能监管、智能运营等。接下来我们将分析不同的核心能力在各个应用场景的分布情况,对每一种核心能力进行简要介绍,给出它的应用场景,并列举部分国外的典型案例以供大家能够更好的理解和上手。

金融语义应用场景概念框

01

智能问答和语义搜索

智能问答和语义搜索是NLP的关键技术,目的是让用户以自然语言形式提出问题,深入进行语义分析,以更好理解用户意图,快速准确获取知识库中的信息。在用户界面上,既可以表现为问答机器人的形式(智能问答),也可以为搜索引擎的形式(语义搜索)。智能问答系统一般包括问句理解、信息检索、答案生成三个环节。智能问答系统与金融知识图谱密切相关,知识图谱在语义层面提供知识的表示、存储和推理,智能问答则从语义层面提供知识检索的入口。基于知识图谱的智能问答相比基于文本的问答更能满足金融业务实际需求。

智能问答和语义搜索的价值在金融领域越来越被重视。它主要应用的场景包括智能投研、智能投顾和智能客服。在智能投研领域,投研人员日常工作需要通过多种渠道搜索大量相关信息。而有了金融问答和语义搜索的帮助,信息获取途径将是“Just ask a question”。并且,语义搜索返回的结果不仅是平面化的网页信息,而是能把各方面的相关信息组织起来的立体化信息,还能提供一定的分析预测结论。在智能客服和智能投顾领域,智能问答系统的应用主要是机器人客服。机器人客服目前的作用还只是辅助人工客服回答一些常见问题,但已能较大地节省客服部门的人力成本。

典型应用案例如美国Alphasense公司为投研人员整合碎片化信息,提供专业金融知识访问工具。AlphaSense公司的产品可以说是新一代的金融知识引擎。它从新闻、财报、研报各种行业网站等获取大量数据、信息、知识形式的“素材”,通过语义分析构建成知识图谱,并提供高级语义搜索引擎、智能问答、交互式知识管理系统、文档(知识)协作系统,以对金融知识进行更加有效的管理、搜索、使用。

02

资讯与舆情分析

金融资讯信息非常丰富,例如公司新闻(公告、重要事件、财务状况等)、金融产品资料(股票、证券等)、宏观经济(通货膨胀、失业率等)、政策法规(宏观政策、税收政策等)、社交媒体评论等。

金融资讯每天产生的数量非常庞大,要从浩如烟海的资讯库中准确找到相关文章,还要阅读分析每篇重要内容,是费时费力的工作。如果有一个工具帮助人工快速迅捷获取资讯信息,将大大提高工作效率。资讯舆情分析的主要功能包括资讯分类标签(按公司、产品、行业、概念板块等)、情感正负面分析(文章、公司或产品的情感)、自动文摘(文章的主要内容)、资讯个性化推荐、舆情监测预警(热点热度、云图、负面预警等)。在这个场景中,金融知识图谱提供的金融知识有助于更好理解资讯内容,更准确地进行资讯舆情分析。

资讯舆情分析的应用主要在智能投研和智能监管这两个场景。目前市场上的辅助投研工具中,资讯舆情分析是必不可少的重要部分。资讯舆情分析作为通用工具更多是对海量定性数据进行摘要、归纳、缩简,以更加快捷方便地为投研人员提供信息,支持他们进行决策,而非直接给出决策结论。在智能监管领域,通过资讯舆情分析,对金融舆情进行监控,发现违规非法活动进行预警。

03

金融预测和分析

基于语义的金融预测即利用金融文本中包含的信息预测各种金融市场波动,它是以NLP等人工智能技术与量化金融技术的结合。

利用金融文本数据帮助改善金融交易预测模型的想法早已有之。本世纪初,美国就有人利用新闻和股价的历史数据来预测股价波动。2010年后,社交媒体产生了大量数据,基于Twitter、Facebook来预测股市的研究项目很多。最近,深度学习被大量应用在预测模型中。金融文本数据提供的信息是定性的(qualitative),而通常数字形式的数据是定量的(quantitative)。定性分析比定量分析更难,定性信息包含的信息量更大。有分析表明,投资决策人员在进行决策时,更多依赖于新闻、事件甚至流言等定性信息,而非定量数据。因此,可期待基于语义的金融预测分析大有潜力可挖。这个场景中涉及的关键NLP技术包括事件抽取和情感分析技术。金融知识图谱在金融预测分析中具有重要的作用,它是进行事件推理的基础。例如在中兴事件中,可根据产业链图谱推导受影响的公司。

基于语义的金融预测和分析在金融应用的主要场景包括智能投研和智能投顾。它的理想目标是能代替投资人员做投资预测,进行自动交易,但目前还只是作为投资人员的投资参考。将不同来源的多维度数据进行关联分析,特别是对非结构化数据的分析,比如邮件、社交网络信息、网络日志信息。从而挖掘和展现出未知的相关关系,为决策提供依据。典型的应用案例如美国Palantir公司提供基于知识图谱的大数据分析平台。其金融领域产品Metropolis,通过整合多源异构数据,构建金融领域知识图谱。特点是:对非结构化数据的分析能力、将人的洞察和逻辑与高效的机器辅助手段相结合起来。另一个例子如Kensho公司利用金融知识图谱进行预测分析。在英国脱欧期间,交易员成功运用Kensho了解到退欧选举造成当地货币贬值;曾准确分析了美国总统任期的前100天内股票涨跌情况。

04

文档信息抽取

信息抽取是NLP的一种基础技术,是NLP进一步进行数据挖掘分析的基础,也是知识图谱中知识抽取的基础。采用的方法包括基于规则模板的槽填充的方法、基于机器学习或深度学习的方法。按抽取内容分可以分为实体抽取、属性抽取、关系抽取、规则抽取、事件抽取等。

在这里的文档信息抽取特指一种金融应用场景。指从金融文档(如公告研报)等抽取指定的关键信息,如公司名称、人名、指标名称、数值等。文档格式可能是格式化文档(word, pdf, html等)或纯文本。对格式化文本进行抽取时需要处理并利用表格、标题等格式信息。文档信息抽取的应用场景主要是智能投研和智能数据,促进数据生产自动化或辅助人工进行数据生产、文档复核等。

05

自动文档生成

自动文档生成指根据一定的数据来源自动产生各类金融文档。常见的需要生成的金融文档如信息披露公告(债券评级、股转书等)、各种研究报告。

自动报告生成属于生成型NLP应用。它的数据来源可能是结构化数据,也可能是从非结构化数据用信息抽取技术取得的,也可能是在金融预测分析场景中获得的结论。简单的报告生成方法是根据预定义的模板,把关键数据填充进去得到报告。进一步的自动报告生成需要比较深入的NLG技术,它可以把数据和分析结论转换成流畅的自然语言文本。

自动文档生成的应用场景包括智能投研、智能投顾等。它的典型应用案例如美国的Narrative Science,它从结构化数据中进行数据挖掘,并把结果用简短的文字或依据模板产生报告内容。又如Automated Insights,它为美联社自动写出了10亿多篇文章与报告。

06

风险评估与反欺诈

风险评估是大数据、互联网时代的传统应用场景,应用时间较早,应用行业广泛。它是通过大数据、机器学习技术对用户行为数据分析后,进行用户画像,并进行信用和风险评估。

NLP技术在风控场景中的作用是理解分析相关文本内容,为待评估对象打标签,为风控模型增加更多的评估因子。引入知识图谱技术以后,可以通过人员关系图谱的分析,发现人员关系的不一致性或者短时间内变动较大,从而侦测欺诈行为。利用大数据风控技术,在事前能够预警,过滤掉带恶意欺诈目的人群;在事中进行监控,发生欺诈攻击时及时发现;在事后进行分析,挖掘到欺诈者的关联信息,降低以后的风险。

在金融行业,风险评估与反欺诈的应用场景首先是智能风控。利用NLP和知识图谱技术改善风险模型以减少模型风险,提高欺诈监测能力。其次,还可以应用在智能监管领域,以加强监管者和各部门的信息交流,跟踪合规需求变化。通过对通信、邮件、会议记录、电话的文本进行分析,发现不一致和欺诈文本。例如欺诈文本有些固定模式:如用负面情感词,减少第一人称使用等。通过有效的数据聚合分析可大大减少风险报告和审计过程的资源成本。从事此类业务的Finctech公司很多,如Palantir最初从事的金融业务就是反欺诈。其他如Digital Reasoning、Rapid Miner、Lexalytics、Prattle等。

07

客户洞察

客户关系管理(CRM)也是在互联网和大数据时代中发展起来,市场相对成熟,应用比较广泛,许多Fintech公司都以此为主要业务方向。现代交易越来越多是在线上而不是线下当面完成,因此如何掌握客户兴趣和客户情绪,越来越需要通过对客户行为数据进行分析来完成。

NLP技术在客户关系管理中的应用,是通过把客户的文本类数据(客服反馈信息、社交媒体上的客户评价、客户调查反馈等)解析文本语义内涵,打上客户标签,建立用户画像。同时,结合知识图谱技术,通过建立客户关系图谱,以获得更好的客户洞察。这包括客户兴趣洞察(产品兴趣),以进行个性化产品推荐、精准营销等。以及客户态度洞察(对公司和服务满意度、改进意见等),以快速响应客户问题,改善客户体验,加强客户联系,提高客户忠诚度。

客户洞察在金融行业的应用场景主要包括智能客服和智能运营。例如在智能客服中,通过客户洞察分析,可以改善客户服务质量,实现智能质检。在智能运营(智能CRM)中,根据客户兴趣洞察,实现个性化精准营销。国外从事这个业务方向的Fintech公司很多,如Inmoment,Medallia,NetBase等。

各种核心能力在智能金融的主要应用场景呈以下分布:

小结

NLP和知识图谱两种技术本身都还在发展成长过程中,因此在金融落地过程中势必也还会面临许多新的课题和挑战,任重而道远。一方面,人工智能必须与金融的具体业务场景切合,找到金融企业需求痛点,真正提升客户生产效率,给客户带来价值;另一方面,人工智能是基础技术学科,技术难度大,人才要求高,在核心技术和关键算法上需要有突破有优势,才能不断提升市场竞争力。所以,场景驱动和技术研发需要相辅相成、紧密结合。相信金融智能语义技术的应用将会有广阔的发展空间,推动智能金融迈向一个新的台阶。

随着时代变化,加之自身业务拓展的需求,以提供金融技术为核心业务的恒生电子已深度布局智能金融领域。作为金融科技公司,恒生始终坚持着连接百万亿、让金融变简单的愿景和使命。在即将进入的人工智能时代,恒生将持续在人工智能应用于金融创新的征途上迈进,一如既往地用技术与金融机构紧密合作,助力金融机构建设服务平台,并提供更加贴近用户需求的服务。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。


文章转载自公众号

恒生技术之眼

 

刘知远 | 语义表示学习

 

本文转载自公众号:人工智能图灵。

刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011年获得清华大学博士学位,已在ACL、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文60余篇,Google Scholar统计引用超过2700次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI期刊Frontiers of Computer Science青年编委,ACL、COLING、IJCNLP领域主席。

继续阅读“刘知远 | 语义表示学习”

肖仰华 | 领域知识图谱落地实践中的问题与对策

本文转载自公众号:知识工场

肖仰华教授2万字长文为您深度剖析领域知识图谱,对领域知识图谱技术与落地应用中的一系列关键问题做了系统的梳理与解答。

肖仰华博士,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。

报告摘要:近年来,知识图谱技术进展迅速,各种领域知识图谱技术在很多领域或行业取得了显著落地效果。在领域知识图谱技术的落地实践过程中涌现出一大批理论与工程问题。本报告结合复旦大学知识工场实验室十多个领域知识图谱落地项目实践,尝试对这些问题进行初步解答,梳理这些问题背后的关键科学问题,总结领域知识图谱技术落地的最佳实践,以期为各行业的知识图谱落地实践提供参考。

下文根据肖仰华教授近期所作报告《领域知识图谱落地实践中的问题与对策》整理而成,并经肖仰华教授亲自审核。

随着近几年知识图谱技术的进步,知识图谱研究与落地发生了一些转向。其中一个重要变化就是越来越多的研究与落地工作从通用知识图谱转向了领域或行业知识图谱,转向了企业知识图谱。知识图谱技术与各行业的深度融合已经成为一个重要趋势。在这一过程当中,涌现出一系列理论与技术问题。例如:知识图谱技术到底能够解决怎样的行业痛点问题?知识图谱技术与各行业融合的具体路径是怎样的?领域知识图谱与通用知识图谱的联系与区别是什么?领域知识图谱落地过程当中的关键科学技术问题是什么?这一系列问题的剖析与回答是进一步推动知识图谱技术落地实践、生根开花的关键所在。本次报告主要结合复旦大学知识工场实验室在十多个行业的领域知识图谱实践经历,对领域知识图谱落地实践中的关键问题以及主要对策做个初步解答。

报告思路很简单,是一问一答的形式。这里列出的问题是各个行业普遍关心的代表性的关键问题。

首先回答什么是领域知识图谱?领域知识图谱(Domain-specific Knowledge Graph: DKG)的概念是从通用知识图谱(General-purpose Knowledge Graph: GKG)演化而来,所以我们首先阐述什么是知识图谱(knowledge graph)。在回答什么是知识图谱这个问题上有个非常有意思的现象,一直以来,工业界和学术界都没有对于知识图谱给出一个严格的定义。如果大家去搜维基百科,会看到维基百科说知识图谱是Google的一种知识表示。然而,一个相对严格的定义是必要的,我给出的定义是“大规模语义网络”。理解这个定义有两个要点。第一个是语义网络,语义网络包含的是实体、概念以及实体和概念之间各种各样的语义关系。比如C罗是一个足球运动员,是一个实体,金球奖也是一个实体。何为实体?黑格尔在《小逻辑》里面曾经给实体下过一个定义:“能够独立存在的,作为一切属性的基础和万物本原的东西”。也就是说实体是属性赖以存在的基础,必须是自在的,也就是独立的、不依附于其他东西而存在的。比如身高,单单说身高是没有意义的,说“运动员”这个类别的身高也是没有意义的,必须说某个人的身高,才是有明确所指,有意义的。理解何为实体,对于进一步理解属性、概念是十分必要的。再来看概念(concept),概念又称之为类别(type)、类(category)等。比如“运动员”,不是指某一个运动员,而是指一类人,这就是一个概念。语义网络中的关联都是语义关联,这些语义关联发生在实体之间、概念之间或者实体与概念之间。实体与概念之间是instanceOf(实例)关系,比如“C罗”是“运动员”的一个实例。概念之间是subclassOf(子类)关系,比如“足球运动员”是“运动员”的一个子类。实体与实体之间的关系十分多样,比如“C罗”效力于“皇家马德里球队”。

理解知识图谱的第二个要点是大规模。除了语义网络之外,上个世纪伴随着专家系统的研制而发展出了类别多样的知识表示形式,比如产生式规则、本体、框架,还有决策树、贝叶斯网络、马尔可夫逻辑网络等。这些知识表示表达了现实世界各种复杂语义。知识表示多种多样,语义网络只是各种知识表示中的一种而已。既然上世纪七八十年代有如此多的知识表示,而且知识图谱本质上是语义网络,为什么今天还要提知识图谱?那是因为知识图谱与传统七八十年代的知识表示有一个根本的差别,那就是在规模上的差别。知识图谱是一个大规模语义网络,而七八十年代的语义网络是个典型的小知识(small knowledge)。知识图谱的规模巨大,像Google knowledge graph在2012年发布之初就有5亿多的实体,10亿多的关系,如今规模更大。知识图谱的规模之所以如此巨大,是因为它强调对于实体的覆盖。比如说运动员作为一个类别在知识图谱里涵盖了数以万计诸如C罗这样的实体。知识图谱的规模效应带来了效用方面的质变。知识图谱是典型的大数据时代产物。关于这些观点的详细描述参考本人的《知识图谱与认知智能》,在此不再赘述。

那什么是领域知识图谱呢?比如“足球知识图谱”,里面大多都是跟足球相关的实体和概念。如果知识图谱聚焦在特定领域,就可以认为是领域知识图谱。领域知识图谱的范畴再大一些就是行业知识图谱了,比如农业知识图谱。近几年一些大型企业对于利用知识图谱解决企业自身的问题十分感兴趣,于是就有了横贯企业各核心流程的企业知识图谱。领域知识图谱、行业知识图谱与企业知识图谱有时边界也十分模糊。近几年,这几类知识图谱得到越来越多的关注。

在理解领域知识图谱时,我想指出一个非常重要的观点,我称之为“NoKG”,也就是Not only KG。这里是借鉴“NoSQL”的说法。首先,知识图谱只是知识表示的一种,单单知识图谱不足以表达现实世界的丰富语义,不足以解决所有问题。比如很多领域有着丰富的if-then规则(比如故障维修、计算机系统配置),这些规则利用知识图谱表达就很牵强,特别是对于if A and B then C 这样的规则。条件部分的原子表达式之间的关系可以很复杂,利用知识图谱难以表达。知识表示方面的缺陷限制了知识图谱解决问题的范围。其次,知识图谱辅以其他知识表示则有可能解决很多复杂的实际问题。作为一种语义网络,知识图谱在大数据的赋能下就已经能够解决很多实际问题。可以设想一下,还有更多的知识表示没有突破规模瓶颈。在大数据的赋能下,其他类型的知识表示也将能够解决更多实际的问题。越来越多的领域应用需要的知识已经突破了知识图谱的范围,对其他知识(比如产生式规则、贝叶斯网络、决策树等)提出了诉求。比如,我们正在尝试联合使用知识图谱与产生式规则实现面向故障诊断的精准语义检索。

NoKG的另一层含义在于领域应用不仅需要静态知识,更需要动态知识。知识图谱侧重于表达实体、概念之间的语义关联,这些语义关联大多是静态的、显性的、客观的、明确的。而实际应用中对过程性、决策性知识是有着大量需求的,这些知识大部分是动态的、隐形的、带有一定主观性的,比如疾病诊断、投资决策、司法解释等等。这些应用需要把决策的因素、机制与过程加以表达。动态知识的沉淀对于很多行业来说是强需求。随着我国人口红利消失,人力成本持续提高,特别是富有经验的领域专家成本越加高昂。这些人员一旦流失,会给企业造成巨大损失。为此,企业特别需要将领域专家大脑中的决策知识加以沉淀,赋予机器,从而一定程度上降低对专家的依赖。但是,动态知识的表达与获取仍然是个具有重大挑战的技术问题。很多决策过程难以明确表达,很多决策因素是隐性的。比如老中医看病,中医智能化一直希望将有经验的老中医的看病经验沉淀下来。但是老中医自己也未必说得清楚是根据什么看病的。虽然中医也有朴素的理论在支撑其诊断,但总体而言整个过程是模糊的。在传统知识管理领域曾经设计出很多激励制度以促进企业内的知识表达与沉淀,但是阻力重重,收效甚微。关键问题在于工程师、分析师、医生等等领域专家自己也不知道如何表达。传统知识工程通过专业的知识工程师协助领域专家进行知识获取,但总体上的代价太大,过程太重,不易成功。动态过程的知识表达已经困难重重,知识获取就更加雪上加霜了。曾有人设想获取金牌投资经理投资决策的知识,尝试为投资经理提供新闻阅读工具,通过其点击行为把握其所关注新闻,甚至通过眼球跟踪捕捉其关注的文章片段,以期精准捕捉其决策要素。知识获取之困难可见一斑。但是知识表示及获取的重心将逐步过渡到动态知识是必然趋势,也是摆在研究人员面前的攻关战。

现在回答第二个问题,DKG(领域知识图谱)和GKG(通用知识图谱)的关系和区别。首先来看GKG和DKG的区别。两者之间的区别是明显的,体现在知识表示、知识获取和知识应用三个层面。在知识表示层面的差别可以从广度、深度和粒度这三个维度加以考察。从广度来看,GKG涵盖的范围明显大于DKG。从深度来看,DKG通常更深,尤其体现在概念图谱的层级体系上。比如,在娱乐领域,追星族们可能很关心“内地鼻子长得帅的男明星”,在电商领域单单“连衣裙”不足以满足人们的购物需求,电商图谱中往往要涵盖“韩版夏装连衣裙”这样的细分品类。如何表达与处理这些较深层次的概念对于很多领域知识图谱应用而言是个巨大挑战。需要指出的是层次较深的细粒度概念往往不是基本概念(basic concept)。这意味着不同人对这些深层次概念有着不同的认知体验的,因而会有较大的主观分歧。这就是很多人工构建的概念层级深到一定层次就很难继续下去的重要原因。此时,数据驱动的自下而上的自动化方法往往比较适合。第三个维度是知识表示的粒度,DKG通常涵盖细粒度的知识。知识表示是有粒度的,知识的基本单元可以是一个文档,也可以是文章中的段落、法律中的条款、教育资源中的知识点等等。传统知识管理往往以文档为单位组织企业知识资源。在司法智能中的司法解释往往需要将知识粒度控制在条款级别。在教育智能化领域,学科的知识点往往是个合适的粒度,以知识点为中心组织教学素材和资源是个可行的思路。知识表示的粒度也可以细化到知识图谱中的实体与属性级别,或者是逻辑规则中的条件与结果。比如法律条款可以进一步细化到由条件与结果构成的产生式规则,数学中的很多定理也可以进一步细化为相关的公理系统(一组产生式规则)。既然知识表示的粒度是可控的,我们应该如何控制呢?很多场景下知识表示的粒度是个需要仔细斟酌的问题。一般而言,粒度越细表达能力越强,但是其表达与获取代价也越大。细粒度知识表示一般是领域应用的强需求之一。比如在知识管理领域,粒度粗放已经成为阻碍企业知识管理发展的根本问题。传统知识搜索只能搜索到文档级别,如果不幸这个文档含有1000页内容,则会给用户带来巨大麻烦。但是,凡事过犹不及,太细粒度的知识表示也往往会给知识获取带来巨大的复杂性。合理控制知识表示的粒度,不盲目求精求细,是知识库技术落地成功的关键思路之一很多落地实践中过早地陷入细粒度知识获取的泥潭当中,消耗巨大但收效甚微。但事实上细粒度的知识表示在很多场景下也是不必要的。因此,在实践中建议紧扣应用需求,从应用出发反推需要怎样粒度的知识表示。

在知识获取层面,DKG对质量往往有着极为苛刻的要求。因为很多领域应用场景是极为严肃的(也就是mission critical 的AI应用)。比如医疗,某个药物有哪些禁忌症,这类知识是不能出错的。对质量的苛刻要求自然就意味着领域知识图谱构建过程中专家参与的程度相对较高。需要指出的是,专家的积极干预并不意味着盲目的手动构建。如何应用好人力资源,包括哪些环节让人参与以及专家参与的具体方式等问题一直以来就是领域知识图谱落地的关键问题。在众包计算中有不少方法值得借鉴。但是对于有着依赖专家经验的历史传统而言,如何尽可能降低人力资源的成本是个值得深入研究的问题。一般而言,我们期望构建过程尽可能自动化;但是由于对目标图谱有着苛刻的质量要求,最终的知识验证过程还是要诉诸人力。较多的人工干预自然决定了领域知识图谱落地过程自动化程度相对较低。相比较而言,通用知识图谱构建一定要高度自动化,因为通用知识图谱规模太大(动辄数千万的实体,数亿的关系),如果没有自动化的办法,根本无法推进,除非存在有效的大规模众包化手段,比如知识类互动游戏等。

在知识应用层面,首先,领域知识图谱的推理链条往往相对较长。原因有两个方面。一是领域知识图谱相对密集。比如某个疾病在通用知识库中相关实体可能寥寥无几,但是在一个医疗知识图谱中相关实体可能数以百计。知识库建设有一个有意思的现象那就是永远不要指望知识库是完备的。完备是知识库建设永远在追求但却无法企及的目标。但是,DKG相对于GKG在单个实体的相关知识覆盖面有着明显优势。也正是基于此,领域知识图谱上的推理链条可以较长。在一个相对稠密的领域知识图谱上长距离推理之后的结果仍然还可能是个有意义的结果。但是在通用知识图谱上,由于其相对稀疏,多步推理之后语义漂移(semantic drift)严重,其推理结果很容易“面目全非”、“离题千里”,令人难以理解了。所以在GKG之上的推理操作大都是基于上下文的一到两步的推理。比如搜索“刘德华”,可以推荐他的歌曲,那是因为知识图谱告知我们刘德华是一个歌星,主要作品是歌曲,这是两步的推理链条。其次,领域知识图谱上的计算操作也相对复杂一些。像之前提到的深度推理就是一种复杂的应用。此外,领域应用往往会涉及复杂查询。比如在公共安全领域,对于重点监控人群,通常需要在相关图谱中查询该人群形成的稠密子图。诸如此类的复杂计算和操作,在领域知识图谱中并不罕见。相反,通用知识图谱的查询多为一到两步的邻居查询,相对简单。

现在来看联系,通用知识图谱与领域知识图谱关系是十分密切的,根本原因是人类的知识体系是有结构的。我个人认为人类的知识体系呈现出倒三角形的结构。三角结构越是接近底层的部分越是最为基本的、形式简单的知识;越往上层知识越为抽象、越加多样,也越加细分、专业性越强。在个人成长的早期阶段,人类通过自身身体与世界的交互习得了最为基本的常识,特别是关于时间、空间、因果的基本常识。我们知道时间是在流逝的、我们知道空间是有一定位置关系的、我们明白有因必有果。这些都是最为基本的常识。这些常识是构建认知体系的基础。在此基础上,通过“隐喻”或者“类比”(美国的侯世达教授甚至认为类比是智能的本质,见其《哥德尔、艾舍尔、巴赫》一书),人类发展出更为高层的知识,包括对于世界的知识(比如我们知道太阳从东边升起,人是要呼吸的等等)、简单关联事实(比如下雨了,地面会潮湿)。基于这些简单知识,再通过隐喻和类比,进一步形成特定领域的知识。很多领域知识本质上是通过隐喻从基本知识发展而来的。比如人们关于社会地位的认识,某个人社会地位较高实际上是从空间上的高低隐喻而来的。说某个人很积极、很激进,实际上是从时间的先后隐喻而来的。最近还有一个例子,将各种芯片与人体的各器官相类比:做人工智能的芯片就好比在做大脑,做通用芯片就好比在做血管,做计算芯片就好比在做心脏,这都是典型的隐喻。所以很多领域知识都是从人类的基本常识和世界知识通过隐喻发展而来的。因此,领域知识和通用知识之间存在着千丝万缕的联系。理解自然语言中的隐喻现象也一直是自然语言处理领域的一个研究热点。

DKG与GKG的另一个联系在于行业应用对于领域知识的需求难以闭合。也就是说,很多行业应用看上去好像只需要领域知识,但是实际应用过程中往往会超出领域所预先设定的知识边界。比如在金融知识图谱落地过程中,本以为涵盖公司、法人、机构、产品等就足够了。但是实际应用过程中我们发现这些类型的知识还远远不够。比如基于金融知识图谱的关联分析往往会牵扯出几乎万事万物。比如说诸如龙卷风的气候灾害,会使得农作物产量下降,农业机械的出货量因而就会下降,农机的发动机产量也就相应要下降,从事农机发动机关键部件生产的公司业绩就会下降,相关公司的股票可能就会下跌。这个例子形象地说明几乎一切事物在某种意义下都是跟金融有关系。事实上,一切实体都身处在一个复杂的因果网络中,世界是普遍关联的。这就导致沿着任何一个实体开展关联分析都极为容易超出预先设定的知识边界。因此,行业应用中的知识需求难以封闭于领域知识的边界范围内。换言之,越为封闭的应用场景,机器越容易取得成功。所谓封闭是指一个有限的知识子集足以支撑应用需求。比如,AlphaGo的成功很大程度上得益于围棋游戏规则有限,整个游戏过程不会用到下棋规则之外的知识。但对于星际争霸之类的游戏,机器取得优异成绩就显得较为困难。因为这类策略性游戏所用到的知识类型多样,不仅需要有关排兵布阵、武器应用、战场环境等相关知识,还可能涉及很多与社会及文化相关的知识。智能客服等领域的成功也一定程度上归功于客服知识的相对封闭。所以,领域应用所涉及的知识体系越是封闭,越容易成功。这是在很多领域知识图谱落地过程中选择应用试点时,应该遵循的一个基本原则。

延续上面的分析,进一步可以回答业界十分关心的一个问题:知识图谱在什么样的应用中易于成功?知识图谱落地应用往往遵循一个循序渐进的推进过程。因此,很多行业都希望选取特定场景先行试点,那么选择什么样的场景进行优先验证呢?知识图谱只是整个智能化技术的手段之一。知识图谱不能解决行业的所有问题,那么,某个特定的行业应用到底能否受益于知识图谱技术?这些都是知识图谱的行业应用亟需回答的问题。我根据前两页内容中观点,给出几个选择依据。第一、领域知识相对封闭。已经阐明,越是封闭的领域越容易成功。第二、简单知识与简单应用。何为简单知识?关于知识复杂性的评估实际上是个非常复杂的问题。知识复杂性的内在机理和评测机制是个十分有趣的科学问题。从操作层面来看,可以从特定人群学习某类知识所需要时间来评估。假设我们只考虑完成了基础教育(比如中国的九年制基础教育)的人群。对于不同知识,这一人群学习周期不一。比如,很显然对于某个企业的客服知识,几乎一周简单培训就可以上岗。但是对于治病的知识,即便一个医学院学生可能也要十多年才能掌握。所以,大部分对于人而言简单岗位培训就能胜任的工作,也往往适用于机器,是有可能优先被机器所代替的。还有些应用场景属于知识的简单应用,比如同样是在医疗领域,医院的导诊岗位,就属于医学知识的简单应用。只需要根据症状进行简单的分类,即便不够精准,在具体科室医生治疗时还有进一步纠正的机会。第三、较少涉及常识。如果领域应用所涉及的知识集中在人类知识结构的上层(也就是专业性较强的知识),较少涉及底层的常识,则相对容易成功。其根本原因在于常识的获取是异常困难的。人类很容易理解常识,但是对于机器而言常识理解却十分困难。我们知道太阳从东边升起,人是两条腿走路的,鱼是在水里游的,而机器很难知道这些常识。因为常识是人类在学龄前通过身体与世界的交互与体验积累而得。我们每个人都理解常识,因而不用挂在嘴边说明,就能彼此理解。因此,文本或者语料中对于常识鲜有提及,常识因而也就无从抽取。常识缺失也就成了知识库、知识工程,乃至整个人工智能的痛点问题。目前机器智能在常识理解方面仍然举步维艰。因此,我认为大量用到常识的应用面临巨大挑战。比如说有公司想做财务报销方面的智能化,此类场景就有可能涉及很多常识。比如半夜12点打出租车,或者说打出租车打了四五个小时,又或者从美国飞到上海只飞了一个小时,这都是有问题的。这些问题我们人类很容易识别,因为都是常识问题,但对机器而言就很困难。还有一个非常典型的大量用到常识的场景就是刑侦智能化。公安人员在破案过程中用到大量常识,嫌疑人往往是基于证据根据常识进行推理而锁定的,因此让机器代替刑侦人员破案仍十分困难。

很多领域知识图谱应用的方案是建立在通用知识图谱基础之上的。GKG对于DKG有着重要的支撑作用。一方面,GKG可以给很多DKG提供高质量的种子事实。这些种子事实可以用做样本指导抽取模型的训练。另一方面,GKG可以提供领域模式(Schema)。领域知识图谱构建时需要花费巨大精力设计领域模式,比如为了构建娱乐领域知识图谱,必须首先明确描述歌手的属性列表(有时又称作template)中应该包括专辑、代表作、签约公司等属性。虽然GKG对于特定领域的实体覆盖率不高,但是通过聚合GKG中所有歌手信息,有关歌手的描述模板基本上已经能够满足初步需要。后续只需要在初始模板基础上逐步完善即可。能否充分利用通用知识图谱对很多领域知识图谱的构建具有重要意义。这就是为什么很多团队不遗余力地做好通用知识图谱(比如我们实验室的通用百科知识图谱CN-DBpedia和通用概念图谱CN-Probase)的重要原因。

领域图谱建好之后又可以反哺通用知识图谱。复旦知识工场实验室就是按照这个思路持续运营多年。我们先通过通用知识图谱为各领域知识图谱构建提供大量的种子事实,使得快速构建很多领域知识图谱成为可能。各领域知识图谱做的很深很细之后,可以反过来补充通用知识图谱。GKG与DKG这种互补形式的架构在很多领域的知识图谱落地中是个非常重要的架构。

知识表示其实一直以来都有两种基本的方式:符号化表示与数值型表示。两者孰优孰劣?各自的适用场景是怎样的?一直是知识图谱落地过程中常被问及的问题。第一种是符号化(Symbol)的表示,比如说PPT左上角的小规模语义网络,表达了约翰给玛丽一本书这样的事实。这个例子中大量的使用了字符、箭头等符号。显然,符号表示形象直观,易于我们理解。人是可以理解符号的,但是没办法理解向量。知识表示还有一种表示是数值化的分布式表示,它是面向机器的。机器是无法“理解”符号的,只能处理数值和向量。分布式表示是将符号知识集成到深度学习框架中的一种基本方式。符号化表示是一种显性的表示,而分布式表示是一种隐性的表示。符号化表示易理解、可解释,而分布式表示是难解释、难理解的。符号化表示的另一优点在于推理能力。比如数学定理证明都是基于符号推理进行的。虽然基于知识图谱的分布式表示,也可以开展一定程度上的推理,但是需要指出的是分布式推理已经很大程度上丢失了知识图谱原有的语义,分布式推理只能推理语义相关性,而无法明确是何种意义下的语义相关。我个人倾向于认为分布式推理离实用还很遥远。如果非要为知识图谱上的分布式推理找到应用场景,那只能作为很多复杂任务的预处理步骤,将明显语义不相关的元素加以剪枝,后续仍需要能够充分利用符号语义的方法进行精准的语义推理。

不管是大数据时代还是人工智能时代,都需要领域知识图谱。我曾在《知识图谱与认知智能》这一报告中详细阐述过相关观点。这里补充几个观点。首先,需要知识图谱去构建知识引擎,去释放大数据的价值。很多行业和企业都有数据,都有大数据。但是这些大数据非但没有创造价值,反而成为了很多行业的负担。阻碍大数据价值变现的根本原因在于缺少智能化的手段,更具体而言就是缺少一个能像人一样能够理解行业数据的知识引擎。行业从业人员为什么能理解行业数据进而开展行业工作呢,那是因为行业从业人员具有相应的行业知识。如果把同样的行业知识赋予机器,构建一个行业知识引擎,那么机器也就可能代替人去理解、挖掘、分析、使用数据,可以代替行业从业人员挖掘数据中的价值。简言之,将行业知识赋予机器,让机器代替行业从业人员从事简单知识工作,是当下以及未来一段时间内基于机器认知智能的行业智能化的本质。在行业智能化的实现进程中,通过领域知识图谱对数据进行提炼、萃取、关联、整合,形成行业知识或领域知识,让机器形成对于行业工作的认知能力,从而实现一个行业知识引擎,实现知识工作自动化,已经成为了行业智能化日渐清晰的一条路径。

伴随着人工智能时代的到来,“智能”机器无处不在,手表、手环、手机、音响、电视、机器人等等都已是随处可见的“智能”实体,这些机器逐步走入人们的生活。但是现在机器普遍不具备人们所期望的智能,与人类智能相比只能算是机器“智障”。机器“智障”的根本原因是这些机器没有一个像人一样聪慧的大脑。事实上,机器最缺的是一个机器智脑。没有这样的智脑,机器只能是一具没有“灵魂”的僵尸。人脑之所以能给人类带来智慧的根本原因在于人脑能够存储知识与利用知识。类似地,机器智脑也需要有知识的充实,才能够形成真正意义上的机器智能。富含各类知识的机器智脑,可以理解人类的语言与行为,能够理解我们所从事的行业工作,从而使得自然人机交互成为可能,使得人机协同混合智能成为可能。最终为机器融入人类社会扫清障碍,促进人机和谐共存。

从社会发展的角度来看,可以说将领域知识赋予机器,将是进一步提高机器生产力、释放劳动力资源、降低人力成本的重要技术。伴随着我国人口红利的逐步消失,各行业的人力成本普遍提高,各行业对于机器生产力的提升提出了普遍诉求。伴随着工业4.0的推进以及自动化技术普及,传统实体行业人的体力劳动已经逐步被解放。人力资源成本释放的空间已经逐步从体力劳动转向脑力劳动。当下,人工智能技术给人力成本降低带来的新机遇主要体现在用机器代替人的脑力劳动,特别是各行业的简单知识工作将逐步为机器所代替。机器的记忆几乎是无穷无尽的,机器决策时可以同时考虑数百万变量,机器运算的速度远超人类,所以一旦把行业知识赋予机器,就能实现高度自动化的机器工作。在这一背景下,各行业都走上了智能化升级转型的道路,而实现机器的认知能力是智能化升级转型的基本路径。

以政府数据治理为例,在政府领域,由于历史原因,政府各部门的信息系统的建设多是各自为阵,形成了大量的信息孤岛,这就给政府数据价值发挥带来了巨大障碍。这些障碍尤为集中地体现在政府数据治理与应用方面,碎片化数据难以融合、数据共享开放缺乏必要依据、政府决策仍然缺乏来自数据的有效支撑、政府数据的应用模式相对单一。但如果有了领域知识图谱,就可以为数据融合提供元数据,将政府数据融合从繁重的手工整合中解放出来。比如ID与身份证通常指代相同的字段,这样的元数据可以自动建立A数据库中名为“ID”的字段与B数据库中名为“身份证”字段的映射。政府在大力推进政府数据共享和开放过程中,必须确保数据安全。比如个人隐私数据很敏感是不可以开放的,当前拟开放的数据都要经过人工的审慎判断,耗时耗力。但事实上知识图谱可以为政府数据开放提供必要的背景知识。比如如果设定了个人信息是不能开放的,那么个人的住址、出生日期等等都是不能开放的,这可以通过背景知识库自动推断得到。政府数据的决策和分析缺乏可解释依据,这些依据都可以从领域知识图谱里去寻找。当前政府数据的应用多是简单的检索与分析,缺乏基于深度推理的智能应用。而推理需要一个基本的载体,推理载体的天然选择是知识图谱。基于符号化的知识图谱,可以开展有效的深度推理。

领域知识图谱系统的生命周期包含四个重要环节:知识表示、知识获取、知识管理与知识应用。这四个环节循环迭代。知识应用环节明确应用场景,明确知识的应用方式。知识表示定义了领域的基本认知框架,明确领域有哪些基本的概念,概念之间有哪些基本的语义关联。比如企业家与企业之间的关系可以是创始人关系,这是认知企业领域的基本知识。知识表示只提供机器认知的基本骨架,还要通过知识获取环节来充实大量知识实例。比如乔布斯是个企业家,苹果公司是家企业,乔布斯与苹果公司就是“企业家-创始人-企业”这个关系的一个具体实例。知识实例获取完成之后,就是知识管理。这个环节将知识加以存储与索引,并为上层应用提供高效的检索与查询方式,实现高效的知识访问。四个环节环环相扣,彼此构成相邻环节的输入与输出。在知识的具体应用过程中,会不断得到用户的反馈,这些反馈会对知识表示、获取与管理提出新的要求,因此整个生命周期会不断迭代持续演进下去。

在整个生命周期中,我认为最重要的是明确知识的应用场景,也就是回答清楚一个问题:利用领域知识解决怎样的应用问题。再根据应用来反推到底需要怎样的知识表示,明确知识边界。在当下的很多知识图谱应用实践中,有一个不好的苗头就是“为了图谱而图谱”。虽然知识图谱是当下的热点技术,尽管每年各行业大量的信息化预算苦苦寻求好的落地项目,尽管资本界热钱涌动寻求好的投资标的,但是不应以知识图谱为名,不应盲目炒作知识图谱技术。知识图谱技术是当下热点不假,但绝不是万能技术。它能解决的问题是有限的,它的成功应用有着苛刻的条件。需要谨慎选择落地场景;需要客观评估技术成熟度以及技术与应用的适配程度;需要充分考虑资源与收益的平衡等一系列问题。为图谱而图谱,或者仅以图谱为名而行悖图谱之实,对知识图谱产业有百害而无一利。历史上前车之鉴太多了。很多做AI的研究人员与公司,最终落得个“骗子”下场。历史上的AI技术的演进道路呈现出大起大落之势。这一系列现象归根结底是因为人们对于AI预期过高,盲目大规模上线很多知识工程项目,无视应用场景而对知识库盲目求大求全。殊不知人之所以伟大其实就在于任何一个普通人所掌握的知识都可以说是无边无界的。我们现在构建的知识库离机器达到普通人认知世界所需要的水平还十分遥远。知识资源建设可以说是永远在路上,没有最好,只有更好。所以,比较务实的作法是:谨慎选择合适的应用场景,构建满足场景需要的知识资源。这背后体现的也是典型的自下而上的建设思路。大而全、自上而下、运动式知识资源建设(这个经常是国内的典型方式),容易遇到难以逾越的技术瓶颈。一言以蔽之,知识资源建设的基本原则是适度。“适”是指对于特定应用场景的适配,“度”是指合理把控知识的边界与体量

我们常用三元组表示领域知识图谱。我想强调一点,知识图谱只能表达一些简单的关联事实,但很多领域应用的需求已经远远超出了三元组所能表达的简单关联事实,实际应用日益对于利用更加多元的知识表示丰富和增强知识图谱的语义表达能力提出了需求。这一趋势首先体现在对于时间和空间语义的拓展与表达方面。有很多知识和事实是有时间和空间条件的,比如说“美国总统是特朗普”这个事实的成立是有时间条件的,十年前美国的总统不是特朗普,十年之后应该也不大可能是特朗普。还有很多事实是有空间条件的,比如“早餐是烧饼与油条”这件事,在中国是这样,但是在西方并非如此,西方的早餐可能是咖啡、面包。从时空维度拓展知识表示对很多特定领域具有较强的现实意义。比如在位置相关的应用中,如何将POI(Point of Interest)与该POI相关实体加以关联,成为当下拓展POI语义表示的重要任务之一。比如将“邯郸路220号”(复旦大学地址)关联到“复旦大学”是十分有意义的。在互联网娱乐领域,粉丝们往往不仅仅关心某个明星的妻子是谁,可能更关心明星的前任妻子、前任女友等信息,这些应用都对事实成立的时间提出了需求。第二、增强知识图谱的跨媒体语义表示。当前的知识图谱主要以文本为主,但是实际应用需要有关某个实体的各种媒体表示方式,包括声音、图片、视频等等。比如对于实体“Tesla Model S”,我们需要将其关联到相应图片和视频。知识图谱时空维度拓展在物理实现上可以通过定义四元组或者五元组加以实现。跨媒体表示可以通过定义相关的属性加以实现。

知识图谱的语义增强总体上而言将是未来一段时间知识表示的重要任务。知识图谱作为语义网络,侧重于表达实体、概念之间的语义关联,还难以表达复杂因果关联与复杂决策过程。如何利用传统知识表示增强知识图谱,或者说如何融合知识图谱与传统知识表示,更充分地满足实际应用需求,是知识图谱领域值得研究的问题之一。在一些实际应用中,研究人员已经开始尝试各种定制的知识表示,在知识图谱基础上适当扩展其他知识表示是一个值得尝试的思路。

领域知识图谱的构建是个领域知识的获取过程。这一过程系统性强,涉及众多技术手段。但是其基本流程具有一定共性,如PPT所示。

第一步是模式(Schema)设计。这一步是传统本体设计所要解决的问题。基本目标是把认知领域的基本框架赋予机器。在所谓认知基本框架中需要指定领域的基本概念,以及概念之间subclassof关系(比如足球领域需要建立“足球运动员”是“运动员”的子类);需要明确领域的基本属性;明确属性的适用概念;明确属性值的类别或者范围。比如“效力球队”这个属性一般是定义在足球运动员这个概念上,其合理取值是一个球队。此外,领域还有大量的约束或规则,比如对于属性是否可以取得多值的约束(比如“奖项”作为属性是可以取得多值的),再比如球队的“隶属球员”属性与球员的“效力球队”是一对互逆属性。这些元数据对于消除知识库不一致、提升知识库质量具有重要意义。

第二步是明确数据来源。在这一步要明确建立领域知识图谱的数据来源。可能来自互联网上的领域百科爬取,可能来自通用百科图谱的导出、可能来自内部业务数据的转换,可能来自外部业务系统的导入。应该尽量选择结构化程度相对较高、质量较好的数据源,以尽可能降低知识获取代价。

第三步是词汇挖掘。人们从事某个行业的知识的学习,都是从该行业的基本词汇开始的。在传统图书情报学领域,领域知识的积累往往是从叙词表的构建开始的。叙词表里涵盖的大都是领域的主题词,及这些词汇之间的基本语义关联。在这一步我们是要识别领域的高质量词汇、同义词、缩写词,以及领域的常见情感词。比如在政治领域,我们需要知道特朗普又被称为川普,其英文简称为Trump。

第四步是领域实体发现(或挖掘)。需要指出的是领域词汇只是识别出领域中的重要短语和词汇。但是这些短语未必是一个领域实体。从领域文本识别某个领域常见实体是理解领域文本和数据的关键一步。在实体识别后,还需对实体进行实体归类。能否把实体归到相应的类别(或者说将某个实体与领域类别或概念进行关联),是实体概念化的基本目标,是理解实体的关键步骤。比如将特朗普归类到政治人物、美国总统等类别,对于理解特朗普的含义具有重要意义。实体挖掘的另一个重要任务是实体链接,也就是将文本里的实体提及(Mention)链接到知识库中的相应实体。实体链接是拓展实体理解,丰富实体语义表示的关键步骤。

第五步是关系发现。关系发现,或者知识库中的关系实例填充,是整个领域知识图谱构建的重要步骤。关系发现根据不同的问题模型又可以分为关系分类、关系抽取和开放关系抽取等不同变种。关系分类旨在将给定的实体对分类到某个已知关系;关系抽取旨在从文本中抽取某个实体对的具体关系;开放关系抽取(OpenIE)从文本中抽取出实体对之间的关系描述。也可以综合使用这几种模型与方法,比如根据开放关系抽取得到的关系描述将实体对分类到知识库中的已知关系。

第六步是知识融合。因为知识抽取来源多样,不同的来源得到的知识不尽相同,这就对知识融合提出了需求。知识融合需要完成实体对齐、属性融合、值规范化。实体对齐是识别不同来源的同一实体。属性融合是识别同一属性的不同描述。不同来源的数据值通常有不同的格式、不同的单位或者不同的描述形式。比如日期有数十种表达方式,这些需要规范化到统一格式。

最后一步是质量控制。知识图谱的质量是构建的核心问题。知识图谱的质量可能存在几个基本问题:缺漏、错误、陈旧。先谈知识库的缺漏问题。某种意义上,知识完备对于知识资源建设而言似乎是个伪命题,我们总能枚举出知识库中缺漏的知识。知识缺漏对于自动化方法构建的知识库而言尤为严重。但是即便如此,构建一个尽可能全的知识库仍是任何一个知识工程的首要目标。既然自动化构建无法做到完整,补全也就成为了提升知识库质量的重要手段。补全可以是基于预定义规则(比如一个人出生地是中国,我们可以推断其国籍也可能是中国),也可以从外部互联网文本数据进行补充(比如很多百科图谱没有鲁迅身高的信息,需要从互联网文本寻找答案进行补充)。其次是纠错。自动化知识获取不可避免地会引入错误,这就需要纠错。根据规则进行纠错是基本手段,比如A的妻子是B,但B的老公是C,那么根据妻子和老公是互逆属性,我们知道这对事实可能有错。知识图谱的结构也可以提供一定的信息帮助推断错误关联。比如在由概念和实例构成的Taxonomy中,理想情况下应该是个有向无环图,如果其中存在环,那么有可能存在错误关联。最后一个质量控制的重要问题是知识更新。更新是一个具有重大研究价值,却未得到充分研究的问题。很多领域都有一定的知识积累。但问题的关键在于这些知识无法实时更新。比如电商的商品知识图谱,往往内容陈旧,无法满足用户的实时消费需求(比如“战狼同款饰品”这类与热点电影相关的消费需求很难在现有知识库中涵盖)。因此,电商领域的图谱构建要从被动的供给侧构建过渡到主动的消费侧构建,要从管理者视角转变成消费者视角。消费侧的需求充分体现在搜索日志和购物篮中。面向日志、购物篮的自动知识获取将成为研究热点。

经历了上述步骤之后得到一个初步的领域知识图谱。在实际应用中会得到不少反馈,这些反馈作为输入进一步指导上述流程的完善,从而形成闭环。此外,除了上述自动化构建的闭环流程,还应充分考虑人工的干预。人工补充很多时候是行之有效的方法。比如一旦发现部分知识缺漏或陈旧,可以通过特定的知识编辑工具实现知识的添加、编辑和修改。也可以利用众包手段将很多知识获取任务分发下去。如何利用众包手段进行大规模知识获取,是个十分有意思的问题,涉及到知识贡献的激励机制,我前几年有个题为《未来人机区分》的报告,专门讨论如何利用知识问答形式的验证码来做知识获取,可以百度此文获取更多信息。

可以看出,整个领域知识图谱的构建是个系统工程,流程复杂,内涵丰富,涉及到知识表示、自然语言处理、数据库、数据挖掘、众包等一系列技术。也正是这个原因使得知识图谱落地对很多行业或者企业来讲都是一个十分重要的举措,甚至是战略性举措。

领域图谱的评价标准是落地过程中常常被问及的问题。总体而言有三个方面的指标应该予以充分考虑。第一个是规模。前面已经指出,绝对完备的知识库是不存在的,完备只能相对于一些封闭领域而言。因此,规模一般而言是个相对指标。关于规模问题,在落地过程有两个有意思的问题。一是,当前知识库是否足以支撑实际应用,或者多大规模就够了?这个问题没有绝对答案。我给出的是看实际应用的反馈,也就是知识图谱上线后的用户满意率。比如在利用知识图谱支撑语义搜索方面,多少查询能被准确理解,这个比率是个重要的指标。当然查询理解率不仅涉及知识图谱的覆盖率也关系到理解模型的准确率。因此,在实际评估中需要客观对待查询理解率,不能简单地将查询理解率直接等同于图谱覆盖率。

第二个指标是质量。当前AI系统努力避免的一个事实就是“Garbage-In-Garbage-Out”。喂给机器的是错误知识,就只会导致错误的应用结果。提升知识图谱质量是知识图谱构建的核心命题。那么知识图谱质量又应该从哪些维度进行衡量呢?我想至少有几个维度。一是、准确率。比如是否存在错误事实,错误事实所占比例都是质量的直接反映。二是、知识的深度。比如很多知识库只涵盖人物这样的大类,无法细化到作家、音乐家、运动员这些细分类目(fine-grained concepts)。三是、知识的粒度。粒度越细应用越灵活,应用时精读越高。细化知识表示的粒度是领域知识图谱的构建过程中的重要任务之一。

第三个方面是实时。绝对实时是不现实的,因而实时大都从知识的延时(latency)角度进行刻画。短延时显然是我们期望的。知识图谱的更新是个复杂问题,不同的更新策略导致不同的延时。一般而言,知识图谱更新包括被动更新和主动更新两种方式。实际应用中往往是两种策略的结合。被动更新往往采取周期性更新策略,这种策略延时长,适用于大规模知识更新。主动更新,往往从需求侧、消费侧、应用侧出发,主动触发相关知识更新,适用于头部或者高频实体及知识的更新。关于知识库更新的细节,感兴趣的朋友可以参考知识工场微信公众号文章《百科知识图谱同步更新》。

领域知识图谱如何存储也是大家很关注的问题。由于知识图谱本质上在表达关联,天然地可以用图加以建模,因而很多人想到用图数据库对领域知识图谱加以存储。图数据库的确是知识图谱存储选型的重要选择,但是不是唯一选择。传统关系数据库,近几年充分发展的其他类型的NoSQL数据库在很多场景下也是合理选择。那么数据库的选择考虑的要素是什么呢?有两类重要的选型要素:图谱的规模以及操作复杂度。从图谱的规模角度来看,百万、千万的节点和关系规模(以及以下规模)的图谱对于图数据库的需求并不强烈,图数据库的必要性在中等或者小规模知识图谱上体现并不充分。但是如果图谱规模在数亿节点规模以上,图数据库就十分必要了。从操作复杂性来看,图谱上的操作越是复杂,图数据库的必要性越是明显。图谱上的全局计算(比如平均最短路径的计算),图谱上的复杂遍历,图谱上的复杂子图查询等等都涉及图上的多步遍历。图上的多步遍历操作如果是在关系数据库上实现需要多个联结(Join)操作。多个联结操作的优化一直以来是关系数据库的难题。图数据库系统实现时针对多步遍历做了大量优化,能够实现高效图遍历操作。除了上述因素之外,还应该充分考虑系统的易用性、普及性与成熟度。总体而言图数据库还是发展中的技术,对于复杂图数据管理系统的优化也是只有少部分专业人员才能从事的工作。在数据库选型时需要充分考虑这些因素。我们实验室在实现CN-DBpedia(2000万实体、2.2亿关系)在线服务系统时先后采用了Relational DB、Graph DB、MongoDB,最后出于综合考虑选用的是MongoDB,已经稳定运行了三年,累计提供10亿多次API服务。

领域知识图谱如何查询?通常对于表达为RDF形式的知识图谱,可以使用SPARQL查询语言。SPARQL语言针对RDF数据定义了大量的算子,对于推理操作有着很好支撑,因而能够适应领域中的复杂查询与复杂推理。从应用角度来看,也可以将知识图谱仅仅表达为无类型的三元组。对于这种轻量级的表示,关系数据库与传统NoSQL数据库也是较好选择。那么此时,SQL语句就是比较好的选择。SQL十分成熟,语法简单,用户众多且有着几十年的成功应用基础。很多领域图谱上的查询是相对简单的,以单步或者两到三步遍历居多。此时,SQL完全能够胜任。但是不排除有一些特定场景,特别是公共安全、风控管理等领域,通常需要进行复杂关联分析,需要较长路径的遍历,需要开展复杂子图挖掘,此时SQL的表达能力就显得相对较弱了。

未来的趋势是直接利用自然语言进行知识图谱数据访问。但是总体而言这还只是个比较热门的研究主题,离成熟还有一定距离。其根本困难在于自然语言的复杂性,在于自然语言自动化转成形式语言的巨大复杂性。但这显然是有着巨大商业价值的问题。数据(知识)访问方法的呆板是制约数据(知识)价值发挥的重大瓶颈。一旦突破这一瓶颈,数据与知识的使用将从传统的被动式定制获取变成主动式按需获取,传统管理信息系统以及知识管理将面临全新机遇

领域知识图谱的应用落脚点无外乎搜索、推荐、问答、解释与决策。对于这几个应用我在《知识图谱与认知智能》一文中有详细论述,在此不再赘述。这里补充回答几个问题。第一、知识图谱支撑下的应用与没有知识图谱特别是与基于机器学习的方案相比有何优势?这是很多应用单位会提出的问题。首先,从宏观层面来讲,通过领域知识图谱对于领域知识进行表达与沉淀,使得机器能够具备领域数据认知能力这种能力使得推理和解释成为可能。推理和解释是当前的机器学习(特别是深度学习)还难以有效解决的问题。其次,从具体任务来看,知识图谱能显著提升一些具体任务的效果。知识图谱支撑下的搜索相对于传统搜索,能够显著提高召回率,也就是能够解决“搜的到”的问题;知识图谱支撑下的推荐相对于传统推荐,能够显著提高推荐的个性化,也就是能够解决“推得准”的问题;知识图谱支撑下的推荐相对于其他问答方式,能够显著提高问答的召回率,特别是需要推理才能回答的问题。知识图谱支撑下的决策分析相对于传统决策,能够提供决策的可解释依据,能够为决策提供背景知识支持。解释是知识图谱的天然使命,因为人只能理解符号知识,人是解释的对象。

另一个更为深刻的问题是相对于机器学习,特别是深度学习,符号化知识对于机器智能是否必要?一些机器学习专家认为,机器智能只需要数值表示就可以了,所谓知识也无外乎就是深度神经网络中足够抽象层次上的分布式表示,体现为相应层次上的网络结构与参数。符号知识对于机器智能是个伪命题,知识表达与沉淀对于机器智能也就无从谈起。深度学习顶级专家Hinton也有类似观点。一定程度上,我赞同这个观念。但问题在于,虽然我们身处在大数据时代,但是当前的数据还不足以让机器习得人类所具有的高度抽象知识。我们现在的大数据大部分还只是应用场景下产生的直接数据,缺乏产生这些数据的需求与动机的背景数据,缺乏能够解释数据之所以如此的因果链条数据。比如我们都知道数据挖掘领域的啤酒尿布的例子,意思是说大部分买尿布的人也会同时买啤酒。可是我们从来都不知道为什么。事实上很可能是产妇行动不便,让爸爸来买尿布,一个家庭有了新生儿之后,初为人父的爸爸们或多或少比较紧张兴奋,因而顺带购买啤酒以缓解压力。我们现在的数据采集还无法延伸到能够理解统计规律背后的因果链条的地步。还有很多数据背后是由常识支撑的。比如今年夏天冷饮销售量增长,是由于天气炎热,而天气炎热,人们自然会饮用冷饮。这些知识是我们人人都知道的,但是机器无法知道。常识缺失使得机器无法重建完整的数据关联分析链条。所以,大数据时代的“数据饥荒”是机器学习无法习得人类水准的高层抽象知识的重要原因之一。那么有人也许会争论说,既然“数据饥荒”是根本原因,那么有可能通过增强数据采集广度与力度来消弭这一问题。我个人认为很难。诚然随着大数据日积月累,这一问题或许会得到一定程度上的缓解。 但是常识获取的困难仍然会对这一问题的解决带来巨大挑战。因此,至少在当下一段时期内,充分利用符号知识,补齐数据驱动方法的短板应该是比较务实的思路。但是即便意识到这一点,在方法层面我们也仍然捉襟见肘。如何利用符号知识增强统计学习模型仍然是个具有挑战性的问题。对于这一问题的具体论述可以参考《当知识图谱“遇见”深度学习》一文。

领域知识图谱落地有哪些最佳实践呢?作为一个工程性学科,不断总结其最佳实践是非常有必要的。这里根据我们落地的几个项目分享几个最佳实践。第一、应用引领。这个问题在知识图谱项目周期时,已经强调了。明确应用出口对于图谱的规划是非常重要的。第二、避难就简。在当前阶段,文本处理仍然面临不少困难,落地困难重重。即便是一个简单的中文分词任务仍然需要大量的研究工作,比如“南京市长江大桥”分词,可以是“南京市+长江大桥”,也可以是“南京市长+江大桥”。因此,在实际落地过程中,应该综合考虑各条技术路径的难度,优先考虑从结构化的数据中加以转换,其次是半结构化数据(比如带格式标记的各类文本,如XML、百科文本等等),最后才是无结构的自然语言文本。事实上,如果能够综合考虑各类技术路径,融合各类数据源,采取一些巧妙的策略可以显著提升非结构化文本抽取的有效性。比如利用结构化数据与非结构文本进行比对,获取很多高质量的关系描述就是一个非常有效的策略。第三、避免从零开始。很多行业或者企业在建设知识图谱项目时,或多或少已经存在很多知识资源,比如领域本体、叙词表等等,互联网上的公开来源也存在不少相关的百科资源,通用百科图谱已经涵盖了某个领域大量的实体。充分利用这些资源,提高领域知识图谱构建的起点,是知识图谱项目成功落地的一个关键因素之一。已经存在的这些知识资源很多是消耗了巨大人工成本经过多年持续积累而得到的,充分利用这些知识资源对于领域知识图谱的构建与完善具有重要意义。知识资源建设有个很有意思的现象,那就是让人从无到有的贡献一条知识的代价要显著高于让人在一个不那么完善的知识库上进行完善的代价。因此,尽可能复用是知识资源建设的重要策略之一。最后一条是跨领域迁移。其思路很简单,如果我们为中国移动做了个领域知识图谱,那么为中国电信建设图谱,是不需要从零开始的。相近领域的知识是可以复用的。这个原则也意味着知识图谱落地过程中,将来会涌现出一大批面向特定行业知识图谱解决方案的企业。

领域知识图谱还存在哪些挑战?总体上在知识表示、获取和应用等各层面均存在很多挑战。在知识表示层面,越来越多的领域应用不仅仅需要关联事实这种简单知识表示,还要表达包括逻辑规则、决策过程在内的复杂知识;需要同时表达静态知识和动态知识。单单知识图谱已经不足以解决领域的很多实际问题。如何去增强知识图谱的语义表达能力,如何综合使用多种知识表示来解决实际应用中的复杂问题是非常重要的研究课题。第二,在知识获取方面,领域知识图谱一般样本很小,如果需要构建抽取模型,那就需要基于小样本构建有效的模型。目前基于小样本的机器学习仍然面临巨大挑战。解决这一问题的思路之一就是利用知识引导机器学习模型的学习过程。具体实现手段已经有不少团队在开展相关的探索工作,比如利用知识增强样本、利用知识构建目标函数的正则项以及利用知识构建优化目标的约束等等。总体而言,这仍然是个开放问题需要巨大的研究投入。第三,知识的深度应用。如何将领域知识图谱有效应用于各类应用场景,特别是推荐、搜索、问答之外的应用,包括解释、推理、决策等方面的应用仍然面临巨大挑战,仍然存在很多开放性问题。更多有关知识图谱的开放性挑战可以参考知识工场微信公众号《知识图谱研究回顾与展望》一文。

(版权声明:本文为知识工场实验室原创文章,若需转载请留言。)

更多产品试用请点击知识工场网站主页:http://kw.fudan.edu.cn/

合作意向、反馈建议请联系我们:

info.knowledgeworks@gmail.com

或直接联系知识工场负责人肖仰华教授:

shawyh@fudan.edu.cn


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。


文章转载自公众号

知识工场

 

论文浅尝 | 打通推荐系统与知识图谱: 第一个公开的大规模链接数据集合

本文转载自:RUC智能情报站,知乎专栏链接:https://zhuanlan.zhihu.com/RucAIBox

前言:近年来,知识图谱(KB)被广泛应用于推荐系统(RS),但尚未有公开将推荐系统物品链接到知识图谱实体的数据集。本文结合SIGIR2018论文《Improving Sequential Recommendation with Knowledge-Enhanced Memory Networks》所用数据集 [1],公布了相关链接数据集 [2],希望能对大家有所帮助。

一、动机/引介

近年来,学术界和工业界都致力于利用结构化的知识信息和相关领域的已知事实来提升各项应用。在众多数据形式中,知识图谱高度结构化,能够有效组织和关联相关实体,被广泛运用到各个领域。推荐任务中利用知识图谱提升推荐的质量和可解释性,相关的推荐系统被称为knowledge-aware recommender systems。

为了适应推荐系统和知识图谱相关研究需求,本工作启发式地将推荐数据中的物品链接到大型知识图谱中的实体,为推荐系统的物品提供蕴含丰富语义的结构化知识信息。本工作将其整理,发布为公开的推荐系统-知识图谱链接数据集KB4Rec v1.0。

二、数据集概况

KB4Rec v1.0数据集,构建了推荐系统数据集物品(RS item)到知识图谱实体(KB entity)的链接。在推荐系统方面,选取了三个得到广泛使用的数据集:MovieLens 20M [3]、LFM-1b [4]、Amazon book [5],分别对应电影、音乐和书籍三个领域;在知识图谱方面,选取了研究者常用的Freebase [6]。

KB4Rec v1.0数据集由链接的ID对组成,包括推荐系统的物品ID和Freebase中的实体ID。链接文件片段(电影数据集合MovieLens 20M)如下所示:

25991 m.09pglcq

25993 m.0cjwhb

25994 m.0k443

25995 m.0b7kj8

通过此链接,能够找到部分推荐系统中物品在知识图谱内对应的实体,并通过读取与该实体相关的三元组,获取相应的属性。举个例子,电影“阿凡达”通过链接找到相应实体,读出与之相关的三元组能够在知识图谱中找到相应的演员、导演等属性。

链接数据集(三个领域)的数据统计见下表:

三、链接分析

可以看到不是所有推荐系统中的物品都能够在Freebase中找到对应的实体。对于各领域链接比例(linkage ratio),本工作参照各推荐领域内物品流行度做了相关分析,其中物品流行度由推荐数据中与物品有交互记录的用户数代表。首先,将推荐系统中的物品按流行度升序排序,等分到5个桶(bin)中,展示相应部分链接比例。如下图,可以发现:流行度高的物品更倾向于被Freebase所包含。

针对MovieLens 20M数据集,还对电影的发布时间与链接比例做了分析。对所有电影按发布时间升序排序,等分到10桶(bin)中,展示相应链接比例。如下图所示,可以发现:越早发布的电影越倾向于被Freebase所包含。

四、数据获取

本工作将相关项目部署在github上,数据的获取和使用需遵照相关证书(license)。更多链接和数据集构建的细节请参照我们的相关论文 [2]。

五、相关论文

[1] Jin Huang, Wayne Xin Zhao, Hong-Jian Dou, Ji-Rong Wen, Edward Y. Chang : Improving Sequential Recommendation with Knowledge-Enhanced Memory Networks. SIGIR 2018: 505-514

[2]  Wayne Xin Zhao, Gaole He, Hongjian Dou, Jin Huang, Siqi Ouyang and Ji-Rong Wen : KB4Rec: A Dataset for Linking Knowledge Bases with Recommender Systems. Arxiv 1807.11141.

[3] F. Maxwell Harper, Joseph A. Konstan : The MovieLens Datasets: History and Context. TiiS 5(4): 19:1-19:19 (2016)

[4] Markus Schedl : The LFM-1b Dataset for Music Retrieval and Recommendation. ICMR 2016: 103-110

[5] Ruining He, Julian McAuley : Ups and Downs: Modeling the Visual Evolution of Fashion Trends with One-Class Collaborative Filtering. WWW 2016: 507-517

[6] Google : 2016. Freebase Data Dumps. https://developers.google.com/freebase/ data.

本文作者:何高乐,2018级研究生,目前研究方向为网络表示学习、深度学习,来自中国人民大学大数据管理与分析方法研究北京市重点实验室。

RUC 智能情报站由中国人民大学信息学院的赵鑫副教授 (微博 @赵鑫RUC) 所带领的研究小组维护。关注的领域是数据挖掘、社会计算和机器学习。该专栏会定期会分享相关学术内容,欢迎各位来邮件进行交流,也欢迎大家向该专栏投稿精品文章。知乎账号联系人为 窦洪健,负责资讯、投稿、宣传以及一切账号相关问题,邮箱为43404873@qq.com;企业和转载合作需求请致谢赵鑫老师,邮箱为 batmanfly@qq.com。赵鑫老师个人情况详见个人主页 http://playbigdata.com/batmanfly 和 http://info.ruc.edu.cn/academic_professor.php?teacher_id=55 。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

 

胡伟 | 面向多实体人机协作消解的对比表生成自动化方法

 

众包实体消解

实体消解(Entity Resolution,简称ER)旨在发现不同知识图谱中指称真实世界相同对象的实体。众包实体消解(Crowd ER)在使用机器的基础上,还使用人来完成实体消解任务。众包实体消解的一个常见流程如下图所示:

(Waldo: AnAdaptive Human Interface for Crowd Entity Resolution. SIGMOD 2017)

 

在众包实体消解中,存在一系列关键问题亟待解决,包括:1)如何呈现一个实体消解任务?2)如何选择合适的人来完成任务?3)如何在给定预算限制下挑选任务?等等。论文作者发现,当前研究很少关注第1个问题,即如何通过呈现一些关键信息(例如实体的重要属性和取值)来帮助单个人更高效和精准地完成一个实体消解任务。

 

一个例子

论文作者关注多实体消解任务(multi-entityresolution,简称MER),下图展示了一个包含3个实体的多实体消解任务,它们拥有了相似的属性和取值,有待人来完成消解。

相关工作

  • 基于列表的多实体消解任务呈现方式,类似于传统搜索引擎。
  • 基于成对的多实体消解任务呈现方式,每次仅比较两个实体并对齐它们间的相似属性。

考虑到属性和取值的数量可能很多,上述两类方法常通过生成摘要来提高人的消解效率。然而,这两类方法对于多实体消解任务而言,也均存在一些不足。例如,由于缺乏直接对比,基于列表的方法需要人在心里记录并比较不同实体;又如,基于成对的方法虽然能使人更加专注两个实体的比较,但是可伸缩性差。更为重要的是,这两类方法在形成列表或成对的过程中,会丢失实体消解结果间的传递性和聚类性等。

 

本文方法

论文作者提出了一种基于对比表(comparativetable)的多实体消解任务呈现方法,将实体和重要属性分别组成表的行和列头,并将重要取值填入表单元中。拟解决的关键问题是实体的属性和取值的异构性及规模性与有限的表格呈现空间之间的矛盾。方法框架如下图所示,包括3个主要步骤:

  1. 全体属性匹配,包括属性间相似度计算和属性团生成两个子步骤。
  2. 优良性评估,考虑了属性团的判别性、丰富性、语义性和多样性4个特征。
  3. 对比表生成,包括属性团的选择和取值的选择两个子步骤。

 

下图展示了根据上述例子生成的一个多实体消解任务对比表。

实验结果

论文作者从10个流行领域各选取了25个DBpedia实体作为种子,并通过维基百科消歧页面为每个种子实体随机选取2 ~ 4个Freebase、Wikidata和YAGO实体,再从中随机选择出10个实体构成一个多实体消解任务。共计250个任务,2500个实体,指称804个真实世界对象。

实验从3个方面检验了基于对比表的方法有效性,包括:1)全体属性匹配的准确性;2)属性团排序的有效性;3)通过雇佣60位研究生进行实操,从效率、精度和打分3个方面与基于列表和基于成对的两个代表性方法进行了比较。

 

[1] Jiacheng Huang, Wei Hu*, Haoxuan Li, Yuzhong Qu. Automated Comparative Table Generation for Facilitating Human Intervention in Multi-Entity Resolution. In: ACM SIGIR Conference on Research and Development in Information Retrieval. 585–594, 2018

— End —

实验室介绍:南京大学万维网软件(Websoft)研究组在瞿裕忠教授的带领下,长期从事知识图谱(语义网)及相关技术的研发,研究组成员包括胡伟副教授、程龚副教授以及30余位博士和和硕士研究生,近期的研究方向主要包括:智能问答、知识融合和语义搜索。

联系方式:胡伟,whu@nju.edu.cn,微信号:whu1982

网站:http://ws.nju.edu.cn

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。