领域应用 | 人工智能+知识图谱:如何规整海量金融大数据?

本文转载自公众号:恒生技术之眼

21世纪以来,人类社会信息资源的开发范围持续扩大,经济、社会信息随着经济活动加剧得到空前的开发,信息资源总量呈爆炸式增长,我们从最初的“信息匮乏”一步踏入到“信息过量”时代。

个人如此,行业亦然:随着大数据应用的不断发展,金融机构的经营决策、营销服务越来越依赖于诸如新闻舆情、企业信用、热点概念等企业外部数据,而这些数据的应用场景也愈加需要与金融机构内部的数据打通,形成数据融合计算。再加上人工智能的异军突起,大量非结构化数据正在被人工智能结构化掉,隐藏在文档中的信息价值正在不断的被“机器”发现并加以大规模的使用,大数据、人工智能让金融机构的数据治理工作又重新回到了“混乱”的起点。面向人工智能的大数据治理,已经成为金融IT向金融DT转型所必须面对的一个严峻课题。

人工智能的应用现状

在笔者看来,人工智能就是一种数据服务能力,智能金融本质上就是金融DT服务,发展人工智能就等于发展数据技术,人工智能系统智能化程度的高与低,与数据处理能力正相关。为了方便说明这一论点,我们先来看看金融机构在人工智能领域所做的各种探索和尝试。

 

人脸识别作为最早的人工智能技术在金融机构各种需要身份验证的应用场景中得到广泛的应用,早在3年前远程开户、网上营业厅等业务就已经在金融机构中逐步展开,这是人工智能进入金融领域比较早的案例。现如今智能客服也已成了一个极佳的人工智能的切入点:首先通过智能语音技术将客户的语音转化为文字,然后用自然语言处理NLP技术进行解析,识别用户意图,最后用用智能问答形式给与相关的解答和服务。

 

智能客服在大幅降低人工客服的服务压力的同时,还能有效提升服务品质和服务效率,这对那些面临大量客服工作的大型金融机构来说还是非常有吸引力的。还有一部分金融机构以产业链知识图谱为其人工智能的着眼点,构建上市公司及其产品服务的上下游关系,再通过追踪监控新闻、事件、舆情在产业链中的传导效应,形成具体的投研策略。产业链技术延伸出去就会形成智能投研、智能资管、智能风控等智能金融业务,这类人工智能技术更加贴合金融机构的金融业务的用户场景。也有金融机构,索性把人工智能当作自己的贴身秘书来使用,各类新闻、公告、年报的解读全部交给了人工智能,通过自然语言处理技术,提取公告中的财务数字,做自动摘要,形成正负面相关性的分析。这类数据通过人工智能技术预处理后,大量信息被提炼出来,结合部分人工审核和校对,基本上也可以上生产了。

数据智能服务:从感知到认知

有人把人工智能的发展分为三个阶段:计算智能、感知智能、认知智能,对应的DT服务的发展就是数据从信息向知识演化并最终生长为数据智能的演变过程。当前大部分金融机构的人工智能还停留在感知智能向认知智能转化这个阶段,而主要工作场景还是在感知这一领域,所谓感知智能就是就是能听能说,具备一定的表达能力。很显然,人脸识别是图像视频这类非结构化数据的特征结构化的结果,这是让机器看懂人的图像;智能客服仰仗的是NLP的分词和意图识别能力,支撑问答系统的是强大的知识库和知识图谱技术,这是让机器理解人的语言;产业链知识图谱主要是传统三方资讯关系型数据转变为RDF三元组的一种数据存储形态的改变;各类新闻公告年报等的报告信息提取与加工,代表着非结构化数据结构化的一个过程,这是让机器替代人脑去读懂文档。

 

发展人工智能,光有感知能力显然是不够的,最终要能够具备认知推理的能力,从学术界看这个问题,有两条路可以走,一个是机器学习,一个是符号推理。机器学习大家都比较理解了,尤其是深度学习技术已经让语音识别、视频影响处理的能力超越了人类大脑的能力。符号推理,走的是另外一条路,最早指的就是专家系统,大量的知识被存储管理起来,用于检索,现如今,符号推理,是借助语义网络知识管理进行图分析挖掘的一种能力。符号推理在当前工业界落地的就是指知识图谱,基于RDF三元组存储的知识图谱,可以存储管理人类已有的各类知识,而这些知识又因为是一种实体关系属性的图表达,所以基于图的分析挖掘,表现出来的就是知识发现和推理的一种能力。

 

在我国金融行业,因为大数据本身的积累不够,做过标注的金融数据语料更加匮乏,所以造成一个结果,就是在金融行业,面向具体金融业务场景的机器学习的数据是不够的,更加谈不上深度学习了,结果就是基于机器学习的认知智能的发展必然受限。这里最直接的表现就是我们发现所有金融应用场景里,适合机器学习和深度学习的场景,是比较少的。很多机器学习不得不为NLP、知识图谱这种细节场景服务,或者机器学习和金融工程整合在一起,而主体还是金融工程,机器学习目前只是一种辅助工具,充其量就是多因子的一个加工手段而已。究其原因是金融行业业务相关的大数据的体系还没有完全构造出来。应用场景的数据还没有得到有效沉淀。

 

而符号推理在金融行业会有所不同,我们知道金融服务本质上就是一种信息服务,而金融对上市公司的公告、年报、新闻等等的资讯数据是天然敏感的,大多数玩金融的人,都是从处理这些信息开始的。很多行业研究员为了能够建立自己的竞争力,领先市场一步,每天加班加点的就是在阅读分析处理这类资讯数据。这类资讯数据基本上是一种非结构化形式存在的,三方资讯数据厂商通过人工采编的方式能够结构化掉其中一部分,而大多数数据还是需要人脑加工的。这就给了人工智能应用一个空间,通过自然语言理解NLU,再进行自然语言处理NLP,最后通过自然语言生成NLG,有了这几项技术,再结合知识图谱和机器学习的能力,将可以将这类非结构化数据的加工结果进行有效反馈。如果我们将NLP加工获取的金融词林,进一步挖掘获取的实体、关系、属性、概念、事件等信息,加以整理,建立他们之间的各类关系,那么一个基本的金融知识图谱就构造出来了。所以,我们会看到NLP技术在当前的人工智能领域的应用已经成为了热点,而KG是紧随其后的一项技术,大量的非结构化数据的提取达到一定的准确度后,机器就可以代替人,来完成大规模知识发现,最终形成知识计算所需要的“大知识“的数据储备,目前NLP的准确率还只能到60%上下,具体场景针对性优化后才可能到90%以上的水准。

 

在足够窄的应用领域,NLP技术通过了实战的考验。但面对海量大数据,基于文档互联的互联网体系想要转化为以实体关系为主体的语义网络,还有相当长的一段路要走。但我们还是有理由相信以广义NLP(新视频文字)技术为核心的人工智能将会统治相当长一段时间,直到非结构化数据的处理不再是问题以及非结构化数据和结构化数据能够相互融合,那么届时行业知识图谱、企业知识图谱的数据准备也已由点及面的建立起来,基于知识图谱的人工智能应用将大放异彩,金融领域的人工智能也就从感知智能正式过渡到认知智能阶段。

数据的价值演化

人工智能的发展本质上是数据价值的一个演化过程。计算智能对应的就是我们看到的多源异构大数据,我们将这些数据进行采集、清洗、转化加载到大数据中心后,数据变成各类有用的信息。如果我们将信息进一步提炼,通过知识构建与管理的一系列手段,便可以将信息转化为知识,存储起来。如果我们按照W3C的知识管理规范,对知识做RDF三元组的存储和管理,我们就能构造出来一系列的知识图谱。有了这个知识图谱,我们就具备了知识计算的能力,那么对于一个具体的金融场景来说,如果我们将金融业务场景的业务模型结合知识计算的能力,以及对大数据平台的数据进行机器学习的能力,就可以形成我们的金融大脑。

金融大脑=金融业务场景的业务模型

+知识计算+机器学习

我们将这类金融大脑,也就是大大小小的智能化场景,开放出去,就形成我们对传统金融的一个智能化变革。

面向人工智能的大数据治理

从以上的分析中,我们可以明确感觉到人工智能正在迅速改变金融机构,金融机构的数据计算的关注点,正在从企业信息系统内部的计算,转变为关注来自互联网和三方的外部数据的计算和处理上。

多元异构数据的整合,是未来金融机构将要长期面临的一个局面。数据难以融合,也就难以做到统一消费,从非结构化数据提取的实体关系、属性等信息,当他们不能融合到企业内部经营数据中去,就会再次形成信息孤岛,随着多元异构数据的量级不断攀升,这个信息孤岛将会呈现越来越严重的局面。在人工智能迅猛发展的今天,如何解决上述问题,是未来企业竞争中体现出来的核心竞争力之一。

以上所述的问题与挑战,就是我们今天所谈到的面型人工智能的大数据治理有待解决的问题。那么我们该如何行动呢?

第一步:多源异构数据源的统一管理。首先,我们要对多源异构数据源进行统一管理。这里既包括金融机构内部的经营数据,也包括来自三方资讯数据厂商的外部数据,以及来自互联网的各种大数据。

为了达到未来的智能化能力,我们需要将金融内部的结构严谨的业务系统数据图谱化,将具有明显关系特征的数据提取出来,再用这些数据对企业内部数据通过实体链接、数据标引等技术进行再组织;同时我们将三方数据中非结构化的那部分PDF、WORD等进行知识抽取,也提炼出实体关系属性等数据。最后对那些跟金融机构相关的互联网大数据,通过爬虫技术不断的抓取,并对这些网页半结构化数据进行结构化处理,同样提取其中的实体关系和事件信息。

第二步:大数据存储与计算。对于金融机构而言,无论是采用商业化的软件还是开源软件,都需要一个大数据平台将来自多源异构数据源的数据进行统一管理,可以把这理解为一个大数据中心的建立,只不过这个数据中心的主要构建技术是人工智能的三驾马车:知识图谱、NLP、机器学习。我们在大数据中心除了保留原始异构数据源的一份拷贝之外,还要对这些数据进行面向人工智能的数据处理,包括通过NLP进行实体挖掘、关系抽取、属性提炼;通过知识图谱保存NLP提炼出来的具有关系特征的各种数据以及用机器学习来加速这一进程的处理效率提升准确度等。

第三步:构造知识图谱。最后我们需要构造金融行业的一个知识图谱,可以是行业知识图谱,也可以是企业图谱。KG的建设是有一个完整的生命周期的,包括知识建模、知识获取、知识融合、知识计算以及知识应用的全过程。知识建模依赖与金融机构内部数据和来自三方的结构化数据,将ER关系转化为KG的Schema是这一个工作的重点。构造好Schema后,就可以进行知识获取工作了:首先导入关系型数据库的各类实体关系属性数据,然后通过知识抽取技术将各类非结构化数据结构化掉后,将散落在互联网大数据和三方非结构化数据中的知识进行整理合并到现有KG中去;接着通过实体消岐、指代消解等知识融合技术对KG的质量进行管理与维护;KG初步建立后,就可以通过图计算进行知识发现知识推理和挖掘等工作了。

至此,一个完整的面向人工智能的数据治理工作关于基础信息系统层面的建设就告一段落了。之后如果我们据此再逐步建立大数据大知识(KG)的管理规范,不断积累其中的业务应用模型,那么一个成熟可拓展的面向人工智能的大数据治理成果就会逐步呈现出来。届时,面向人工智能的大数据治理,势必能有效支撑智能金融从感知智能向认知智能的变革。

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。


文章转载自公众号

恒生技术之眼

 

论文浅尝 | 近期论文精选

本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly

TheWebConf 2018

■ 链接 | https://www.paperweekly.site/papers/1956

■ 解读 | 花云程,东南大学博士,研究方向为自然语言处理、知识图谱问答

动机

对于 KBQA 任务,有两个最为重要的部分:其一是问题实体识别,即将问题中的主题实体识别出来,并与 KB 做实体链接;其二是谓词映射

对于主题实体识别任务,之前的做法多为依靠字符串相似度,再辅以人工抽取的特征和规则来完成的。但是这样的做法并没有将问题的语义与实体类型、实体关系这样的实体信息考虑进来。

实体类型和实体关系,很大程度上,是与问题的上下文语义相关的。当只考虑实体关系时,会遇到 zero-shot 的问题,即测试集中某实体的关系,是在训练集中没有遇到过的,这样的实体关系就没法准确地用向量表达。

因此,为了解决上述问题,本文首先利用 entity type(实体类型)的层次结构(主要为实体类型之间的父子关系),来解决 zero-shot 的问题

如同利用 wordnet 计算 word 相似度的做法一般,文章将父类型的“语义”视为所有子类型的“语义”之和。一个实体总是能够与粗颗粒的父类型相关,例如一个实体至少能够与最粗颗粒的 person、location 等类型相连。这样,利用实体所述的类型,在考虑实体上下文时,就可以一定程度上弥补实体关系的 zero-shot 问题。

此外,本文建立了一个神经网络模型 Hierarchical Type constrained Topic Entity Detection (HTTED),利用问题上下文、实体类型、实体关系的语义,来计算候选实体与问题上下文的相似度,选取最相似的实体,来解决 NER 问题。

经过实验证明,HTTED 系统对比传统的系统来说,达到了目前最优的实体识别效果

贡献

文章的贡献有:

  • 利用父子类型的层次结构来解决稀疏类型训练不充分的问题;
  • 设计了基于 LSTM 的 HTTED 模型,进行主题实体识别任务;
  • 提出的模型通过实验验证取得了 state-of-art 的效果。

方法

本文首先对于父子类型的层次结构进行解释和论述,也是 HTTED 的核心思想。

本文认为,父类型的语义视为接近于所有子类型的语义之和。例如父类型 organization 的语义,就相当于子类型 company、enterprise 等语义之和。如果类型是由定维向量表示,那么父类型的向量就是子类型的向量之和。

此外,由于在数据集中,属于子类型的实体比较稀疏,而父类型的实体稠密,如果不采用文中的方法,那么稀疏的子类型将会得不到充分的训练。若将父类型以子类型表示,那么父子类型都可以得到充分地训练。

▲ 图1:HTTED模型图

其次是对文中模型的解释。如上图 1 所示,HTTED 使用了三个编码器来对不同成分编码。

其一,是问答上下文编码器,即将问题经过分词后得到的 tokens,以预训练得到的词向量来表示,并依次输入双向 LSTM 进行第一层的编码;此后,将双向 LSTM 得到的输出拼接,再输入第二层的 LSTM 进行编码,即得到表示问题上下文的 d 维向量 q。

其二,是实体类型编码器,即对于某个候选实体 e,得到其连接的类型,并将父类型以所有子类型向量之和表示,再将这些类型对应的向量输入一个 LSTM 中进行编码,得到实体类型的 d 维向量 et。

其三,是实体关系编码器,即对于某个候选实体 e,得到其所有实体关系,并表示成向量。此外,对于实体关系,将其关系名切割为 tokens,并以词向量表示。然后将实体关系和实体关系名这两种向量,输入一个 LSTM 中进行编码,得到实体关系的d维向量 er。

得到三个向量后,文章认为实体的语义可以由实体类型、实体关系近似表达,所以有:

而在训练时,设置一个 margin,则 ranking loss 为:

其中 γ 为超参数。

实验结果

文章使用单关系问答数据集 SimpleQuestions 和知识图谱 FB2M,并有 112 个具有层次父子关系的实体类型。

HTTED 的词向量为经过预训练的,关系向量是初始随机的,而类型向量中,叶子类型初始随机,父类型的向量由子类型的向量累加得到。如下图 2 所示,为 HTTED 与其他系统的效果对比,其中 -Hierarchy表示 HTTED 去除了实体类型的层次结构表示。

▲ 图2:主题实体识别效果对比图

由图 2 可见,HTTED 为 state-of-art 的效果。并且,将实体类型的层次结构去除,HTTED 的准确性下降很多。可见层次类型约束对于该模型的重要性。

由下图 3 可见,由于使用了层次结构的类型,同名的实体被识别出来,但是与问题上下文更相关的实体都被挑选出来,所以能够正确识别到主题实体。

▲ 图3:主题实体识别示例图

总结 

这篇文章,主要有两个主要工作:其一,是引入了层次结构的实体类型约束,来表达实体的语义,使得与问题上下文相关的实体,更容易被找到;其二,是建立了基于 LSTM 的 HTTED 模型,提高了主题实体识别的效果。

AAAI 2018

■ 链接 | https://www.paperweekly.site/papers/1957

■ 解读 | 张文,浙江大学博士生,研究方向知识图谱的分布式表示与推理

动机

知识图谱的分布式表示旨在将知识图谱中的实体和关系表示到连续的向量空间中,本文考虑的问题是如何将知识库的分布式表示和逻辑规则结合起来,并提出了一个新的表示学习方法 RUGE (Rule-Guided Embedding)

贡献

1. 本文提出了一种新的知识图谱表示学习方法 RUGE,RUGE 在向量表示 (embeddings) 的学习过程中迭代地而非一次性地加入了逻辑规则的约束;

2. 本文使用的是已有算法自动挖掘的规则,RUGE 的有效性证明了算法自动挖掘的规则的有效性;

3. 本文提出的方法 RUGE 具有很好的通用型,对于不同的逻辑规则和不同置信度的规则的鲁棒性较好。

方法 RUGE 

RUGE 方法的输入有三个部分:

  • 已标记的三原组:知识库中已有三元组;
  • 未标记的三元组:知识库中不存在的三元组。在这篇论文中未标记的三元组只考虑了能够由逻辑规则推导出的三元组;
  • 概率逻辑规则:本文主要考虑了一阶谓词逻辑规则,每一个逻辑规则都标有一个成立的概率值。实验中使用的概率规则来自于规则自动挖掘系统 AMIE+。

模型核心想法如下:

三元组表示:

本文采用了 ComplEx 作为基础的知识库分布式表示学习的模型,在 ComplEx中,每一个实体和关系都被表示为一个复数向量,一个三元组 (e_i,r_k,e_j) 的得分函数设计如下:

其中 Re<x> 表示取 x 实部的值,bar{e}_j 为 e_j 的共轭向量。正确的三元组得分函数值会较高而不正确的三元组得分函数的值会较低。

逻辑规则的表示:

本文借鉴了模糊逻辑的核心思想,将规则的真值看作其组成部件真值的组合。例如一个已经实例化的规则 (e_u, e_s,e_v) =(e_u, e_t,e_v) 的真值将由 (e_u, e_s,e_v) 和 (e_u, e_t,e_v) 的真值决定。根据(Guo et al. 2016)的工作,不同逻辑算子的真值计算如下:

由上三式可推出规则真值计算公式:

此规则计算公式是后面规则应用的一个重要依据。

未标记三元组标签预测:

这一步是整个方法的核心,目的在于对未标记三元组的标签进行预测,并将这些三元组添加到知识图谱中,再次进行知识图谱的分布式表示学习训练,修正向量结果。

标签预测的过程主要有两个目标:

目标一:预测的标签值要尽可能接近其真实的真值。由于预测的三元组都是未标记的,本文将由当前表示学习的向量结果按照得分函数计算出的结果当作其真实的真值。

目标二:预测的真值要符合对应逻辑规则的约束,即通过规则公式计算出的真值要大于一定的值。其中应用的规则计算公式如下:

其中 φ(e_u, e_s,e_v) 是当前向量表示计算的结果,s(e_u, e_t,e_v) 是要预测的真值。真值预测的训练目标如下:

通过对上式对求 s(x_u) 导等于 0 可得到 s(x_u) 的计算公式:

向量表示结果的修正:

将预测了标签的三元组添加到知识图谱中,和已由的三元组一起进行训练,来修正向量学习,优化的损失函数目标如下:

上式前半部分是对知识图谱中真实存在的三元组的约束,后半部分为对预测了标签的三元组的约束。

以上步骤在模型训练过程中迭代进行。

实验

链接预测:

从实验结果可以看出,规则的应用提升了表示学习的结果

EMNLP 2017

■ 链接 | https://www.paperweekly.site/papers/713

■ 解读 | 刘兵,东南大学在读博士,研究方向为自然语言处理

动机

近年来基于深度学习方法的远程监督模型取得了不错的效果,但是现有研究大多使用较浅的 CNN 模型,通常一个卷基层加一个全连接层,更深的 CNN 模型是否能够更好地解决以有噪声的标注数据为输入的远程监督模型没有被探索。

为了探索更深的 CNN 模型对远程监督模型的影响,本文设计了基于残差网络的深层 CNN 模型。实验结果表明,较深的 CNN 模型比传统方法中只使用一层卷积的简单 CNN 模型具有较大的提升。

方法

本方法的模型结构如下图所示:

输入层:每个单词使用词向量和位置向量联合表示;

卷基层:为了得到句子更高级的表示,采用多个卷基层堆叠在一起。为了解决训练时梯度消失的问题,在低层和高层的卷基层之间建立捷径连接;

池化层和 softmax 输出层。

实验

实验在远程监督常用的数据集 NYT-Freebase 上进行。实验结果表明:

本文提出的方法采用 9 个卷基层时达到最好的效果,这时不适用注意力机制和 piecewise pooling 性能也接近了使用注意力和 piecewise pooling 的方法。结果如下表所示。

不使用残差网络的深层 CNN 模型,当层数较深时效果变差。使用残差网络可以解决其无法传播的问题,效果改善很多;结果如下图所示。

EMNLP 2017

■ 链接 | https://www.paperweekly.site/papers/1960

■ 源码 | http://github.com/LiyuanLucasLiu/ReHession

■ 解读 | 刘兵,东南大学博士,研究方向为自然语言处理

动机

现有的关系抽取方法严重依赖于人工标注的数据,为了克服这个问题,本文提出基于异种信息源的标注开展关系抽取模型学习的方法,例如知识库、领域知识。

这种标注称作异源监督(heterogeneous supervision),其存在的问题是标注冲突问题,即对于同一个关系描述,不同来源的信息标注的结果不同。这种方法带来的挑战是如何从有噪声的标注中推理出正确的标签,以及利用标注推理结果训练模型。

例如下面的句子,知识库中如果存在 <Gofraid,born_in, Dal Riata> 这个三元组,则将下面的句子标注为 born_in 关系;而如果使用人工模板“* killed in*”进行匹配,则会将该句子标注为 kill_in 关系。

Gofraid(e1) died in989, said to be killed in Dal Riata(e2).

为了解决这个问题,本文提出使用表示学习的方法实现为关系抽取提供异源监督

创新点

本文首次提出使用表示学习的方法为关系抽取提供异源监督,这种使用表示学习得到的高质量的上下文表示是真实标签发现和关系抽取的基础。

方法

文章方法框架如下:

▲ 关系描述表示方法

1. 文本特征的向量表示。从文本上下文中抽取出文本特征(基于pattern得到),简单的one-hot方法会得到维度非常大的向量表示,且存在稀疏的问题。为了得到更好的泛化能力,本文采用表示学习的方法,将这些特征表示成低维的连续实值向量;

2. 关系描述的向量表示。在得到文本特征的表示之后,关系描述文本依据这些向量的表示生成关系描述的向量表示。这里采用对文本特征向量进行矩阵变换、非线性变换的方式实现;

3. 真实标签发现。由于关系描述文本存在多个可能冲突的标注,因此发现真实标签是一大挑战。此处将每个标注来源视为一个标注函数,这些标注函数均有其“擅长”的部分,即一个标注正确率高的语料子集。本方法将得到每种标注函数擅长的语料子集的表示,并以此计算标注函数相对于每个关系描述的可信度,最后综合各标注函数的标注结果和可信度,得到最终的标注结果;

4. 关系抽取模型训练。在推断了关系描述的真实标签后,将使用标注的语料训练关系抽取器。

值得指出的是,在本方法中,每个环节不是各自独立的,真实标签发现与关系抽取模型训练会相互影响,得到关系上下文整体最优的表示方法。

实验结果

本文使用 NYT 和 Wiki-KBP 两个数据集进行了实验,标注来源一方面是知识库,另一方面是人工构造的模板。每组数据集进行了包含 None 类型的关系抽取,和不包含 None 类型的关系分类。

结果如下表所示,可见本文的方法相比于其他方法,在两个数据集的四组实验中均有较明显的性能提升。

ACL 2017

■ 链接 | https://www.paperweekly.site/papers/1961

■ 源码 | https://github.com/stanfordnlp/cocoa

■ 解读 | 王旦龙,浙江大学硕士,研究方向为自然语言处理

本文研究了对称合作对话(symmetric collaborative dialogue)任务,任务中,两个代理有着各自的先验知识,并通过有策略的交流来达到最终的目标。本文还产生了一个 11k 大小的对话数据集

为了对结构化的知识和非结构化的对话文本进行建模,本文提出了一个神经网络模型,模型在对话过程中对知识库的向量表示进行动态地修改。

任务

在对称合作对话任务中,存在两个 agent,每个代理有其私有的知识库,知识库由一系列的项(属性和值)组成。两个代理中共享一个相同的项,两个代理的目标是通过对话找到这个相同的项。

数据集

本文建立了一个对称合作对话任务数据集,数据集中知识库对应的 schema  中包含 3000 个实体,7 种属性。数据集的统计信息如下所示:

模型

针对对称合作对话任务,本文提出了 DynoNet (Dynamic Knowledge GraphNetwork),模型结构如下所示:

Knowledge Graph 

图谱中包含三种节点:item 节点,attribute 节点,entity 节点。图谱根据对话中的信息进行相应的更新。

Graph Embedding 

t 时刻知识图谱中每个节点的向量表示为 V_t(v),向量表示中包含了以下来源的信息:代理私有知识库的信息,共享的对话中的信息,来自知识库中相邻节点的信息。

Node Features 

这个特征表示了知识库中的一些简单信息,如节点的度(degree),节点的类型。这个特征是一个 one-hot 编码。

Mention Vectors 

Mentions vector M_t(v) 表示在 t 时刻的对话中与节点 v 相关的上下文信息。对话的表示 u_t 由个 LSTM 络计算得到(后文会提到),为了区分 agent 自身产生的对话语句和另一个代理产生的对话语句,对话语句表示为:

Mentions Vector 通过以下公式进行更新:

Recursive Node Embeddings 

一个节点对应的向量表示也会受到相邻其他节点的影响:

其中 k 表示深度为 k 的节点,R 表示边对应的关系的向量表示。

最后节点的向量表示为一系列深度的值的连接结果。

本文中使用了:

Utterance Embedding 

对话的向量表示 u_t 由一个 LSTM 网络计算得到。

其中 A_t 为实体抽象函数,若输入为实体,则通过以下公式计算:

若不为实体,则为文本对应的向量表示进行 zero padding 的结果(保证长度一致)。

使用一个 LSTM 进行对话语句的生成:

输出包含字典中的词语以及知识库中的实体:

实验结果


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

 

陈华钧 | 知识图谱构建,将成为智能金融的突破口

 

本文转载自公众号:恒生技术之眼

我们太容易被机器下棋这样的事所吸引,以至于现在谈到人工智能就基本都是在说机器学习和深度学习,而相对忽视了与人工智能相关的另外一个重要的方向:知识图谱。

——陈华钧

尽管人工智能依靠机器学习技术的进步取得了巨大的进展,例如,AlphaGoZero不依赖人类知识的监督,通过自我强化学习获得极高的棋力,但人工智能在很多方面,如语言理解、视觉场景理解、决策分析等,仍然举步维艰。关键问题在于,机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。

人类知识与机器知识

哲学家柏拉图把知识(Knowledge)定义为“Justified True Belief”,即知识需要满足三个核心要素:合理性(Justified)、真实性(True)、被相信(Believed)。简单而言,知识是人类通过观察、学习和思考有关客观世界的各种现象而获得和总结出的所有事实(Facts)、概念(Concepts)、规则或原则(Rules & Principles)的集合。人类发明了各种手段来描述、表示和传承知识,如自然语言、绘画、音乐、数学语言、物理模型、化学公式等。具有获取、表示和处理知识的能力是人类心智区别于其它物种心智的重要特征。人工智能的核心也是研究怎样用计算机易于处理的方式表示、学习和处理各种各样的知识。知识表示是现实世界的可计算模型 (Computable Model of Reality),广义的讲,神经网络也是一种知识表示形式。

在人工智能的早期发展流派中,符号派(Symbolism)侧重于模拟人的心智,研究怎样用计算机符号来表示人脑中的知识和模拟心智的推理过程;连接派(Connectionism)侧重于模拟人脑的生理结构,即人工神经网络。符号派一直以来都处于人工智能研究的核心位置。近年来,随着数据的大量积累和计算能力大幅提升,深度学习在视觉、听觉等感知处理中取得突破性进展,进而又在围棋等博弈类游戏、机器翻译等领域获得成功,使得人工神经网络和机器学习获得了人工智能研究的核心地位。深度学习在处理感知、识别和判断等方面表现突出,能帮助构建聪明的AI,但在模拟人的思考过程、处理常识知识和推理,以及理解人的语言方面仍然举步维艰。

符号派关注的核心是知识的表示和推理(KRR:Knowledge Representation and Reasoning)。早在1960年,认知科学家Allan M. Collins提出用语义网络(Semantic Network)来研究人脑的语义记忆。WordNet是典型的语义网络,它定义了名词、动词、形容词和副词之间的语义关系,例如动词之间的蕴含关系(如:“打鼾”蕴含着“睡眠”)等。WordNet被广泛应用于语义消歧等自然语言处理领域。

从“知识库”到“推理机”

1970年,随着专家系统的提出和商业化发展,知识库构建和知识表示更加得到重视。专家系统的基本想法是:专家是基于大脑中的知识来进行决策,因此,人工智能的核心应该是用计算机符号来表示这些知识,并通过推理机模仿人脑对知识进行处理。依据专家系统的观点,计算机系统应该由知识库和推理机两部分组成,而不是由函数等过程性代码组成。早期专家系统最常用的知识表示方法包括基于框架的语言(Frame-based Languages)和产生式规则(Production Rules)等。框架语言主要用于描述客观世界的类别、个体、属性及关系等,较多的被应用于辅助自然语言理解。产生式规则主要用于描述类似于IF-THEN的逻辑结构,适合于刻画过程性知识。

经常与知识表示并提的另外一个重要概念是机器推理,实际上推理相比于机器学习对于高层AI的实现来说可能更加重要。目前AI比较前沿的研究方向都是在考虑怎样把连接主义所推动的机器学习能力与传统符号主义所关注的机器推理问题相结合,以实现感知到认知层的跨越。

让机器像人类一样认知世界

知识图谱说yes

知识图谱的早期理念来自于Web之父Tim Berners Lee于1998年提出的Semantic Web,其最初理想是把基于文本链接的万维网转化成基于实体链接的语义网。语义网十余年的发展积累了大量语义知识库,如:Freebase、DBpedia、Yago、WikiData等。谷歌在吸收语义网相关成果基础上于2012年推出了基于其称之为知识图谱的搜索引擎产品。随后,知识图谱逐步在语义搜索、智能问答、辅助语言理解、辅助大数据分析等很多领域发挥出越来越重要的作用。

1989年,万维网之父、图灵奖获得者Tim Berners-Lee提出构建一个全球化的以“链接”为中心的信息系统(Linked Information System)。任何人都可以通过添加链接把自己的文档链入其中。他认为以链接为中心和基于图的组织方式,比起基于树的层次化组织方式,更加适合于互联网这种开放的系统。这一思想逐步被人们实现,并演化发展成为今天的World Wide Web。

1994年,Tim Berners-Lee 又提出,Web不应该仅仅只是网页之间的互相链接。实际上,网页中所描述的都是现实世界中的实体和人脑中的概念。网页之间的链接实际包含有语义,即这些实体或概念之间的关系,然而机器却无法有效的从网页中识别出其中蕴含的语义。他于1998年提出了Semantic Web(语义互联网)的概念。Semantic Web仍然基于图和链接的组织方式,只是图中的节点代表的不只是网页,而是实体(如:人、机构、地点等),而超链接也被增加了语义描述,具体标明实体之间的关系(如:出生地是、创办人是等)。相对于传统的网页互联网,Semantic Web的本质是知识的互联网或语义互联网。

在语义互联网被提出之后,出现了一大批新兴的语义知识库。如作为谷歌知识图谱后端的Freebase,作为IBM Waston后端的DBPedia和Yago,作为Amazon Alexa后端的True Knowledge,作为苹果Siri后端的Viv等。尤其值得一提的是,2010年谷歌收购了早期语义网公司MetaWeb,并以其开发的Freebase为数据基础之一,于2012年正式推出了称为知识图谱的搜索引擎服务。谷歌知识图谱的宣传口号是:“Things, Not Strings!”。所解决的核心问题是把对文本(String)的网页搜索转化为的对事物(Things)的语义搜索,可以看做是语义互联网的一种商业化实现。

从“后备”到“前锋”,现代知识图谱遇难题

知识图谱并非突然出现的新技术,而是历史上很多相关技术相互影响和继承发展的结果,这包括语义网络、知识表示、本体论、Semantic Web、自然语言处理等,有着来自Web、人工智能和自然语言处理等多方面的技术基因。

从早期的人工智能发展历史来看,Semantic Web是传统人工智能与Web融合发展的结果,是知识表示与推理在Web中的应用;RDF/OWL都是面向Web设计实现的标准化的知识表示语言;而知识图谱则可以看做是Semantic Web的一种简化后的商业实现。

但我们要强调知识图谱与传统专家系统时代的知识工程有显著的不同。首先,传统专家系统的知识库构建大多以实现高端的决策智能为目标,而知识图谱虽然也被用来实现大数据决策分析(如Plantir),其首要的应用目标是辅助搜索和智能问答。另外一方面,与传统专家系统时代主要依靠专家手工获取知识不同,现代知识图谱的显著特点是规模巨大,无法单一依靠人工和专家构建。传统的知识库,如由Douglas Lenat从1984年开始创建的常识知识库Cyc仅包含700万条的事实描述(Assertion),最新的ConceptNet 5.0也仅包含2800万RDF三元组关系描述,而现代知识图谱已经包含超过千亿级别的三元组。

知识图谱的规模化发展

现代知识图谱对知识规模的要求源于“知识完备性”难题。冯诺依曼曾估计单个个体的大脑中的全量知识需要2.4*1020个bits来存储。客观世界拥有不计其数的实体,人的主观世界更加包含有无法统计的概念,这些实体和概念之间又具有更多数量的复杂关系,导致大多数知识图谱都面临知识不完全的困境。在实际的领域应用场景中,知识不完全也是困扰大多数语义搜索、智能问答、知识辅助的决策分析系统的首要难题。

此专家非彼专家

领域知识图谱变身“百事通”

领域知识图谱是相对于通用知识图谱(如DBPedia、Yago、Wikidata等)而言,面向特定领域的知识图谱,如电商、金融、医疗等。相比较而言,领域知识图谱知识来源更多、规模化扩展要求更迅速、知识结构更加复杂、知识质量要求更高、知识的应用形式也更加广泛。

通用知识图谱与领域知识图谱的比较

以比较有代表性的金融领域为例。在金融领域,围绕金融的本体知识建模一直都有不少人在做。在大约10多年前,就有一批做金融信息的结构化描述的人在尝试构建整个金融领域的本体知识模型,其中一直延续到现在的一项工作是FIBO。他们的目标就是希望能够定义整个金融域的规则,并且是采用Top-Down的做法,这是成本非常高昂的工作,而我们现在更多的强调领域知识图谱的构建应该从大量数据中去挖掘和总结。

金融领域比较典型的例子如Kensho采用知识图谱辅助投资顾问和投资研究,国内以恒生电子为代表的金融科技机构以及不少银行、证券机构等也都在开展金融领域的知识图谱构建工作。金融知识图谱构建主要来源于机构已有的结构化数据和公开的公报、研报及新闻的联合抽取等。在知识表示方面,金融概念也具有较高的复杂性和层次性,并较多的依赖规则型知识进行投资因素的关联分析。在应用形式方面,则主要以金融问答和投顾投研类决策分析型应用为主。金融知识图谱的一个显著特点是高度动态性,且需要考虑知识的时效性,对金融知识的时间维度进行建模。

金融知识图谱特点(细化到具体层面论述)

此外金融领域还有一些比较适合于做知识图谱的特点,如文本资源非常丰富,且动态性非常高。大量高度动态的新闻、公报、研报都是自动化获取知识图谱的有力来源,在这方面,我们可以较为深入应用实体识别、大规模自动化词库构建、结合远程监督和深度学习的关系抽取等多方面的图谱构建技术。只要一点一点积累高质量的知识图谱,结合深度学习和自然语言处理等领域的最新进展,金融知识图谱会发挥出门槛式的重大价值。

结语

互联网促成了大数据的集聚,大数据进而促进了人工智能算法的进步。新数据和新算法为规模化知识图谱构建提供了新的技术基础和发展条件,使得知识图谱构建的来源、方法和技术手段都发生极大的变化。知识图谱作为知识的一种形式,已经在语义搜索、智能问答、数据分析、自然语言理解、视觉理解、物联网设备互联等多个方面发挥出越来越大的价值。AI浪潮愈演愈烈,而作为底层支撑的知识图谱赛道也从鲜有问津到缓慢升温,虽然还谈不上拥挤,但作为通往未来的必经之路,注定会走上风口。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。


内容转载自公众号

恒生技术之眼

 

领域应用 | 用知识图谱玩唐诗,“唐诗别苑”附庸端午节的别样风雅!

 

本文转载自公众号:互联网教育国家工程实验室

端午节在每年的农历五月初五,又称端阳节、午日节、五月节等。端午节起源于中国,是古代百越一带崇拜龙图腾的部族举行图腾祭祀的节日。五月初五也是缅怀伟大的诗人屈原的日子。

此外,端午节还有一个重要的日常生活使命,那就是“全民卫生日”。《夏小正》载:“此日蓄药,以蠲除毒气。”《岁时广记》卷二十二“采杂药”引《荆楚岁时记》佚文:“五月五日,竞采杂药,可治百病。”所以端午这天,人们除了吃粽子,赛龙舟,还要挂菖蒲、蒿草、艾叶,薰苍术、白芷,喝雄黄酒,就是为了防病治病。全唐诗中对这一习俗就有记载,殷尧藩的《端午日》中写道:

 

少年佳节倍多情,老去谁知感慨生。

不效艾符趋习俗,但祈蒲酒话升平。

鬓丝日日添白头,榴锦年年照眼明。

千载贤愚同瞬息,几人湮没几垂名。

此处的“艾符”指艾草和驱邪符,端午日挂在门上以辟邪。“蒲酒”即菖蒲酒,古人有端午节饮菖蒲酒的习俗。“艾符”和“蒲酒”都有祛病消灾之用。

除了这首《端午日》,唐诗中还有很多关于端午佳节的诗篇,我们使用互联网教育智能技术及应用国家工程实验室研发的“唐诗别苑——基于知识图谱的全唐诗语义检索与可视化平台”搜索到了相关信息,试抄录几首,与大家分享。

端午安康

端  午

唐·李隆基

 

端午临中夏,时清日复长。
盐梅已佐鼎,曲糵且传觞。
事古人留迹,年深缕积长。
当轩知槿茂,向水觉芦香。
亿兆同归寿,群公共保昌。
忠贞如不替,贻厥后昆芳。

解析:端午节为农历五月初五,五月是仲夏,白昼越来越长,所以说“端午临中夏,时清日复长”。时当端午,用盐佐食梅子,饮酒欢乐,木槿茂盛,芦苇发出清香,心情愉快的唐明皇祝愿天下安康长寿,以显示皇恩浩荡。

竞渡歌(节选)

唐·张建封

五月五日天晴明,杨花绕江啼晓莺。
    使君未出郡斋外,江上早闻齐和声。
    使君出时皆有准,马前已被红旗引。
    两岸罗衣扑鼻香,银钗照日如霜刃。
    鼓声三下红旗开,两龙跃出浮水来。
    棹影斡波飞万剑,鼓声劈浪鸣千雷。
    鼓声渐急标将近,两龙望标目如瞬。
    坡上人呼霹雳惊,竿头彩挂虹霓晕。
    前船抢水已得标,后船失势空挥桡。

解析:这首诗是写“竞渡”的名篇,把竞渡活动写得最为传神,洋洋洒洒几十字,把竞渡的激烈场面、围观的喧嚣氛围描写得淋漓尽致。

端午日礼部宿斋

有衣服彩结之贶以诗还答 

唐·权德舆

 

良辰当五日,偕老祝千年。

彩缕同心丽,轻裾映体鲜。 
寂寥斋画省,款曲擘香笺。

更想传觞处,孙孩遍目前。

解析:唐人有端午节赠物的习俗,不仅在君臣之间,一般社会成员和家人之间也有。权德舆做官需要值班,不能和家人一起过端午,家人就送来了衣服(轻裾)和彩结(彩缕)等节日礼物。

表夏十首(其十)

唐·元稹

 

灵均死波后,是节常浴兰。

彩缕碧筠粽,香粳白玉团。

逝者良自苦,今人反为欢。

哀哉徇名士,没命求所难。

解析:“浴兰”指古人端午节“浴兰汤”的习俗,用草药煎汤淋浴。因为粽子用丝线缠裹,所以说“彩缕碧筠粽”。早期的粽子是用黍米做的,也称粽子为“角黍”。唐代开始用糯米代替黍米来制作粽子,色泽变白,味道香甜,所以形容粽子为“香粳白玉团”。

五  丝

唐·褚朝阳

 

越人传楚俗,截竹竞萦丝。

水底深休也,日中还贺之。 
章施文胜质,列匹美于姬。

锦绣侔新段,羔羊寝旧诗。 
但夸端午节,谁荐屈原祠。

把酒时伸奠,汨罗空远而。

解析:这里的“五丝”就是指百索、长命缕,表达了人们对长寿的一种期盼,反映出唐人乐生、重生的人生态度,他们追求幸福快乐的生活。

这么多诗人的作品,如果一个个地去检索,很花时间和精力,幸好小编机智地使用了一种最新的检索技术,海量信息,唾手可得,还有可视化信息呢。这项技术就是“唐诗别苑”——基于知识图谱的全唐诗语义检索与可视化平台,它用最新的前沿技术玩转唐诗,下面小编就为大家简单介绍一下。

唐诗别苑

基于知识图谱的全唐诗语义检索与可视化平台

 

功能一:语义检索——“没有你找不到的唐诗”

 

1.查询诗人信息或作品,可输入其名字或别号,如“李白”、“诗仙”

 

2.查询诗人交游状况,可输入形如:

  • “李白的好友”
  • “写给白居易的诗”
  • “白居易写给元稹的作品”

 

3. 查询诗歌地点、风格、主题、题材、意象、教学阶段等信息,可输入相关标签或将其组合,例如:

  • “李白的庐山诗”
  • “与陕西省相关的唐诗”
  • “风格质朴的爱情诗”
  • “关于节气的作品”
  • “适合小学生背诵的诗歌”
  • “中学阶段描写秋天的诗”

 

功能二:知识图谱可视化——“原来唐诗可以这么玩”

 

1.动态诗人社交网络:一眼看到谁是社交小王子

2.诗人迁徙游历图:唐代最厉害的驴友是谁?等待你来挖掘

3.作品地域热点图:哪里最令唐朝诗人驻足流连?

4.诗人知识图谱:诗人信息一网打尽

 

怎么样,是不是很有意思?

既有知识性,又有趣味性

学习效率一下提高啦

小编迫不及待地想试试了!

欢迎访问网站:

http://aied.bnu.edu.cn/poem

一起玩转唐诗!

长按二维码,关注公众号


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。