论文浅尝 | 提取计数量词丰富知识库

OpenKG 祝各位读者新年快乐!

论文标题:Enriching Knowledge Bases with Counting Quantifiers

论文链接:https://link.springer.com/content/pdf/10.1007%2F978-3-030-00671-6_11.pdf

发表会议:ISWC 2018

论文源码:https://github.com/paramitamirza/CINEX

摘要

    信息抽取通常关注于抽取可辨识实体之间的关系,例如 <Monterey, locatedIn,California>。但是,除了说明具体实体之间的关系,文本中也经常含有计数信息,表明与某个实体有特定关系的对象的数量,而未提及具体对象本身,例如“California is divided into 58counties”。这种计数量词可用于诸如查询应答,知识库管理等任务,但被先前的工作忽略了。本文开发了第一个完整的从文本中提取计数信息的系统 CINEX,将知识库中的事实计数作为训练种子,采用远程监督的方法抽取文本中的计数信息。实验表明,在人工评估的 5 个关系上,CINEX 的平均抽取精度达到了 60%。在大规模实验上,对于 Wikidata 的 110 种不同关系,CINEX 能够断言 250 万事实的存在,比这些关系现有的 Wikidata 事实多 28%。

概念

      本文用SPO形式的计数语句(Counting Statement)来描述知识库中的计数信息,主要关注对于一个给定的SP对,参数O的数量。计数语句的形式化表示为:,其中,S 是 subject,P 是 predicate,n 是一个自然数(包括 0)。例如,语句 “President Garfield has 7 children” 将表示成<Garfield, hasChild,∃7>。在OWL描述逻辑中,上述语句的形式化描述如下:

方法

CINEX的目标是解决文本中计数量词的抽取问题,问题定义如下:

CINEX 将知识库中已有的事实计数作为种子,采用远程监督的方法抽取文本中的技术信息。远程监督作为知识库信息抽取的主要方法,也是解决本文问题的一种相当自然的方法。不过,用远程监督解决计数信息抽取,需要解决以下几点挑战:

  1. 种子质量:与通常意义下的 SPO 事实抽取不同,本场景下知识库的不完备不仅会导致训练种子数量的减少,还会导致系统地低估实际事实的数量。例如:知识库只知道特朗普的 3 个孩子,而实际上特朗普有5个,这会导致系统奖励“owns three golf resorts”这样的模式,而惩罚“his five children”。
  2. 数据的稀疏性:对于很多关系,文本表达计数信息的方式相当稀疏且高度倾斜。例如,一般人的children很少被提及;对于音乐家来说,赢得的第一个格莱美奖通常比之后的获奖更多被提及,因此对“他/她的第一个奖项”的模式会被给予过度的重视。还有,音乐乐队的成员数量通常约为 4,这使得很难学习到乐队成员数量非常大或非常小的模式。
  3. 语言多样性:计数信息可以用各种语言形式表达,如冠词(“has a child”),基数词(“has five children”),序数词(“her third husband”),表数量的名词短语(‘twins’,‘quartet’),表存在与否的副词(‘never’,‘without’)。

CINEX针对上述挑战给出了对应的解决方法:对于挑战 1,CINEX 通过将数量的匹配条件放宽到比知识库事实计数更高的值,同时将训练种子限制于知识库中信息更完备的流行实体来处理。对于挑战 2,CINEX 使用信息熵来度量 numbers,过滤掉不提供信息的 numbers。对于挑战3,CINEX 通过仔细整合中间结果来处理。Fig.2 给出了 CINEX 系统的框架,系统将整体任务分为两个阶段:

(1)计数量词的识别

CINEX将其建模为序列标注问题,对每一个句子操作并且针对每一个谓词P单独学习。首先通过检测文本中指示计数信息的术语(基数,序数和数值项等)预处理输入的句子,再用CRF++模型以及bidirectional LSTM-CRF模型为每个感兴趣的谓词P学习一个序列标注模型,用于计数量词的识别。

(2)计数量词的合并

将第一阶段识别出的多个表示计数或者组合信息的中间结果,合并为对象数量的单个预测。整合算法如下:

  1. 对需要组合的计数信息求和,可信度得分设为被组合信息中最高的值。
  2. 选择每一种计数信息的预测结果。对于基数词和数值项,选择高于设定阈值的计数信息中可信度得分最高的;对于序数词,不论可信度得分如何,总是选择可信度得分最高的。
  3. 根据计数信息类型排序,根据如下顺序选择最终结果。

实例

(1)计数量词的识别

给定句子“Jolie brought her twins , one daughter and three adoptedchildren to the gala”,计数量词识别阶段预处理以及序列标注的结果如下:

(2)计数量词的合并

给定SP对<AngelinaJolie, hasChild>,计数量词的识别结果如下:

整合算法第1步会合并句子中的计数信息0.30.5,将其相加得到0.5,句子中的计数信息0.10.2将相加得到0.2。第2步0.5被选为可信度得分最高的基数词,0.8被选为可信度得分最高的数值项,0.5被选为排序最高的序数词。第3步,根据排序偏好以及设置的可信度阈值,基数词0.50.8将被作为最终预测结果。

实验

(1)数据集:Wikidata(知识库),Wikipedia(文本)

(2)实验结果

从Table 2. 可知,计数量词的识别基于特征的CRF模型效果最好,神经网络模型容易过拟合。同时,CINEX-CRF也是在整合和端到端任务中识别计数信息性能最佳的系统。

对于各种类型的计数术语,由Table 4. 的实验结果可知,考虑数值项和冠词有利于改善覆盖率,考虑组合计数信息以及除基数词之外的其它类型术语,有利于提高准确性和覆盖率。

对于Wikidata的110种关系,CINEX抽取了851K计数量词事实,断言了250万事实的存在,比这些关系现有的Wikidata事实多了28.3%。

 

论文笔记整理:曹二梅,南京大学硕士生,研究方向为知识图谱、知识融合。

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

技术动态 | 事理图谱,下一代知识图谱

 

本文转载自公众号:DataHorizon

人工智能与认知智能

当前人工智能时代下,机器与人类之间的博弈一直在进行着。如图1所示,从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在若干人工智能领域大规模应用的如今,人工智能已经走过近60年的时间。人工智能的发展先后经历了两次黄金期以及两次低谷。1957年第一款神经网络的发明点燃了第一次人工智能的高潮,而随后在20世纪70年代,受限于当时的运算资源,并不能完成大规模的数据训练,人工智能一度陷入低谷,直到1982年德普摩尔神经网络的提出以及BP算法的出现使得大规模神经网络训练成为可能后,人工智能才逐渐缓过神来,并提出了全面实现人工智能计算机的目标,掀起了第二个黄金时期。但直到21世纪初,人工智能计算机并未实现以及政府的撤资,又一次将人工智能拉入低谷。随后,在2006年深度学习神经网络取得突破性进展,一直到2015年深度学习算法在语音和视觉识别上取得的成功,再次引领了以深度学习为主流的人工智能时代第三个黄金期。

图1

人工智能起起落落,但人工智能进步的步伐从未停歇。从人工智能的发展阶段来看,人工智能先后经历了从计算智能到感知智能再到认知智能的三个发展阶段。在计算智能时代,以神经网络、遗传算法为代表的学习算法,让机器能够帮助人类存储和快速处理海量数据,使得机器开始像人类一样“能说会算”。感知智能时代,机器能够开始看懂和听懂,并采取一些行动和听懂语音的音箱,帮助人类高效地完成看和听的相关工作。认知智能时代,是人工智能的终极目标,即机器能够像人一样思考,并采取行动,如完全独立驾驶的无人驾驶汽车、自主行动的机器人等,完成全面辅助或替代人类的工作。随着数据、模型、计算能力的全面提升,计算智能和感知智能已经初步实现,而真正实现机器的认知智能依然面临着诸多挑战。

认知智能与知识图谱

认知智能的核心在于机器的辨识、思考以及主动学习。其中,辨识指能够基于掌握的知识进行识别、判断、感知,思考强调机器能够运用知识进行推理和决策,主动学习突出机器进行知识运用和学习的自动化和自主化。这三个方面概括起来,就是强大的知识库、强大的知识计算能力以及计算资源。

知识存在于我们的大脑当中,我们在从事社会活动的过程中,实际上是对知识的获取和使用过程。就知识库言,大致两类知识,一类是常识知识库(commonsense knowledgebase),另一类是百科类知识库(cyclopedia knowledgebase)。常识知识库包括人类认知系统中的概念、语言规则知识库,如现在的wordnet ,mindnet ,Framenet, Probase等,另一类百科知识库,则描述了现实生活中的事实知识(fact)。如Freebase , YAGO , DBpedia等。

以描述实体与实体、实体与属性值为形式化表示的知识图谱目前已是大家耳熟能详的一个概念,而何谓知识图谱?我们可以从几个方面来看,从AI的视角来看,知识图谱是一种理解人类语言的知识库,从数据库视角来看,知识图谱是一种新型的知识存储结构;从知识表示视角来看,知识图谱是计算机理解知识的一种方法;从web视角来看,知识图谱是知识数据之间的一种语义互联。从最初的逻辑语义网(semantic-net)、到语义网络(semantic-web)再到Linked-data,在到现在的大规模应用的知识图谱,已经前前后后经历了将近50年的时间。而知识图谱真正作为一个突出热点走进大家眼球的,还是在2012年以收购freebase作为后台知识图谱的google,以简洁答案、知识卡片的方式颠覆传统文档搜索形式的横空出世,从这个时间算起,也就7年的时间,所以知识图谱既是年老又是年轻的。

知识图谱,是实现认知智能的知识库,是武装认知智能机器人的大脑,这是知识图谱与认知智能的最本质联系,知识图谱,与以深度神经网络为代表的连接主义不同,作为符号主义,从一开始提出就注定了要从知识表示、知识描述、知识计算与推理上不断前行。目前知识图谱在诸如问答、金融、教育、银行、旅游、司法等领域中取得了大规模的运用。基于知识图谱的智能问答、在抓捕本拉登时斩获战功的Palantir、战胜人类的IBM深蓝机器人、颠覆传统网页搜索模式的谷歌知识图谱等等,都显示出了知识图谱的强大生命力。目前,我们以金融领域和全行业领域为试点,开展了相关对研发工作,构建起了全行业11个主流产业链知识图谱,主要包括246个行业、上万个商品品种的行业知识图谱和涵盖A股的上市公司金融知识图谱。

  1、全行业产业链知识图谱

产业链知识图谱,目标是构建起全行的上下行业图谱,行业之间的上下游关系,行业中个大元素之间的关系,例如行业下产品、公司之间的关联等等。为了保证产业链中数据的准确性,我们通过行业研究员人工定义本体,耗时半年时间,构建起了全行业11个主流产业链知识图谱,主要包括246个行业、上万个商品品种,几千家上市公司,共计几百万条关系边的产业链知识图谱,如下图2所示:

图2

2、上市公司金融知识图谱

公司金融领域研究的核心对象,公司作为金融中的重要角色,构建起公司知识全景图谱对于进一步知识整合、公司监测、公司运营等具有显著作用。我们以A股上市公司为基本数据来源和研究对象,构建起涵盖公司、行业、板块、人物、原料、产品等共17类实体,并购、竞争、供应、投资等共16类实体关系,规模达百万级的A股上市公司知识图谱,如下图3所示:

图3

从知识图谱到事理图谱

从知识图谱的本质上来说,是以传统本体概念为基础进行知识组织的,而在知识处理领域,这种传统本体概念依然存在着一些局限性,传统本体对于概念的描述着重对其静态特征的描述,缺乏对动态特征的描述,经典的“网球”问题就是典型的例子。实际上,许多哲学家认为世界是物质和运动的,物质和运动的世界是由事物和事件组成,物质是相对静态的知识形式,反映了客观世界中事物存在的规律。然而,人类的命题记忆是以“事件”为存储单位的,存储的是组成事件的概念及其之间的关系以及事件及其之间的关系。以事件作为知识的基本单元更能反映客观世界的知识,特别是知识的动态性,从认知心理学的角度来看,事件更符合人类的理解与思维习惯。人类主要是以“事件”为单位进行记忆和理解现实世界的,事件关系到多方面的概念,是比概念粒度更大的知识单元。传统本体所使用的概念模型难以反映事件这一更高层次和更复杂的语义信息,模型缺少了更高层次的结构。

从知识刻画上来说,知识图谱的局限主要体现在两个方面:一是对人类知识的刻画上上不具备动态属性。知识图谱中所刻画和描述的知识是静态的非黑即白的一种确定性事实,而现实人类社会当中,知识是动态变化的,知识本身会因为外部条件的变化而失真。另一个是知识图谱在应用上的一种局限性,知识图谱只能回答什么是什么的问题,对包括基于已知知识推断未知知识,对已知知识进行正确性校验的知识推理,从根本上来说也没有跳出“静态”这一属性。在诸如“怎么了”,“接下来会怎么样?”,“为什么”,“怎么做”等问题上,知识图谱显得有些乏力。

 

事实上,目前关于这方面的知识需求应用场景有很多,如金融投资领域有捕捉外部事件、根据事件的逻辑关系进行推理、推演和预测的需求,例如“智利发生地震会对哪些商品标的造成何种影响?”,情报舆情领域有预测事件后续影响的需求、寻找事件发生原因的需求,如“目标市场区域内棉花采购量突然增多、可能的原因有哪些?”。客服及咨询领域有正确定义、刻画客户服务过程中的状态变化,以提高服务精准化的需求,如“客户购买了此产品,如果中途赎回,哪些产品适合再次推荐给客户?”等等。

 

传统知识图谱中的知识是静态的,描述的是实体以及实体之间的关系,这些关系是相对确定和静态的知识,这个可以作为强大的知识库让机器人“才高八斗,学富五车”。但如何使这“八斗才”和“五车学”给“弄活”,让机器学会知识的运用,真正学会思考。那么就需要给这个知识再加上知识的“把玩规则”,形象的来说,就是一套逻辑规则。

图4

举例来说,如图4所示,我们在思考的过程当中,脑海里经常会比如“为什么”,“按以往的经验”、“八成会”、“据我分析”、“这个应该是”、“怎么可能”等词,这些词很形象的表现表示出了我们思考的过程,我们将思考的过程,定义为运用“事理”的过程,所谓“事理”,就是“事情”的道理,是思考的那条路径,这个“事情”就是我们所需要的事件。对于事理,我们可以有多种理解,事理是一套经验总结,是一套对知识的规则,是一套逻辑推理的方法论,是对特定环境下知识在时空域上的展开。图5展示了知识、事件、实体、事理之间的关系,事件高于实体,实体是事件的组成部分,事件是事理的重要组成部分,事理和实体共同组成了知识。

图5

目前,“事理图谱”还是较新的概念,国内多家公司和科研机构都在“事理图谱”的相关研究上进行了探索,如哈尔滨工业大学信息检索实验室刘挺老师团队首先提出了“事理图谱”这一概念,并做了一些实验和基础性的工作[1][2][3];中科院自动化所赵军老师团队,上海大学刘宗田老师团队分别在事件抽取[4]和事件本体表示[5]上取得了丰硕的成果。

与知识图谱的组织形式相仿,实体通过头尾相连,可以组织形成图谱状的知识图谱,事理采用类似的组织方式,可以形成事理图谱。知识图谱与事理图谱两者之间存在着诸多异同之处,我们在参考前人的工作上,结合自己的研究工作,从描述知识、研究对象、构建目标、知识形式等共10个方面进行了总结,如图6所示:

图6

知识图谱描述知识是万物实体,所研究的对象是名词性实体及其属性、关系。事理图谱所要描绘的是一个逻辑社会,研究对象是谓词性事件及其内外联系。两者都是有向图的组织性质,在知识的确定性上,知识图谱中的知识是以事实三元组为存储型的、确定的,知识状态相对静态,变化缓慢,但精度要求极高,实时性要求极高。事理图谱中的知识时一个包含事件、论元集合、逻辑关系等的多元组,知识逻辑是不确定的,存在一种转移概率。在应用上,知识图谱可以完成when / who/ what/ where等常识问题。事理图谱可以回答Why/How等动态问题。传统概念之间的分类关系即上下文关系不同,事件与事件之间除了上下位等分类关系外,还存在非分类关系,包括组成关系、因果关系、并发关系、条件关系、排斥关系等,这些关系一起对现实动态知识种的逻辑知识进行了描述。图7主要列举了事理逻辑的几种类型主要包括因果事理、条件事理、反转事理、顺承事理、顺承事理、上下位事理、组成事理、并发事理共七类事理:

图7

因果事理描述的是认知体系中的一种前因后果联系,前面一个事件会导致后面一事件的发生;条件事理描述的是认知体系中的一种条件结果关系,是一种预设与结果逻辑;反转事理往往描述的是认知体系中的一种互斥逻辑,是一种真假值逻辑;顺承事理描述的认知体系中的一种时间上的偏序关系,是一种先后动作逻辑;组成事理,刻画的是事件之间整体与部分的逻辑;上下位事理,描述的是事件在分类体系中一种逻辑;并发事理,描述的是事件在时间上的一种共生关系,指一个事件发生下另一个事件一定发生;

事理图谱的构建

目前关于事理图谱的构建方式上,主要包括领域专家手动构建以及基于海量文本自动化获取两种方法。前者准确率高但构建成本较大,且规模难以快速增长;后者所见即所得,构建成本较低,规模可快速扩充,能够迅速挖掘出海量逻辑,但缺点是精确度受多方面因素影响,准确率较前者要低。事实上,目前事理逻辑广泛存在于海量文本当中,当我们打开百度或者谷歌搜索引擎,输入“导致”或者“lead to”这一词时,会返回多个包含因果事理的结果,如图8所示。此外,问答社区等资源也为基于海量文本自动化获取事理逻辑提供了可能。

图8

事理逻辑的挖掘,可以分成基于显式因果逻辑的挖掘和隐式因果逻辑的逻辑两种。前者通过人工设定因果模式可以获取大量的因果事件对,例如对于句子“受范冰冰阴阳合同事件牵连,唐德影视、华谊兄弟开盘大跌”,可以结构化出<范冰冰阴阳合同事件,导致,唐德影视、华谊兄弟开盘大跌>这样的因果事件对。通过对原因事件和结果事件进行进一步解析,我们可以得到原因事件的关联主体是人物,即影视明星“范冰冰”,事件的动作是“阴阳合同”,结果事件中关联的主体是两家传媒上市公司,华德影视和华谊兄弟,事件的动作是股价大跌。结合上下文,可进一步明确事件发生的时间信息,为2018年6月4日。对这样的事件对,可进一步抽象泛化成一种逻辑规则,即影视明星“阴阳合同->传媒公司股价下跌”这样一条因果模式链。更进一步,通过对动作本身的情感极性进行泛化,我们可以发现,“阴阳合同”属于负面消息,股价下跌这一事件属于负面影响,因此,可以进一步泛化成“明星负面消息->公司利空”这条更为抽象的因果模式链。这样,通过大量的显示模式对事理逻辑进行结构化,对不同来源的事理知识进行融合并层层抽象,可以得到大规模不同层级的事理逻辑,借助知识图谱首尾相接的方式,我们对构建好的一条条事理逻辑进行链接,就形成了一个图谱形式的事理逻辑脉络,即事理图谱。

说到事理图谱,就不得不说事件表示。事件表示是事理图谱中的重要问题之一,目前学界和业界正在寻求一种尽可能灵活、简单的方式去表示事件。在事件表示上,有上海大学刘宗田老师团队提出的“事件六要素本体模型”[5],即将事件建模成e = { A,O,T,V,P,L}的表示形式, 其中: A 为动作要素; O 为对象要素; T 为时间要素; V 为环境要素; P 为断言要素; L 为语言表现。 而这种表示方式无法直接用于图谱节点表示,更可能成为一种事件描述信息隐藏于图谱事件节点背后。我们在实际的工作当中,尝试了几种事件表示方式,如含义、举例、优缺点如图9所示:

图9

当前人工智能时代下,机器与人类之间的博弈一直在进行着。如图1所示,从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在若干人工智能领域大规模应用的如今,人工智能已经走过近60年的时间。人工智能的发展先后经历了两次黄金期以及两次低谷。1957年第一款神经网络的发明点燃了第一次人工智能的高潮,而随后在20世纪70年代,受限于当时的运算资源,并不能完成大规模的数据训练,人工智能一度陷入低谷,直到1982年德普摩尔神经网络的提出以及BP算法的出现使得大规模神经网络训练成为可能后,人工智能才逐渐缓过神来,并提出了全面实现人工智能计算机的目标,掀起了第二个黄金时期。但直到21世纪初,人工智能计算机并未实现以及政府的撤资,又一次将人工智能拉入低谷。随后,在2006年深度学习神经网络取得突破性进展,一直到2015年深度学习算法在语音和视觉识别上取得的成功,再次引领了以深度学习为主流的人工智能时代第三个黄金期。

我们从汉语句法学和语义学的角度出发,全面梳理了上千条事件逻辑关系显示表达模式,构建起了两千万领域新闻资讯库,运用事件抽取、事件对齐、事件融合以及泛化技术,形成了规模约400万的事理图谱,并实现了事理图谱的动态更新。接下来,我们分别介绍在顺承事理图谱和因果事理图谱上的一些成果:

图10分别是部分“出行”和“烹饪”两个顺承子图谱。从中我们看到,围绕着“去丽江”这一事件所产生的顺承逻辑,如“拿#身份证”->“去#售票口”-> “去#买票”->“遇上#旺季”->“去#丽江”这一顺承逻辑,“去#丽江”-> “预订#客栈”->“看过#攻略”->“结合#眼光”->“没有#价值”->“擦亮#眼睛”这一顺承逻辑结构。“去#庄园”->“去#竹林”->“挖#冬笋”->“切成#块”->“配上#鳊鱼”-> “匀以#薯粉”->“成#棒状”->“入#油锅”->“炸成#小块”这一顺承事件链形象地描述了“烹饪”这一事件的时序关系。这种顺承事理逻辑在揭示叙述性与步骤型事务的刻画上是一种很好的形式。

图10

以下分别是以“银行降准”和“智利地震”事件为核心所关联的因果事理逻辑链,今年10月07日,央行宣布银行降准,这势必会造成多骨诺米牌效应,如图11中所示:

图11

银行降准会导致保险股高开、银行股持续走强,银行股持续走强先后带来银行板块集体拉升、板块个股出现普涨状态等结果。在“智利地震”这一事件因果事理图谱中,我们可以看到受波及的一些列后续事件,如高档鱼粉价格上浮、早盘稀土板块高开、国际纸浆价格大幅上涨等事件,这些事件又进一步传导,最终导致之家集体反弹、北京生活用纸普遍提价、沪铝价格波动区间上移等结果。这些因果逻辑在普通人看来,并不能立刻想到,相反的,只有具有专业背景的人员才能有这种逻辑推导思维。如此看来,事理图谱对于这类专业的逻辑链条可以进行良好的组织和刻画。

事理图谱和知识图谱的融合

如上面所介绍到的事理图谱中是以事件为单位一种逻辑链路,而实体识事件的一个重组成部分,通过实体识别和实体链接技术可以将事件中的实体链接到相应的实体知识库当中。如图12所示:“范冰冰阴阳合同违法”这一事件当中,人物“范冰冰”可以链接到包含“范冰冰”这个人物的人物关系图谱,如搜狗人物关系图谱,导致光线传媒、华谊嘉信、华谊兄弟等传媒公司的股价下跌这一事件中,光线传媒、华谊嘉信以及华谊兄弟这些公司类实体,实体可以进一步连接到以公司为实体的公司金融知识图谱,该图谱中包含了公司的主营产品、所属板块、竞争对手等各方面的信息,图13显示了融合后的状态。

图12

图12显示了事理图谱和知识图谱融合后的状态(部分),通过因果关系事件,将事件中的实体进行关联,结合实体之间的关联,可以进一步进行拓展,查询,从而实现整体图谱的联动。

图13

除公司知识图谱与事理图谱的融合之外,我们在产业链知识图谱和事理图谱融合的工作上进行了尝试,如图14所示展示了“澳大利亚锌矿执行复产计划事件”的融合效果子图(部分),从“澳大利亚锌矿执行复产计划事件”缓解相关铅产量恢复等事件出发,可以将事件与“铅”商品这一商品、有色产业链等行业板块类实体与行业相链接,进一步找到相应的商品、个股等信息,通过这种链接和融合,可以进一步对事件进行知识信息的扩展,形成从事理到知识概念的通路。

图14

事理图谱的应用探讨

事理图谱有多种应用场景,我们在实践过程中,主要总结出了以下5种应用形式:

1、基于事理图谱的知识问答。由于后台有以事件和静态知识为核心的事理逻辑,可以在完成“when”,“who”,“what”,“where”等常识问题的同时,进一步回答“how”以及“why”的问题,这种问答的形式既可以是可视化搜索式,也可以是问答形式,如图15所示:

图15

当用户输入“特朗普和金正恩又骂战了会怎么样?”这一问句后,系统能够给出直接的回答“这很有可能会是的美国朝鲜局势更为紧张,朝鲜局势紧张可能会带来全球股市走低、避险情绪升温、金价上涨等一系列影响”。通过对该回答,再配以可视化因果逻辑链的展示方式,可以进一步为这一回答提供佐证。

2、基于事理图谱的消费意图识别。本文在前面说到,顺承事理图谱对具有时序特征的叙述性事件能够很好的刻画,它描绘了叙述性事件的整个阶段。而我们正好可以利用这种阶段性的特征,完成消费推荐的任务。如图16所示:

图16

例如,当用户发出“丽江是个好地方,我想去看看”的状态时,通过分析该用户的消费意图,将消费意图识别为一个出行事件时,通过游走以“丽江出行”这一个顺承图谱可以推出多种消费行为。例如“出机场、看到接待点”这个子事件可以推出“机票预订与推荐”与“接送机”服务;“预订#客栈”这一子事件可以引出“酒店预订”服务,“买卧铺票”这一子事件可引出“火车票预订”这项需求。全局的来看,整个出行图谱可以作为一个整体的出行指南提供给用户,充当用户规划的“探路者”与“规划师”。

 

3、基于事理图谱的重要新闻判别与推荐。大数据时代下,海量新闻在网络上快速传播,新闻个性化推荐以及重要新闻筛选成为了新闻检索中的两个重要任务。目前的推荐算法主要基于协同过滤、基于内容推荐和混合推荐方法,这几种方法从本质上来说都是对内容与用户进行建模并进行相似性计算得到的一种结果。事理图谱的出现,提供了一种重要性判别方式和新闻推荐方式。“历史总是相似的,重要的事情总是周而复始的出现”,在这一假设下,通过对新闻文本进行事件提取,并结合背后的事理图谱,根据事件后续产生影响的重要性可以为整个新闻进行重要性评分,并给出该新闻事件所蕴含的已有事件和未来事件信息。通过这种方式对新闻资讯进行建模和筛选,并结合用户兴趣模型,可以完成重要新闻的判别和推荐,如图17所示:

图17

4、基于事理图谱的知识管理

知识图谱的本质上是一种以实体、实体属性、实体与实体/属性之间关系形成的一个知识库。而由于知识图谱中的知识是动态变化的,尤其在多源知识融合、知识对齐当中,为了保证知识的准确性、实时性,通常需要进行知识管理和编辑,这种操作可以类似成数据库的增、删、改、查操作,图18是我们开发的一个知识图谱编辑和管理工具,该工具可以支持对知识图谱中知识数据的CRUD操作。当然,这种知识更新的方式是人工自动发现并进行编辑,本质上来说,并没有实现知识图谱中数据的全自动更新。

图18

与知识图谱不同,事理图谱这一以事件为实体节点,并融入静态实体的知识组织方式将静态的知识和动态的逻辑规则(前面说到的多种事件关系)形紧密相连,形成一个强大的逻辑链路网络,使得事理图谱天生具备了知识更新指导能力。将事理图谱与实际的业务逻辑系统相结合,并不断赋予事理更全面、更精细的逻辑体系,能够在一方面对根据外界事件知识的变化而对已有静态知识进行及时动态更新,如银行客服系统中的会话流程控制、互斥业务控制,用户邮储状态的更新等,这将提升银行客户系统的体验和智能水平。举一个实际的例子:银行业务中知识图谱中有一条知识数据,即用户同时办理了业务A和业务B,而实际上,办理业务A和办理业务B两者之间存在一种互斥关系,那么则可以通过两个业务办理的先后顺序,更新用户的业务知识信息,将办理业务B这条知识进行移除。类似的例子还有很多。

 

5、基于事理图谱的推理与辅助决策

知识推理是知识图谱的终极目标,基于过去已知知识进行知识推理,采用如事件驱动传导路径等进行知识发现,能够在业务的推理和辅助决策上也能带来一定帮助,如智能投研中的未知风险预警、公司舆论控制等,如图19展示了我们目前开发形成的事件驱动工具,通过人工自定义构造传导链,进行既定模式检索,可以完成对既定知识逻辑路线的发现与探索。

图19

以上图中描述的“寻迹”模式进行逻辑链条传导的方式不同,基于事理图谱的事件传导中的逻辑联系更为接近于人脑中的真实逻辑链条。前者传导的路径存在着一个基本型的假设,即知识与知识之间的属性或关系通过人工方式强制地进行映射和编制,其中有个十分明显的缺陷就是传导边上的逻辑概率量化问题。

 

“事理图谱”的出现,则从事件状态的逻辑转移上为这种推理机制提供了一个新的方向。如图20所示的demo所示,用户输入一个事件点击提交之后,运用事件规范化和事件相似性计算等方法,我们会在后台400万个事理图谱找到一个与用户输入事件最为相似的一个事件,以该事件为核心会返回多条相似事件所造成的影响事件。针对影响事件,我们运用事件重要性判定技术和事件实体链接技术对影响事件进行过滤,使得造成的事件中一定是某种商品或者公司的类似事件,这种方式能够就用户给定的事件,给出一个最为直接了当的标的结果。图20中展示了以“螺纹钢价格上涨”为核心的因果逻辑传导推理链条,在经过不断进行链条的推理扩展之后,步步推理至各类实体事件后最终产生的结果图。从一度推理的“螺纹钢价格上涨”导致废钢库存小幅减少,到小麦期货小幅收低等多层推理结果等,能够在一定程度上描绘出整个逻辑链条的传导机制。

图20

当然,基于因果事理图谱的逻辑影响推理仍然存在着诸多不足,比如多层逻辑推理上的效应传导量化与误差传播问题,事件对齐与泛化问题,这些对事理逻辑的准确性都有着较大的影响,这都是后续努力攻克的方向。

事理图谱的未来和挑战

知识图谱从提出至今,经过技术的更新和体系的逐步完善,已经在各方面得到了一定规模的运用,但在描述动态现实社会知识和认知智能思考上还存在一定不足,如何解决以上两个问题,赋予知识图谱更大的力量,将是未来知识图谱努力的方向。就知识而言,静态的知识需要一个上层的知识运用逻辑体系,一个知识逻辑体系需要底层强大的知识库作为有效承载,事理图谱,作为一个新的知识组织、表示和管理方式,是认知智能的一个重要突破口。事理图谱是知识图谱“动起来”的神经,知识图谱是事理图谱运行的血肉载体,描述知识逻辑架构的事理图谱与刻画静态概念知识内容的知识图谱携手并进将是未来的一个趋势。

事理图谱是一个庞大的课题,未来还有很长的路要走,如何找到一种灵活的事件表示方式,事理的执行、预测和推演机制,构造出一种知识的自我更新和生长方式,最终实现机器知识的自我更新和生长,将是未来漫漫长路中需要攻克的难题。得益于前人在事理图谱上的一系列非常有启发性的探索工作,我们在知识图谱、事理图谱上的应用场景、技术理论、技术实现上做了一些基础性的推进工作,未来,我们将进一步细化事理关系,完善事理图谱各方面的技术体系,深化事理图谱的构建以及在场景中的应用,愿同各位一道,在通往认知智能的道路上,努力前行!

 

我们将实现动态更新的400万事理图谱与商品产业链图谱、上市公司金融图谱进行融合,并运用事件标准化、实体链接、融合以及事件重要性判定等技术对事理逻辑进行约束,研制上线了商品金融领域事理图谱Demo,Demo地址:http://39.106.1.94:8080  (请复制链接到PC浏览器中打开),欢迎体验并提出宝贵意见。

参考文献

[1]中科院赵军,《开放域事件抽取》, https://www.leiphone.com/news/201807/2QQZ2aRIZNHFODBY.html

[2]哈工大信息检索实验室,《事理图谱:事件演化的规律和模式》, http://blog.sina.com.cn/s/blog_72d083c70102y3jv.html

[3]哈工大信息检索实验室,《抽象因果事理图谱的构建和应用》, http://www.sohu.com/a/137802985_657157

[4]哈工大信息检索实验室,《从知识图谱到事理图谱》,https://www.leiphone.com/news/201711/Fx6Mgs9WRPBshnIG.html

[5]刘宗田等,《面向事件的本体研究》[J],计算机科学,2009, vol.36

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

文章转载自公众号

DataHorizon

论文浅尝 | LightRNN:存储和计算高效的 RNN

 

链接:https://arxiv.org/pdf/1610.09893.pdf

动机

在NLP任务中使用RNN已经被证明是很有用的模型方法。但是传统的RNN在NLP中的应用有一个很大的限制:RNN的输出输入Embedding占用的空间太大,比如1024维10M词表大小的Embedding矩阵就要占掉40GB,这在大部分的GPU上都是不可训练的。本文的目标就是解决Embedding过大和参数过多的问题。

亮点

文章的亮点主要包括:

1. 通过二维Embedding使得参数所占空间和数量大幅减少,训练更快,使得手机甚至嵌入式训练成为可能

2. 由于单词安排的形式语义性表达更丰富,在NLP任务上能够不输于甚至超过一维的情形

概念

  1. 2-ComponentShared Embedding:维度共享的Embedding.
  • 每个word的词向量划分为行向量和列向量,同一行的词共享行向量,同一列也如此
  • 两个Embedding 矩阵的大小减为

方法

⒈ 新的RNN以适应新的Embedding形式

相较于传统RNN:

a. 在t时刻的输入拆成两个(行列向量)由于矩阵U在两个小RNN中都一样,也可以看成传统的RNN交替输入行列向量

b. 显然只有都知道当前的行列向量才能预测下一个词,所以预测的行列向量跟输入错开了一个单元。

c. 由于错开,最后一次没得原始输入,需要将最后一个预测出来的行向量接过来

行列向量的softmax.最终的概率为二者相乘.

⒉Bootstrap for Word Allocation,重新分配词表中单词的位置

a.随机分配词表中单词的位置

b.训练模型得到embedding.

c. 调整单词的位置,使得最小化训练集中所有句子的NegativeLog Likelihood.

其中lr(w,r(w))表示单词w安排在r(w)行时出现在位置r的概率. lc则是列. 现在将单词w换到其他行或者列中,得到lr(w,i), 再重新计算此NLL,比如:

位置 1 2 3
1 I you dislike
2 NUAA PKU love
3 hate we ZJU

 

对于I love ZJU,ZJU对应的lr(w,r(w))即为-log(3,3),其中(3,3)表示第三行出现在句子的第三个位置的概率。现在将ZJU换到第二行, 对应的lr(w,2)= -log(2,3).其实也就是改为计算I Love Love这句话的概率,而任意的概率lr(w,i)和lc(w,j)已经在RNN模型的softmax中计算过了。直接带入即可.

最后,因为ZJU占据了Love的位置,Love也要找下一个位置,所以这个问题是所有的单词全部重新排列,选取最小的NLL。这是个二分图的最小权值匹配问题.有现成的算法可以计算.

实验

 

⑴. 比较的指标:PPL

T是预料中的所有token数量。

⑵. 各数据集的情况:(token数和词典大小)

(3) BillonW数据集的结果:

可以看出在BillionW中不仅超越了stateof art的模型性能,而且大幅减少了训练参数的数量和空间大小.

总结

本文提出了一种可以大幅减少RNN在NLP中应用时的Embedding矩阵的大小和数量,同时又不削减性能的方法。

 

论文笔记整理:吴杨,浙江大学硕士,研究方向为知识图谱、自然语言处理。

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究

 

动机

作者思考,如果一个人懂多个语言,那么只要他知道某一语言的某个事实,就能以它作为另一语言问题的答案,同时希望证明计算机是否也能做到这一点,并完成混合语言的简单问题知识问答任务(Code-Mix Simple Questions KBQA)。所谓Code-Mix即是指QA中的问题不是由单一语言构成,以中英双语举例:

“我怎么知道本文提出的model是否work呢?”

方法

作者将提出的CMQA模型分为两个步骤:1.候选生成 2.候选重排序

 

候选生成

 

这里的候选指的是KB中与问题相关的三元组,作者提出的思路是利用检索模式,缩小候选三元组的搜索空间。通过使用 Solr(一个开源的倒排索引查询系统),将 Freebase 中所有三元组编入索引,而后将 Question 作为检索的 Query 得到 top-k 个候选三元组,检索的排序打分参考 BM25。(注意:在这里检索仅支持英文,故混合语言问题中其他非英语成分对检索没有贡献,那么如果问题的entity是非英语的话,是否可能引入大量与问题无关的三元组呢)

 

候选重排序

 

本文的主要工作就是设计了一个重排序模型 Triplet-Siamese-Hybrid CNN(TSHCNN),采用 CNN(卷积网络)学习输入文本的语义表示,考虑到不同语言的词序差异性,作者认为 CNN 可以学习到输入文本中的词汇顺序特征以及短语顺序特征。

对于排序过程,文章将其抽象为一个多分类问题,即每个答案都是一个潜在类别,且对应的问题数量可能很小甚至为0,这里主要通过匹配目标实体和谓词来做答案筛选。直观思路是通过构建一个问题-答案间的相似度打分作为参照指标用于排序,作者在这里引入Siamese networks方法完成上述目的。

整体的模型框架如图

模型由两个通道组成,分别用于学习正例与负例,每一通道有三个输入:

1.问题

2.正(负)例样本

3.由正(负)例样本与问题联合构成的附加输入

 

网络结构由卷积层->池化层->向量关联->全连接层 构成,两个通道中对应位置的网络共享权重参数

 

语言转换

 

处理多语言问题还是绕不开语义鸿沟,为了将两种语言关联起来,作者采用了双语词嵌入+K近邻组合的策略,构建通用跨语言词嵌入空间,将双语词汇投影到该空间中,再引入K近邻方法构建双语词汇关联。

 

实验

数据:SimpleQuestions (Bordes et al., 2015)dataset

75.9k/10.8k/21.7k  training/validation/test

词嵌入预训练:English,Hindi Fasttext(Bojanowski et al., 2016)

English-Hindi bilingual Smith et al.(2017) to obtain

自建数据集:Hindi-English混合语言问句 规模:250,简单问题,每句对应一个Freebase三元组

 

神经网络的超参数设定如图:

简单知识问答实验结果

候选三元组生成实验结果

双语端到端问答实验结果

部分问答效果示例

总结

作者认为本文的贡献包括:

  1.  成功的回答混合语言问题,在基于“英语语料,有噪声的海地语监督,和不完美的双语词嵌入”情况下
  2.  提出TSHCNN模型用于联合学习候选重排序
  3. 构建了一组250规模的海地语-英语混合语言问题数据集,并且这个数据集的答案来源于SimpleQuestion数据集,且可以映射到Freebase知识库上
  4. 本方法是作者所知目前第一个端到端的混合语言知识问答方法

 

论文笔记整理:谭亦鸣,东南大学博士,研究方向为知识库问答、自然语言处理。

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

技术动态 | TechKG:一个面向中文学术领域的大型知识图谱

 

作者:东北大学-知识图谱研究组  任飞亮

TechKG 是一个面向中文、面向学术、多领域的大型知识图谱知识库,知识库由“东北大学-知识图谱研究组”开发完成。和已有知识图谱如 Freebase 或 YAGO 相比,TechKG 具有如下主要特点:

1、是一个大型的中文知识图谱知识库。当前,TechKG 共包含大约 5 千万个实体、以及 2.6 亿个三元组。知识规模和 Freebase 及 YAGO 相当。

2、面向科技。TechKG 的数据源为发表在中文各类学术期刊上的科技论文,和 Freebase 或 YAGO 这些通用知识图谱相比,TechKG 更有侧重性。

3、领域划分完整。当前,TechKG 的数据共分为 38 个研究领域,每个研究领域对应一个学科。据我们所知,TechKG 是当前唯一一个有明确领域分类的大型知识图谱。

通过在 TechKG 上的数据分析,我们还获得了如下一些中文知识图谱所特有的现象。

首先,TechKG 显示,中文作者姓名重名现象严重。我们把作者重名问题分为两类:领域间重名和领域内重名。如果一个作者名出现在不同的研究领域,则该名字称为领域间重名。如果一个作者名字出现在同一领域(比如“计算机”领域)的不同研究机构中,则该名字称为领域内重名。我们的实验结果显示,平均每个中文作者名出现在3.97个领域中。我们甚至发现,有167个作者名(如:张林、刘华、汪洋、张磊、王辉、李兵、张健、陈鹏、王欣、李强、王莉、杨辉、王琳、刘杰、王平、张岩、刘超、陈华、杨军、张志刚等)出现在了所有的领域中。而领域间重名现象则更加复杂,难以精确识别。因为,有时候是同一个作者在不同时间段里处于不同的研究机构,有时候是不同的作者处于不同的研究机构。对于前者,就并不是重名问题,但此时识别难度就要大的多。

其次,领域术语的重名现象严重。这里的领域术语重名是指一个领域术语同时出现在多个领域中。而且,我们的实验结果显示,类似tf*idf的方法并不能有效地消除领域术语的重名问题。比如,即使是取每个领域中tf*idf为top-10%的术语,平均每个术语仍会出现在大约2.62个领域中。

第三,严重的数据分布不均衡现象。在之前的研究中,研究者把知识图谱中的关系分为4个类型:1-1、1-n、m-1、m-n。我们的统计结果显示,在TechKG中,这4个关系类型所占的比例极度不均衡。我们统计了在不同的tf*idf领域术语过滤条件下这4类关系类型所占的比例,发现tf*idf的过滤条件基本不会对类型分布产生影响:在各个tf*idf设置下,m-n类型关系所占的比例均起过60%,m-1类型的关系所占的比例均接近20%,1-1类型的关系所占的比例大约在15%左右,而1-n类型的关系则基本可以忽略不计,只有0.01%左右。

我们的初步实验结果显示,TechKG的上述特有现象会对下游的一些任务产生重要影响。如在Knowledge graph embedding任务中,实验结果显示,不仅重名问题(作者重名及领域术语重名)会对实验性能产生严重的负面结果,关系类型不均衡现象也会极大地影响实验的最终性能。实际上,TechKG显示出来的这些特性均为中文中所存在的固有的语言学现象,在Freebase或YAGO这些英文知识图谱中并没有体现。而之前因为没有合适的中文知识图谱数据集,所以,相应的问题并没有得到研究者们的注意。现在,TechKG为研究者们提供了一个可以对上面问题进行深入研究的知识图谱数据集。

基于TechKG,我们还构建了以下几类知识库,每类知识库均分38个领域,每个领域对应一个学科。

  • TechKG10:从TechKG中抽取的子集,抽取规则如下:1)领域术语的tf*idf在前10%;2)每个实体至少出现在10个三元组中。
  • TechTerm:一个中文领域术语知识库,每个领域均由从TechKG中tf*idf最高的术语中随机选择的1w条术语组成。
  • TechBiTerm:一个“中—英”术语对知识库,每个领域均由从TechKG中选择的”共现”次数最多的1w个术语翻译对组成。
  • TechAbs:一个由论文摘要组成的知识库,每个领域均由随机选择10w个摘要组成。
  • TechQA:一个问答知识库,基于TechKG10、采用模板生成。
  • TechNER:一个基于TechTerm、采用远程监督方式生成的主要用于进行领域术语识别任务的知识库,每个领域包含3w个训练句子。
  • TechRE:一个基于TechKG10、采用远程监督方式生成的主要用于关系抽取任务的知识库,每个领域由随机选择的20w个训练bags组成,每个bag平均包含6个句子。

 

利用TechKG以及上面的几个知识库,研究者们不仅可以开展知识图谱方向相关的研究(如知识图谱embedding、关系抽取、命名实体识别等),还可以进行如:KBQA、机器翻译、文本分类等多项相关任务的研究。

 

读者可通过以下网站下载TechKG以及相关的几类知识库: www.techkg.cn。也可以通过论文 ”TechKG: A Large-Scale Chinese Technology-Oriented Knowledge Graph” 来了解 TechKG 的详细特性(论文下载地址:https://arxiv.org/abs/1812.06722)。

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

论文浅尝 | 知识图谱相关实体搜索

 

本文转载自公众号:南大Websoft

相关搜索(Relevance Search)是信息检索中的一个经典问题,相关搜索是指给定一个查询实体,返回与其相关度最高的实体(一个类似的问题Similarity Search,一般来说指相关搜索的一个特例,即只返回与查询实体同类型的相关实体)。相关搜索面临的一个主要问题是搜索中的歧义性,即不同的用户对于“相关性”有着不同的理解和偏好。当前的一些方法已经能够通过要求用户提供例子的方式在一些schema较为简单的图谱(如DBLP, linkedMDB等)上完成对相关搜索的消歧,然而当处理一些更复杂的图谱时(如DBpedia, YAGO等),因为效率问题,这些方法很难被直接应用。本文提出了一种基于启发式搜索的算法RelSUE,能够有效地在schema-rich的知识图谱上进行搜索,实验表明RelSUE在我们构建的benchmark数据集上能够比其他state-of-art的方法取得更好的效果。

Background

知识图谱是由实体和边(实体间的二元关系)构成的高度结构化的数据,这样的数据中蕴含了大量可以被机器所“理解”的语义信息。两个实体间相关性的语义信息通常可以通过不同元路径meta path,即顶点均为type,边为property的路径)的加权组合来刻画,不同的组合即体现了不同的语义。例如下图中,

连接实体Frank Oz以及Kevin Kline的元路径包括

不同的元路径组合可以体现不同的偏好,例如如果我们只以一条元路径iii)作为相关性的语义,那么上图中以Frank Oz作为查询实体,符合这种相关性的目标实体只有Kevin Kline一个。可以预见,不同的用户对于相关性都会有一定不同的理解(或者某一特定场景下的偏好),所以我们需要一种有效的方式来捕捉到不同用户(或搜索用例)的主观偏好,目前一种主流的框架是要求用户除了输入查询实体以外再提供几个预期结果的例子,然后系统根据这些例子自动地生成一种能够准确刻画例子与查询实体间相关性的加权的元路径组合。加权元路径组合通常有两步组成,第一步首先定位出一些promising的元路径,第二步基于某些统计或学习的方法自动地为这些路径赋予权重。RelSUE同样沿用了这一技术路线。

Approach

在过去的方法中,第一步元路径的定位可以简单地通过穷举或者用户指定等方式完成,然而,这些方法往往只能应用于一些仅包含几种不同type以及几种不同property的schema-simple图谱中,对于DBpedia(645 property,453 type)或者YAGO(37 property, 536,648 type)这种包含大量type即property的图谱则不再适用——人工挑选元路径或者穷举连接实体间的所有元路径都是不现实的(一方面本身元路径的数量是个问题,另一方面进一步对所有选出来的元路径分配权重也是一个问题)。所以我们需要一种更有效地方式来对元路径进行选择,RelSUE正是为了解决如何在schema-rich的图谱中准确并快速地识别出能够刻画查询实体与例子实体间相关性的元路径。

本文共提出了两种不同的算法,RelSUE及RelSUE-e。

RelSUE-e首先基于双向BFS穷举所有的连接查询实体与例子的元路径(给定直径内),然后根据我们设计的significance函数为每一个元路径进行打分排序,选出打分最高的K条元路径作为目标元路径集合。可以发现RelSUE-e仍然需要先穷举所有元路径再进行选择,虽然选择最优的K条元路径可以保证后续的权重分配能够有效进行,但是穷举所有路径的代价仍然非常巨大,且设定最大路径长度的方式也十分不灵活具有很大的局限性(例如对于YAGO,只能够做到穷举所有两步的元路径,3步的速度就已经无法接受,意味着所有3步即以上的相关性语义都会被忽视)。

为了应对以上这些缺陷,本文进一步提出了基于启发式搜索的方法RelSUE。在RelSUE的启发式搜索框架中,搜索从查询实体展开,一步步扩展至所有例子实体都被某K条元路径连接。搜索空间树结构扩展的优先级基于两点考虑,1)当前结点所处的潜在的元路径的长度(可以通过当前结点与查询实体的距离,以及当前结点与例子实体间的距离来估算,因为搜索是从查询实体出发,所以当前结点与查询实体的距离是已知的,而与例子实体的距离,我们通过distance oracle来计算),2)当前结点的度数(度数越大的点往往意味着包含的信息较少,通过度数来作为衡量信息量的指标也是一种常见的做法);此外,为了避免启发式搜索找到一些过长的路径,我们再对1)中估计的路径长度加上一个衰减因子β∈[0,1],即在原有打分的基础上再乘上β^L,其中L为估计的元路径长度。βL,其中L为估计的元路径长度此外,对于RelSUE即RelSUE-e,本文的搜索都做了一些针对避免选出冗余元路径的优化(如果两条元路径对应的具体路径相同,则视为冗余)。

有了这些路径以后,那么就可以进行到background中所介绍的算法的第二步了。两种不同版本的RelSUE都通过线性SVM学习各个元路径的权重(每个元路径都对应一个特征),至于为什么用SVM,没什么特别的理由,也不是本文的贡献所在。

Benchmark

为了进行对比实验,本文在两个数据集上(DBpedia, YAGO)分别人工标注了4组查询(基于对应语义的元路径数量、长度等纬度区分)。

Evaluation

实验结果表明RelSUE在两个不同数据集上都显著好于现有的方法。

RelSUE的源码及用到的查询可以访问 http://ws.nju.edu.cn/relevance/relsue/.

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

 

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

 

来源:ACL 2017

链接:http://aclweb.org/anthology/P17-2057

 

本文提出将 Universal schema 用于自然语言问答中,通过引入记忆网络,将知识库与文本中大量的事实信息结合起来,构建出一个由问答对(question-answer pairs)训练得到的 end2end 模型。通过SPADES填空问答数据集上的评测可以看到,联合文本与知识库信息的策略,相对仅使用单一知识源取得了更好的问答效果,是目前性能最好的模型。

动机

作者认为,现有的问答方法主要利用单一知识库或是粗文本作为事实来源,两者均存在一定的局限性:基于知识库的方法,其性能主要受限于知识库知识的不完整性;粗文本虽然包含了海量事实信息,但呈现为非结构化形式,利用效率相对知识库较低。

Universalschema可以同时处理结构化的知识库信息及非结构化的粗文本信息,并在通用embedding空间中将它们对齐,这一性质使得结合文本与知识库信息用于问答成为可能。

方法

Universal schema

Universal schema 一般被用于处理知识库文本中的关系抽取问题,通过 entity pair 将粗文本规范化,而后得到实体之间的关系表示。这种关系可以是知识库的 relation,也可以是大语料中两个实体间存在的某种模式(pattern)。

利用这种方法,可以将粗文本中的“实体-关系-实体”通过模式的形式呈现出来,也就作为后一步 embedding 的基础。

 

Memory Networks

记忆神经网络就是在常规的 attention 模型基础上,添加额外的记忆信息保存和引用机制(memory slot),在知识问答中的一个常规用法是将知识库三元组放入记忆槽(slot)中,本文则是将文本获取到的实体模式也作为三元组放入其中。

 

Model Frame

 

整体的实验模型可以分为两个部分:

 

左侧是通过Universalschema将文本与知识库知识投影在一个通用空间中,作为融合知识存在,也就是模型的外部记忆信息。

 

右侧是问答处理机制,输入一个待填空的问句,通过双向LSTM整合为对应上下文向量,而后由一个循环的attention操作引入与该问题实体相关的三元组信息,不断更新该向量,最终得到与知识最相关的问题表示,而后利用softmax选出最相关答案实体,由此完成问答过程

实验

实验数据集

KB: Freebase

Text source:Clue Web

问答数据集:SPADES(填空问答数据集)包含 93K sentences 1.8M entities

 

实验设计

 

1.    仅使用文本知识的问答模型

2.    仅知识库知识问答模型

3.    文本+知识库知识问答模型:

a.    ENSEMBLE(采用线性模型关联1,2模型)

b.    UNISCHEMA(本文方法)

实验结果

表1:问答实验的结果显示本文方法相对Bisk et al.更优的性能。

 

表2:通过一些事实结果反应出本文方法引入的文本信息有效弥补了知识库知识的不足

 

论文笔记整理:谭亦鸣,东南大学博士,研究方向为知识库问答、自然语言处理。

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

 

链接:https://arxiv.org/pdf/1809.01341.pdf

动机(摘要)

当前的知识库补全的方法主要是将实体和关系嵌入到一个低维的向量空间,但是却只利用了知识库中的三元组结构 (<s,r,o>) 数据,而忽略了知识库中大量存在的文本,图片和数值信息。本文将三元组以及多模态数据一起嵌入到向量空间,不仅能够使链接预测更加准确,而且还能产生知识库中实体缺失的多模态数据。

亮点

通过不同的 encoders,将多模态数据嵌入成低维向量做链接预测

通过不同的 decoders,能够产生实体缺失的多模态数据

模型

1  多模态数据的嵌入

(1) 结构化数据:对于知识库中的实体,将他们的one-hot编码通过一个denselayer得到它们的embedding

(2) 文本:对于那些很短的文本,比如名字和标题,利用双向的GRUs编码字符;对于那些相对长的文本,通过CNN在词向量上卷积和池化得到最终编码。

(3) 图片:利用在ImageNet上预训练好的VGG网络,得到图片的embedding

(4) 数值信息:全连接网络,即通过一个从的映射,获得数值的embedding

(5) 训练:目标函数(cross-entropy):

其中:t^(s,r) 是一个one-hot向量。如果知识库中存在 <s, r, o> 这个三元组,t_o^(s,r) 值为1,否则 t_o^(s,r) 值为0。

p_o^(s,r)是 <s, r, o> 模型预测出来的这个三元组成立的概率,它的值介于0到1之间。

2  解码多模态数据

(1) 数值和类别信息:利用一个全连接网络,输入是已经训练好的向量,输出是数值和类别,损失函数是RMSE(数值)或者cross-entropy(类别)

(2) 文本:利用ARAE模型,输入是训练好的连续向量,输出是文本

(3) 图片:利用GAN模型来产生图片

 

实验

本文作者在 MovieLens-100k 和 YAGO-10 两个数据集上面引入了多模态数据,其中 MovieLens-100k 引入了用户信息文本,电影信息文本,电影海报;YAGO-10 也为实体引进了图片,文本,数值等信息。

1  链接预测:可以看到在引入了实体文本描述,图片和数值之后,利用之前的嵌入模型,达到了SOTA的效果

2  生成多模态数据:可以看到,引入了多模态数据之后,产生出来的文本和图片的质量比起仅仅依靠知识库原本就存在的三元组信息产生的文本和图片的质量要高。

 

总结

本文的创新点是引入了多模态数据来做知识库中的链接预测和生成实体缺失的多模态数据。但是不足之处在于不知道到底引入的哪一部分多模态数据对最终的链接预测产生提升,以及产生的多模态数据质量不是很理想。这有待于后续工作的改进。

 

论文笔记整理:康矫健,浙江大学硕士,研究方向为知识图谱、自然语言处理。

 

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

论文浅尝 | 对于知识图谱嵌入表示的几何形状理解

 

论文链接:http://anthology.aclweb.org/attachments/P/P18/P18-1012.Presentation.pdf

发表会议:ACL 2018

摘要

知识图谱的嵌入表示在近几年已经成为一个非常活跃的研究领域,众多相关方法相继被提出,这些嵌入方法是将知识图谱中的实体和关系表示成同一向量空间中的向量。虽然知识图谱的嵌入表示在各种任务中被广泛应用,但是对嵌入表示的几何理解尚未被探索,本文旨在填补这项空白。本文深入分析知识图谱嵌入表示的几何形状,并分析其与任务性能和其他超参数之间的关联。通过在真实数据集上进行广泛的实验,本文发现了一些值得注意的现象,例如不同类别的嵌入方法学习到的嵌入表示在几何形状上存在明显差异。

度量标准

1.     ATM

ATM(alignment to mean)是指向量集合 V 中的一个向量 v 与平均向量的余弦相似度。

2.     Conicity

Conicity是指向量集合 V 中所有向量 ATM 的平均值。

3.     VS

VS(vector spread)是指向量集合V中所有向量ATM的方差。

图1给出了一个实例来帮助理解这几个指标,图中是一个三维坐标系(展示的点是随机生成的),左图表示的是高锥度(conicity)和低向量分散度(VS)的情形,而右图表示的是低锥度和高向量分散度的情形。

4.     AVL

AVL(average vector length)是指向量集合V中所有向量的平均长度( L_2范数)。

实验分析

本文的主要考虑6个知识图谱的嵌入表示模型,并把6个方法分为两类。一类是加法(additive)模型,有TransE[2]、TransR[3]和STransE[4];另一类是乘法(multiplicative)模型,有DistMult[5]、HolE[6]和ComplEx[7]。同时,本文采用了两个常见数据集FB15K和WN18。本文主要从以下4个发现展开实验分析。

1.     模型类型对几何形状的影响

不同模型在实体向量的几何形状上存在明显差异。乘法模型的ATM值均为正值且向量分散度较低。加法模型此形成鲜明对比,加法模型的ATM值正负皆有且分布较为均衡,同时向量分散度较高。这说明乘法模型得到的嵌入向量不是均匀的分散在向量空间中,而加法模型得到的嵌入向量则是均匀的分散在向量空间中。

2.     反例数量对几何形状的影响

乘法模型的锥度(conicity)随着反例数量的增加而增大,而加法模型的锥度对反例数量不敏感。在平均向量长度(AVL)方面,乘法模型中的DistMult和ComplEx随着反例数量的增加而减小,HolE则几乎没有变化,这是因为HolE把实体向量限制在了单位球内。所有加法模型的AVL也对反例数量不敏感,而它们也有和HolE类似的限制。

3.     向量维数对几何形状的影响

随着向量维数的增加,乘法模型的锥度呈现出下降的趋势,而平均向量长度则呈现出上升趋势。加法模型的锥度和平均向量长度则对向量维数不敏感。

4.     几何形状与性能的联系

本实验以链接预测任务为例,采用与TransE相同的实验设定。当反例数量相同时,锥度小的乘法模型的性能更优;当反例数量增加时,乘法模型表现更好。加法模型的性能与锥度并无太大关系。在平均向量长度方面,对于除HolE之外的乘法模型而言,当反例数量一定时,平均向量长度越大性能越好;而对于加法模型和HolE而言,平均向量长度与性能的关系并不显著,这个现象是由于这些方法使用单位向量长度来限制嵌入向量所导致的。

参考

[1] Chandrahas, Aditya Sharma, Partha Talukdar: Towards Understanding the Geometry of Knowledge Graph Embeddings. ACL 2018: 122-131.

[2] Antoine Bordes, Nicolas Usunier, Alberto Garciaduran, Jason Weston, Oksana Yakhnenko: Translating Embeddings for Modeling Multi-relational Data. NIPS 2013: 2787-2795.

[3] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, Xuan Zhu: Learning entity and relation embeddings for knowledge graph completion. AAAI 2015: 2181-2187.

[4] Dat Quoc Nguyen, Kairit Sirts, Lizhen Qu, Mark Johnson: STransE: anovel embedding model of entities and relationships in knowledge bases.NAACL-HLT 2016: 460-466.

[5] Bishan Yang, Wentau Yih, Xiaodong He, Jianfeng Gao, Li Deng: Embedding Entities and Relations for Learning and Inference in Knowledge Bases. ICLR2015.

[6] Maximilian Nickel, Lorenzo Rosasco, Tomaso Poggio: Holographic embeddings of knowledge graphs. AAAI 2016: 1955-1961.

[7] Theo Trouillon, Johannes Welbl, Sebastian Riedel, Eric Gaussier, Guillaume Bouchard: Complex embeddings for simple link prediction. ICML 2016: 2071-2080.

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

论文浅尝 | 基于知识库的类型实体和关系的联合抽取

 

链接:http://hanj.cs.illinois.edu/pdf/www17_xren.pdf

GitHub项目地址:https://github.com/INK-USC/DS-RelationExtraction

动机

现有的利用远程监督进行实体关系抽取的方法中存在以下三个问题:

1、依赖事先训练的命名实体识别工具,而这些工具往往只能识别出少量特定类型的实体,从而限制了领域的扩展;

2、现有方法通常将实体识别和关系抽取分开进行,从而容易造成错误的累积。

3、在通过远程监督方式生成的训练数据中,含有大量的噪音数据,因为其在实体和关系的链接过程中均没有考虑到上下文关系。

贡献

该篇论文的主要贡献分为以下四点:

1、提出了一个新的利用远程监督进行实体关系抽取的框架CoType。

2、提出了一种领域无关的文本分割算法,用来进行文本中 entity mentions 的识别。

3、提出了一个联合嵌入目标函数,用来形式化建模mention-type之间的关联、mention-feature之间的共现关系、entity-relation之间的交叉约束关系。

4、在三个公开数据集上取得了state-of-the-art的效果。

问题定义

给定一个POS标注的语料库D,一个知识库Ψ,一个目标实体类型集合,一个目标关系类型集合,联合抽取的目标就是(1)从语料库D中识别出entity mentions M;(2)利用知识库Ψ生成训练数据;(3)利用和上下文,预测每一个relation mentions的关系类型,以及 entity mentions的实体类型。

方法

模型框架图如下图所示,其方法主要分为四个部分:

1、使用文章中提出的 POS 约束的文本分割算法对POS标注的语料库D进行实体识别,识别出 entity mentions M。

2、从M中生成候选 relation mentions Z,并对每一个 relation mention 进行文本特征抽取,抽取的文本特征见下文。

3、通过联合嵌入,将 entity mentions、relation mentions、文本特征、实体关系类型嵌入到两个空间中去(实体空间以及关系空间),使得在每一个空间中,距离比较近的object拥有比较近的类型。

4、通过学习好之后的嵌入空间,评估测试集中每一个 relation mention 的关系类型以及每一个entity mention m 的实体类型。

1、    Entity Mention 抽取

文章提出了一种领域无关的文本分割算法,他的方法是通过计算切片质量函数来衡量这个片段是一个entity mention的概率,该切片质量函数由短语质量和POSpattern质量组成,并利用 D_L 数据来训练该模型的参数。

其工作流程主要分为以下四步:

  1. 从语料库 D 中挖掘频繁共同模板,包括短语模板和词性模板,并通过设置阈值的方式,进行模板的初步筛选。
  2. 从语料级别的一致性和句子级别的词性特征抽取特征训练两个随机森林分类模型,用于评估候选的短语模板和词性模板的分值。
  3. 根据目前的特征权重参数,找到切片质量函数得分最高的片段切割方式。
  4. 计算修正特征,更正参数,不断迭代2-4步,直到收敛。

切片评估函数如下:

2、    Relation Mention 抽取

方法如下,对于来自一个句子s的实体对 (m_a,m_b),构建两个候选relation mentions z_1=(m_a,m_b,s) 和 z_2=(m_b,m_a,s)。在抽取30%无法链接到KB的relation mentions作为反例(None relationlabel),抽取30%无法链接的entitymentions建模None entity label。然后对relationmention 进行文本特征抽取,文本特征如下。

3、    实体和关系的联合嵌入

该部分方法主要包含三个部分:

  1. 通过一个margin-base的loss函数来建模由噪音的mention-type之间的关系。
  2. 通过一个second-order proximity idea来建模mention-feature之间的贡献。
  3. 通过translation based embedding loss思想来建模实体-关系之间的约束关系。

3.1建模Relation Mentions

假设1:对于两个relation mentions,如果他们共享的文本特征越多,那么他们则更可能具有相似的类别,即在低维空间中比较接近,反之亦然。

形式化的说,文章应用second-orderproximity来建模该假设。

z_i 表示relation mention向量,c_j 表示文本特征向量。p(f_j |z_i) 表示由 z_i 生成 c_j 的概率。w_ij 表示语料库 D 中 (z_i,c_j) 的共现频率。

在基于远程监督生成的训练数据中,一个 relation mention 对应多个候选关系类型,基于假设1,可能会产生不同类型的mention具有相似的低维向量表示。因此需要将relation mention和它候选的标签之间关系是否是真的加入到模型之中,从而提出了假设2。

假设2:一个relation mention在低维空间中应该同它最可能的候选类型比较接近。

形式化定义如下,

Φ(z_i,r’ )表示relation 和关系 r’ 之间的点积。

最终,建模relation mentions的目标函数如下所示:

3.2 建模Entity Mentions

Entity Mentions 建模过程如 Relation Mentions 几乎相同,其目标函数如下。

3.3 建模Entity和Relation之间的交互

假设3:对于一个relation mention z={m1,m2,s},m1的嵌入向量应该近似于m2的嵌入向量加上z的词嵌入向量。

形式化如下所示,

4、    联合优化问题

将上诉三个损失函相加,求他们的最小值。

文章中使用了次梯度方法来求解该联合优化问题,算法如下图所示。

5、    模型推断

在进行推断的过程中,对于关系类别,采用最近邻的方式查找,对于实体的类别,采用自顶向下的方式查找。在查找的过程中,利用特征来表示mention,计算mention的嵌入向量同实体类别和关系类别的相似度即可。

实验

作者在NYT、Wiki-KBP、BioInfer三个数据集上,对实体类型识别、关系分类、关系抽取三个任务进行了实验,取得了比较好的结果。

 

(1)数据集

(2)实验结果

总结

文本提出了一种领域无关的利用知识库通过远程监督方式进行关系抽取的模型框架,包括了一种领域无关的文本分割算法用于识别实体,一个联合嵌入目标函数用来形式化建模 mention-type之间的关联、mention-feature之间的共现关系、entity-relation 之间的交叉约束关系。

 

论文笔记整理:王狄烽,南京大学硕士,研究方向为知识图谱、知识获取。

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。