论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

 

论文笔记整理:郝凯龙,南京大学硕士

链接:https://www.aclweb.org/anthology/P19-1522.pdf

动机

传统的 ACE 事件抽取任务依赖于人工标注的数据,耗费大量的人力并且数据量有限,数据量不足给事件抽取带来了阻碍。传统的事件抽取不能解决 role overlap 角色重叠的问题。PLMEE 模型通过对不同的角色分别进行 augument prediction 论元预测解决了角色重叠问题。另外,论文提出了一种利用BERT生成训练数据的方法,并证明有效。在 ACE2005 数据集上,超过了 state-of-the-art 的结果,将触发词分类和论元分类的 F1 值分别提高到了 81.1 和 58.9。

亮点

PLMEE 的亮点主要包括:

(1)解决了一个论元扮演多个角色即角色重叠问题,通过对不同的角色构建多个分类器的方式。例如“The explosion killed thebomber and three shopers”在这句话中,bomber既是Attacker也是Victim。

(2)提出了利用BERT生成训练数据的方法,并证明方法有效。

概念及模型

  • 事件抽取

事件抽取分为触发词抽取、论元抽取、论元范围检测、损失函数重写

1.    触发词抽取

将触发词抽取建模为多分类问题,在BERT后添加MLP做分类,用cross-entropy作为损失函数。

2.    论元抽取

对于每一个token有多组二分类器,每个分类器决定改token是否为对应role的开头或结尾。通过这种方式,一个token/argument可以是多个role,可解决role overlap问题。

3.    论元范围检测

利用一个有限自动机,进行短语的检测,可以表示成下图:

尽可能的选择概率更高的token作为argument的开头和结尾。并且可以为一个role检测出多个argument。

4.    损失函数重写

按照TF-IDF的方式,计算不同role的重要程度,作为weight。

r表示role,即角色。v 代表某一事件类型,V代表所有事件类型集合。

对RF-IEF规范化,得到I(r, v)代表对于事件v角色r的重要程度。

Ls表示start,即论元开头的loss;Le表示end的损失。两者求和为最终的损失函数。

  • 事件生成

首先在数据集中进行论元收集,将角色相同并且上下文相似的token/phrase构成集合,如上图框中示例。

对于句子,对其中的argument论元,在构建的相似集合中随机选择进行替换。

对于触发词和论元以外的词,即附加词,利用bert进行[mask]遮掩,利用BERT预测的结果作为替换。

 

最后得到打分函数,用于筛选生成数据。

理论分析

实验

1.     实验结果

作者采用了相较于以往方法更严苛的评判标准。

但是实验的结果依然是极好的,对于Trigger Identification触发词检测和Trigger Classification触发词分类甚至提升了10%

 

1.     触发词只有类型和范围均检测正确,才认为结果正确

2.     论元只有范围正确,并且所有的role overlap重叠角色均被检测出来,才认为结果正确。

总结

本文利用预训练语言模型,对事件抽取证明有极大的提高,说明 BERT 得到的 embedding 蕴含的语义信息是非常有意义的。另外,采用 BERT 生成数据也是一种不错的思路。对于 role overlap 等问题,论文提出了一种基于多分类器的改进方式。

 

 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

公开课 | 知识图谱构建与应用概述

 

 

本文转载自公众号:博文视点Broadview。

 

AI是新的生产力,知识图谱是AI进步的阶梯。随着近年来人工智能的进一步发展,知识图谱也取得了一系列新的进展,并在各个行业中落地应用。

知识图谱的相关技术已经在搜索引擎、智能问答、语言理解、推荐计算、大数据决策分析等众多领域得到广泛的实际应用。近年来,随着自然语言处理、深度学习、图数据处理等众多领域的飞速发展,知识图谱在自动化知识获取、知识表示学习与推理、大规模图挖掘与分析等领域又取得了很多新进展。知识图谱已经成为实现认知层面的人工智能不可或缺的重要技术之一。

可是,知识图谱是较为典型的交叉领域,涉及了知识工程、自然语言处理、机器学习、图数据库等多个领域。而知识图谱的构建及应用涉及更多细分领域的一系列关键技术,包括:知识建模、关系抽取、图存储、自动推理、图谱表示学习、语义搜索、智能问答、图计算分析等。做好知识图谱需要系统掌握和应用这些分属多个领域的技术。

在知识图谱、问答系统和聊天机器人等诸多领域有丰富的研发经验的王昊奋老师将为大家带来技术公开课——

▶ 知识图谱构建与应用概述 ◀

时间:11月7日 晚19:00

知识图谱领军人物亲自授课,用丰富的实战案例帮助你深度剖析知识图谱现状,把握未来趋势!

▶ 本课程将为你带来:

  • 知识图谱概述
  • 行业知识图谱构建流程及关键技术
  • 行业+知识图谱 构建及应用案例
  • 知识图谱未来发展及趋势

▶ 本课程适合谁:

  • 希望学习知识图谱的学生
  • 希望了解知识图谱实战技术的IT从业人员
  • 未来希望成为知识图谱工程师的求职者
  • 想在知识图谱方向进行深入研究者

▶ 通过课程你将收获:

  • 清晰的知识图谱构建框架和知识点,帮助你系统掌握相关技术,能够从整体、全局和系统的视角看待和应用知识图谱技术
  • 为知识图谱应用开发人员提供参考

▲ 扫码免费报名,直播不迷路 ▲

▊ 关于讲师

王昊奋

上海交通大学计算机博士,同济大学特聘研究员,博导。全球最大的中文开放知识图谱联盟OpenKG发起人之一、CCF理事、CCF术语审定工委主任、CCF TF执委、中文信息学会语言与知识计算专委会副秘书长、上海交通大学校友会AI分会秘书长。在知识图谱、问答系统和聊天机器人等诸多领域有丰富的研发经验。

▊ 课程福利

本次分享完全免费,参与直播 #邀请打榜# 、#答疑提问# 环节,有机会赢取重磅新书《知识图谱:方法、实践与应用》一本!

揭秘知识图谱全生命周期技术

探索垂直领域知识图谱构建方法与应用落地

促进人工智能从感知时代向认知时代跨越

▼点击阅读原文,了解《知识图谱:方法、实践与应用》详情!

 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

参会邀请 | 第 9 届国际语义技术联合会议

第 9 届国际语义技术联合会议(JIST2019)将于 11 月 25 日至 27 日在杭州召开,本届会议的主题是“Open Web and Knowledge Graph”。国际语义技术联合会议是亚洲重要且有影响力的学术会议,主要聚焦语义网、知识图谱、本体、链接数据等面向互联网的人工智能技术。本届会议吸引了来自学术界和工业界的许多高质量投稿,现在组委会已经精心安排好了会议内容,包括三个国际顶尖学者的keynotes,三个实战性tutorials,以及poster,demo,research paper等会议环节,此外还将在25日举办OpenKG特别论坛(免费开放),邀请来自中日韩欧知名专家就知识图谱发展前沿展开讨论,欢迎大家参加!

继续阅读“参会邀请 | 第 9 届国际语义技术联合会议”

论文浅尝 | 通过依赖预测和信息流控制提高关系提取的跨领域性能

 

论文笔记整理:王狄烽,南京大学硕士,研究方向为知识图谱、知识库补全。

链接:https://arxiv.org/abs/1907.03230

动机

现有关系抽取模型中利用依赖树信息的方式主要是通过沿着依赖关系树的结构引导其计算来利用依赖树结构信息,其存在至少以下两点问题:

1、模型中的信息流仅限于树的结构,因此依赖树在模型中的直接应用可能无法捕获超出此依赖树结构覆盖范围之外的重要的上下文信息。如图一中所示,对于实体“he”和“Cane Mike”,两者最短路径中忽略了“not”这个重要的上下文信息,从而可能导致关系分类错误。

图1

2、在跨领域场景中,训练数据和测试数据的句子来自于不同的领域,训练数据的依赖树结构和测试数据中的依赖树结构可能存在较大的差异。如果使用训练数据的结构对模型进行训练,则可能无法将其推广到测试数据的依赖结构中,从而导致跨领域场景下模型性能不佳。

相关工作

现有的深度学习模型中利用依赖树结构信息的方式主要有以下四种:

1、赖树化简为实体之间的最短依赖路径;

2、实体的最低公共祖先下方的依赖树或者子树执行自下而上或自上而下的计算;

3、TreeLSTM:直接将依赖树作为输入。

4、GCN:使用图卷积网络来学习依赖树结构信息。

贡献

1、本文提出了一种新的基于依赖关系预测任务的利用依赖树结构信息的方法,该方法能够避免以往利用依赖树方式的缺陷。

2、本文提出了一种新的控制机制来控制句子中每个单词的特征表示,以为关系抽取任务定制化每个word的表示。

3、在多个公开数据集上取得了state-of-the-art的效果。

方法

1、依赖关系预测任务

引入依赖关系预测任务,通过预测句子中任两个词之间是否存在依赖关系,使得词的向量表示捕捉到依赖树结构信息。通过该种方式利用依赖树信息,间接的使用依赖关系结构来鼓励其表示能够兼顾语义和结构表示,且更加泛化。

2、控制机制

通过控制机制定制化每个词的表示,具体来说,通过两个实体的向量生成控制向量,基于控制向量将每个词向量中移除不相关的信息,从而使得每个词的表示和RE任务相关。

模型

模型主体由三部分组成:(1)表示学习:基于依赖树结构信息和上下文语义信息为每个词学习得到特征表示。(2)表示控制:基于两个entity mention决定每个词的表示中哪一个维度的特征用于最终的关系预测的表示。(3)关系预测:基于最终词的表示,预测两个entity mention之间的关系。

1、表示学习

1.1 词初始化表示

对于句子中的每个词 x_i,其初始化表示,由7个向量拼接而成。

其中,e_i是预训练的词向量表示。po_i 和 ps_i 的该词距离两个实体 mention 距离的向量表示。t_i 和 c_i 是词 x_i 在 BIO 标签体系上实体信息和分词信息的向量表示。p_i是表示该词 x_i 是否在两个entity mention最短依赖路径上的二元表示,1表示在,0表示不在。g_i 是该词拥有的依赖关系种类的one-hot表示。

1.2 上下文表示

w_i 仅捕捉了当前词的信息,为了捕捉句子中丰富的上下文信息,本文使用BiLSTM模型捕获上下文信息,最终将隐藏层向量作为该句子中每个token的上下文表示。

1.3 Self-Attention Representation

通过BiLSTM获取的上下文表示依旧存在长距离信息丢失情况,为了解决该问题,本文使用自注意力机制,使得每个词可以直接贡献向量表示到其他词中,其主要公式如下。

最终,我们获取得到自注意力表示

1.4依赖关系预测

当前自注意力表示 仅捕获了上下文的语义特征,通过依赖关系预测任务,使得其表示能够捕获依赖结构树特征信息。其具体做法如下:

给定句子中两个词 x_i 和 x_j,我们首先计算这两个词之间在依赖树结构中存在边的概率 ,其计算公式为:

最终通过最大化似然概率使得捕获得到依赖树结构化信息。

2、表示控制

除了间接使用依赖关系树之外,本为针对RE任务引入了一种新的控制机制,该机制根据两个实体mention 感兴趣的内容来调整token的表示。其主要原理来自两个方面:

(1)对于RE任务,两个实体mention的信息是至关重要的,因此每个word的最终有效的表示应该仅保留和这两个实体mention相关的信息,控制机制能够对每个word的表示起到信息过滤的作用。

(2)在注意力机制中,我们为每个单词计算了权重,但是假设每个单词的表示向量中每个维度/特征的权重是相同的。然而,在实践中,如果我们可以调节各个维度/特征,则可能更加灵活,因此通过控制机制,对于每个word的表示调整各维度特征信息,控制机制将有助于量化每个维度/特征的贡献。

本文,将控制机制同时应用到了上下文表示 H 和自注意力表示 H’,其做法如下。

首先,对于上下文表示 H。我们首先利用首尾实体 x_s 和 x_o 的上下文表示生成控制向量p

然后我们将控制向量作用到每个word的上下文向量中,获取过滤之后的向量表示。

接着,对于自注意力表示。我们利用首尾实体 x_s 和 x_o 的上下文表示和向量生成控制向量c,具体公式为。

其过滤后的向量表示为

3、关系预测

最终本文利用学习得到的多种向量信息,进行最终的关系预测。

实验

最终,本文在ACE2005的数据集上进行了跨领域设定下关系抽取任务,结果表明了该模型的有效性。

总结

文本提出了一种领域无关/跨领域的一种新的利用依赖树结构信息的方式来进行关系抽取,即依赖关系预测任务,同时提出了一种信息控制机制,使得每个词的向量表示根据RE任务实现定制化,最终模型在多个公开数据集上取得了state-of-art的效果。

 

 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。