论文动态 | 基于知识图谱的问答系统关键技术研究 #03

 本文转载自 PaperWeekly 公众号,作者为崔万云复旦大学知识工场实验室博士生,研究方向为问答系统和知识图谱。


第 5 节 复杂问题回答

这一节详细阐述如何回答复杂问题。首先第 5.1. 节将问题形式化为一个最优化问题。第 5.2. 节和第 5.3. 节分别阐述优化量度和算法。

5.1. 问题陈述

本节着重关注由一系列 BFQ 组成的复杂问题,例如表 1.1 中的问题 ○f 可以被分解为两个 BFQ:(1) BarackObama’swife (MichelleObama);(2) WhenwasMichelleObama born? (1964 年)。显然,第二个问题的答案依赖于第一个问题的答案。在解答复杂问题时,分而治之框架可以自然而然地被利用:(1) 系统首先把问题分解为一系列 BFQ,(2) 然后系统依次回答每个问题。既然在第 3 节已经给出了如何回答 BFQ,那么这一节中的关键步骤就是问题分解。

继续阅读“论文动态 | 基于知识图谱的问答系统关键技术研究 #03”

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

本文转载自 PaperWeekly 公众号,作者为崔万云复旦大学知识工场实验室博士生,研究方向为问答系统和知识图谱。


第五章 从问答语料库和知识图谱学习问答

问答系统(QA)已经成为人类访问十亿级知识图谱的流行方式。与网络搜索不同,在自然语言问题能够被精确地理解和映射到知识图谱上的结构化查询的前提下,基于知识图谱的问答系统将给出准确且简洁的结果。这其中的挑战是人类可以以许多不同的方式提出同一询问。现有的解决方案由于它们的模型表示而有着天然的缺陷:基于规则的实现只能理解一小部分的问题,而基于关键词或同义词的实现不能完整地理解问题。在十亿规模的知识图谱和百万规模的问答语料库的基础上,本章设计了一种新的问题表现形式:问题模板。例如,对于一个关于某个城市人口数目的问题,可以学习到诸如 what is the total number of people in $city? 或 how many people are there in $city? 这样的问题模板。本章共为 2782 种关系学习了约两千七百万种模板。基于这些模板,本章设计的问答系统 KBQA 能够有效地支持二元事实型问题,以及由一系列二元事实型问题组合而成的复杂问题。此外,通过将 RDF 知识图谱进行属性扩展,知识图谱的覆盖范围提高了 57 倍。在 QALD 标准测试集上,KBQA 系统在有效性和效率上击败了其他所有竞争对手。

继续阅读“论文动态 | 基于知识图谱的问答系统关键技术研究 #02”

论文动态 | 基于知识图谱的问答系统关键技术研究 #01

本文转载自公众号 PaperWeekly,作者为复旦大学知识工场实验室博士生崔万云,研究方向为问答系统和知识图谱。


 

第一章 绪论


第 1 节 问答系统背景介绍

2011 年 10 月 14 日,苹果公司在其 iPhone 4S 发布会上隆重推出新一代智能个人助理 Siri。Siri 通过自然语言的交互形式实现问答、结果推荐、手机操作等功能,并集成进 iOS 5 及之后版本。2012 年 7 月 9 日,谷歌发布智能个人助理 Google Now,通过自然语言交互的方式提供页面搜索、自动指令等功能。2014 年 4 月 2 日,微软发布同类产品 Cortana,2014 年 10 月,亚马逊发布同类产品 Alexa。在此之前的 2011 年 9 月,由 IBM 研发的 Watson 机器人参加智力问答节目“Jeopardy!”,并战胜该节目的前冠军 Brad Rut- ter 和 Ken Jennings,豪取一百万美金大奖。

继续阅读“论文动态 | 基于知识图谱的问答系统关键技术研究 #01”

论文动态 | WWW2017 的语义和知识相关论文总结

本文作者张文,浙大在读博士生,研究兴趣为知识库的分布式表示和学习,自然语言理解和常识推理。

2017 年 4 月 3 日至 8 日,第 26 届国际万维网会议(26th International World Wide Web Conference) 在澳大利亚珀斯顺利举行,本届大会共收到 966 篇论文投稿,比去年增长了 33%,大会最终录用 164 篇论文,录用率为 17%。不同主题下的收录论文数量如下表所示:

本文主要介绍总结一下 WWW2017 中语义和知识相关的论文,一共 9 篇文章。

继续阅读“论文动态 | WWW2017 的语义和知识相关论文总结”

论文动态 | 基于知识图谱的问答系统关键技术研究 #04

本文转载自公众号 PaperWeekly。

作者丨崔万云

学校丨复旦大学博士

研究方向丨问答系统,知识图谱

领域问答的基础在于领域知识图谱。对于特定领域,其高质量、结构化的知识往往是不存在,或者是极少的。本章希望从一般文本描述中抽取富含知识的句子,并将其结构化,作为问答系统的知识源。特别的,对于不同的领域,其“知识”的含义是不一样的。有些数据对于某一领域是关键知识,而对于另一领域则可能毫无意义。传统的知识提取方法没有考虑具体领域特征。
继续阅读“论文动态 | 基于知识图谱的问答系统关键技术研究 #04”

基于新标注模式的实体和关系联合抽取方法 | 论文访谈间 #07


「论文访谈间」是由 PaperWeekly 和中国中文信息学会青工委联合发起的论文报道栏目,旨在让国内优质论文得到更多关注和认可。 
这是第 7 期「论文访谈间」


论文作者 | 郑孙聪,王峰,包红云,郝悦星,周鹏,徐波

(中科院自动化研究所)

特约记者 | 钟世敏(西华大学)



本期论文访谈间我们将以“川普百科信息抽取”为例,来向大家介绍来自中科院自动化研究所的郑孙聪同学,王峰同学,包红云老师,郝悦星同学,周鹏同学,徐波老师的相关工作。他们的论文“Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme”发表在今年的 ACL 2017 上,并被评为 ACL 2017 杰出论文。


实体和关系的联合抽取问题作为信息抽取的关键任务,其实现方法可以简单分为两类:一类是串联抽取方法。另一类是联合抽取方法。串联抽取方法将该问题分解为两个串联的子任务,即先采用实体识别模型抽取实体,再采用关系抽取模型得到实体对之间的关系,其优势是便于单独优化实体识别任务和关系抽取任务,但缺点是它们以获取三元组的中间产物(实体或者关系类型)为目标,而实体识别的结果会进一步影响关系抽取的结果,导致误差累积。不同于串联抽取方法,联合抽取方法使用一个模型同时抽取实体及其关系,能够更好的整合实体及其关系之间的信息。但现有的联合抽取方法也存在诸多问题,比如:大部分的联合抽取模型需要人工参与构建特征;基于 end to end 的联合抽取模型,因在模型实现过程中分开抽取实体及其关系而导致信息冗余等问题。近期郑孙聪同学,王峰同学,包红云老师,郝悦星同学,周鹏同学,徐波老师在论文“Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme”中提出了一个新的模型框架来解决此类问题,并在公开数据集 NYT 上取得了很好的效果。


接下来我们先来看看该模型能够干些什么。如下图,模型的输入为一句非结构化的文本,输出为一个预定义关系类型的三元组。


为了实现该任务,作者首先提出了一种新的标注模式,将信息抽取任务转化为序列标注任务。如下图:



标注模式将文本中的词分为两类,第一类代表与抽取结果无关的词,用标签”O”来表示。第二类代表与抽取结果相关的词,这一类词的标签由三部分组成:当前词在 entity中的位置–关系类型–entity 在关系中的角色。作者使用“BIES”(Begin,Inside,End,Single)标注,来表示当前词在 entity 中的位置。而关系类型则是从预先设定的关系类型集中获得的。entity  在关系中的角色信息,用“1”,2”来表示。其中1”表示,当前词属于三元组(Entity1,RelationType,Entity2)的 Entity1,同理”2”表示,当前词属于 Entity2。最后根据标注结果将同种关系类型的两个相邻顺序实体组合为一个三元组。例如:通过标注标签可知,United”与States”组合形成了实体United States”,实体United States”与实体Trump”组合成了三元组 {United States, Country-President, Trump}。


当输入为文本语句的时候,如何自动实现对文本词序列的标注工作呢?接下来作者提出了一个端到端的模型来实现了该工作。模型结构如下图:



其中:


  • 词嵌入层将每个词的 one-hot 表示向量转化为低维稠密的词嵌入向量(维度为 300) 

  • Bi-LSTM 编码层(层数为 300)用于获得词的编码信息

  • LSTM 解码层(层数为 600)用于产生标签序列。其中加入偏移损失来增强实体标签的关联性


对话作者


关于新标注模式的适用性,作者认为本论文主要考虑一个词只属于一个三元组的情况,对于三元组重叠问题,即多个三元组都包含同一个词的情况,将在以后的工作中进行探讨。当说到关系数量增多导致标签总数大幅度增加,是否对输出层有影响的问题时,作者向我们解释到,关系数量增多会导致输出层的标签总数增加,对结果会有影响,如果训练集足够丰富本模型任然可以表现出很好的效果。


关于模型与实验,在实验部分作者将本模型(LSTM-LSTM-Bias)与经典模型(LSTM-CRF,LSTM-LSTM)进行比较,根据实验结果作者分析到,CRF 旨在最大化整个标签序列的联合概率,LSTM 能够学习序列元素之间的长距离依赖关系。由于关联标签之间可能彼此具有较长距离,所以基于 LSTM 的解码方式比 CRF 稍好。LSTM-LSTM-Bias 增加了偏置权重以增强特殊标签的作用,并削弱无效标签的影响。因此,它可以获得比常见端对端模型更好地效果。此外,由于关联实体对在文本中的位置是随机的,难以用一个固定结构的模型来增强二者之间的联系,目前想到的思路是通过设计有效地目标函数来增强实体对标签之间的关联性。此外,如何记录已经预测出来的特殊标签信息并用于辅助预测下一个关联标签,目前也没还没想到比较好的思路。


关于模型的应用场景,作者说到,从任务的应用背景回答,该模型可以用于丰富已有的知识图谱资源。如今各种智能化应用,如:自动问答、智能搜索、个性化推荐等,都需要知识图谱的支撑。为推动各领域智能化应用的发展,需要不断的去丰富和完善已有的知识图谱。不断涌现的网络文本数据中存在着大量的知识信息,基于人工整理的方式的成本太高,而且也难以跟上知识出现的步伐。因此,本文方法作为一种从非结构化文本数据中自动化地抽取实体以及他们之间关系进而形成结构化信息的技术,对丰富已有知识资源具有着十分重要的意义。


欢迎点击「阅读原文」查看论文:

Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme


关于中国中文信息学会青工委


中国中文信息学会青年工作委员会是中国中文信息学会的下属学术组织,专门面向全国中文信息处理领域的青年学者和学生开展工作。


关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


点击 | 阅读原文 | 查看论文