论文浅尝 | TEQUILA: 一种面向时间信息的知识问答方法

 

来源:CIKM’18

链接:http://delivery.acm.org/10.1145/3270000/3269247/p1807-jia.pdf?ip=223.3.116.39&id=3269247&acc=ACTIVE%20SERVICE&key=BF85BBA5741FDC6E%2EEEBE655830483280%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35&__acm__=1547881906_e38f5a0b3bce785723b910b5c87affd7

本文是发表在CIKM’18的短文,关注有时间信息的复杂知识库问答工作。文章提出使用TimeML(一种时间相关的标注语言)对问题进行标注,在识别时间相关问题后,根据时间特征将复杂问题改写为多个时序相关的子问题,通过与现有的知识问答系统相关联,实现带有时间信息的复杂问答。

动机

与简单问题的处理方式不同,复杂问答一般会将原问题划分为多个子问题,而后合并问题答案。作者发现,复杂问题中一个需要解决的重要问题是时间信息的获取。以下面三个问题为例:

Q1: “Which teams did Neymar play for before joiningPSG?”

Q2: “Under which coaches did Neymar play inBarcelona?”

Q3: “After whom did Neymar’s sister choose her lastname?”

 

在Q1中,没有明确的日期或者时间被提到,我们可以识别“joining PSG”代表了一个事件,然后通过它转换为一个标准的时间信息。而句子中的“before”则提供了另一个时间相关的线索,但是类似于“before, after”这样的词并不总是在句子中承担这样的角色,比如Q3中的“after”。

在Q2中,我们看不到类似Q1的时间依赖表达,但是“Neymar play in Barcelona”中依然包含了时间信息。

 

因此可以发现,处理带有时序信息的复杂问题面对的第一个挑战就是:如何从问句中识别时间信息;

随之产生的第二个挑战则是:如何根据时间信息将问题分解为时序相关的子问题;

方法

本文方法的关键过程是:1.分解问题;2.重写子问题

大体的目标如下:

还是以前面的问句为例

Q1: “Which teams did Neymar play for before joiningPSG”

改写得到子问题Q2.1, Q2.2

Q1.1: “Which teams did Neymar play for?”

Q1.2: “When did Neymar join PSG?”

而后在问答过程中,通过Q2.1,从知识库中得到答案及时间范围,再与Q2.2得到的时间相匹配,从而找到Q2的答案。

 

为了达到上述目的,本文提出一种基于规则的四步框架:

  1. 识别包含时间信息的问题
  2. 分解问题并重写子问题
  3. 获取子问题答案
  4. 根据时间证据自合子问题答案

规则设计:

本文构建的规则以TimeML(一种标注语言)为理论基础,用于识别句子及文本中的时间信息。

标签提供了以下信息:

TIMEX3 tag,反映四类时间表达:

SIGNAL tag,反映时间表达标签之间的关系(用于切分子问题)

 

规则定义:

包含时间信息的问题:即出现了时间信息表达或时间信息关系的问句(标签能在问句中标出内容)

时间关系:Allen(J. F.Allen. 1990. Maintaining knowledge about temporal intervals. In Readings inqualitative reasoning about physical systems. Elsevier)定义了13种时间关系,EQUAL, BEFORE,MEETS, OVERLAPS, DURING, STARTS, FINISHES。

 

表1列举了子问题重写规则。回答子问题时,对于包含时间信息的子问题需要检索可能的时间范围

实验

本文实验评估基于 TempQuestions benchmark,其中包含1271个时间相关问题,并使用三个目前最好的KBQA系统作为baseline:AQQU [6], QUINT [2] (code from authors for both), and Bao et al. [4]。在实验中,作者将框架与问答系统整合到一起,构成对比模型。

实验结果反映出添加框架的问答系统的提升主要表现为F1与准确率的上升。

总结

本文提出了一种基于时间信息标注的规则型时序复杂问答框架,主要以时间信息的规则标注概念为基础,将复杂问题的切分过程转换为序列标注问题,并对已有人工规则加以利用,构建时序信息间的关系。框架整体比较简明,从规则角度看,还需要做部分深入阅读方能较好理解该方法是否具有较好的泛化性。

 

论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识问答,自然语言处理,机器翻译

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注