论文浅尝 | 神经网络与非神经网络简单知识问答方法的强基线分析

 

来源:NAACL 2018

链接:http://aclweb.org/anthology/N18-2047

本文关注任务为面向简单问题的知识库问答(仅用KB中的一个事实就能回答问题)。作者将任务划分为实体检测,实体链接,关系预测与证据整合,探究了简单的强基线。通过基于SIMPLEQUEST IONS数据集上的实验,作者发现基本的LSTM或者GRU加上一些启发式方法就能够在精确度上接近当前最优,并且在没有使用神经网络的情况下依然取得相当不错的性能。这些结果反映出前人工作中,某些基于复杂神经网络方法表现出不必要的复杂性。

动机

近期的简单知识库问答工作中,随着神经网络模型复杂性的增加,性能也随之提升。作者认为这种趋势可能带来对网络结构有效性理解的缺失, Melis等人的研究也佐证了这一点。他们发现,标准的LSTM通过适当的调参,就可以得到堪比最新网络模型的性能。

从这一观点出发,作者尝试去除不必要的复杂结构,直到获得一个尽可能简单但是性能优异的模型

方法

实体检测(Entity Detection)

实体检测的目标是确认问题相关的实体,可以抽象为序列标注问题,即识别问题中的每个字符是否是实体。考虑到涉及序列处理,采用RNN是相对流行的做法。

在神经网络策略上,作者以问句的词嵌入矩阵作为输入,在双向LSTM和GRU上进行实验。(因为是构建baseline,作者并未在网络模型上添加CRF层)

非神经网络方法则选用CRF(特征包括:词位置信息,词性标注,n-gram等等)

通过实体检测,可以得到表达实体的一系列关键词(字符)

 

实体链接(Entity Linking)

作者将实体链接抽象为模糊字符串匹配问题,并未使用神经网络方法。

对于知识库中的所有实体,作者预先构造了知识库实体名称n-gram的倒排索引,在实体链接时,作者生成所有候选实体文本相应的n-gram,并在倒排索引中查找和匹配它们(策略是优先匹配较大粒度的n-gram)。

获取到可能的实体列表后,采用Levenshtein Distance进行排序筛选。

 

关系预测(Relation Prediction)

关系预测的目标是确定问题所问的关系信息,作者将其抽象为句子分类问题。对于这个子任务,作者在神经网络方法分别尝试了RNN与CNN两种。

RNNs:与实体检测类似,作者也采用双向RNN与GRU构建模型,并仅依据隐状态作为证据进行分类,其他与目标检测模型一致。

CNNs:这里引用Kim等人(2014)的工作,简化为单通道,使用2-4宽度做特征映射。

非神经网络方法则采用了逻辑回归策略(Logistic Regression),特征方面选择了两组,其一是tfidf与bi-gram,其二是词嵌入与关系词。

 

证据整合(Evidence Integration)

该任务的目标是从前面生成的m个候选实体与n个关系中选出(m!=n)一个实体-关系组合。

作者首先生成m*n个候选组合,考虑到实体检测和关系预测是相对独立的模型,这意味着很多组合意义不大,可以做初步消除。

在组合打分策略上,考虑到知识库中相同的共享节点,比如所有姓名为“亚当斯密”的人,作者对出现频率过高的实体进行打分限制。

实验

对比实验基于 SIMPLEQUESTIONS数据集,并划分数据规模:训练集75.9K,验证集10.8K,测试集21.7K。

作者进行了实体链接,关系预测和end2end问答三组实验:

从各组实验的结果可以发现,本文建立的基础结构模型所得到的baseline在三个任务中,均超过了部分较新的工作。

总结

实验结果有效验证了作者的观点,基本的LSTM或者GRU通过有效的调试,能够在精确度上接近当前最优,而非神经网络方法配合新的特征组合也能够取得相当不错的性能。

 

论文笔记整理:谭亦鸣,东南大学博士,研究方向为知识库问答、自然语言处理。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注