论文动态 | WWW2017 的语义和知识相关论文总结

本文作者张文,浙大在读博士生,研究兴趣为知识库的分布式表示和学习,自然语言理解和常识推理。

2017 年 4 月 3 日至 8 日,第 26 届国际万维网会议(26th International World Wide Web Conference) 在澳大利亚珀斯顺利举行,本届大会共收到 966 篇论文投稿,比去年增长了 33%,大会最终录用 164 篇论文,录用率为 17%。不同主题下的收录论文数量如下表所示:

本文主要介绍总结一下 WWW2017 中语义和知识相关的论文,一共 9 篇文章。

在 WWW2017 的 Semantic and Knowledge 主题下共有 5 篇文章,分别涉及语义和知识的五个不同方面,包含在线本体使用的用户行为分析、RDF 查询、结合社交网络的实体挖掘、特殊知识库的构建以及知识追踪。下面分别介绍一下这五篇文章。

1 How Users Explore Ontologies on the Web: A Study of NCBO’s BioPortal Usage Logs

作者分别来自斯坦福大学和德国科布伦茨-兰道大学以及格拉茨技术大学。垂直领域的本体构建和维护需要花费大量的人力物力,所以已有本体的发现和重用是重要的策略。目前已经有一些已经有集成了许多本体的在线仓库并有很多人使用,为了提供更好的服务来帮助用户重用已有本体,本文以生物医药领域 BioPortal 为例,对用户浏览本体的行为做了分析:

1)探索用户使用本体时不同的行为模式,通过一阶马尔可夫链对用户的每次浏览记录(a session,用户的一次操作序列记录)进行建模,并用转移矩阵的特征向量表示本次的浏览行为,然后对所有用户行为的向量表示进行 k-means 聚类,主要分析出7种不同的行为类型,记录最多的两种类型为 Class Explorers 和Specific Class Browsers, 其他五种分别为 Main Page Visitors, Ontology Overview Visitors, Ontology Tree Explorers 和 BioPortal Experts。

2)探索不同的行为模式在不同本体的分布情况。结果如下图所示:

文章中指出本体本身的特征也会影响用户的交互行为。作者希望这个研究能够帮助引导在线本体系统的建设以带给用户更好的体验。

2 Extracting Emerging Knowledge from Social Media

本文关注的问题是 emerging entities 的抽取,由于知识库的不完整性,现在有很多抽取技术用于自动抽取知识用于补充完整知识库,但是多数的抽取技术倾向于关注比较流行的事物,对于用于低频数据记录的事物的提取有限,从而造成了知识库中的长尾。低频的长尾实体包括 emerging entities,虽然当前的受关注度不高,但可能在未来有较大的影响力,所以尽早发现低频实体并在知识库中建立相关描述,有利于捕捉发展趋势,例如在电子商务领域。本文主要从社交媒体中挖掘 emergency entities,由于社交媒体包含有大量及时的讯息,即使是低频的信息也有所踪迹。面对的主要挑战来源于社交媒体中相关的记录的一些特性:unclassified、dispersed、disorganized、uncertain、partial、possibly incorrect,这些特性都给提取造成了一定的困难。

本文的实用Twitter做为社交媒体数据源,选取了三个领域进行抽取工作:Fashion designers, Fiction writers,Live events。首先由相关的领域专家提供少量种子实体(emerging entity seeds),然后通过 seeds 选取相关的候选实体(candidates),并将每个实体表示为向量,根据种子实体的表示得到中心表示(centroid),通过计算候选实体到中心表示的距离排序各实体并提取距离最近的k个候选实体为最终结果。本文将抽取方法分为两类:1)Syntacticmethods:分析对应种子(seeds)的推文,主要利用用户名(handles,以@为标识)以及话题(hastags,以#为表示)相关的特征。2)Semantic Methods:由领域专家提供和本领域相关的可以对应到 DBPedia 定义的类别,例如 fashion designer相关的类别有brands、photographers、magazines。用 Dandelion(一个商用软件)将文本中的handles、hashtags和专家提出的相关类别作映射。利用推文文本本身的特征的同时也利用文本和DBPedia的部分映射关系,更好地把握文本的语义信息。

3 Distilling Task Knowledge from How-To Communities

­­

这篇文章提出了一个很有意思的问题:在搜索引擎中有大量用户在搜索问题解决型的信息,例如如何修自行车,但是作为搜索引擎中日益重要的知识库却缺乏这类问题解决型(How-to)的知识。WikiHow 是一个专注于解决“怎么做”问题的网站,作者基于 WikiHow 最终构建了一个专门包含问题解决型知识的知识库 HowToKB。HowToKB 的主要构建步骤有:1)通过 OpenIE 4.2 软件从 WikiHow 网站的文本中抽取三元组。2)组织 Task KB,主要包含两个任务,一个是WikiHow内容的去重和聚类,例如任务 paint a wall 和 color aceiling 有很大相似性。另一个是任务之间的消歧,例如任务 use a keyboard 可能是 use a music keyboard 也可能是 use acomputer keyboard。首先计算三种相似度:Categorical similarity、Lexical similarity 和 Vector similarity,将三种相似度当作特征生成最种两种任务(task)之间的相似度,然后采用层次聚类算法对任务进行聚类。HowToKB最终包含了去歧后的任务层次分类,每个任务的子任务顺序以及完成这个任务所需要的工具。在关于知识库构建和知识库组织方面的测评中,HowToKB 都有较高的准确率。作者最后还测试了一个 use case:自动搜索和 HowToKB 中的任务相关的 Youtube 视频。HowToKB 的构建过程如下图:

4 Type-based Semantic Optimization for Scalable RDF Graph Pattern Matching

这篇文章是来自北卡罗莱纳州立大学和微软的研究工作,主要关注提升 RDF 图查询的效率。灵活的查询处理依赖于尽可能早地果断地排除和查询不相关的数据(query-irrelevant data),基于索引、基于类别完整性约束等的传统剪枝方法可以帮助查询重写,构造一个更加有效的查询语句。但是这些方法 strongly-typed 的数据和查询模型下有效,对于半结构化的 RDF 框架难以适用。为提升RDF查询效率,本文试图解决 RDF 图查询中不支持基于类别的查询优化(typed-based query optimization)的问题。整个框架包含了两个部分:1)基于RDF中的数据和本体构建一个新的类别系统(type system):R-Type. 2)将原始查询自动翻译成基于 R-Type 系统的查询语言,并使用基于类别的查询优化方法进行查询处理。查询效率显著提高,在两个数据集 DBSPB 和 LUBM 的实验结果如下:

5 Dynamic Key-Value Memory Networks for Knowledge Tracing

这篇论文的作者来自香港中文大学。

由于在线学习课程的兴起,学习者在课程学习过程中有很多习题练习的记录,利用这些记录,知识追踪(Knowledge Tracing)希望通过对学习者过往练习的结果分析其当前对一些概念的掌握程度。知识追踪任务可以形式化为一个有监督的序列学习问题:即给定学习者过去的练习记录 X = {x1, x2,…,xt-1},预测学习者对一个新的练习回答正确的概率,即:p(rt =1|qt,X)。典型的知识追踪方法有:Bayesian Knowledge Tracing(BKT) 和 Deep Knowledge Tracing(DKT). 在第一种 Bayesian Knowledge Tracing 中,学习者的知识状态st由知识概念集合{sti}表示,每个知识概念(concept state)为二元取值,表示 known 和 unknown,然后用隐马尔可夫模型更新知识概念状态的后验分布。BKT的不足有两方面:1)由于每个知识概念是单独表示的,BKT无法捕捉不同概念之间的相关性。2)BKT模型可以输出学习者对于预定义的学习概念的掌握情况,但是无法捕捉未定义的概念。3)BKT 用简单的转换模型来描述学习者对于不同概念的掌握情况,这就导致了 BKT 无法有效表示复杂的概念状态转换。第二种方法 Deep Knowledge Tracing, 运用了典型的 RNN 模型 LSTM,LSTM 用高维连续的向量空间表示S来模拟知识状态,输入和状态(input-to-state),状态和状态(state-to-state)之间的非线性转换使得DKT的表达能力比BKT更强,同时不需要人工对知识概念的标注,但是DKT将学习者当前对于所有概念的掌握情况用一个隐藏状态(hidden state)表示,这导致了DKT无法输出学习者对于具体概念的掌握情况。本文提出的 Dynamic Key-Value Memory Networks(DKVMN)模型借鉴了 MANN(memory-augmented neural networks),但是不像传统的MANN模型用单个记忆矩阵(memory matrix)或者两个静态记忆矩阵(static memory matrices),DKVMN 用一个静态矩阵 key 存贮所有的知识概念(knowledge concept)和一个动态的矩阵 value 存储以及更新学习者对于概念的掌握程度。DKVMN模型在追踪不同概念的掌握状态的同时能捕捉不同概念之间的关系。它对每个知识概念维护了一个概念状态(concept state),并且会自动学习当前的练习输入和各个知识概念之间的相关关系,当一个新的练习输入,DKVMN 会先选择和当前练习相关的知识概念,然后根据学习者的回答的正误情况更新相关知识概念的状态。DKVMN 的模型如下图所示。

本文实验所用数据集有四个:Synthetic-5, ASSISTments2009, ASSISTment2015, Statics2011. 前一个为机器生成的数据集,后三个是从在线学习平台获取的真实的数据集。在四个数据集上的测试,DKVMN 较之 BKT,DKT,MANN 都有所提升。

除了在 Semantic and Knowledge 主题下的论文,其他主题下也有一些论文包含了知识库的不同应用,在 Information Extraction 主题有两篇论文,一篇涉及知识库的更新,另一篇结合知识库做文本的实体抽取和关系识别。下面分贝介绍一下这两篇文章:

6 Learning to Extract Events from Knowledge Base Revisions

由于一些社会事件的发生会改变知识库中的一些事实,例如一场选举可能会改变一个国家的总统,一场婚礼会改变参加婚礼人的婚姻状态等,这篇文章关注的是如何通过对于社会事件的挖掘自动修改维基百科中过时的词条的属性。本文用维基百科修改的历史记录来远程监督的社会实践的抽取,抽取的准确度由预测未来的修改记录的准确度决定。本文主要针对选定的6种维基百科inforbox属性:CurrentTeam、LeaderName、 StateRepresentative、 Spouse、 Predecessor 和DeathPlace, 这6种属性值的改变都对应了较为明确的社会事件。主要步骤包括收集维基百科的修改历史记录,收集对应时间区间的 Twitter数据和新闻报道 Annotated Gigaword 的数据。通过 surface-form matching 和 readily-available alias dictionaries 将 Tweets 内容以及新闻报道的句子和维基百科的编辑记录对齐,对气后将文本数据根据是否提到变化的属性的两个属性值以及文本产生事件距离维基修改时间的远近将文本数据分为三种类型 Taligned、Tunaligned,Tnotclear, 在训练过程中将 Taligned 作为正样本,其他的作为负样本,将经过处理后的文本中提取出的模版(句型)当作特征,用 log-linear 模型表示在时间t将属性r的值由实体 e1 修改为 e2 的概率:

本文的弱监督时间抽取方法每个月可以以 80% 的准确率预测 10KB 的维基百科修改,通过降低置信度阈值,平均每个月可以预测 34.3 条正确的修改,准确率在 40%,其中 64% 的修改预测都是在实际被修改之前完成的。

7 CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases

这篇文章是来自伊利诺香宾大学(UIUC)的工作,关注于文本中的实体和关系抽取研究,本文提出的 CoType 框架利用知识库作为实体和关系抽取任务的远程监督,并且同时完成抽取实体的类别识别,CoType 可以利用远程监督方法克服了传统抽取方式需要人工标注样本的弱点。CoType 主要包含以下四个步骤:1)自动标注文本中的实体(Entity mention detection),这一步利用知识库中已有的实体作为正样本,通过分析这些正样本文本的词序以及 POS 标记,并用两个随机森林分类器抽取出文本相关的特征,最后最大化定义的 mention 概率。2)自动标注文本中的关系(Relation mention generation),以第一步提取的文本中的标注实体为基础,用知识库作远程监督,标注一个句子中含有的所有标注实体对的对应关系。3)将一二步生成的实体和关系标注作为样本,结合文本特征将实体和关系用一个低维向量表示,向量表示的前提假设有两个:一个是如果两个标注实体的周围文本特征(context)越相似,则它们的向量表示越近似;另一个是标注关系的向量表示要尽量和它最近似的关系类别的表示相近。除了文本特征,为了捕捉实体和关系表示之间的关系,CoType 采用 TransE 的假设,对于一个正确的三元组标注(m1,z,m2),||m1+z-m2||^2 要尽可能小,而对于错误的三元组值要尽可能大,所以最后设置了基于最大间隔的损失函数来约束实体和关系的向量表示。由于CoType整个模型的目标函数包含了三个部分:实体标注的目标函数 O_M,关系标注的目标函数 O_Z,实体和关系之间的关系的目标函数 O_ZM,CoType 提出了 a stochastic sub-gradient descent algorithm 来优化求解目标函数。在三个数据集上测试的实体识别和分类任务以及关系分类任务中 CoType 相比于以前的方法都有所提升。CoType 的整体框架和处理流程如下图所示:

在 Question Answering and Topic Modeling 主题下有两篇做知识库问答的,一篇是自动生成模版的方法,一篇是端到端的方法。下面仔细介绍一下:

8 Automated Template Generation for Question Answering over Knowledge Graphs

这篇文章关注的是用模版解决知识库问答(KBQA),提出了 QUINT 方法可以通过问答对自动学习和生成模版,避免了手工生成模版。QUINT 方法的通过训练生成模版的过程主要分成三个步骤:1)讲问句翻译成查询:对于训练的问答对中的问题文本进行命名实体识别和实体消歧,针对问答对中识别出的实体和答案中的实体,在知识库中找出最小的包含这些所有实体的子图,然后以问题中的每个实体为起点,寻找子图中以 CVT 节点为中间节点的二度(length two)路径以及不包含 CVT 节点的一度(length one)路径,并将这些路径翻译为相关的查询,通过将出发实体 a 替换为 ?x 以及将中间节点CVT节点替换成类似 ?cvt1。2)生成对于答案实体类别的约束:通过对问答对中的实体的类别查询确定当前问题的答案实体应当所属的类别。3)问题文本和查询的对齐:首先将问题文本的词项和子图中的要素构建一个二部图,通过将对齐任务翻译为整数线性规划问题,获得此项和子图要素的对应结果,再将问题中的具体的词项内容替换成仅保留词性和对齐关系,子图中的实体和关系也去除具体内容,得到最终的模版,模版实例如下:

在预测环节,首先根据问句的语法结构匹配模版,然后将匹配的模版放入一个 ranking model 中,得到最终的预测结果。QUINT 在 WebQuestions 和 Free971两个数据集上的实验结果相比去大部分之前的工作效果都有所提升,并且 QUINT 可以根据学习的模版在预测时提供一定的解释。

9 Neural Network-based Question Answering over Knowledge Graphs on Word and Character Level

这也是一篇研究 KBQA 的文章,与上一篇介绍的文章不同的是,本文的目标在于构造一个端到端(end-to-end)的模型,不需要进行语法分析、命名实体识别等。这篇文章的模型可以分为三个部分,一个是对问句的表示,一个是对于知识库的表示,随后是问句和知识库的匹配。

1)对于问句的表示,首先是每个词的表示,为了利用每个单词的组成字母的信息以解决 OOV(out-of-vocabulary)问题,词的每个字母的表示通过一个 GRU 模型获得当前词的表示向量 ,同时为了充分利用词本身的语义信息,也训练了 GloVe 模型并将其得到的当前词的词向量表示结果和 连结起来得到最后的向量表示。然后将每个词的表示通过一个GRU模型训练得到当前问题的表示结果,每个句子会训练两个向量,rqs 用于表示问句对应的主语(subject),rqp 用于表示问句对应的谓词(predicate)。

2)对于知识库的表示,实体的向量获取方法和问句中单词的向量获取方法类似,关系的向量其含有的所有单词通过一个单层 GRU 模型获得。

3)将问句的主语和谓词的表示分别知识库的实体和关系的表示做 cosine 距离计算,将距离最小的实体作为查询的头实体,距离最近的关系作为查询的关系,将查询得的尾实体作为答案。

本文在训练过成中还做了剪枝相关的工作,本文在实验中相对于其他端到端的模型有提升。

 

以上就是要介绍的 WWW2107 中和知识与语义相关的9篇文章,分别涉及语义理解和知识构建的多个方面。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

发表评论

邮箱地址不会被公开。 必填项已用*标注