刘知远 | 语义表示学习

 

本文转载自公众号:人工智能图灵。

刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011年获得清华大学博士学位,已在ACL、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文60余篇,Google Scholar统计引用超过2700次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI期刊Frontiers of Computer Science青年编委,ACL、COLING、IJCNLP领域主席。

继续阅读“刘知远 | 语义表示学习”

胡伟 | 面向多实体人机协作消解的对比表生成自动化方法

 

众包实体消解

实体消解(Entity Resolution,简称ER)旨在发现不同知识图谱中指称真实世界相同对象的实体。众包实体消解(Crowd ER)在使用机器的基础上,还使用人来完成实体消解任务。众包实体消解的一个常见流程如下图所示:

(Waldo: AnAdaptive Human Interface for Crowd Entity Resolution. SIGMOD 2017)

 

在众包实体消解中,存在一系列关键问题亟待解决,包括:1)如何呈现一个实体消解任务?2)如何选择合适的人来完成任务?3)如何在给定预算限制下挑选任务?等等。论文作者发现,当前研究很少关注第1个问题,即如何通过呈现一些关键信息(例如实体的重要属性和取值)来帮助单个人更高效和精准地完成一个实体消解任务。

 

一个例子

论文作者关注多实体消解任务(multi-entityresolution,简称MER),下图展示了一个包含3个实体的多实体消解任务,它们拥有了相似的属性和取值,有待人来完成消解。

相关工作

  • 基于列表的多实体消解任务呈现方式,类似于传统搜索引擎。
  • 基于成对的多实体消解任务呈现方式,每次仅比较两个实体并对齐它们间的相似属性。

考虑到属性和取值的数量可能很多,上述两类方法常通过生成摘要来提高人的消解效率。然而,这两类方法对于多实体消解任务而言,也均存在一些不足。例如,由于缺乏直接对比,基于列表的方法需要人在心里记录并比较不同实体;又如,基于成对的方法虽然能使人更加专注两个实体的比较,但是可伸缩性差。更为重要的是,这两类方法在形成列表或成对的过程中,会丢失实体消解结果间的传递性和聚类性等。

 

本文方法

论文作者提出了一种基于对比表(comparativetable)的多实体消解任务呈现方法,将实体和重要属性分别组成表的行和列头,并将重要取值填入表单元中。拟解决的关键问题是实体的属性和取值的异构性及规模性与有限的表格呈现空间之间的矛盾。方法框架如下图所示,包括3个主要步骤:

  1. 全体属性匹配,包括属性间相似度计算和属性团生成两个子步骤。
  2. 优良性评估,考虑了属性团的判别性、丰富性、语义性和多样性4个特征。
  3. 对比表生成,包括属性团的选择和取值的选择两个子步骤。

 

下图展示了根据上述例子生成的一个多实体消解任务对比表。

实验结果

论文作者从10个流行领域各选取了25个DBpedia实体作为种子,并通过维基百科消歧页面为每个种子实体随机选取2 ~ 4个Freebase、Wikidata和YAGO实体,再从中随机选择出10个实体构成一个多实体消解任务。共计250个任务,2500个实体,指称804个真实世界对象。

实验从3个方面检验了基于对比表的方法有效性,包括:1)全体属性匹配的准确性;2)属性团排序的有效性;3)通过雇佣60位研究生进行实操,从效率、精度和打分3个方面与基于列表和基于成对的两个代表性方法进行了比较。

 

[1] Jiacheng Huang, Wei Hu*, Haoxuan Li, Yuzhong Qu. Automated Comparative Table Generation for Facilitating Human Intervention in Multi-Entity Resolution. In: ACM SIGIR Conference on Research and Development in Information Retrieval. 585–594, 2018

— End —

实验室介绍:南京大学万维网软件(Websoft)研究组在瞿裕忠教授的带领下,长期从事知识图谱(语义网)及相关技术的研发,研究组成员包括胡伟副教授、程龚副教授以及30余位博士和和硕士研究生,近期的研究方向主要包括:智能问答、知识融合和语义搜索。

联系方式:胡伟,whu@nju.edu.cn,微信号:whu1982

网站:http://ws.nju.edu.cn

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

 

会议 | ESWC2018 见闻

本文转载自公众号:南大Websoft 。

ESWC2018于2018年6月2日在希腊克里特岛上的伊拉克利翁举行。会议包括两天的前会(workshops, tutorials) 和三天的正会,参会人数约300人。

Keynotes

Keynote1: Structural Summarization of Semantic Graphs, by Ioana Manolescu (INRIA, Paris-Saclay, Paris, France)

面对规模较大、数据异构、暗含推理的RDF图,如何产生摘要以展示其中频繁出现的结构?

讲者分析了一些基于频繁模式和统计数据的相关工作,并介绍了一种先挖掘数据频繁模式,再考虑类型结构的方法。同时报告者还通过该摘要方法发现了存在于当前知识库中的一些噪音数据,比如DBpedia中存在一些实体的birthplace是自己。

Keynote2: Knowledge Representation and the Semantic Web – an Ontologician´s View, by Sebastian Rudolph (TU Dresden, Germany)

该报告主要包括两部分内容:使用一些例子来讲述逻辑对于语义网的作用;讲述基于逻辑的知识表示的变化以及面对的主要问题。

上图展示了逻辑在问答中的作用。如果我们要查询知识库中所有的人,那么逻辑推理能够给我们很大帮助,例如利用subClassOf/subPropertyOf推理、domain/range推理等等。

基于逻辑的知识表示当前面对的问题主要包括两点:(1)数据中的噪音,可能引入矛盾的知识。由于推理规则 A 和 非A 能够推出任意 B,因此小的错误可能会对逻辑知识系统带来很大的灾难。目前常见的做法是采用fuzzy logic或者probabilistic logics(Markov logic)等等。(2)数据的动态性,目前知识是持久存储的,而网络上信息的更新速度远大于知识的更新速度。因此需要研究实时(real-time)的知识表示方法,但目前的自动索引和推理技术不能满足需求。

下图展示了讲者在总结部分对逻辑学家和其他语义网工作者的一些提示。

Keynote3: How to Make, Grow and Sell a Semantic Web Start-up, by Milan Stankovic (Sépage, Paris, France)

该讲者主要讲述了其使用语义网技术的旅游应用的创业经历(如下图所示),刚开始13年他在一次会议上作报告时获得了投资,后艰难发展迎来第一个客户,…,最终17年初创公司成功被大企业收购

该讲者还结合他自己的经历提出了一些至理名言,例如:

Success is getting what you want and failing at everything else.

If you are too busy, there must be something that you are doing wrong.

There is only one viable start-up ideology: common sense.

My paper

在这次大会上我报告了关于地理高考选择题求解方法的文章Answering Multiple-choice Questions in Geographical Gaokao with a Concept Graph.该工作包括从教材教辅表格构建地理概念图谱(刻画概念之间的关系和每个概念的相关文本描述),并采用搜索特定类型的路径的方式回答地理选择题。由于我的报告被安排在了地理相关资源的会场上,因此听众较少。听众主要关心的内容是,地理知识图谱构建方法如何推广到其他学科/领域。同时,有听者询问我们的问答方法是否受限于概念图谱的质量和规模,对于概念图谱目前无法回答的问题是否有尝试一些其他方法。

Related papers

Marco Avvenuti, Stefano Cresci, Leonardo Nizzoli and Maurizio Tesconi. Geoparsing and Geotagging with Machine Learning on top of Linked Data. (best paper candidate)

文章提出了一种使用多个知识源来发现、链接推特中的地理实体的方法。与传统方法不同的是,该方法同时考虑在多个知识库上进行地理实体的发现和链接,之后通过投票的机制来确定正确的实体。对于投票方法可能出现的问题(多数链接是错误的情况),该方法增加了一个使用监督学习的过滤方法,使用文本、链接、来源三个方面的特征,来确定每个链接的置信度。实验上,该方法在英文推特上结果几乎翻倍(30%+提升到60%+),在印第安语上从60%+提升至80%+。

Tu Nguyen and Wolfgang Nejdl. Multiple Models for Recommending Temporal Aspects of Entities.

该文章主要场景是,当用户搜索一个实体时(事件),是根据当前时间来推荐实体的不同方面。例如,在总统大选出结果之前,人们搜索大选更关注竞选人信息、竞选的预测;而当竞选结束后,用户再搜索大选一般需要的是大选的结果(虽然竞选预测等信息依然存在在网上)。文章的主要方法是对于搜索的目标实体分类,学习其周期性特征、趋势性特征、自相关特征、互相关特征,从而对于一个新的实体和搜索发生的时间做出预测。

Hamid Zafar, Giulio Napolitano and Jens Lehmann. Formal Query Generation for Question Answering over Knowledge Bases.

文章提出了一种KBQA方法。首先他假设问句中的实体、属性和答案在知识库上能够构成一个通路,任意两个实体之间的距离不超过两步。在找出所有候选通路之后,该方法将每条候选通路和问句的依存树通过一个预训练的Tree-LSTM转为向量,然后计算相似度,相似度高的选为生成的结构化查询。

Challenges, Tutorials, Awards

ESWC上举行了 Scalable Question Answering Challenge, 得奖队伍是 Dennis Diefenbach, Kamal Singh and Pierre Maret 的系统 WDAqua-core1.

Tutorial 部分How to build a QA system overnight和我们较为相关,介绍了QA的基本知识,基于 Semantic Parsing 的问答方法,基于Deep Learning的问答方法,并且包括一些编程实战。相关PPT和代码参见https://github.com/AskNowQA/QA-Tutorial

Best PhD Symposium颁发给Lucia Sicilian: Question Answering over Knowledge Bases.

Best Research Paper颁发给Alieh Saeedi, Eric Peukert and Erhard Rahm: Using Link Features for Entity Clustering in Knowledge Graphs.

Best Resource Paper颁发给Wouter Beek, Joe Raad, Jan Wielemaker and Frank van Harmelen. sameAs.cc: The Closure of 500M owl:sameAs Statements.

Best Inuse Paper颁发给Oktie Hassanzadeh, Shari Trewin and Alfio Massimiliano Gliozzo. Semantic Concept Discovery Over Event Databases.

ESWC19将在Portoroz举行。

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

自由讨论 | 关于高考机器人的讨论

近日,学霸君的高考机器人 Aidam 首次与 6 名高考理科状元在北京同台 PK,解答 2017 年高考文科数学试题。最终,Aidam 的成绩为 134 分,6 名状元的平均分为 135 分。语义网、知识图谱等领域的专家学者对学霸君在考试机器人上取得的突破进展十分关注,也因此展开了关于高考机器人的探讨。

继续阅读“自由讨论 | 关于高考机器人的讨论”

白硕 | 数字化不归路

本文转自阡寻科技公众号。
白硕 – 阡寻科技董事长。曾任中科院计算所研究员、博士导师、软件室主任、软件方向首席科学家。2000年起参与组建国家计算机网络应急技术协调中心(CNCERT/CC),2002年起任上海证券交易所总工程师。新一代交易系统设计师,自然语言及人工智能领域资深专家,中文信息学会理事。

 

一、穿透的魔力

今年六月一日,被邀请参加了一个脑洞大开的儿童节活动。通过酒店业一个数字化连锁扩张的活生生案例,激发了与会者关于数字化连锁经营的热烈讨论。

说起数字化,很多人联想到信息化。企业信息化的进程怎么说也有好几十年了吧,数字化不是信息化的前提条件么?没有数字化哪来的信息化?走到今天,怎么会突然提出数字化的问题?可能有些人想不通。

继续阅读“白硕 | 数字化不归路”

哈工大赛尔 | 事理图谱:事件演化的规律和模式

本文转载自公众号哈工大SCIR,作者为李忠阳,赵森栋,丁效。


引言

事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。事件之间在时间上相继发生的演化规律和模式是一种十分有价值的知识。然而,当前无论是知识图谱还是语义网络等知识库的研究对象都不是事件。为了揭示事件的演化规律和发展逻辑,本文提出了事理图谱的概念,作为对人类行为活动的直接刻画。在图结构上,与马尔科夫逻辑网络(无向图)、贝叶斯网络(有向无环图)不同,事理图谱是一个有向有环图。现实世界中事件演化规律的复杂性决定了我们必须采用这种复杂的图结构。为了展示和验证事理图谱的研究价值和应用价值,我们从互联网非结构化数据中抽取、构建了一个出行领域事理图谱。初步结果表明,事理图谱可以为揭示和发现事件演化规律与人们的行为模式提供强有力的支持。

继续阅读“哈工大赛尔 | 事理图谱:事件演化的规律和模式”

鲍捷 | Web:为所有人-——记图灵奖得主 Tim Berners-Lee 的伟大贡献

​来源:文因互联 CEO 鲍捷博士发布于《中国计算机学会通讯》2017年第6期《动态》
编者按
蒂姆·伯纳斯-李(Tim Berners-Lee),人们通常称他为Tim。作为万维网(World Wide Web,Web)的发明人而为世人所知,他也因此获得了2016年的图灵奖。但他的贡献并不止于Web。在过去近三十年的工作里,他的贡献大体可分为三个阶段。第一阶段从1989年到1999年,他的主要精力在Web本身的发明和推广上,贡献是互联的文档。第二阶段是1999年到2009年,他主要在推广语义网,贡献是互联的知识。第三个阶段从2009年至今,主要致力于数据的开放、安全和隐私,贡献是互联的社会。本文简述他在这三个阶段的贡献。

继续阅读“鲍捷 | Web:为所有人-——记图灵奖得主 Tim Berners-Lee 的伟大贡献”