AAAI 2018经典论文获奖者演讲:本体论的昨天和今天

本文转自公众号:AI科技评论

AI 科技评论按:正在美国新奥尔良召开的 AAAI 2018 的经典论文奖颁给了《Algorithm and Tool for Automated Ontology Merging and Alignment》。这篇论文发表在 2000 年的第 17 届 AAAI 大会上。这次颁奖是为了表彰这篇论文在本体匹配和集成研究方面的先驱性贡献,论文中分析了这个问题的具体情况,并提出了首个创新的解决方案。组委会认为这篇论文直到今天也有重要意义,它非常清晰地定义了本体合并问题,并创造了启发式的工具来应对这个问题。

根据维基百科介绍,在计算机科学与信息科学领域,理论上,本体是指一种「形式化的,对于共享概念体系的明确而又详细的说明」。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。本体是人们以自己兴趣领域的知识为素材,运用信息科学的本体论原理而编写出来的作品。本体一般可以用来针对该领域的属性进行推理,亦可用于定义该领域(也就是对该领域进行建模)。作为一种关于现实世界或其中某个组成部分的知识表达形式,本体论目前的应用领域包括:人工智能、语义网、软件工程、 生物医学信息学、图书馆学以及信息架构。

趁获奖机会,AAAI 组委会邀请了论文作者之一的 Natasha Noy 进行演讲。当年论文发表时 Natasha Noy 还在斯坦福大学攻读,如今她就职于谷歌研究院。

继续阅读“AAAI 2018经典论文获奖者演讲:本体论的昨天和今天”

知识工场 | 让机器认知中文实体 —复旦大学知识工场发布中文实体识别与链接服务

本文转载自公众号:知识工场

一、什么是实体识别与链接

近年来,如何通过知识图谱让机器实现自然语言理解受到越来越多的关注。其中,识别文本中的实体,并将它们链接到知识库中,是让机器理解自然语言的第一步,也是至关重要的一步。比如,当智能问答系统在回答“李娜在哪一年拿到澳网冠军?”这一问题时,第一步就是识别并在知识库中找到网球运动员李娜这一实体,才能继续从知识库中找到相关信息并作出回答。如果识别出错或者没有将“李娜”正确链接到网球运动员李娜这一实体的话,系统对于这个问题的回答必然出错。根据我们的调研,目前面向通用领域的中文实体识别与链接服务,能够公开可用且取得满意效果的还不多见。

继续阅读“知识工场 | 让机器认知中文实体 —复旦大学知识工场发布中文实体识别与链接服务”

论文浅尝 | Open world Knowledge Graph Completion

 

https://mmbiz.qpic.cn/mmbiz_png/GNpj5fw72Eqn7y9Fuu9OllQ0FpeggZj2FmR4QMXcXJyhuo5zleQmtEGIJsv17iaAfMDRzzRfA2LIibC46ib8EWqhA/640?wx_fmt=png&wxfrom=5&wx_lazy=1

来源:AAAI2018

论文链接:https://arxiv.org/pdf/1711.03438.pdf

代码链接:https://github.com/bxshi/ConMask

本文解决知识库补全的问题,但和传统的 KGC 任务的场景有所不同。以往知识库补全的前提是实体和关系都已经在 KG 中存在,文中把那类情况定义为 Closed-World KGC。从其定义可以发现它是严重依赖已有KG连接的,不能对弱连接有好的预测,并且无法处理从 KG 外部加入的新实体。对此这篇文章定义了 Open-World KGC,可以接收 KG 外部的实体并链接到 KG。论文提出的模型是 ConMask,ConMask 模型主要有三部分操作:

继续阅读“论文浅尝 | Open world Knowledge Graph Completion”

论文浅尝 | How to Keep a Knowledge Base Synchronized

https://mmbiz.qpic.cn/mmbiz_png/GNpj5fw72Eqiay3wE6zsGBICic9MEm28kfjlBfgQsicXLRBOSuNZRnNmHRGS2foLzmNaGzTFo20MibM78tlLJN1Uvw/640?wx_fmt=png&wxfrom=5&wx_lazy=1

Citation: Liang, J.,Zhang, S. & Xiao, Y. (2017). How to Keep a Knowledge Base Synchronized withIts Encyclopedia Source. Proceedings of the Twenty-Sixth International JointConference on Artificial Intelligence, 3749–3755.

论文链接:https://www.ijcai.org/proceedings/2017/0524.pdf

动机

随着知识图谱技术的快速发展,知识图谱正在越来越多的应用中扮演重要的角色。但是现有的知识图谱存在一个很明显的缺陷:图谱中的数据的实时性很差。绝大多数知识图谱从构建完成开始,其中的数据便不再更新。即使有更新,更新的周期也非常长。每一次的更新都是一次费时费力的、类似于重新构建知识图谱的过程。这样的更新机制一方面需要消耗大量网络带宽和计算资源,另一方面由于每次更新所消耗的代价太大,这就限制了更新的频率,使得知识图谱中数据的实时性非常差。由于缺乏一个实施的更新机制,图谱中这些没有同步更新的数据中存在大量的错误,这使得这些数据无法被利用。这种数据的滞后性给知识图谱的应用带来了很大的局限性。

继续阅读“论文浅尝 | How to Keep a Knowledge Base Synchronized”

知识工场 | CN-DBpedia 漫游指南

本文转载自公众号:知识工场

CN-DBpedia于2015年12月上线以来,已经有两年多的时间了,在数据层面做了大大小小百余项完善,在CN-DBpedia 3.0 即将上线之际,尽管我们觉得离完美还有距离,但也是时候拿出来让大家看看了。于是知识工场实验室做了一个知识图谱可视化系统,取名叫Curiosity,如果你也好奇,就点开看看啰。

继续阅读“知识工场 | CN-DBpedia 漫游指南”

李涓子 | 机器智能加速器:大数据环境下知识工程的机遇和挑战

本文转载自公众号:数据派THU

导读:知识图谱已经成为推动人工智能发展的核心驱动力之一。本文选自清华大学计算机科学与技术系教授、清华-青岛数据科学研究院科技大数据研究中心主任李涓子老师于2017年12月20日在阿里联合中文信息学会语言与知识计算专委会举办的知识图谱研讨会上做的以“知识工程:机器智能的加速器”为题的报告。李涓子老师在报告中概述了与知识图谱密切相关的在大数据环境下的知识工程在知识表示、知识获取、知识推理计算以及知识服务中面临的研究挑战,并介绍了在知识图谱的相关研究工作。

继续阅读“李涓子 | 机器智能加速器:大数据环境下知识工程的机遇和挑战”

研讨会 | 知识图谱大咖云集阿里,他们都说了啥

前言

12月20日,由阿里巴巴联合中国中文信息学会语言与知识计算专委会(KG专委)举办的知识图谱研讨会在杭州召开。研讨会由阿里巴巴集团副总裁墙辉(玄难)主持,知识图谱领域国内知名专家参与了此次研讨。在阿里巴巴持续发力知识图谱这一人工智能基础设施的背景下,此次研讨会是对阿里巴巴知识图谱建设的一次评估,也是建设与改进方向的一次讨论。

到场的国内知名专家包括:中科院软件所、中国中文信息学会副理事长兼秘书长孙乐教授,清华大学李涓子教授、刘知远助理教授,中国科学院自动化所赵军教授、刘康副教授,浙江大学陈华钧教授,东南大学漆桂林教授,苏州大学张民教授、陈文亮教授,北京大学赵东岩教授、冯岩松副教授。

继续阅读“研讨会 | 知识图谱大咖云集阿里,他们都说了啥”

刘志明 | 知识图谱及金融相关

本文转载自公众号:挖地兔,本文的作者刘志明先生也是 Tushare 的作者。

Tushare 是一个基于 Python 语言的免费、开源的财经数据接口包,可以为金融量化分析人员提供快速、整洁和多样的结构化数据,帮助量化投资人员节省数据采集和清洗时间,使他们有更多的精力集中在策略的研发上,极大提高投研效率。作为国内最早一个服务于量化投资的 Python 开源项目,目前用户超过 10 万,机构 300 家,已经成为量化投资领域比较常用或者借鉴的数据工具。

继续阅读“刘志明 | 知识图谱及金融相关”