论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习

本文转载自公众号:PaperWeekly

作者丨罗凌

学校丨大连理工大学博士生

研究方向丨深度学习,文本分类,实体识别

联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然语言处理领域,很早就有研究者使用基于传统机器学习的联合模型(Joint model)来对一些有些密切联系的自然语言处理任务进行联合学习。例如实体识别和实体标准化联合学习,分词和词性标注联合学习等等。

最近,研究者们在基于神经网络方法上进行实体识别和关系抽取联合学习,我阅读了一些相关工作,在此和大家一起分享学习(本文中引用了一些论文作者 Suncong Zheng 的 PPT 报告)。

继续阅读“论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习”

论文浅尝 | 基于置信度的知识图谱表示学习框架

本文转载自公众号:PaperWeekly

作者丨谢若冰

单位丨腾讯微信搜索应用部

研究方向丨知识表示学习

知识图谱被广泛地用来描述世界上的实体和实体之间的关系,一般使用三元组(h,r,t)(head entity, relation, trail entity)的形式来存储知识,其中蕴含的知识数量巨大且时常更新。

目前,人工标注已经不能满足知识图谱更新和增长的速度,但自动化构建知识图谱的过程中往往容易引入一些噪声和冲突。

由于大多数传统知识表示学习(Knowledge, Representation Learning, KRL)方法都假设现有知识图谱中的知识是完全正确的,因此会带来潜在误差。

于是,如何从带有噪声或冲突的知识图谱中学习到更好的知识表示向量,同时又能够发现已有知识图谱中可能存在的错误,就成为了亟需解决的问题

继续阅读“论文浅尝 | 基于置信度的知识图谱表示学习框架”

AAAI 2018经典论文获奖者演讲:本体论的昨天和今天

本文转自公众号:AI科技评论

AI 科技评论按:正在美国新奥尔良召开的 AAAI 2018 的经典论文奖颁给了《Algorithm and Tool for Automated Ontology Merging and Alignment》。这篇论文发表在 2000 年的第 17 届 AAAI 大会上。这次颁奖是为了表彰这篇论文在本体匹配和集成研究方面的先驱性贡献,论文中分析了这个问题的具体情况,并提出了首个创新的解决方案。组委会认为这篇论文直到今天也有重要意义,它非常清晰地定义了本体合并问题,并创造了启发式的工具来应对这个问题。

根据维基百科介绍,在计算机科学与信息科学领域,理论上,本体是指一种「形式化的,对于共享概念体系的明确而又详细的说明」。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。本体是人们以自己兴趣领域的知识为素材,运用信息科学的本体论原理而编写出来的作品。本体一般可以用来针对该领域的属性进行推理,亦可用于定义该领域(也就是对该领域进行建模)。作为一种关于现实世界或其中某个组成部分的知识表达形式,本体论目前的应用领域包括:人工智能、语义网、软件工程、 生物医学信息学、图书馆学以及信息架构。

趁获奖机会,AAAI 组委会邀请了论文作者之一的 Natasha Noy 进行演讲。当年论文发表时 Natasha Noy 还在斯坦福大学攻读,如今她就职于谷歌研究院。

继续阅读“AAAI 2018经典论文获奖者演讲:本体论的昨天和今天”

知识工场 | 让机器认知中文实体 —复旦大学知识工场发布中文实体识别与链接服务

本文转载自公众号:知识工场

一、什么是实体识别与链接

近年来,如何通过知识图谱让机器实现自然语言理解受到越来越多的关注。其中,识别文本中的实体,并将它们链接到知识库中,是让机器理解自然语言的第一步,也是至关重要的一步。比如,当智能问答系统在回答“李娜在哪一年拿到澳网冠军?”这一问题时,第一步就是识别并在知识库中找到网球运动员李娜这一实体,才能继续从知识库中找到相关信息并作出回答。如果识别出错或者没有将“李娜”正确链接到网球运动员李娜这一实体的话,系统对于这个问题的回答必然出错。根据我们的调研,目前面向通用领域的中文实体识别与链接服务,能够公开可用且取得满意效果的还不多见。

继续阅读“知识工场 | 让机器认知中文实体 —复旦大学知识工场发布中文实体识别与链接服务”

论文浅尝 | Open world Knowledge Graph Completion

 

https://mmbiz.qpic.cn/mmbiz_png/GNpj5fw72Eqn7y9Fuu9OllQ0FpeggZj2FmR4QMXcXJyhuo5zleQmtEGIJsv17iaAfMDRzzRfA2LIibC46ib8EWqhA/640?wx_fmt=png&wxfrom=5&wx_lazy=1

来源:AAAI2018

论文链接:https://arxiv.org/pdf/1711.03438.pdf

代码链接:https://github.com/bxshi/ConMask

本文解决知识库补全的问题,但和传统的 KGC 任务的场景有所不同。以往知识库补全的前提是实体和关系都已经在 KG 中存在,文中把那类情况定义为 Closed-World KGC。从其定义可以发现它是严重依赖已有KG连接的,不能对弱连接有好的预测,并且无法处理从 KG 外部加入的新实体。对此这篇文章定义了 Open-World KGC,可以接收 KG 外部的实体并链接到 KG。论文提出的模型是 ConMask,ConMask 模型主要有三部分操作:

继续阅读“论文浅尝 | Open world Knowledge Graph Completion”

论文浅尝 | How to Keep a Knowledge Base Synchronized

https://mmbiz.qpic.cn/mmbiz_png/GNpj5fw72Eqiay3wE6zsGBICic9MEm28kfjlBfgQsicXLRBOSuNZRnNmHRGS2foLzmNaGzTFo20MibM78tlLJN1Uvw/640?wx_fmt=png&wxfrom=5&wx_lazy=1

Citation: Liang, J.,Zhang, S. & Xiao, Y. (2017). How to Keep a Knowledge Base Synchronized withIts Encyclopedia Source. Proceedings of the Twenty-Sixth International JointConference on Artificial Intelligence, 3749–3755.

论文链接:https://www.ijcai.org/proceedings/2017/0524.pdf

动机

随着知识图谱技术的快速发展,知识图谱正在越来越多的应用中扮演重要的角色。但是现有的知识图谱存在一个很明显的缺陷:图谱中的数据的实时性很差。绝大多数知识图谱从构建完成开始,其中的数据便不再更新。即使有更新,更新的周期也非常长。每一次的更新都是一次费时费力的、类似于重新构建知识图谱的过程。这样的更新机制一方面需要消耗大量网络带宽和计算资源,另一方面由于每次更新所消耗的代价太大,这就限制了更新的频率,使得知识图谱中数据的实时性非常差。由于缺乏一个实施的更新机制,图谱中这些没有同步更新的数据中存在大量的错误,这使得这些数据无法被利用。这种数据的滞后性给知识图谱的应用带来了很大的局限性。

继续阅读“论文浅尝 | How to Keep a Knowledge Base Synchronized”

知识工场 | CN-DBpedia 漫游指南

本文转载自公众号:知识工场

CN-DBpedia于2015年12月上线以来,已经有两年多的时间了,在数据层面做了大大小小百余项完善,在CN-DBpedia 3.0 即将上线之际,尽管我们觉得离完美还有距离,但也是时候拿出来让大家看看了。于是知识工场实验室做了一个知识图谱可视化系统,取名叫Curiosity,如果你也好奇,就点开看看啰。

继续阅读“知识工场 | CN-DBpedia 漫游指南”