YOCSEF TDS | “知识图谱”专题探索班

 

12月14日,YOCSEF将在中科院计算所举办“知识图谱”专题探索班,邀请自然语言处理、数据库、知识工程和机器学习领域重量级的专家做报告,让参会者在了解学科专题基础的同时,掌握本领域最新技术动态,了解未来技术趋势。

◆ ◆ ◆ ◆

中国计算机学会YOCSEF TDS《专题探索班》

The CCF YOCSEF Theme Discovery Symposium

知识图谱

2018年12月14日 北京

地址:中科院计算所一层报告厅 

报名网址:http://conf2.ccf.org.cn/TDS2  

◆ ◆ ◆ ◆

知识图谱和图数据是目前计算机学科相关研究中的热点,其具体研究涵盖知识图谱构建,知识图谱的存储和查询系统,面向知识图谱应用,以及大图数据的处理分析方法及系统等。知识图谱的研究之所以引起了众多研究者的关注,是因为面向知识图谱和图数据为计算机研究者提供一个非常好的交叉研究对象,这包括自然语言处理、数据库、知识工程和机器学习等领域。同时基于知识图谱的工业应用,也是各大互联网公司以及一些创业型企业共同关注的焦点。

本期CCF YOCSEF专题探索班“知识图谱”邀请到了自然语言处理、数据库、知识工程和机器学习领域重量级的专家学者做主题报告。他们将对知识图谱的基础学习理论、工业应用进行深入探索性的介绍,并对如何开展本领域前瞻性的研究等进行探讨。使参加者在了解学科专题基础、提高理论水平的同时,掌握本领域最新技术动态,了解未来技术趋势。

特邀讲者

张  钹

清华大学计算机系教授,中科院院士

张钹教授主要研究人工智能、人工神经网络、机器学习等基础理论,以及这些理论应用于模式识别、知识工程与机器人等技术研究。他的专著获得国家教委高等学校出版社颁发的优秀学术专著特等奖。他的成果分别获得ICL欧洲人工智能奖、国家自然科学三等奖、国家科技进步三等奖、国家教委科技进步一、二等奖、电子工业部科技进步一等奖以及国防科工委科技进步一等奖等奖励。此外,他参与创建智能技术与系统国家重点实验室,于1990-1996年担任该实验室主任。

张钹教授主要研究人工智能、人工神经网络、机器学习等基础理论,以及这些理论应用于模式识别、知识工程与机器人等技术研究。他的专著获得国家教委高等学校出版社颁发的优秀学术专著特等奖。他的成果分别获得ICL欧洲人工智能奖、国家自然科学三等奖、国家科技进步三等奖、国家教委科技进步一、二等奖、电子工业部科技进步一等奖以及国防科工委科技进步一等奖等奖励。此外,他参与创建智能技术与系统国家重点实验室,于1990-1996年担任该实验室主任。

吴信东

明略科技首席科学家、路易斯安那大学教授、IEEE/AAAS Fellow

主要研究方向包括:数据挖掘、基于知识的系统等。曾任数据挖掘领域最权威的国际期刊《IEEE Transactions on Knowledge and Data Engineering》主编,是两大国际顶级会议之一IEEE International Conference on Data Mining (ICDM)的创办人和现任指导委员会主席,2004年获得了ACM SIGKDD奉献奖。主持和承担多项美国国防部、能源部、国家科学基金委和中国国家基金委、科技部973计划等资助。

张  伟

阿里巴巴业务平台资深算法专家

张伟博士毕业于新加坡国立大学,本科毕业于哈尔滨工业大学。曾任新加坡资讯通信研究院自然语言处理应用实验室主任。研究领域:知识图谱、自然语言处理,机器学习等。

洪  亮

武汉大学信息管理学院副教授

洪亮现为武汉大学信息管理学院副教授,信息集成与应用实验室主任,武汉大学大数据研究院大数据技术研发中心主任。研究方向为图数据库,知识图谱,社会网络。在TKDE、TKDD、SIGSPATIAL等国际期刊和会议上发表论文40余篇,并获得多项国内外专利授权,撰写中英文专著多部。2017年入选武汉大学珞珈青年学者。

赵东岩

北京大学教授、大数据研究院自然语言处理与认知智能实验室主任

赵东岩,北京大数据研究院自然语言处理与认知智能实验室主任。北京大学研究员,博士生导师。主要研究方向为自然语言处理、大规模语义数据管理、知识服务技术。主持的项目获得国家科技进步二等奖,个人获第十届中国青年科技奖(2007)。中国计算机学会(CCF)中文信息技术专委会秘书长、CCF大数据专家委员会委员。

贾岩涛

华为公司中央软件院知识图谱首席技术专家

贾岩涛博士,华为公司中央软件院知识图谱首席技术专家,曾任中科院计算所副研究员,开放网络课题组组长。在国内外顶级和重要期刊上发表论文50余篇,授权专利15个,出版知识计算相关专著1部。其主导设计与研发的知识图谱自动构建工具多次在国际知识图谱构建权威评测TAC-KBP中排名第一。CCF大数据专家委通讯委员,中文信息学会语言与知识计算专委会委员。

漆桂林

东南大学教授、博导

获得“六大人才高峰”资助。担任中国中文信息学会语言与知识计算专业委员会副主任和中国科学技术情报学会知识组织专业委员会副主任,开放知识图谱联盟openKG的联合创始人之一。新华社中国经济信息社特约专家。是语义Web权威期刊Journal of Web Semantics的副主编和Semantic Web Journal的编委。

肖仰华

复旦大学计算机科学与技术学院教授

肖仰华博士,复旦大学计算机科学与技术学院教授、博士生导师、复旦大学知识工场实验室创始人、上海市互联网大数据工程技术中心副主任、知识图谱前沿技术系列课程发起人、十多个国家/省市/企业研究奖项获得者、三十多个国家/省市/企业研发项目负责人。在国际顶级学术会议与期刊发表论文百余篇,授权近20项知识图谱专利。领导构建了知识库云服务平台(知识工场kw.fudan.edu.cn),发布了一系列知识图谱,以API形式为数百家应用单位服务近10亿次。

执行主席

包云岗

中科院计算所研究员

CCF YOCSEF 学术委员会副主席、CCF杰出会员、杰出演讲者。现为中科院计算所先进计算机系统研究中心副主任。研究方向主要是计算机体系结构, 目前正在开展高效能数据中心设计与优化技术方面的研究。博士期间带领小组设计与实现了软硬件结合的计算机访存监控HMTT系统,为十几个国内外大学企业提供访存Trace数据。在国际顶级计算机系统会议期刊(如ASPLOS/ISCA/HPCA/Sigmetrics等)发表了一系列论文,曾两次获计算所优秀论文一等奖,获2013年”CCF-Intel青年学者提升计划”奖。

罗  训

天津理工大学教授

CCF YOCSEF 学术委员会副主席、CCF杰出会员、天津市千人计划专家。毕业于伊利诺伊大学芝加哥分校,此后在摩托罗拉研究院担任高级研究工程师,研究领域为个人计算。在高通研究院担任主任研究工程师,研究领域为移动多媒体标准和增强现实,是高通增强现实产品Vuforia的创始研究团队成员之一。除论文和专著外,他是28项美国和国际专利申请的发明人,其中18项已获授权。并作为主要代表参与了低功耗蓝牙与802. 11ac两个无线标准中关于多媒体部分的制定工作。

线上主席

邹  磊

北京大学教授

邹磊于2003年和2009年毕业于华中科技大学计算机科学与技术学院,分别获得工学学士学位和工学博士学位。邹磊于2009年7月入职北京大学计算机科学技术研究所,任讲师;并于2012年8月晋升为副教授。目前其主要研究方向为“海量图数据的管理”和“基于图的RDF知识库数据管理”等研究领域。

陈云霁

中科院计算所研究员

目前他带领其实验室,研制寒武纪系列深度学习处理器。在此之前,他从事国产处理器的研发工作十余年,先后负责或参与了多款龙芯处理器的设计。他在包括ISCA、HPCA、MICRO、ASPLOS等国际顶会及期刊上发表论文60余篇。陈云霁获得了首届国家自然科学基金“优秀青年基金”、首届国家万人计划“青年拔尖人才”、中国计算机学会青年科学家奖以及中科院青年人才奖。

注册标准

参会提示

建议加入CCF(http://sso.ccf.org.cn/sso/login.do),以会员价参会。

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

论文浅尝 | 多内容实体和关系联合抽取的对抗训练

 

链接:https://arxiv.org/pdf/1808.06876.pdf

动机

Szegedy 在 14 年发现,对于图像分类问题的神经网络,若是在输入中人为的添加很小尺度的扰动,会让已经训练好的神经网络做出错误的判断,并且可能以很高的置信度输出。很多人将这个性质的原因归结为深层神经网络的⾼度⾮线性以及过拟合。Goodfellow则给出了不同的看法。他认为即使是线性模型,也有这种现象。在高维空间中,即使是很小的扰动,也会对最终的输出值产生很大的影响。⽽对于神经⽹络⽽言,很多神经网络为了节省计算上的代价,都被设计成了线性的形式,这使得他们更容易优化,但是这样”廉价”的⽹络也导致了对于对抗扰动的脆弱性。除了生成对抗样本来攻击神经⽹络以外,对抗训练神经网络从⽽有效防⽌对抗样本的攻击也是⼀一个值得考虑的问题。之后大家开始尝试将对抗训练(AT)用于 NLP 领域,如文本分类问题。本文尝试将AT加入到实体识别和关系抽取的联合模型中,观察AT对联合模型的效果。

亮点

文章的亮点主要包括:

(1)提出了命名实体识别和关系抽取的联合模型,可以同时识别实体和实体间的关系,并且对于实体间存在的多关系也可以一次性提取出来;

(2)在训练过程中添加了对抗训练(AT),提升联合模型的鲁棒性和范性。

相关工作

一.实体和关系抽取的联合模型:

最初的联合模型是基于人工提取的特征,用于同时执行命名实体识别和关系提取子任务。这些方法依赖于NLP工具(例如POS标记器)的可用性,或者手工设计的特性,会导致额外的复杂性。之后神经网络的方法用来克服这一特征设计问题,通常涉及到RNNs和CNNs。特别是,Miwa和Bansal以及Li等人将双向树状结构的RNNs应用于不同的上下文以捕获语法信息(使用外部依赖分析器)。Gupta等人则使用各种手工提取的特性应用到RNNs中。Adel提出了解决简单问题的实体分类(EC,假设给出实体边界),与NER不同的是,他们复制实体周围的环境,将实体对喂给关系提取层。Katiyar和Cardie在研究带 attention 的RNNs时,没有考虑到关系标签并不是相互排斥的。最后,Bekoulis等人在联合模型中使用LSTMs一次只提取一个关系,但增加了NER部分的复杂性。

我们的基准模型支持从相同的输入同时提取多组关系。然后,我们使用对抗式训练进一步扩展了这个强大的基线。

 

二.对抗性训练(AT):

对抗训练(AT)是通过对训练数据产⽣生对抗噪声来规范分类算法的⼀一种⼿手段。它⿎鼓励神经⽹络对未经修改的例⼦子和扰动的例子进⾏正确的分类来实现深层模型,这实际上不仅增强了神经⽹络的鲁棒性,⽽且提高了它的普遍性。Szegedy的⽂章表明将对抗样本和普通样本一起训练模型训练,可使模型稍微正则化。训练对抗样本和平常的训练样本数增加不一样:通常我们通过对数据进⾏变形来增加数据,这样变形后的数据是可能出现在测试集⾥的。⽽对抗样本这种数据通常不可能⾃然地出现在测试集中,但是它们可以揭露出模型的缺陷。

在NLP环境中,针对不同的任务,如文本分类、关系提取和词性标注,AT有几种不同的变体。AT被认为是一种正则化方法。与其他引入随机噪声的正则化方法(dropout,word – dropout)不同,AT产生的扰动是模型容易误分类的样本的变体。

模型

文中设计的联合抽取模型如下:

基本模型从下往上依次为:

(1)输入层:输入是一个句子的序列 tokens。我们使用character embeddings来隐式捕获形态学特征(例如,前缀和后缀),通过一个vector(embedding)表示每个字符,将character embeddings 嵌入到BiLSTM中,以获得单词的基于字符的表示。另外也使用预训练过的word embeddings。

(2)BiLSTM层:word 和character embeddings 连接起来形成最终的token 表示,然后将其输入到BiLSTM层以提取顺序信息。

(3)实体识别层:对于NER任务,我们采用BIO (Beginning,Inside, Outside) 编码方案。对于实体标记的预测,我们使用:(i) softmax方法进行实体分类(EC)任务(假设给定的实体边界),或 (ii) CRF方法,这样我们同时识别每个实体的类型和边界。在解码过程中,在softmax设置中,我们贪婪地检测token的实体类型。虽然独立的类型分布对于EC任务来说是合理的,但是当相邻标签之间有很强的相关性时就不是这样了。例如,BIO编码方案在NER任务中强加了几个约束(例如,B-PER和I-LOC标记不能连续)。基于这种直觉,我们使用线性链CRF来完成NER任务。在CRF设置中,对于解码,我们使用Viterbi算法。在训练过程中,对于EC (softmax)和NER任务(CRF),我们将交叉熵损失L(NER)最小化。

(4)关系抽取层:实体标签作为label embeddings输入到关系提取层,与Bi提取的句子表示一起做关系抽取。其中假设实体类型的知识有助于预测相关实体之间的关系。

以上为完整的基本模型。若是在该联合模型的输入层中,针对embedding人为的添加小尺度的扰动η,就可以进行对抗训练(AT)。具体的η计算过程如下。

对于联合模型来说,有实体识别和关系抽取的联合损失函数 Ljoint

接下来生成一个对抗的输入样本,通过添加最坏扰动ηadv加入到输入的embedding中,来最大化损失函数:

对于ηadv直接在神经网络中求解是比较繁琐复杂,所以一般取其近似值为:

其中ε为定义的超参数,和输入层的 word embedding 的维度相关。如 word embedding 为100时,ε 可以近似取值为 0.01。g 为联合损失函数在 w 方向的梯度,也正是为了说明添加的扰动对于神经网络来说是最坏的情况。

之后训练的输入为原始和对抗样本的混合,所以最终求得的损失函数为:

实验

我们使用 github 代码基中的代码,在四个数据集中评估模型。特别地,我们遵循 Miwa 和 Bansal 为 ACE04 数据集定义的 5 倍交叉验证。对于CoNLL04EC任务(假设给定边界),我们使用与 Gupta 等人相同的分割。我们还使用10倍交叉验证对NER任务的模型进行评估,类似于Miwa和Sasaki在同一数据集中使用的模型。对于荷兰房地产分类信息DRECdataset,我们使用了Bekoulis等人的训练测试分割。对于不良药物事件ADE,我们进行了10倍的交叉验证,类似于Li等人。为了获得不受输入嵌入影响的类似结果,我们使用了之前作品的嵌入。我们在所有的实验中都采用了早停的方法。我们使用Adam优化器并修复超参数验证集。选择缩放参数α的范围为{ 5 e-2,1e-2、1 e-3、1 e-4 }。更大的α值在我们早期的实验导致一致的性能降低。这可以从一个事实来解释,添加更多的噪音可以改变句子的内容,改变的词向量的语义。

我们使用三种类型的评估,即:(1)S(trict):如果实体边界和实体类型都是正确的,则我们将实体得分为正确(ACE04,ADE, CoNLL04, DREC);(2)B(oundaries):如果只有实体边界是正确的,而不考虑实体类型,则我们将实体得分为正确(DREC);(3)R(elaxed):如果将至少一种正确的类型分配给组成该实体的tokens(假设边界已知),则认为multi-token实体分类是正确的。在所有情况下,当关系类型和参数实体都正确时,关系被认为是正确的。实验结果表明我们的联合模型取得了当前最好的效果。

另外当有AT加入到输入层时,可以让训练更快速度的达到收敛。

总结

本文执行一个大规模的实验研究在这个联合模型任务上,使用了不同的语境和语言的数据集。建立了一个强大的基线,它的性能优于所有以前的模型;而且模型依赖于自动提取的特性,实现了最先进的性能。另外与基线模型相比,在训练过程中应用AT可以让联合抽取的效果持续增加。

 

论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱、自然语言处理。

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

动机

在远程监督任务中,除了语料的错误标注问题,还存在句内噪声单词过多的问题,即多数句子都存在一些与表达关系无关的词汇,这个问题未有人关注。当前研究的另一个问题是,句子特征抽取器采用随机初始化的方法,存在不健壮的问题。

针对句内噪声的问题,本文采用子树解析的方法,去除与表达关系不相关的词汇;针对关系抽取器不健壮的问题,本文采用迁移学习的方法,用实体分类对模型的参数做预训练。

方法

本文方法包括三个部分:

(1)     子树解析。首先对句子做句法解析,然后找到两个实体最近的共有祖先,最后取以该节点为根节点的子树,保留句子中的这部分,其余部分丢弃。

(2)     构造含有多个注意力机制的关系抽取器。采用BGRU作为句子语义抽取器,抽取器中添加面向单词的注意力和面向实体的注意力。然后采用面向句子的注意力方法,结合一个实体对对齐的多个句子的信息作为实体对间关系的语义表示,用于后续的关系分类。

(3)     参数迁移初始化。将模型部分结构用于实体类型分类任务,训练得到的参数用作关系抽取器相应参数的初始化。

 

实验

实验进行了 held-out evaluation 和 manual evaluation,结果如下图所示,可见取得了较好的效果。

 

笔记整理:刘兵,东南大学计算机博士,研究方向为自然语言处理、信息抽取。

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

论文浅尝 | KG Embedding with Iterative Guidance from Soft Rules

 

论文链接:https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/16369/16011

发表会议:AAAI 2018

摘要

知识图谱表示学习旨在将实体和关系嵌入到向量空间,同时保留知识图谱的内在结构。传统方法主要基于关系三元组学习知识图谱的嵌入表示。本文认为,知识图谱中的逻辑规则对于表示学习也很有帮助,于是提出了一个新的表示学习模型RUGE (Rule-Guided Embedding)。RUGE的主要特点是,利用从知识图谱自动抽取的规则迭代地预测未标记三元组,并将其加入训练来增强表示学习。

方法介绍

RUGE框架如下图所示。与传统方法不同,该模型除了利用labeled三元组,还同时引入了unlabeled三元组和逻辑规则。RUGE利用自动抽取的规则,生成带有置信度的unlabeled三元组并加入训练。整个过程是迭代的,基于嵌入表示为unlabeled三元组计算soft label,然后利用soft label进行表示学习。

1. 学习资源

a)      soft规则:带有置信度的FOL规则。对于规则格式,举个例子:∀x, y :(x, rs, y) ⇒ (x, rt, y),表明具有关系 rs 的两个实体也具有关系 rt

b)      labeled 三元组:正例三元组标记为1,反例三元组标记为-1。传统方法主要利用这些 labeled 三元组进行表示学习。

c)      unlabeled 三元组:本文中的 unlabeled 三元组特指利用规则和已知三元组可以推导出的三元组。

其中,soft规则可以利用开源系统如AMIE+自动地从知识图谱中抽取。将soft规则中的变量替换为具体的实体,我们可以获得规则groundings。比如,基于规则∀x, y :(x,BornInCountry, y) ⇒ (x, Nationality, y),我们可以得到规则grounding:(EmmanuelMacron, BornInCountry, France) ⇒ (EmmanuelMacron,Nationality, France)。本文只考虑那些前件是labeled三元组的规则groundings,这些groundings的后件三元组,就是unlabeled三元组。

2.     三元组和规则建模

对于三元组建模,本文采用现有模型 ComplEx [2],三元组的真值可以直接计算得到。对于规则建模,也就是建模规则 groundings 的真值,本文采用 T-norm fuzzy logics [3],规则的真值等于其三元组真值的逻辑组合。用 表示的真值,那么。这个地方非常巧妙,通过这个公式,规则和三元组结合在了一起,并且我们可以基于规则真值来计算 unlabeled 三元组的真值。

3. 弱标记预测

至此,一方面,我们可以基于嵌入表示来计算 labeled 和 unlabeled 三元组的“真值”,用表示;另一方面,也可以基于规则 groundings 的真值来计算三元组的实际真值,即本文所指的 soft label,用表示。本文希望,这两个真值应该是接近的,且应当使得规则 groundings 为真。于是文本定义如下优化目标:

其中,第一个方框是两个真值的均方误差,是最小化的目标。第二个方框是一个约束条件,希望 groundings 的真值为1,置信度是。

4. 表示学习矫正

基于上一步,我们得到了unlabeled三元组的soft label。结合labeled三元组,本使用logistics loss进行统一优化,如下:

实验结果

本文的主要实验任务是传统的关系预测。数据集采用了FB15K和YAGO37. 实验结果如下表所示。我们可以看见,RUGE相比对比方法,取得了较好的结果。

参考

[1] Shu Guo, Quan Wang, Lihong Wang, Bin Wang, Li Guo: Knowledge Graph Embedding With Iterative Guidance From Soft Rules. AAAI 2018: 4816-4823

[2] Théo Trouillon, Johannes Welbl, Sebastian Riedel, Éric Gaussier,Guillaume Bouchard: Complex Embeddings for Simple Link Prediction. ICML 2016:2071-2080

[3] H´ajek, P. The metamathematics offuzzy logic. 1998

 

论文笔记整理:孙泽群,南京大学博士生,研究方向为知识图谱、知识融合。

 

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

通过预训练提升语言理解

 

官方地址:https://blog.openai.com/language-unsupervised/

文章:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

代码:https://github.com/openai/finetune-transformer-lm

本文利用Transformer和非监督预训练结合的方法,提出了一种能用于各种NLP任务的预训练框架,实验结果表明该模型使12项NLP任务中的9项做到了state-of-art的结果。这说明非监督预训练对提升NLP任务的监督学习有很大帮助。

继续阅读“通过预训练提升语言理解”