论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

 

以下文章来源于PaperWeekly ,作者王文博

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly

继续阅读“论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)”

论文浅尝 | 知识库问答中关系检测的学习表示映射

 

论文笔记整理:吴涵,天津大学硕士,研究方向:自然语言处理。

链接:

Paper: https://arxiv.org/pdf/1907.07328v1.pdf

Code: https://github.com/wudapeng268/KBQA-Adapter

 

引入

在关系检测任务中,对于训练数据中已出现的关系,往往可以得到很好的准确度。但是对于未出现的关系,检测性能将会大幅衰减。主要原因是我们没有去表示这些未出现的关系。

 

文章摘要

关系检测是包括知识库问答在内的许多自然语言过程应用的核心步骤。目前能得到较高的准确度,是因为关系已在训练数据中。当应对未出现过的关系时,性能将迅速下降。造成这一问题的主要原因是未出现关系的表示形式缺失。为此,本文提出了一种简单的映射方法——表示适配器(representation adapter),该方法基于先前学习的关系嵌入来学习已出现和未出现关系的表示映射。利用对偶目标和重构目标来提高映射性能。重新组织了 SimpleQuestion 数据集来揭示和评估未出现关系的检测问题。实验表明,本文方法要优于当前的一些方法。

 

本文主要看点

1、不从训练数据中学习该关系表示,而是使用方法来从整个知识图谱中学习具有更广泛覆盖范围的表示。

2、提出了一种映射机制,称为表示适配器,或者简称为适配器,用以将学习到的表示合并到关系检测模型中。从适配器非平凡训练的简单均方误差损失入手,提出将对抗性和重构目标结合起来,以改进训练过程。

3、将SimpleQuestion数据集重新组织为SimpleQuestion-Balance,以分别评估已出现和未出现关系的性能。

4、实验表明,该论文提出的方法在检测未出现关系方面取得了很大的进步。

 

Representation Adapter 介绍

Representation Adapter 架构图如下:

其中,左边是基本适配器;中间是对抗性适配器;右边是带重构损耗的适配器。

 

应用

将适配器集成到最先进的关系检测框架中(Yu et al.,2017, hierarchy Residual BiLSTM (HR-BiLSTM))。

该框架使用问题网络将问题句编码为矢量 qf,使用关系网络将关系编码为矢量rf。这两个网络都是基于Bi-LSTM和最大池化操作。然后引入余弦相似度来计算qf与rf之间的距离,从而确定检测结果。论文提出的适配器是关系网络中用来增强该框架的一个附加模块,如下图所示:    

与以往的方法不同,该论文在关系表示中使用了所提出的适配器G(·)来解决未出现关系检测的问题。共享的Bi-LSTM用相同的颜色标记。适配器映射依赖于特定任务的关系,而特定任务又依赖于相应的网络。

线性映射:表示相似语言的表示空间可以通过线性映射传递。

 

训练

适配器 G(·) 在 GaN 中充当生成器。对于从训练集取样的任何关系,鉴别器的损耗lossD和生成器损耗lossG的目标函数是:

这里对于D(·),使用了一个前馈神经网络,没有最后一层的Sigmoid函数。

通常,适配器只能通过已出现关系的表示来学习映射,而忽略了潜在的大量未出现的关系。在这里,该论文使用额外的重构损失来增强适配器。更具体地说,采用了反向适配器 G’(·),将 G(e) 映射回e。

引入反向训练的好处是双重的。一方面,反向适配器可以通过所有的关系表示进行训练,无论是已出现的还是未出现的。另一方面,反向映射也可能成为规范正向映射的额外约束。

对于反向适配器G’(·),只使用类似于G(·)的线性映射函数,并使用均方误差损失来训练它:

关系检测模型由hinge损失训练,该方法试图将每一个负样本关系与正样本关系的分数使用差值分隔开:

其中γ是试图将每一个负关系从正关系中分离出来的范围,rf+是标注训练数据的正关系,rf是从其余关系中抽取的负关系,s(·,·)是qf与rf之间的余弦距离。

数据集

SimpleQuestion是一个大规模的KBQA数据集。在SQ中的每个样本包括一个人工注释的问题和相应的知识三元组。但是,测试集中的关系是不平衡的,测试集中的大部分关系都在训练数据中得到了体现。为了更好地评估未出现关系的检测性能,该论文重新组织了SQ数据集,以平衡开发和测试集中已出现和未出现的关系的数量,新的数据集表示为SimpleQuestion-Balance(SQB)。

 

实验结果

1、关系检测在SQB数据集上的微观平均精度和宏观平均精度。

2、采用不同的关系检测模型对整个KBQA系统的微观平均精度进行了测试。

3、在测试未出现关系的集合中,计算了该预测率的宏观平均精度。

 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

论文浅尝 | SPARQL 语言的 ASK 查询表达性研究进展

 

论文作者之一:杨炫兴,天津大学博士生。

链接:http://cic.tju.edu.cn/faculty/zhangxiaowang/publication/ASK.pdf

动机

SPARQL是万维网联盟(World Wide Web Consortium,简记W3C)推荐的知识图谱标准查询语言,其包含四类查询:SELECT、CONSTRUCT、ASK和DESCRIBE。与一般SELECT查询返回解不同,ASK查询返回布尔值(真或假)。自从2008年1月15日,万维网联盟W3C 首次发布SPARQL1.0到2013年进一步发布SPARQL1.1,以SELECT为代表的SPARQL基础理论取得较大进展。近年来,牛津大学开始研究CONSTRUCT并取得一些进展。然而,归咎于ASK基础理论刻画SPARQL的复杂问题,目前鲜有ASK基础理论研究工作。这项工作开始尝试研究ASK查询的表达能力(即,布尔表达性),并对SPARQL1.0标准的核心语言(由四个构子AND、OPT_F、UNION、FILTER构成的语言)以及这些子语言与SPARQL1.1标准中三类否定构子(Negation):DIFF_F、DIFF和MINUS结合的子语言,共计64个子语言,给出了其完整的表达关系哈斯图(Hasse Diagram)。相比SELECT查询表达性,ASK查询刻画的是子语言之间更细微的表达差异性。这项工作研究结果将有助于为SELECT查询提供优化理论基础,进一步完善SPARQL理论体系是官方提出的为RDF数据定制的查询语言。

亮点

本文的主要贡献可以概括为以下四点:

(1)分析并刻画了所有涉及SPARQL1.0算(AND,UNION,OPT_F,FILTER)的共16个子语言之间的表达关系哈斯图。

(2)分析并刻画了(1)中的16个子语言在引入MINUS算子后的表达关系哈斯图。

(3)   分析并刻画了(1)中的16个子语言在引入DIFF算子后的表达关系哈斯图。

背景知识

  • SPARQL 算子语义简介

SPARQL查询的语义通过映射集合(Mapping Set)来体现:一条三元组模式(triple pattern)在一个给定的RDF图上的语义为,一个包含所有能够“将该三元组模式匹配到该RDF图上(某条三元组)”的映射(mapping)的集合。

不同算子的语义代表了映射集合之间不同的二元操作,我们这里仅做直观的介绍,具体的形式化定义请参考论文。

(1)AND 算子代表“连接”的语义:(P1 AND P2)返回的是一个包含所有“同时将 P1 和 P2 匹配到图上(某个子图)”的映射的集合。

(2)UNION 算子代表“联合”的语义,(P1 UNION P2)返回一个包含所有“将 P1 或 P2 匹配到图上(某个子图)”的映射的集合。

(3)DIFF算子代表“减法”的语义,(P1 DIFF P2)返回一个包含所有“将P1匹配到图上(某个子图),且不能扩展为将 P2 匹配到图上(某个子图)”的映射的集合。

(4)MINUS算子的语义与DIFF相似。区别在于当 P1 和 P2 之间没有共享变量时,P1 DIFF P2 返回的是空集(此时 P2 非空,而因为没有共享变量不会产生冲突,任意P1中的映射都可扩展为 P2 中的映射)或 P1(此时 P2 为空集);而(P1 MINUS P2)返回的永远是 P1

(5)OPT 算子则是 AND 算子和DIFF的复合算子,(P1 OPT P2)= ((P1 AND P2) UNION (P1 DIFF P2))。

注:SPARQL标准支持OPT_F和DIFF_F,即允许FILTER内嵌到OPT和DIFF_F中。为了简洁阐述它们语义,我们还是以OPT和DIFF为例来介绍。

 

下面我们通过简单例子来展示不同算子的语义:

  • ASK查询与SELECT查询的区别

对于一个给定的查询(即图模式,graph pattern),SELECT查询返回的是一个包含所有将该图模式匹配到图上的映射的集合,ASK则返回的该映射集合是否为空的真值(True/False)。

两个查询P,Q在SELECT查询中等价当且仅当:对于任何查询图,P和Q在该图上的SELECT查询返回相同的映射集合。而两个查询P,Q在ASK查询中等价当且仅当:对于任何查询图,P和Q在该图上的ASK查询返回相同的真值。因此两个查询P,Q在SELECT查询中等价可以推导出其在ASK查询中也等价,反之则不一定成立。

  • ASK查询的表达性问题的定义

对于任意两个子语言W1和W2,我们称W1可被W2表达当且仅当:给定W1中任意的查询P,W2中都可找到一个查询Q,使得P和Q在ASK查询中等价。

理论分析

我们通过分析不同算子能够识别的图模式的特征,并以此为依据来判断64个子语言之间的可表达关系是否成立。

 

1.     AND只能被含有OPT的ASK查询表达

在ASK查询中,AND仅能被包含OPT构子的查询表达,这一点与SELECT查询一样。证明利用AND能表达圈性质,即一个图是否含有圈。换言之,非AND非OPT的ASK查询无法表达圈性质。

 

2.     含有OPT的ASK查询与含有AND的ASK查询之间可表达关系复杂

如果允许FILTER,那么含有OPT的ASK查询能够表达含有AND的ASK查询;反之,如果不允许,那么含有AND的ASK查询能够表达含有OPT的ASK查询。意外的是,含有OPT的ASK查询与含有AND的ASK查询不总是相互可表达。

3.     FILTER不可被非DIFF_F或非OPT_F的ASK查询

FILTER包含对约束条件进行查询限制性,是不含有DIFF_F或OPT_F的ASK查询所表达。证明利用了非DIFF_F或非OPT_F的ASK查询无法识别完整的RDF图,然而FILTER可以利用不等词约束条件可以识别。

 

4.     UNION在非MINUS的ASK查询中是冗余的

UNION刻画ASK查询的非确定性。在ASK查询下,UNION不确定性能被OPT和FILTER中的弱不确定性表达。证明分别利用了逻辑德·摩根定律思想与DIFF吸收定律和FILTER的析取逻辑关系来表达UNION。然而,MINUS相比DIFF太弱不足以表达UNION。

5.     DIFF_F只能被含有DIFF和FILTER的ASK查询表达

从DIFF_F的语义构造来看,DIFF_F同时含有DIFF和FILTER的语义特征。在ASK查询,DIFF_F的语义仍然具有重要特性。而且DIFF_F和AND结合能够表达整个本文研究SPARQL 1.1的核心子语言。从这个意义看,DIFF_F具有非常强大的表达性。除了AND,其它构子都能表示。DIFF相比DIFF_F来说,不能表达FILTER语义,因此ASK查询表达能力也降低很多。幸运地是,DIFF具有DIFF_F除了FILTER之外所有的表达能力,因此比MINUS具有较强的ASK查询表达能力。

 

6.     MINUS可以被任何否定ASK查询表达

在ASK查询中,MINUS描述的最弱的否定ASK查询。W3C仍然作为SPARQL1.1标准推荐,笔者觉得考虑工程实际需要。因为MINUS的语义逻辑性有所欠缺。在本项工作中,准确地给出了MINUS和DIFF差异之处(UNION查询)。两者之间差异的发现有助于工程师在实际应用中,能够准确使用。

总结

本文通过分析6个SPARQL算子在ASK查询中的表达性,刻画出了所有包含这六个算子的子语言之间的表达关系哈斯图。在ASK查询中,DIFF,AND和FILTER算子分别代表了分隔图(isolated graph),整体连通和查询图(同构层面上的)形状这三个彼此不相交的性质。这些新发现的性质对于SPARQL的查询的发现新优化方法提供了思路。

 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

论文浅尝 | 使用位置敏感的序列标注联合抽取实体和重叠关系

 

论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱、自然语言处理。

链接:https://wvvw.aaai.org/ojs/index.php/AAAI/article/view/4591

 

动机

之前的联合抽取实体以及实体间的关系的方法,主要是采用管道模型,即先识别出实体,再找出实体间的关系。这样的框架容易推导但易导致错误传播,以及忽略了实体和关系间的内在联系。Copyre的方法采用seq2seq2连续生成三元组的方式进行抽取,却不容易处理当实体是多个多个词组成的情况。本文提出了一种新的统一框架,通过查询次同时对实体和关系进行序列标注的方式联合抽取出三元组。

亮点

与之前的模型相比,我们提出了新的统一框架进行联合抽取。给定一个句子和一个查询位置p,我们的模型将回答两个伪问题:“p处的实体及其类型是什么?”和“ p处的实体与哪个实体有关系?”通过回答这两个问题我们将联合抽取问题转化为序列标注问题,对于n个单词的句子我们根据n个查询位置注释了n个不同的标签序列。为了在单个统一模型中对这n个标记序列建模,我们将一种新颖的位置注意力机制引入序列标记模型以生成n个不同的位置感知语句表示。另外,所提出的注意力机制可以在单词(实体)之间建立直接连接,这可能有助于提取远程关系(两个实体之间的距离很长)。

模型

模型的标注方式如下图。

我们的标记方案是,对于n个单词的句子,根据不同的查询位置p对n个不同的标记序列进行注释。在每个标签序列中,如果实体类型是在实体的开始处,则在当前查询位置p标记实体类型,而在p处与该实体有关系的其他实体则用关系类型标记,其余令牌被分配了标签“O”(外部),表明它们与所关注的实体不对应。因此,可以基于标签序列提取由三元组(Entity1,RelationType,Entity2)表示的关系。显然,第一个实体可以多次使用组成重叠的关系。

 

模型的整体架构如下图。

首先使用 word-level embedding 和 charcter-level embedding 一同喂到 Bi-LSTM 网络中,得到双向的 rnn 结果,拼接后即可得到整个句子的表征信息。

检测一个实体与另一个实体存在关系的关键信息包括:(1)实体本身内部的单词;(2)依赖的另一个实体;(3)表征关系的上下文。基于这些考虑,我们提出了位置注意力机制,它可以对查询位置处的实体信息以及整个句子的上下文信息进行编码,生成位置感知和上下文感知的信息表征 ,其中 c_t 是整个句子在注意力池化后的向量表征。

最后使用CRF解码句子即可得到最终的标记结果,得到对应的三元组。

实验

我们使用纽约时报((Ren et al. 2017)和            Wiki-KBP (Xiao and Weld 2012)的数据集来评估该方法。NYT和Wiki-KBP的统计数据如下表所示。

为了证明我们的模型对实体间长距离的抽取效果更好,我们和lstm-lstm-bias模型做了对比,如下图。

总结

在本文中,我们提出了一个统一的位置注意力的序列标注框架,用于联合抽取实体和重叠关系。实验表明,我们的方法可以有效地提取重叠关系,并在两个公共数据集上取得了最先进的结果。此外我们发现注意力机制有助于建模远程依赖关系,提高了模型在远程关系检测中的性能。

 

 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

技术动态 | 知识图谱从哪里来:实体关系抽取的现状与未来

本文作者为:韩旭、高天宇、刘知远。转载自刘知远老师的知乎专栏,文章链接:https://zhuanlan.zhihu.com/p/91762831

最近几年深度学习引发的人工智能浪潮席卷全球,在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下,深度学习深入影响了自然语言处理的各个方向,极大推动了自然语言处理的发展。来到2019年的今天,深度学习的诸多局限性也慢慢得到广泛认知。对于自然语言处理而言,要做到精细深度的语义理解,单纯依靠数据标注与算力投入无法解决本质问题。如果没有先验知识的支持,“中国的乒乓球谁都打不过”与“中国的足球谁都打不过”,在计算机看来语义上并没有巨大差异,而实际上两句中的“打不过”意思正好相反。因此,融入知识来进行知识指导的自然语言处理,是通向精细而深度的语言理解的必由之路。然而,这些知识又从哪里来呢?这就涉及到人工智能的一个关键研究问题——知识获取。

继续阅读“技术动态 | 知识图谱从哪里来:实体关系抽取的现状与未来”

论文浅尝 | 基于知识图谱注意力网络的商品推荐

 

论文笔记整理:康矫健,浙江大学计算机科学与技术系,硕士研究生。

论文链接:https://arxiv.org/pdf/1905.07854.pdf

发表会议:KDD 2019

任务定义

输入:协同过滤知识图谱

具体来说包括两个部分,其一是用户和商品的二部图

其二是原始的知识图谱

输出:预测用户u喜爱商品 i 的概率

动机

  1. KG 存在的商品之间的高阶连接关系,比如商品 1 和商品 2 是同一个导演,对推荐系统是有作用的
  2. 在引入 KG 的两类方法中,Meta-Path based Method 需要 domain knowledge 预先设计好 Meta-Path,且并非端到端的训练过程
  3. 而 Regularization-based methods 缺乏显式地捕获商品之间的高阶连接关系

基于以上 3 点,本篇论文作者将 KG 引入到推荐系统,提出了一个新的模型 KGAT,该模型能够以一种端到端的方法,显式地捕获商品之间的高阶连接关系,从而克服了之前 KG-Based Method 的不足之处

 

模型

1.     Embedding Layer

基于 TransR,使得真实的 triplet 尽可能地满足 ,而非真实的 triplet尽可能地不满足该关系,损失函数如下:

2.     Attentive Embedding Propagation Layers

Information Propagation: 用于聚合周围节点的信息

其中

Knowledge-aware Attention:聚合时候采用 knowledge attention的方式,而不是 averaging pooling 的方式

Information Aggregation:将聚合过来的周围节点信息和节点自身的信息结合在一起作为更新后的节点信息。这里边作者提供了三种方式,后续也有对照实验比较这几种方式的优劣

High-order Propagation:聚合多次就可以得到 high order 的 embedding。

3.     Prediction Layer

将L+1层的embedding拼接在一起作为最终user和item的embedding,并用两者的内积作为最终的预测值

4.     Optimization

Loss 包括两个部分,一个是KG embedding的loss,还有一个是商品推荐的loss,因此模型是一个联合训练的过程

实验分析

1.     Performance Comparison

可以看到,本文提出的KGAT在recall和ndcg指标上都不同程度地好于目前效果最好的模型,具体结果如下:

2.     Performance Comparison w.r.t. Interaction Sparsity Levels

在不同sparsity设定下,KGAT均好于当前所有模型

3.     Effect of Model Depth

可以看出,在大多数情况下,当KGAT的层数达到4层时,效果最好,证明了high order信息被我们有效地捕获到了

4.     Effect of Aggregators

可以发现,Bi-Interaction的聚合方式能够达到最好的performance

5.     Effect of Knowledge Graph Embedding and Attention Mechanism

可以发现,缺少了KG embedding或者attention mechanism之后,模型性能都在一定程度上有所下降,证明了这两个模块是有用的。

6.     Case Study

根据左图的 attention 值,可以发现给用户 u208 推荐商品 i4293 是由于用户 u208 曾经购买过商品 i1827,且商品 i1827 和商品 i4293 有共同的作者,这很明显为模型提供了一定程度的可解释性。

 

 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

参会邀请 | 第 9 届国际语义技术会议及 OpenKG 特别论坛

 

大会主页:http://jist2019.openkg.cn

早鸟注册截止11月18日,注册地址:http://jist2019.85do.com (点击阅读原文,直接注册)

 

第 9 届国际语义技术联合会议(JIST2019)将于 11 月 25 日至 27 日在杭州召开,本届会议的主题是“Open Web and Knowledge Graph”。国际语义技术联合会议是亚洲重要且有影响力的学术会议,主要聚焦语义网、知识图谱、本体、链接数据等面向互联网的人工智能技术。本届会议吸引了来自学术界和工业界的许多高质量投稿,现在组委会已经精心安排好了会议内容,包括来自 DB-Pedia 联合创办人 Christian Bizer 的“利用 Open Web 做知识图谱补全”,来自清华大学唐杰教授的“认知图谱与推理”、来自保奥斯陆大学的 Evgeny 教授“知识图谱与工业 4.0”等三个国际顶尖学者的keynotes;以及来自国际知识表示与推理资深专家 Diego Calvanese 教授的“虚拟知识图谱”、平安医疗倪渊博士的“面向智慧临床辅助决策的医疗知识图谱”、哈尔滨工业大学刘铭博士的“开放领域的知识图谱构建”等三个实战性 tutorials,以及 research paper,poster,demo 等会议环节。此外还将在 25 日举办 OpenKG 特别论坛(免费开放),邀请来自中日韩欧等多个国家和地区的知名专家就知识图谱发展前沿展开讨论,欢迎大家参加!

继续阅读“参会邀请 | 第 9 届国际语义技术会议及 OpenKG 特别论坛”

论文浅尝 | BERT:Pre-training of Deep Bidirectional Transformers

 

论文笔记整理:王春培,天津大学硕士。

链接:https://arxiv.org/pdf/1810.04805.pdf

动机

将预训练语言表示应用于下有任务现有两种策略:基于特征的和基于微调的。文章认为当前技术限制了预训练的能力,尤其是基于微调的方法。很多语言模型是单向的,或者特征抽取器功能不够强大,这些都限制了下游NLP任务的性能。BERT模型通过使用双向编码器来改进基于微调的方法,添加NSP提高模型性能,推进了11项NLP任务的技术。

亮点

BERT的亮点主要包括:

(1)使用双向语言模型,使用能力更强的Transformer提取特征,添加NSP任务,提高模型性能。

(2)推进了11项NLP任务的最新技术,可应用范围非常广。

概念及模型

  • 模型体系结构

BERT的模型架构是一个多层双向Transformer编码器,文中主要报告两种模型参数的结果:

(1)BERTBASE: L=12, H=768, A=12, TotalParameters=110M

(2)BERTLARGE: L=24, H=1024, A=16, TotalParameters=340M

  • 输入表示

输入表示分为三部分:

(1)词嵌入:用##表示分词

(2)位置嵌入:通过学习得到位置嵌入,支持序列长度可达512个令牌

(3)句子嵌入:句子对被打包成一个序列,首先用特殊标记将它们分开。其次,添加一个学习句子A嵌入到第一个句子的每个标记中,一个句子B嵌入到第二个句子的每个标记中,对于单个句子,只是用句子A嵌入。

 

  • 预训练任务

1、任务#1:Masked LM

文章认为双向语言模型比单向语言模型功能更强大,为了训练双向语言模型,文章采取的方法为随机屏蔽一定比例的输入令牌,然后仅预测那些被屏蔽的令牌,并将这其称为“Masked LM”(MLM),这种做法与CBOW不谋而合。

虽然可以此方法构建双向预训练模型,但这种方法有两个缺点。

首先,预训练和微调之间不匹配,因为[MASK]令牌在微调期间从未出现。为了减轻这种影响,文章提出并不总是用实际的[MASK]令牌替换“掩蔽”词。相反,训练数据生成器随机选择15%的令牌,然后执行以下过程:

(1)80%的时间:用[MASK]标记替换单词

(2)10%的时间:用随机单词替换单词

(3)10%的时间:保持单词不变

 

Transformer编码器不知道它将被要求预测哪些单词或哪些单词已被随机单词替换,因此它被迫保持每个输入标记的分布式上下文表示。此外,因为随机替换只发生在所有令牌的1.5%(即15%的10%),这似乎不会损害模型的语言理解能力。

第二个缺点是每批中只预测了15%的令牌,这表明模型可能需要更多的预训练步骤才能收敛。

 

2、任务#2:NSP

 

许多重要的下游任务都是基于理解两个文本句子之间的关系,而这两个文本句子并不是由语言建模直接捕获的。为了训练理解句子关系的模型,文章预先训练了一个可以从任何单语语料库生成的二值化的下一个句子预测任务。具体地,当为每个预训练示例选择句子A和B时,50%的时间B是跟随A的实际下一句子,并且50%的时间是来自语料库的随机句子。

 

实验

文章将介绍11个NLP任务的BERT微调结果:

1、GLUE结果

2、SQuAD v1.1

3、SQuAD v2.0

4、SWAG

总结

由于语言模式转换学习的经验改进表明,丰富的、无监督的预训练是许多语言理解系统的一个组成部分。特别是,这些结果使得即使是低资源任务也能从非常深的单向体系结构中受益。文章的主要贡献是将这些发现进一步推广到深度双向架构,允许相同的预训练模型成功解决一系列广泛的NLP任务。

 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。