技术动态 | TechKG:一个面向中文学术领域的大型知识图谱

 

作者:东北大学-知识图谱研究组  任飞亮

TechKG 是一个面向中文、面向学术、多领域的大型知识图谱知识库,知识库由“东北大学-知识图谱研究组”开发完成。和已有知识图谱如 Freebase 或 YAGO 相比,TechKG 具有如下主要特点:

1、是一个大型的中文知识图谱知识库。当前,TechKG 共包含大约 5 千万个实体、以及 2.6 亿个三元组。知识规模和 Freebase 及 YAGO 相当。

2、面向科技。TechKG 的数据源为发表在中文各类学术期刊上的科技论文,和 Freebase 或 YAGO 这些通用知识图谱相比,TechKG 更有侧重性。

3、领域划分完整。当前,TechKG 的数据共分为 38 个研究领域,每个研究领域对应一个学科。据我们所知,TechKG 是当前唯一一个有明确领域分类的大型知识图谱。

通过在 TechKG 上的数据分析,我们还获得了如下一些中文知识图谱所特有的现象。

首先,TechKG 显示,中文作者姓名重名现象严重。我们把作者重名问题分为两类:领域间重名和领域内重名。如果一个作者名出现在不同的研究领域,则该名字称为领域间重名。如果一个作者名字出现在同一领域(比如“计算机”领域)的不同研究机构中,则该名字称为领域内重名。我们的实验结果显示,平均每个中文作者名出现在3.97个领域中。我们甚至发现,有167个作者名(如:张林、刘华、汪洋、张磊、王辉、李兵、张健、陈鹏、王欣、李强、王莉、杨辉、王琳、刘杰、王平、张岩、刘超、陈华、杨军、张志刚等)出现在了所有的领域中。而领域间重名现象则更加复杂,难以精确识别。因为,有时候是同一个作者在不同时间段里处于不同的研究机构,有时候是不同的作者处于不同的研究机构。对于前者,就并不是重名问题,但此时识别难度就要大的多。

其次,领域术语的重名现象严重。这里的领域术语重名是指一个领域术语同时出现在多个领域中。而且,我们的实验结果显示,类似tf*idf的方法并不能有效地消除领域术语的重名问题。比如,即使是取每个领域中tf*idf为top-10%的术语,平均每个术语仍会出现在大约2.62个领域中。

第三,严重的数据分布不均衡现象。在之前的研究中,研究者把知识图谱中的关系分为4个类型:1-1、1-n、m-1、m-n。我们的统计结果显示,在TechKG中,这4个关系类型所占的比例极度不均衡。我们统计了在不同的tf*idf领域术语过滤条件下这4类关系类型所占的比例,发现tf*idf的过滤条件基本不会对类型分布产生影响:在各个tf*idf设置下,m-n类型关系所占的比例均起过60%,m-1类型的关系所占的比例均接近20%,1-1类型的关系所占的比例大约在15%左右,而1-n类型的关系则基本可以忽略不计,只有0.01%左右。

我们的初步实验结果显示,TechKG的上述特有现象会对下游的一些任务产生重要影响。如在Knowledge graph embedding任务中,实验结果显示,不仅重名问题(作者重名及领域术语重名)会对实验性能产生严重的负面结果,关系类型不均衡现象也会极大地影响实验的最终性能。实际上,TechKG显示出来的这些特性均为中文中所存在的固有的语言学现象,在Freebase或YAGO这些英文知识图谱中并没有体现。而之前因为没有合适的中文知识图谱数据集,所以,相应的问题并没有得到研究者们的注意。现在,TechKG为研究者们提供了一个可以对上面问题进行深入研究的知识图谱数据集。

基于TechKG,我们还构建了以下几类知识库,每类知识库均分38个领域,每个领域对应一个学科。

  • TechKG10:从TechKG中抽取的子集,抽取规则如下:1)领域术语的tf*idf在前10%;2)每个实体至少出现在10个三元组中。
  • TechTerm:一个中文领域术语知识库,每个领域均由从TechKG中tf*idf最高的术语中随机选择的1w条术语组成。
  • TechBiTerm:一个“中—英”术语对知识库,每个领域均由从TechKG中选择的”共现”次数最多的1w个术语翻译对组成。
  • TechAbs:一个由论文摘要组成的知识库,每个领域均由随机选择10w个摘要组成。
  • TechQA:一个问答知识库,基于TechKG10、采用模板生成。
  • TechNER:一个基于TechTerm、采用远程监督方式生成的主要用于进行领域术语识别任务的知识库,每个领域包含3w个训练句子。
  • TechRE:一个基于TechKG10、采用远程监督方式生成的主要用于关系抽取任务的知识库,每个领域由随机选择的20w个训练bags组成,每个bag平均包含6个句子。

 

利用TechKG以及上面的几个知识库,研究者们不仅可以开展知识图谱方向相关的研究(如知识图谱embedding、关系抽取、命名实体识别等),还可以进行如:KBQA、机器翻译、文本分类等多项相关任务的研究。

 

读者可通过以下网站下载TechKG以及相关的几类知识库: www.techkg.cn。也可以通过论文 ”TechKG: A Large-Scale Chinese Technology-Oriented Knowledge Graph” 来了解 TechKG 的详细特性(论文下载地址:https://arxiv.org/abs/1812.06722)。

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

发表评论

邮箱地址不会被公开。 必填项已用*标注