阿里副总裁玄难:藏经阁计划首次在阿里应用落地

在全国知识图谱与语义计算大会(CCKS)上,阿里巴巴集团副总裁、藏经阁计划阿里负责人墙辉(玄难)宣布藏经阁计划首次在阿里应用落地,以及首次披露大规模知识构建技术细节,并从三个方面进行了解读。

本文转自阿里技术 公众号

2018年4月,阿里联合清华大学、浙江大学、中科院自动化所、中科院软件所、苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划,同时还宣布打算用一年时间初步建成首个开放的知识引擎服务平台,服务社会。

 

在全国知识图谱与语义计算大会(CCKS)上,阿里巴巴集团副总裁、藏经阁计划阿里负责人墙辉(玄难)宣布藏经阁计划首次在阿里应用落地,以及首次披露大规模知识构建技术细节,并从三个方面进行了解读。

 

阿里巴巴集团副总裁墙辉(玄难)

AI应用背后的海量知识

 

伴随着过去近19年的发展,阿里生态下消费者、卖家、品牌商、运营等各种角色参与其中,每天都产生着海量的数据。

 

以商品相关的数据为例,阿里有近百亿级别的实体,例如品牌、产品、条码等,实体之间又有百亿级别的关系边。以百科数据为例,阿里有近千万级别的实体,例如人物、地点、公司等,实体之间有十亿级别的关系边。

 

这些数据来源非常广泛,有来自国家的数据,例如GS1编码中心的条码数据,有阿里电商生态的数据,例如线上如淘宝、天猫、盒马,有不同业务形态的数据,例如高德、UC等。

 

但对于阿里来说,这些宝贵的资产要求数据具备很高的完整度和确定性,多源数据要把冗余度降低,数据无冲突,并彼此链接。最终目的是把数据变成知识,能够支撑着上层的AI应用,主要是三个方向:业务中台商业能力的智能化升级、搜索推荐、智能交互。

 

除了这些事实类的知识之外,阿里还有大量的形式化知识。

 

形式化知识对于垂直知识图谱很重要,构建知识图谱和知识图谱服务都要用到这些知识。例如商品知识图谱生成标签的画像知识,商品分类的场景知识,生成关系边的链接知识:判断商品-产品的关系,生成属性值的知识。还有大量的业务知识,例如管控业务和跨市场商品体系的联通,帮卖家把国内商品自动发布到国外。

 

海量的数据和知识,使我们在众多领域可以建立完善的知识引擎,但同时也面临很多挑战:

 

  • 阿里业务涉及很多垂直领域,如何快速搭建各个领域的知识图谱?
  • 如何把各个领域的知识图谱快速联通?
  • 如何管理海量的知识(事实类知识和形式化知识),如何更新这些庞大的知识图谱?
  • 如何面向搜索推荐、智能交互、商业能力智能化等多种应用做统一的知识表示?
  • 最终如何实现认知与感知的结合,实现类脑的推理能力?

首次披露大规模知识构建技术细节

 

面对这些挑战,我们在今年4月,联合清华大学、浙江大学、中科院自动化所、软件所、苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划。

 

整个计划依赖阿里强大的计算能力(例如Igraph图数据库),和先进的机器学习算法(例如PAI平台),把知识引擎分为五个模块:包括知识建模、知识获取、知识融合、知识推理计算和知识赋能。

 

这五个模块可以提供从数据、信息、知识到知识服务一整套技术平台化服务,同时,特定领域知识图谱可插拔,特定领域知识图谱加载后,可以提供特定领域的知识服务。

 

如今,知识引擎这五大技术模块技术研究有重要进展。

 

知识融合&知识获取算法大规模扩展

 

知识引擎提供通用的服务就会面临很多领域的知识图谱的构建和不同的业务。知识融合&知识获取算法要具备良好的扩展性。良好的扩展性需要快速获取训练数据,所以需要引入众包。

 

但是,众包数据质量参差不齐。不同的标注者把iPhoneX和苹果iPhone X标成产品词,这种不一致样本会成为训练的噪音。

 

我们通过对抗学习,对抗学习的优化目标是分类器分不标注者。从而隐层网络能学习出标注者之间的共性特征,然后把这个共性特征拼接到识别模型中。从而提高识别的精度。

 

提高知识获取模块实体关系抽取的精度

 

文本的句法信息对实体关系的识别非常重要。例如A和B创建了公司C。我们挖掘出公司C的创始人是A。通过A和B的并列关系的句法信息我们就可以知道公司C的创始人还有B。 所以我们设计了基于树结构来表示一个实体,从而能够把句法的层次信息表示进深度学习网络。

 

逻辑推理与深度学习结合的推理框架

 

这个推理引擎,通过一阶逻辑霍恩子句能够表示我们知识图谱中的百万级的形式化知识,使得这些知识可沉淀、可复用、可执行。形式化知识实时执行可以补全知识图谱的属性值,补全实体关系,生成画像标签,知识放大支持查询。

 

我们的创新点在于:整个推理引擎支持确定性推理,例如基于形式化知识的推理和基于深度学习推理,例如基于深度学习的关系补全。同时推理引擎支持算法、词库、垂直知识图谱的可插拔,例如查找产地为中国的食品:用到词林的信息,产地和原产地是同义词;用到地理知识图谱,天津属于中国;用到算法模块-同款商品算法,这样找到的商品量会增加百倍。

 

藏经阁计划首次应用落地

 

藏经阁计划涉及商品知识图谱、旅游知识图谱、客服体验知识图谱、安全知识图谱,如今,该计划首次在安全知识图谱和旅游知识图谱应用落地。

 

我们用知识引擎为城市大脑提供服务,安全知识图谱全要素搜索上线,能够让你的城市更安全,让每个人在一个城市里面过的更开心。

 

旅游业务是一个知识密集型的业务,消费者要对一个旅游目的地的知识做到快速获取和使用。知识引擎提高旅游景点信息质量、自动把游记攻略等内容结构化,和旅游知识的联通,极大提高用户的旅游体验。

 

我们希望一年内基于这些知识图谱沉淀通用的知识引擎服务包括:1)本体半自动化构建算法及管理工具;文本自动结构化算法;多源知识库融合算法与工具;基于形式化知识的推理及工具; 2)自然语言、逻辑语言、数据库语言查询服务。

 

各类垂直领域知识图谱,提炼和发现领域知识,为上层业务提供知识服务,实现商业创新,最终使各个垂直知识图谱关联互通,建成全领域知识图谱,为社会服务。

每天一篇技术文章,

看不过瘾?

关注“阿里巴巴机器智能”,

发现更多AI干货。

 

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注