陈华钧 | 知识图谱构建,将成为智能金融的突破口

 

本文转载自公众号:恒生技术之眼

我们太容易被机器下棋这样的事所吸引,以至于现在谈到人工智能就基本都是在说机器学习和深度学习,而相对忽视了与人工智能相关的另外一个重要的方向:知识图谱。

——陈华钧

尽管人工智能依靠机器学习技术的进步取得了巨大的进展,例如,AlphaGoZero不依赖人类知识的监督,通过自我强化学习获得极高的棋力,但人工智能在很多方面,如语言理解、视觉场景理解、决策分析等,仍然举步维艰。关键问题在于,机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。

人类知识与机器知识

哲学家柏拉图把知识(Knowledge)定义为“Justified True Belief”,即知识需要满足三个核心要素:合理性(Justified)、真实性(True)、被相信(Believed)。简单而言,知识是人类通过观察、学习和思考有关客观世界的各种现象而获得和总结出的所有事实(Facts)、概念(Concepts)、规则或原则(Rules & Principles)的集合。人类发明了各种手段来描述、表示和传承知识,如自然语言、绘画、音乐、数学语言、物理模型、化学公式等。具有获取、表示和处理知识的能力是人类心智区别于其它物种心智的重要特征。人工智能的核心也是研究怎样用计算机易于处理的方式表示、学习和处理各种各样的知识。知识表示是现实世界的可计算模型 (Computable Model of Reality),广义的讲,神经网络也是一种知识表示形式。

在人工智能的早期发展流派中,符号派(Symbolism)侧重于模拟人的心智,研究怎样用计算机符号来表示人脑中的知识和模拟心智的推理过程;连接派(Connectionism)侧重于模拟人脑的生理结构,即人工神经网络。符号派一直以来都处于人工智能研究的核心位置。近年来,随着数据的大量积累和计算能力大幅提升,深度学习在视觉、听觉等感知处理中取得突破性进展,进而又在围棋等博弈类游戏、机器翻译等领域获得成功,使得人工神经网络和机器学习获得了人工智能研究的核心地位。深度学习在处理感知、识别和判断等方面表现突出,能帮助构建聪明的AI,但在模拟人的思考过程、处理常识知识和推理,以及理解人的语言方面仍然举步维艰。

符号派关注的核心是知识的表示和推理(KRR:Knowledge Representation and Reasoning)。早在1960年,认知科学家Allan M. Collins提出用语义网络(Semantic Network)来研究人脑的语义记忆。WordNet是典型的语义网络,它定义了名词、动词、形容词和副词之间的语义关系,例如动词之间的蕴含关系(如:“打鼾”蕴含着“睡眠”)等。WordNet被广泛应用于语义消歧等自然语言处理领域。

从“知识库”到“推理机”

1970年,随着专家系统的提出和商业化发展,知识库构建和知识表示更加得到重视。专家系统的基本想法是:专家是基于大脑中的知识来进行决策,因此,人工智能的核心应该是用计算机符号来表示这些知识,并通过推理机模仿人脑对知识进行处理。依据专家系统的观点,计算机系统应该由知识库和推理机两部分组成,而不是由函数等过程性代码组成。早期专家系统最常用的知识表示方法包括基于框架的语言(Frame-based Languages)和产生式规则(Production Rules)等。框架语言主要用于描述客观世界的类别、个体、属性及关系等,较多的被应用于辅助自然语言理解。产生式规则主要用于描述类似于IF-THEN的逻辑结构,适合于刻画过程性知识。

经常与知识表示并提的另外一个重要概念是机器推理,实际上推理相比于机器学习对于高层AI的实现来说可能更加重要。目前AI比较前沿的研究方向都是在考虑怎样把连接主义所推动的机器学习能力与传统符号主义所关注的机器推理问题相结合,以实现感知到认知层的跨越。

让机器像人类一样认知世界

知识图谱说yes

知识图谱的早期理念来自于Web之父Tim Berners Lee于1998年提出的Semantic Web,其最初理想是把基于文本链接的万维网转化成基于实体链接的语义网。语义网十余年的发展积累了大量语义知识库,如:Freebase、DBpedia、Yago、WikiData等。谷歌在吸收语义网相关成果基础上于2012年推出了基于其称之为知识图谱的搜索引擎产品。随后,知识图谱逐步在语义搜索、智能问答、辅助语言理解、辅助大数据分析等很多领域发挥出越来越重要的作用。

1989年,万维网之父、图灵奖获得者Tim Berners-Lee提出构建一个全球化的以“链接”为中心的信息系统(Linked Information System)。任何人都可以通过添加链接把自己的文档链入其中。他认为以链接为中心和基于图的组织方式,比起基于树的层次化组织方式,更加适合于互联网这种开放的系统。这一思想逐步被人们实现,并演化发展成为今天的World Wide Web。

1994年,Tim Berners-Lee 又提出,Web不应该仅仅只是网页之间的互相链接。实际上,网页中所描述的都是现实世界中的实体和人脑中的概念。网页之间的链接实际包含有语义,即这些实体或概念之间的关系,然而机器却无法有效的从网页中识别出其中蕴含的语义。他于1998年提出了Semantic Web(语义互联网)的概念。Semantic Web仍然基于图和链接的组织方式,只是图中的节点代表的不只是网页,而是实体(如:人、机构、地点等),而超链接也被增加了语义描述,具体标明实体之间的关系(如:出生地是、创办人是等)。相对于传统的网页互联网,Semantic Web的本质是知识的互联网或语义互联网。

在语义互联网被提出之后,出现了一大批新兴的语义知识库。如作为谷歌知识图谱后端的Freebase,作为IBM Waston后端的DBPedia和Yago,作为Amazon Alexa后端的True Knowledge,作为苹果Siri后端的Viv等。尤其值得一提的是,2010年谷歌收购了早期语义网公司MetaWeb,并以其开发的Freebase为数据基础之一,于2012年正式推出了称为知识图谱的搜索引擎服务。谷歌知识图谱的宣传口号是:“Things, Not Strings!”。所解决的核心问题是把对文本(String)的网页搜索转化为的对事物(Things)的语义搜索,可以看做是语义互联网的一种商业化实现。

从“后备”到“前锋”,现代知识图谱遇难题

知识图谱并非突然出现的新技术,而是历史上很多相关技术相互影响和继承发展的结果,这包括语义网络、知识表示、本体论、Semantic Web、自然语言处理等,有着来自Web、人工智能和自然语言处理等多方面的技术基因。

从早期的人工智能发展历史来看,Semantic Web是传统人工智能与Web融合发展的结果,是知识表示与推理在Web中的应用;RDF/OWL都是面向Web设计实现的标准化的知识表示语言;而知识图谱则可以看做是Semantic Web的一种简化后的商业实现。

但我们要强调知识图谱与传统专家系统时代的知识工程有显著的不同。首先,传统专家系统的知识库构建大多以实现高端的决策智能为目标,而知识图谱虽然也被用来实现大数据决策分析(如Plantir),其首要的应用目标是辅助搜索和智能问答。另外一方面,与传统专家系统时代主要依靠专家手工获取知识不同,现代知识图谱的显著特点是规模巨大,无法单一依靠人工和专家构建。传统的知识库,如由Douglas Lenat从1984年开始创建的常识知识库Cyc仅包含700万条的事实描述(Assertion),最新的ConceptNet 5.0也仅包含2800万RDF三元组关系描述,而现代知识图谱已经包含超过千亿级别的三元组。

知识图谱的规模化发展

现代知识图谱对知识规模的要求源于“知识完备性”难题。冯诺依曼曾估计单个个体的大脑中的全量知识需要2.4*1020个bits来存储。客观世界拥有不计其数的实体,人的主观世界更加包含有无法统计的概念,这些实体和概念之间又具有更多数量的复杂关系,导致大多数知识图谱都面临知识不完全的困境。在实际的领域应用场景中,知识不完全也是困扰大多数语义搜索、智能问答、知识辅助的决策分析系统的首要难题。

此专家非彼专家

领域知识图谱变身“百事通”

领域知识图谱是相对于通用知识图谱(如DBPedia、Yago、Wikidata等)而言,面向特定领域的知识图谱,如电商、金融、医疗等。相比较而言,领域知识图谱知识来源更多、规模化扩展要求更迅速、知识结构更加复杂、知识质量要求更高、知识的应用形式也更加广泛。

通用知识图谱与领域知识图谱的比较

以比较有代表性的金融领域为例。在金融领域,围绕金融的本体知识建模一直都有不少人在做。在大约10多年前,就有一批做金融信息的结构化描述的人在尝试构建整个金融领域的本体知识模型,其中一直延续到现在的一项工作是FIBO。他们的目标就是希望能够定义整个金融域的规则,并且是采用Top-Down的做法,这是成本非常高昂的工作,而我们现在更多的强调领域知识图谱的构建应该从大量数据中去挖掘和总结。

金融领域比较典型的例子如Kensho采用知识图谱辅助投资顾问和投资研究,国内以恒生电子为代表的金融科技机构以及不少银行、证券机构等也都在开展金融领域的知识图谱构建工作。金融知识图谱构建主要来源于机构已有的结构化数据和公开的公报、研报及新闻的联合抽取等。在知识表示方面,金融概念也具有较高的复杂性和层次性,并较多的依赖规则型知识进行投资因素的关联分析。在应用形式方面,则主要以金融问答和投顾投研类决策分析型应用为主。金融知识图谱的一个显著特点是高度动态性,且需要考虑知识的时效性,对金融知识的时间维度进行建模。

金融知识图谱特点(细化到具体层面论述)

此外金融领域还有一些比较适合于做知识图谱的特点,如文本资源非常丰富,且动态性非常高。大量高度动态的新闻、公报、研报都是自动化获取知识图谱的有力来源,在这方面,我们可以较为深入应用实体识别、大规模自动化词库构建、结合远程监督和深度学习的关系抽取等多方面的图谱构建技术。只要一点一点积累高质量的知识图谱,结合深度学习和自然语言处理等领域的最新进展,金融知识图谱会发挥出门槛式的重大价值。

结语

互联网促成了大数据的集聚,大数据进而促进了人工智能算法的进步。新数据和新算法为规模化知识图谱构建提供了新的技术基础和发展条件,使得知识图谱构建的来源、方法和技术手段都发生极大的变化。知识图谱作为知识的一种形式,已经在语义搜索、智能问答、数据分析、自然语言理解、视觉理解、物联网设备互联等多个方面发挥出越来越大的价值。AI浪潮愈演愈烈,而作为底层支撑的知识图谱赛道也从鲜有问津到缓慢升温,虽然还谈不上拥挤,但作为通往未来的必经之路,注定会走上风口。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。


内容转载自公众号

恒生技术之眼

 

研讨会 | 知识工程与问答技术研讨会 (KEQA2018)

人工智能的迅速发展将深刻改变人类社会,而知识工程是人工智能领域中的一个重要研究主题。随着机器学习、自然语言处理和语义网技术的快速发展,知识获取与处理的能力得到了极大的提升,包括自然语言问答技术在内的智能应用也备受关注。本次研讨会邀请国内相关研究领域的知名学者做学术报告,分享知识工程与问答技术方面的最新研究进展,探讨相关技术的发展方向,以推动相关技术的进步。

会议由江苏省人工智能学会主办,江苏省人工智能学会知识工程与智能服务专委会和江苏省软件新技术与产业化协同创新中心联合承办,会议主办方和承办方诚邀您的参加。

一、会议时间、地点

2018年7月6日

南京大学 (仙林校区) 计算机科学与技术系

二、会议日程安排

三、会议注册

本次会议的会费为每人500元,学生优惠价300元;江苏省人工智能学会会员 (含学生会员) 减免100元。会议期间往返交通及食宿自理。详见会议网页:
http://ws.nju.edu.cn/conf/keqa2018/。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

阅读原文

研讨会 | 知识图谱助力图书馆知识管理与智慧服务研讨会

知识图谱是大数据时代重要的知识表示方式之一,也是人工智能技术的重要支撑,在智能检索、数据分析、自动问答、知识推荐、知识管理等领域有着广泛的应用前景,为知识创新管理带来了新机遇。由于知识图谱实现了对象识别、文本理解、关系推理、机器学习等智能方法的应用,逐步成为出版社和知识服务机构所关注的焦点。

为推动知识图谱技术与图书馆研究与实践的深度结合,赋图书馆知识管理智能,促进我国图书馆知识创新服务模式的转变,中国图书馆学会将举办“知识图谱助力图书馆知识管理与智慧服务”研讨会,探讨知识组织、知识发现、知识表达、知识查询与搜索、智能知识服务等研究与业务的知识图谱技术理论与实践。

欢迎图书馆、档案馆、博物馆、高等院校、科研院所、知识服务机构以及政府部门的研究者、管理者、业务骨干、技术人员以及从事知识管理、服务研究与实践、知识创新的专家、学者、研究生参会。现将会议有关事项通知如下:

一、组织机构

主办单位:中国图书馆学会

承办单位:北京理工大学图书馆

协办单位:上海图书馆

中科院文献情报中心

《上海高校图书情报工作研究》编辑部

二、会议主题

智能时代下知识图谱助力图书馆知识智能管理与智慧服务

三、会议主要活动

特邀国内相关领域的重要专家学者做主题报告,并与参会者讨论发言、互动交流。

四、会议时间和地点

会议时间:2018年6月11日-14日(含报到、离会时间)

报到时间:2018年6月11日17:00前

离会时间:2018年6月14日12:00前

会议地点:北京理工大学国际教育交流大厦

报到地点:北京理工大学国际教育交流大厦

五、费用

1.本次会议收取会议费850元(含资料、专家指导、场地等费用)。

2.参会人员的往返交通费、食宿费用自理。与会者请自行预订北京理工大学附近酒店。

3.会议费付费说明:两种缴费方式,请自行选择:

(1)银行汇款:6月8日前会议费汇至中国图书馆学会账户,报到现场领取发票。汇款时请注明“知识图谱助力图书馆知识智能管理与智慧服务研讨会”+单位名称+姓名。

户  名:中国图书馆学会

帐  号:01090303200120105049050

开户行:北京银行魏公村支行

(2) 现场交费:报到现场以现金或刷卡形式缴纳会议费,会务组将在会议结束后一个月内,将发票邮寄给参会代表。

六、报名方式

会议采取网上报名方式,请登陆中国图书馆学会网站,从网站右上角“登录”进入中国图书馆学会会员管理与服务平台注册报名(如已有账户,则不必注册)。以“个人用户”注册成功并登录后,在“我的首页”会议板块找到本次会议名称,点击“参加”提交报名申请。

七、联络方式

许舟舲  010-68918410   18811353827

附件:1.会议日程

2.报到地点及乘车路线

中国图书馆学会

2018年5月26日

附件1

会议日程

2018年6月12日
主持人:漆桂林

(中国中文信息学会语言与知识计算专业委员会副主任、中国科学技术情报学会知识组织专业委员会副主任)

地点:北京理工大学国际教育交流大厦
8:00-9:00 签到
9:00-9:30 领导致辞

中国图书馆学会副理事长李广建

北京理工大学图书馆馆长、北京理工大学计算机学院书记丁刚毅

9:30-10:10 漆桂林 知识图谱技术与情报分析 中国中文信息学会语言与知识计算专业委员会副主任、中国科学技术情报学会知识组织专业委员会副主任、东南大学教授
10:10-10:40 休息
10:40-11:20 李广建 智慧服务与知识融合 中国图书馆学会副理事长、中国社会科学情报学会副理事长、北京大学信息管理系主任、北京大学教授
11:20-12:00 徐永明 大数据建设与学术地图发布平台 浙江文献集成编纂中心主任助理、浙江大学教授
12:00-13:30 午休(自助餐)
13:30-14:10 李宗友 中医药知识服务模式创新与应用 中国中医科学院信息所所长
14:10-14:50 逄金辉 图书馆知识素养创新学习新模式 北京理工大学图书馆馆长助理、北京理工大学副教授
14:50-15:20 休息
15:20-16:00 王一珉 基于文献大数据的几个人才分析研究案例 爱思唯尔公司、大中华区科研管理总监
16:00-16:40 夏敬华 AI助力知识运营 蓝凌软件副总裁、蓝凌研究院院长
16:40-17:00 互动交流
2018年6月13日
主持人:逄金辉

(北京理工大学图书馆馆长助理、北京理工大学大数据创新学习中心创办人)

地点:北京理工大学国际教育交流大厦
9:00-9:40 刘炜 知识图谱与智慧图书馆服务 上海图书馆上海科学技术情报研究所副馆(所)长, 研究员
9:40-10:20 冯岩松 面向大规模知识图谱的知识获取与应用 北京大学计算机科学技术研究所副教授
10:20-10:40 休息
10:40-11:20 张小旺 RDF/RDF流并行处理 天津市认知计算与应用重点实验室副主任、天津大学副教授
11:20-12:00 曹志杰 知识管理与技术创新 北京航天长征科技信息研究所副所长,研究员
12:00-13:30 午休(自助餐)
13:30-14:10 孙卫 利用知识组织提升服务效率和质量 原国家新闻出版广电总局信息中心技术总监、计算机高级工程师
14:10-14:50 王军 中国传统学术传承知识图谱的构建与可视化 北京市优秀教师、北京大学教授
14:50-15:20 休息
15:20-16:00 唐杰 AMiner:智能科技情报挖掘平台 清华大学计算机系副主任、清华大学长聘副教授
16:00-16:40 陈利华 游戏化知识运营+AI 深圳青鱼互动科技有限公司创始人、中国知识管理联盟发起人
16:40-17:00 互动交流

附件2

报到地点和乘车路线

一、报到地点

北京理工大学国际教育交流大厦

1. 酒店地址:北京海淀区北三环西路66号

(北京理工大学北门)

2. 酒店电话:010-68945611

二、乘车路线

(一)飞机:首都机场

1. 出租:全程约40公里,时间大约40分钟左右,打车120元左右,路线为:机场高速——三环路——苏州桥(北京理工大学北门)。

2. 公交:机场大巴公主坟线到友谊宾馆下站,步行约800米可到北京理工大学北门。

3. 地铁:机场快线到三元桥站——换乘地铁10线——海淀黄庄站换乘地铁4号线——魏公村站(A口出),步行约500米可到北京理工大学东门。

(二)火车:

北京南站

乘地铁4号线——魏公村站(A口出),步行约500米可到北京理工大学东门。

北京站

乘地铁2线——西直门站换乘地铁4号线——魏公村站(A口出),步行约500米可到北京理工大学东门。

北京西站

乘地铁9线——国家图书馆站换乘地铁4号线——魏公村站(A口出),步行约500米可到北京理工大学东门。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

肖仰华 | 知识图谱与认知智能

 

本文转载自公众号:知识工场

肖仰华教授1万5千字雄文带您深度剖析知识图谱与认知智能,对知识图谱技术与落地应用中的一系列关键问题做了系统梳理与解答。

肖仰华博士,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。

报告摘要:人类社会已经进入智能化时代。各行各业纷纷踏上智能化升级与转型的道路,各类智能化应用需求大量涌现。这些智能化应用需求对于机器认知水平提出了全新要求。实现机器认知智能的关键技术之一是知识库技术。知识图谱作为大数据时代的重要的知识表示方式之一,为机器语言认知提供了丰富的背景知识,使得机器语言认知成为可能,因而也成为了行业智能化转型道路上的关键技术之一。本报告结合复旦大学相关课题组在基于知识图谱的认知智能化研究与落地实践,系统地介绍知识图谱与认知智能之间的关系,梳理新一代知识工程技术给认知智能带来的全新机遇,介绍基于知识图谱的认知智能落地关键技术,展望以知识图谱为典型代表的知识工程复兴之路。

下文根据肖仰华教授近期所作报告《知识图谱与认知智能》整理而成,并经肖仰华教授亲自审核。

获取完整PPT

请前往 http://kw.fudan.edu.cn/workshop/intro2018

        今天跟大家分享的主题是《知识图谱与认知智能》。

知识图谱自2012年提出至今,发展迅速,如今已经成为人工智能领域的热门问题之一,吸引了来自学术界和工业界的广泛关注,在一系列实际应用中取得了较好的落地效果,产生了巨大的社会与经济效益。那么到底是什么在支撑着知识图谱技术的繁荣景象?是一股什么力量让知识图谱技术吸引了如此多的关注?换句话说,知识图谱到底能解决什么问题?何以能够解决这些问题?今天的报告主要围绕着这些问题,给大家做一个初步的解答。

先简单介绍一下整个报告的总体思路。人类社会已经进入智能时代,智能时代的社会发展催生了大量的智能化应用,智能化应用对机器的认知智能化水平提出了前所未有的要求,机器认知智能的实现依赖的就是知识图谱技术。

我想大家已经深刻地感受到我们身处在一个智能化的时代。

从2012年Google的图像识别错误率显著下降,机器在图像识别方面接近人类水平;到2016年AlphaGo战胜了人类围棋冠军;再到2017年AlphaZero战胜了AlphaGo,以及DeepMind去尝试星际争霸游戏,这一系列AI发展的标志性事件让我们看到了人工智能技术帮助解决人类社会发展若干问题的希望。我们已经见证的这一系列人工智能技术的发展,本质上是受益于大数据给人工智能带来的数据红利。这一波人工智能热潮是在大数据所给予的海量标注样本以及超强计算能力这两个强大的支撑作用下所形成的。可以说,这一波人工智能的发展本质上是大数据喂养出来的。到了今天,可以很自豪地宣告机器智能在感知智能和计算智能等若干具体问题上已经达到甚至超越人类水平。现在,在语音识别与合成、图像识别、封闭环境有限规则的游戏领域等问题上,机器智能水平堪比、甚至超越人类水准。

这一系列人工智能技术的突破性进展,促使各行各业纷纷走向了一条智能化升级和转型的道路。智能化技术尤其为我国传统行业的发展带来了全新机遇,对于我国经济结构升级,以及传统实体行业摆脱当前一系列发展困境带来了全新的机遇。智能化升级和转型已经成为各行各业的普遍诉求。各行业走向智能化的发展道路,在某种意义上也是人类社会发展的必然趋势。自计算机面世以来,人类社会在经历了计算机技术发展的一系列浪潮之后,基本完成了信息化的使命。信息化时代最重要的任务是数据记录与采集,这势必造就大数据。当我们迈进大数据时代之后,我们势必对大数据的价值挖掘提出诉求。大数据的价值挖掘需要智能化手段因此大数据时代的到来,某种意义上只是智能化时代的短暂序曲。我相信,未来若干年,计算机技术的主要使命是帮助人类社会实现智能化

在各行业的智能化发展进程中,AI+或者AI赋能成为了传统行业智能化升级和转型的一个基本模式。在AI的赋能下,传统行业面临着非常多的机遇,其所关心的一系列核心问题,比如增加收入、降低成本、提高效率和安全保障等,都将显著受益于智能化技术。比如智能客服系统已经在很多行业大规模应用,大大降低了人工客服的巨大劳动力成本;一些企业利用知识图谱,对企业内部的研发资源进行管理,显著提升研发效率,这些都是AI可以赋能传统行业的具体体现。智能化的升级和转型对整个传统行业产生的影响将是颠覆性的,将重塑整个行业的形态,革新传统行业的各个关键环节,智能化技术将逐步渗透到传统行业的各个角落。最近几年我们看到越来越多的传统行业将人工智能领域升格为企业的核心战略,在电商、社交、物流、金融、医疗、司法、制造等很多领域涌现出越来越多的AI赋能传统行业的发展案例。

智能化对机器的智能水平提出了要求,包括机器的计算智能、感知智能,尤其是机器的认知智能。所谓让机器具备认知智能是指让机器能够像人一样思考,而这种思考能力具体体现在机器能够理解数据、理解语言进而理解现实世界的能力,体现在机器能够解释数据、解释过程进而解释现象的能力,体现在推理、规划等等一系列人类所独有的认知能力上。

相较于感知能力,认知能力的实现难度更大,价值也更大。前几年在深度学习的推动下,机器感知能力显著提升。但是感知能力动物也具备,比如我们家里的小猫小狗也能识别主人,识别物体。所以让机器具备感知能力只是让机器具备了一般动物所具备的能力,还不是那么值得“炫耀”的事情。但是,认知能力是人类独有的能力,一旦机器具备认知能力,AI技术将会给人类社会带来颠覆性革命,同时也将释放出巨大的产业能量。所以实现机器的认知能力是人工智能发展进程中具有里程碑意义的重大事件

随着大数据红利的消失殆尽,以深度学习为代表的感知智能水平日益接近其“天花板”。以深度学习为代表的统计学习严重依赖大样本,这些方法只能习得数据中的统计模式。然而,现实世界很多实际问题的解决单单依靠统计模式是不够的,还需要知识,特别是符号化的知识。我们人类的语言理解、司法判案、医疗诊断、投资决策等等很多领域都是显著依赖我们的知识才能实现的。很多从事自然语言处理的研发人员普遍有个深刻的感受:即便数据量再大,模型再先进,很多自然语言处理任务,比如中文分词、情感分析达到一定准确率之后,就很难再改进了。比如,中文分词的一个经典案例:“南京市长江大桥”,不管是分为“南京市长+江大桥”还是“南京市+长江大桥”都依赖我们的知识。如果从上下文我们得知是在讨论南京市长,并且有个人叫“江大桥”,我们会倾向于分为“南京市长+江大桥”,否则我们会根据我们已有的知识断句为“南京市+长江大桥”。不管是哪种情况,我们都在利用我们的知识。我记得我国知名统计学者徐宗本院士在去年年底一个论坛上说过:“数据不够模型补”。我想传达类似的观点:“数据不够知识补”,甚至“数据足够了,知识也不能缺失”。而知识图谱就是这种不可或缺的知识的重要表现形式之一。

机器认知智能绝不是束之高阁、高高在上的前沿技术。它是一类能够实实在在落地的、有着广泛且多样的应用需求的、能够产生巨大社会经济价值的技术。机器认知智能的发展过程本质上是人类脑力不断解放的过程。在工业革命和信息化时代,我们的体力被逐步解放;而随着人工智能技术的发展,尤其是认知智能技术的发展,我们的脑力也将会逐步解放。越来越多的知识工作将逐步被机器所代替,伴随而来的将是机器生产力的进一步解放。机器认知智能在应用方面是广泛和多样的,体现在精准分析、智慧搜索、智能推荐、智能解释、更自然的人机交互和深层关系推理等各个方面。

        认知智能的第一个应用抓手就是大数据的精准与精细分析。如今,越来越多的行业或者企业积累了规模可观的大数据。但是这些数据并未发挥出应有的价值,很多大数据还需要消耗大量的运维成本。大数据非但没有创造价值,在很多情况下还成为了一笔负资产。这一现象的根本原因在于,当前的机器缺乏诸如知识图谱这样的背景知识,机器理解大数据的手段有限,限制了大数据的精准与精细分析,从而大大降低了大数据的潜在价值。举个亲身体验的例子,在娱乐圈王宝强离婚案刚刚开始的时候,新浪微博的热搜前三位分别是“王宝强离婚”、“王宝宝离婚”和“宝强离婚”。也就是说,当时的微博平台还没有能力将这三件事自动归类到一件事,不知道这三件事其实说的是一件事。机器在统计事件热度的时候就分开统计了,这就是因为当时机器缺乏背景知识,不知道王宝强又称为“王宝宝”或“宝强”,所以没有办法做到大数据的精准分析。事实上,舆情分析、互联网的商业洞察,还有军事情报分析和商业情报分析都需要大数据的精准分析,而这种精准分析就必须要有强大的背景知识支撑。除了大数据的精准分析,数据分析领域另一个重要趋势:精细分析,也对知识图谱和认知智能提出了诉求。比如很多汽车制造厂商都希望实现个性化制造。个性化制造希望从互联网上搜集用户对汽车的评价与反馈,并以此为据实现汽车的按需与个性化定制。为了实现个性化定制,厂商不仅需要知道消费者对汽车的褒贬态度,还需要进一步了解消费者不满意的细节之处,以及消费者希望如何改进,甚至用户提及了哪些竞争品牌。显然面向互联网数据的精细化数据分析必需要求机器具备关于汽车评价的背景知识(比如汽车的车型、车饰、动力、能耗等等)。因此,大数据的精准和精细化分析需要智能化的技术支撑。

认知智能的第二个非常重要的应用抓手是智慧搜索。下一代智慧搜索对机器认知智能提出了需求。智慧搜索体现在很多方面。首先,体现在搜索意图的精准理解方面。比如在淘宝上搜索“iPad充电器”,用户的意图显然是要搜索一个充电器,而不是一个iPad,这个时候淘宝应该反馈给用户若干个充电器以供选择,而不是iPad。再比如在Google上搜索“toys kids”或者“kids toys”,不管搜索这两个中的哪一个,用户的意图都是在搜索给孩子的玩具,而不是玩玩具的小孩,因为一般不会有人用搜索引擎搜孩子。“toys kids”和“kid’s toys”中两个词都是名词,要辨别出哪一个是核心词,哪一个是修饰词,在缺乏上下文的短文本上,仍然是个具有挑战性的难题。其次,搜索的对象越来越复杂多元化。以前搜索的对象以文本为主,现在大家希望能搜索图片和声音,甚至还能搜代码,搜视频,搜设计素材等等,要求一切皆可搜索。第三、搜索的粒度也越来越多元化。现在的搜索不仅能做篇章级的搜索,还希望能做到段落级、语句级、词汇级的搜索。尤其是在传统知识管理领域,这个趋势已经非常明显。传统的知识管理大都只能做到文档级搜索,这种粗粒度的知识管理已经难以满足实际应用中细粒度的知识获取需求。最后,是跨媒体的协同搜索。传统搜索以面向单质单源数据的搜索居多。比如针对文本搜索难以借力视频、图片信息,针对图片的搜索主要还是利用图片自身的信息,对于大量文本信息利用率还不高。最近的趋势是跨媒体的协同搜索。比如前几年,明星王珞丹在微博上晒了张自家小区的照片,然后就有好事者根据她的微博社交网络、百度地图、微博文本与图片信息等多个渠道多种媒体的信息,通过联合检索准确推断出其所在小区位置。所以,未来的趋势是一切皆可搜索,并且搜索必达

认知智能的第三个应用抓手是智能推荐。智能推荐表现在很多方面。首先是场景化推荐。比如用户在淘宝上搜“沙滩裤”、“沙滩鞋”,可以推测这个用户很有可能要去沙滩度假。那么平台是否能推荐“泳衣”、“防晒霜”之类的沙滩度假常用物品呢?事实上,任何搜索关键字背后,购物篮里的任何一件商品背后都体现着特定的消费意图,很有可能对应到特定的消费场景。建立场景图谱,实现基于场景图谱的精准推荐,对于电商推荐而言至关重要。第二、任务型推荐。很多搜索背后的动机是完成特定任务。比如用户购买了“羊肉卷”、“牛肉卷”、“菠菜”、“火锅底料”,那么用户很有可能是要做一顿火锅,这种情况下,系统推荐火锅调料、火锅电磁炉,用户很有可能买单。第三、冷启动下的推荐。冷启动阶段的推荐一直是传统基于统计行为的推荐方法难以有效解决的问题。利用外部知识,特别是关于用户与物品的知识指引冷启动阶段的匹配与推荐,是有可能让系统尽快渡过这个阶段的。第四、跨领域的推荐。当阿里刚刚入股新浪时,我们在设想是否能将淘宝的商品推荐给微博的用户。比如,如果一个微博用户经常晒九寨沟、黄山、泰山的照片,那么为这位用户推荐一些淘宝的登山装备准没错。这是典型的跨领域推荐,微博是一个媒体平台,淘宝是一个电商平台。他们的语言体系、用户行为完全不同,实现这种跨领域推荐显然商业价值巨大,但却需要跨越巨大的语义鸿沟。如果能有效利用知识图谱这类背景知识,不同平台之间的这种语义鸿沟是有可能被跨越的。比如百科知识图谱告诉我们九寨沟是个风景名胜,是个山区,山区旅游需要登山装备,登山装备包括登山杖、登山鞋等等,从而就可以实现跨领域推荐。第五、知识型的内容推荐。在淘宝上搜索“三段奶粉”,能否推荐“婴儿水杯”,同时我们是否能推荐用户一些喝三段奶粉的婴儿每天的需水量是多少,如何饮用等知识。这些知识的推荐,将显著增强用户对于推荐内容的信任与接受程度。消费背后的内容与知识需求将成为推荐的重要考虑因素。所以未来的推荐趋势就是精准感知任务与场景,想用户之未想推荐技术演进的重要趋势是从单纯基于行为的推荐过渡到行为与语义融合的推荐。换言之,基于知识的推荐,将逐步成为未来推荐技术的主流

认知智能的第四个应用抓手是智能解释。2017年年底的时候,微信上流传Google17年最流行的搜索关键字是“how”,这说明人们希望Google平台能做“解释”。类似于“如何做蛋炒饭”,“怎么来北理工”等这类问题在搜索引擎上出现次数日益增多,这些问题都在考验机器的解释水平。一个更有意思的例子是,当我们在Google上搜索“Donald Trump”相关的问题时,你会发现Google会自动提示询问“为什么特朗普的老婆嫁给他”而不再是“特朗普老婆是谁”这类简单事实问题。“why”和“how”问题在现实应用中越来越多。这一趋势实际上体现了人们的一个普遍诉求,那就是希望智能系统具备可解释性。所以可解释性将是智能系统一个非常重要的体现,也是人们对智能系统的普遍期望

可解释性决定了AI系统的决策结果能否被人类采信。可解释性成为了很多领域(金融、医疗、司法等)中阻碍AI系统落地应用的最后一公里。比如在金融领域的智能投资决策,即便AI决策的准确超过90%,但是如果系统不能给出作出决策的理由,投资经理或者用户恐怕也是十分犹豫的。再比如在医疗领域,即便系统判断疾病的准确率在95%以上,但是如果系统只是告诉病患得了什么病或者开了一个药方,却不能解释为什么作出这类判断的话,病人是不会为此买单的。

智能系统的可解释性体现在很多具体任务中,包括解释过程、解释结果、解释关系、解释事实。事实上,可解释人工智能最近受到了越来越多的关注。在学术界,机器学习,特别是深度学习的黑盒特性,日益成为学习模型实际应用的主要障碍之一。越多越多的学术研究项目旨在打开深度学习的黑盒。美国军方也有项目在尝试解释机器的学习过程。我个人也曾做过《基于知识图谱的可解释人工智能》的研究与思考,旨在强调知识图谱在可解释性方面的重要作用。

智能系统另外一个非常重要的表现方式就是自然人机交互。人机交互将会变得越来越自然,越来越简单。越自然简单的交互方式越依赖强大的机器智能水平。自然人机交互包括自然语言问答、对话、体感交互、表情交互等等。特别是自然语言交互的实现需要机器能够理解人类的自然语言。会话式(Conversational UI)、问答式(QA)交互将逐步代替传统的关键字搜索式交互。对话式交互还有一个非常重要的趋势就是一切皆可问答。我们的BOTs(对话机器人)将代替我们阅读文章、新闻,浏览图谱、视频,甚至代替我们看电影、电视剧,然后回答我们所关心的任何问题。自然人机交互的实现显然需要机器的较高认知智能水平,以及机器具备强大的背景知识。

认知智能还体现在机器的深层关系发现与推理能力方面。人们越来越不满足于“叶莉是姚明妻子”这样的简单关联的发现,而是希望发现和挖掘一些深层、潜藏关系。这里有一些来自互联网的例子。王宝强离婚的时候,就有人挖过为什么王宝强找张起淮当律师。后来有人把人物关联图谱建立起来,发现王宝强与冯小刚关系很好,而冯小刚有徐静蕾和赵薇两个经常合作的演员,而张起淮是这两个演员的法律顾问。这样的关系链路一定程度上揭示了王宝强与他的律师之间的深层次关联,也解释了王宝强为何选择这位律师。更多类似例子发生在金融领域。在金融领域,我们可能十分关注投资关系,比如为何某个投资人投资某家公司;我们十分关注金融安全,比如信贷风险评估需要分析一个贷款人的相关关联人物和关联公司的信用评级。

我们可以看到,刚才所说的这些需求都在各领域酝酿、发生,这些需求要求机器具备认知能力,要求机器具备理解、解释、规划、推理、演绎、归纳等一系列能力。其中,尤其以理解和解释较为突出。让机器具备认知能力不是今天才提出的问题,早在图灵时代,阿兰-图灵在设计图灵机的时候就在想象机器能不能像人一样思考。而机器认知智能的实现在本质上就是让机器能够像人一样思考。这里有一个非常重要的观点要分享给大家,我认为实现认知智能是当前以及今后一段时间里AI发展的重要使命之一。更具体一点,理解和解释将是后深度学习时代人工智能最重要的使命之一。之所以说后深度学习时代,是因为深度学习的发展对于大数据红利的使用基本上已经到了尽头,深度学习日益面临性能瓶颈,需要寻求新的思路和方向进行突破。而一个非常重要的突破方向在于知识,在于对于符号知识的利用,在于符号知识与数值模型的融合。而这些努力的最终结果就是使机器具备理解和解释的能力。

如何实现机器的认知能力?或者更具体一点,如何让机器具备理解和解释的能力?我认为知识图谱,或者说以知识图谱为代表的这一波知识工程的一系列技术,在认知智能的实现中起到非常关键的作用。一言以蔽之,知识图谱是实现机器智能的使能器(Enabler)。也就是说没有知识图谱,或许就没有机器认知智能的实现。

知识图谱是什么?我认为知识图谱本质上是一种大规模语义网络。理解知识图谱的概念,有两个关键词。首先是语义网络。语义网络表达了各种各样的实体、概念及其之间的各类语义关联。比如“C罗”是一个实体,“金球奖”也是一个实体,他们俩之间有一个语义关系就是“获得奖项”。“运动员”、“足球运动员”都是概念,后者是前者的子类(对应于图中的subclassof 关系)。理解知识图谱的第二个关键词是“大规模”。语义网络并非新鲜事物,早在上个世纪七八十年代知识工程盛行之时,就已存在。相比较于那个时代的语义网络,知识图谱规模更大。关于这一点后面还会深入介绍。

从2012年Google提出知识图谱直到今天,知识图谱技术发展迅速,知识图谱的内涵远远超越了其作为语义网络的狭义内涵。当下,在更多实际场合下,知识图谱是作为一种技术体系,指代大数据时代知识工程的一系列代表性技术进展的总和。去年我国学科目录做了调整,首次出现了知识图谱的学科方向,教育部对于知识图谱这一学科的定位是“大规模知识工程”,这一定位是十分准确且内涵丰富的。这里需要指出的是知识图谱技术的发展是个持续渐进的过程。从上个世纪七八十年代的知识工程兴盛开始,学术界和工业界推出了一系列知识库,直到2012年Google推出了面向互联网搜索的大规模的知识库,被称之为知识图谱。理解今天的知识图谱内涵,是不能割裂其历史脐带的。

知识图谱的历史发展必然带来一个非常有意思的问题,那就是上世纪七八十年代的知识表示与我们今天的知识图谱到底有什么本质差别?知识工程在图灵奖获得者费根鲍姆以及AI先驱马文明斯基的带领下,曾经兴盛一时,解决了一系列实际应用问题,甚至在数学定理证明等看上去很难的问题上取得了显著进展。时至今日,我们再次讨论作为一种语义网络的知识图谱,会不会只是冷炒饭的再次煎炒而已?知识图谱在当下的火热到底是知识工程的回光返照还是再次中兴?这一系列问题需要得到合理回答。

传统语义网络与知识图谱的差别首先表现在其规模上。知识图谱是一种大规模语义网络,与上世纪七八十年代的各类语义网络相比较,最显著的差异就是规模差异。推而广之,以知识图谱为代表的大数据时代的各种知识表示与传统的知识表示的根本差别首先体现在规模上。传统知识工程一系列知识表示都是一种典型的“小知识”(small knowledge)。而到了大数据时代,受益于海量数据、强大计算能力以及群智计算,我们如今能够自动化构建、或者众包构建大规模、高质量知识库,形成所谓的“大知识”(big knowledge,合肥工业大学的吴兴东教授在很多场合下也提到类似观点)。所以知识图谱与传统知识表示在浅层次上的区别,就是大知识与小知识的差别,是在规模上的显而易见的差别

更深刻的进行分析就会发现,这样的一个知识规模上的量变带来了知识效用的质变。知识工程到了上世纪八十年代之后就销声匿迹了。根本原因在于传统知识库构建主要依靠人工构建、代价高昂、规模有限。举个例子,我国的词林辞海是上万名专家花了10多年编撰而成的,但是它只有十几万词条。而现在任何一个互联网上的知识图谱,比如DBpedia,动辄包含上千万实体。人工构建的知识库虽然质量精良,但是规模有限。有限的规模使得传统知识表示难以适应互联网时代的大规模开放应用的需求。互联网应用的特点在于:一、规模巨大,我们永远不知道用户下一个搜索关键词是什么;二、精度要求相对不高,搜索引擎从来不需要保证每个搜索的理解和检索都是正确的;三、简单知识推理,大部分搜索理解与回答只需要实现简单的推理,比如搜索刘德华推荐歌曲,是因为知道刘德华是歌星,至于“姚明老婆的婆婆的儿子有多高”这类的复杂推理在实际应用中所占比率是不高的。互联网上的这种大规模开放应用所需要的知识很容易突破传统专家系统由专家预设好的知识库的知识边界。我想这一定程度上回答了,为何谷歌在2012年这个时间节点推出知识图谱,利用一个全新名称以表达与传统知识表示毅然决裂的态度。

有人或许会问,那么传统知识表示对于领域应用应该依然有效,为何专家系统后来在领域应用中也不多见了?这个问题我也曾思考了很长时间,直到后来在很多领域知识图谱的应用实践中意识到一些知识应用的有趣现象,我姑且将这个现象叫做“领域知识的伪封闭”现象。领域知识看似应该是封闭的,也就是不会蔓延至专家预先设定的知识边界范围之外。但是事实恰好相反,很多领域知识的应用十分易于突破原先设定的边界。比如,我们现在做金融知识图谱,原先我们觉得只有股票、期货、上市公司与金融密切相关,但是实际应用中,几乎万事万物在某种意义下都与金融相关,比如某个龙卷风,可能影响农作物产量,进而影响农业机械的出货量,进而影响了农机发动机,最终影响了这个发动机的上市公司股价。类似这样的关联分析,不正是我们期望智能金融实现的么?而这样的深度关联分析,显然十分容易超出任何专家系统的预先设定的知识边界。因此,某种意义上,知识是普遍关联的,当然关联也是有条件的领域知识的领域性通常是个伪命题,很多领域知识库的构建要直面通用知识库的构建所面临的同样挑战。换句话说,领域知识库的深度应用势必涉及通用知识库。这也在一定程度上解释了,我曾经强调的一个观点,那就是通用知识库的研究具有战略意义,不容有失;一万个领域知识研究通透了也未必有一个通用知识库研究透彻价值来的高。通用知识库的研究是在抢占知识库研究的战略制高点,对于领域知识库能够形成战略俯冲

如果你仍然不满足于我当前的回答,进一步追问决定了领域知识库与通用知识库这种粘连特性的根本原因是什么。那么我想答案在于人类的知识体系。我们的知识是有体系架构的,这个架构的最底层,也就是作为地基支撑整个知识体系的知识就是通用知识。而在通用知识中的最底层应该是常识,也就是我们每个人都知道的知识,特别是我们人类关于时间、空间以及因果的基本常识。整个知识体系是建基在这些通用常识之上,再通过隐喻作为主要手段,逐步形成我们的高层、抽象或者领域性知识

因此,我想通过一个简单的公式表明传统知识工程与以知识图谱为代表的新一代知识工程的联系与区别:Small knowledge + Bigdata=Big knowledge。通过这个公式表达两层意思。一、以知识图谱为代表的大数据时代知识工程有着悠久的历史渊源;知识图谱脱胎于传统知识表示,但是在规模上显著优于传统语义网络;而这种量变也带来知识效用上的质变。这层含义刚才已经阐述,不再赘述。我通过这个公式想强调的是另一层含义:传统知识表示形式林林总总,通过大数据的赋能,这些知识表示将在各个应用场景下发挥巨大能量。知识图谱只不过是传统的语义网络在规模上显著提升,就已经能够解决大量实际问题。试想一下,我们还有大量其他的知识表示,比如本体、框架、谓词逻辑、马尔科夫逻辑网、决策树等等各种知识表示仍然被锁在规模的牢笼里,一旦规模瓶颈被突破,我相信整个知识工程的产业能量将得到巨大释放。正是在这个意义上,我认为知识图谱只是知识工程复兴的序曲,知识图谱将引领知识工程复兴。我有一种强烈的感觉,好比我们曾经经历了小数据到大数据的轰轰烈烈的时代转变,我们也必将经历从小知识走向大知识的时代转变

为什么知识图谱对于机器实现人工智能如此重要呢?我们先从形而上的角度来分析这个问题。具体而言,我们分析知识图谱实现机器认知智能的两个核心能力:“理解”和“解释”。我尝试给机器“理解与解释”提出一种解释。我认为机器理解数据的本质是建立起从数据到知识库中的知识要素(包括实体、概念和关系)映射的一个过程。比如如果我说到“2013年的金球奖得主C罗”这句话,我们之所以说自己理解了这句话,是因为我们把“C罗”这个词汇关联到我们脑子中的实体“C罗”,把“金球奖”这个词汇映射到我们脑中的实体“金球奖”,然后把“得主”一词映射到边“获得奖项”这个关系。我们可以仔细体会一下我们的文本理解过程,其本质是建立从数据,包括文本、图片、语音、视频等数据到知识库中的实体、概念、属性映射的过程。再来看我们人类是如何“解释”的。比如我问“C罗为什么那么牛?”,我们可以通过知识库中的“C罗获得奖项金球奖”以及“金球奖地位影响力最大的足球奖项之一”这两条关系来解释这一问题。这一过程的本质就是将知识库中的知识与问题或者数据加以关联的过程。有了知识图谱,机器完全可以重现我们的这种理解与解释过程。有过一定计算机研究基础的,是不难完成上述过程的数学建模的。

知识图谱对机器认知智能的必要性还可以从若干具体问题来进行阐述。首先,我们来看机器认知的核心能力之一:自然语言理解。我的观点是机器理解自然语言需要类似知识图谱这样的背景知识。自然语言是异常复杂的:自然语言有歧义性、多样性,语义理解有模糊性且依赖上下文。机器理解自然语言困难的根本原因在于,人类语言理解是建立在人类的认知能力基础之上的,人类的认知体验所形成的背景知识是支撑人类语言理解的根本支柱。我们人类彼此之间的语言理解就好比是根据冰山上浮出水面的一角来揣测冰山下的部分。我们之所以能够很自然地理解彼此的语言,是因为彼此共享类似的生活体验、类似的教育背景,从而有着类似的背景知识。冰山下庞大的背景知识使得我们可以彼此理解水面上有限的几个字符。我们可以做个简单的思想实验,假如现在有个外星人坐在这里听我讲报告,他能听懂么?我想还是很困难的,因为他没有在地球上生活的经历,没有与我相类似的教育背景,没有与我类似的背景知识库。再举个很多人都有体会的例子,我们去参加国际会议时,经常遇到一个尴尬的局面,就是西方学者说的笑话,我们东方人很难产生共鸣。因为我们和他们的背景知识库不同,我们早餐吃烧饼、油条,西方吃咖啡、面包,不同的背景知识决定了我们对幽默有着不同的理解。所以语言理解需要背景知识,没有强大的背景知识支撑,是不可能理解语言的。要让机器理解我们人类的语言,机器必需共享与我们类似的背景知识。

实现机器自然语言理解所需要的背景知识是有着苛刻的条件的:规模足够大、语义关系足够丰富、结构足够友好、质量足够精良。以这四个条件去看知识表示就会发现,只有知识图谱是满足所有这些条件的:知识图谱规模巨大,动辄包含数十亿实体;关系多样,比如在线百科图谱DBpedia包含数千种常见语义关系;结构友好,通常表达为RDF三元组,这是一种对于机器而言能够有效处理的结构;质量也很精良,因为知识图谱可以充分利用大数据的多源特性进行交叉验证,也可利用众包保证知识库质量。所以知识图谱成为了让机器理解自然语言所需的背景知识的不二选择。

既然机器理解自然语言需要背景知识,我对于当前的自然语言处理有个重要看法:我认为自然语言处理走向自然语言理解的必经之路是知识,我将我的这个观点表达为NLP+KB=NLU的公式。很多NLP从业人员有个体会,明明论文里面报道的在某个benchmark数据95%准确率的模型一旦用到实际数据上,至少有10个百分点的下降。而最后那几个点的准确率的提升需要机器理解自然语言。这一点在司法、金融、医疗等知识密集型的应用领域已经体现的非常明显了。比如在司法领域,如果不把司法背后的事理逻辑、知识体系赋予机器,单纯依赖字符数据的处理,是难以实现司法数据的语义理解的,是难以满足司法文本的智能化处理需求的。

因此,NLP将会越来越多地走向知识引导的道路NLP与KB将走向一条交迭演进的道路。在知识的引导下,NLP模型的能力越来越强,越来越强大的NLP模型,特别是从文本中进行知识抽取的相关模型,将会帮助我们实现更为精准地、自动化抽取,从而形成一个质量更好、规模更大的知识库。更好的知识库又可以进一步增强NLP模型。这种循环迭代持续下去,NLP最后将会非常接近NLU,甚至最终克服语义鸿沟,实现机器的自然语言理解。最近几年,这条技术演进路线日渐清晰,越来越多的顶尖学者有着与我类似的看法,我的研究团队沿着这条路径做了很多尝试,初步看来效果显著。当然这些都是一家之言。也有不少人认为依靠纯数据驱动的自然语言处理模型也可实现机器的自然语言理解,特别是当下深度学习在自然语言处理方面还十分流行,我所倡导的知识引导下的NLP发展路径多少有些显得不合时宜。

这里,通过一个实际案例论证知识对于NLP的重要作用。在问答研究中,自然语言问题的理解或者语义表示是一个难题。同样语义的问题表达方式往往是多样的,比如不论是how many people are there in Shanghai? 还是 what isthe population of Shanghai,都是在问上海人口。又或者形式上看上去很接近的问题,实质语义相差很大,比如“狗咬人了吗”与“人咬狗了吗”语义完全不同。当问题答案来自于知识库时,这类问题就属于KBQA(面向知识库的自然语言问答)的研究内容。KBQA的核心步骤是建立从自然语言问题到知识库中的三元组谓词的映射关系。比如上面的两个与上海人口相关的问题,都可以映射到知识库中的Population这个谓词。一种简单的办法是让机器记住问题到谓词的映射规则,比如机器记住“How many people are there in Shanghai?”映射到上海这个实体的Population谓词上。但这种方法没有把握问题语义本质,如果用同样的句式问及北京、南京,甚至任何一个城市人口呢?难道机器需要为每个实例记住这些映射么?显然我们人类不是如此理解问题语义的,我们是在“How many people are there in $City?”这个问题概念模板层次把握问题语义的实质的。利用概念模板不仅避免了暴力式的记忆,同时也能让机器具备类人的推理能力。比如,如果问到“How many people are there in XXX?”,机器只要知道XXX是个city,那么这个问题一定是在问XXX的人口数量。那么我们怎么生成这种问题概念模板呢,我们用概念图谱。概念图谱里面含有大量的类似shanghai isa city,beijing isa city 这类知识。充分利用这些知识可以得到自然语言问题的有效表示,从而实现机器对于自然语言问题的语义理解。

知识图谱对于认知智能的另一个重要意义在于:知识图谱让可解释人工智能成为可能。“解释”这件事情一定是跟符号化知识图谱密切相关的。因为解释的对象是人,人只能理解符号,没办法理解数值,所以一定要利用符号知识开展可解释人工智能的研究。可解释性是不能回避符号知识的。我们先来看几个解释的具体例子。比如,我若问鲨鱼为什么可怕?你可能解释说:因为鲨鱼是食肉动物,这实质上是用概念在解释。若问鸟为什么能飞翔?你可能会解释因为它有翅膀。这是用属性在解释。若问鹿晗关晓彤前些日子为什么会刷屏?你可能会解释说因为关晓彤是鹿晗的女朋友。这是用关系在解释。我们人类倾向于利用概念、属性、关系这些认知的基本元素去解释现象,解释事实。而对于机器而言,概念、属性和关系都表达在知识图谱里面。因此,解释离不开知识图谱。

沿着这个思路,我们做了一些初步尝试,我们首先试着利用知识图谱做可解释推荐。我们目前的互联网推荐,只能给我们推荐结果,却无法解释为什么。可解释推荐将是未来推荐研究的重要领域,将是具有巨大商业价值的研究课题。我们初步实现了可解释的实体推荐。若用户搜索了“百度”和“阿里”,机器推荐“腾讯”,并且解释为什么推荐“腾讯”,因为他们都是互联网巨头、都是大型IT公司。这里实质上是在利用概念展开解释,这些概念可以在很多概念图谱,比如英文概念图谱Probase,和中文概念图谱CN-Probase里找到。

另一个例子是让机器解释概念。比如向机器提及“单身汉”这个概念,机器能否自动产生“男性”、“未婚”这样的属性用于解释这个概念。我们针对富含实体、概念和属性信息的大型百科图谱展开挖掘,自动挖掘出常见概念的定义性属性。这些定义性属性可以帮助我们完善概念图谱,也就是为概念图谱上的每个概念补充定义性属性信息;进一步可以利用这些信息让机器利用属性对于实体进行准确归类。这一归类过程本质上是在模拟人类的范畴化过程。

知识图谱的另一个重要作用体现在知识引导将成为解决问题的主要方式。前面已经多次提及用户对使用统计模型来解决问题的效果越来越不满意了,统计模型的效果已经接近“天花板”,要想突破这个“天花板”,需要知识引导。举个例子,实体指代这样的文本处理难题,没有知识单纯依赖数据是难以取得理想效果的。比如“张三把李四打了,他进医院了”和“张三把李四打了,他进监狱了”,人类很容易确定这两个不同的“他”的分别指代。因为人类有知识,有关于打人这个场景的基本知识,知道打人的往往要进监狱,而被打的往往会进医院。但是当前机器缺乏这些知识,所以无法准确识别代词的准确指代。很多任务是纯粹的基于数据驱动的模型所解决不了的,知识在很多任务里不可或缺。比较务实的做法是将这两类方法深度融合。

实际上在很多NLP应用问题中,我们在尝试用知识引导突破性能瓶颈。比如在中文实体识别与链接中,针对中文短文本,在开放语境下,在没有充分上下文,缺乏主题信息的前提下,这一问题仍然十分困难,现在工业界最高准确率大概60%多的水平。当前机器仍然难以理解中文文本中的实体。最近,我们利用中文概念图谱CN-Probase,给予中文实体识别与链接任务以丰富的背景知识,取得了十分显著的效果。我们知道打球的李娜和唱歌的李娜不是同一个人,现在即便这两人在文本中同时被提及,机器也能准确识别并加以区分。

知识对于认知智能又一个很重要的意义就是将显著增强机器学习的能力。当前的机器学习是一种典型的“机械式”学习方式,与人类的学习方式相比显得比较笨拙。我们的孩童只需要父母告知一两次:这是猫,那是狗,就能有效识别或者区分猫狗。而机器却需要数以万计的样本才能习得猫狗的特征。我们中国学习英语,虽然也要若干年才能小有所成,但相对于机器对于语言的学习而言要高效的多。机器学习模型落地应用中的一个常见问题是与专家知识或判断不符合,这使我们很快陷入进退两难的境地:是相信学习模型还是果断弃之?机器学习与人类学习的根本差异可以归结为人是有知识的且能够有效利用知识的物种。我相信,未来机器学习能力的显著增强也要走上知识的充分利用的道路。符号知识对于机器学习模型的重要作用会受到越来越多的关注。这一趋势还可以从机器智能解决问题的两个基本模式方面加以论述。机器智能的实现路径之一是习得数据中的统计模式,以解决一系列实际任务。另一种是专家系统,专家将知识赋予机器构建专家系统,让机器利用专家知识解决实际问题。如今,这两种方法有合流的趋势,无论是专家知识还是通过学习模型习得的知识,都将显式地表达并且沉淀到知识库中。再利用知识增强的机器学习模型解决实际问题。这种知识增强下的学习模型,可以显著降低机器学习模型对于大样本的依赖,提高学习的经济性;提高机器学习模型对先验知识的利用率;提升机器学习模型的决策结果与先验知识的一致性。我个人倾向于认为:机器学习也面临一次全新机遇。我将其总结为ML+KB=ML2,也就是说机器学习在知识增强下或许就是下一代机器学习。

沿着上面的思路我们也做了一些尝试。在自然语言生成任务中,我们的机器学习模型,特别是深度生成模型会经常生成很多不符合语法、或者不符合语义的句子。我们人类显然可以总结出很多语法语义规则用于描述什么是好的自然语言语句。但是这些知识还很难被机器有效利用。这就需要把语法、语义知识用规则、符号的方式表达出来,并有效融合到深度生成模型里面。最近,我们基于对抗生成网络初步实现了这一目标。并将融合了先验知识的语言生成模型用于从知识库三元组自动生成自然语言问题,并将这一技术用于文本验证码。具体技术细节可以参考我曾做过的一个技术报告《未来人机区分》。

知识将成为比数据更为重要的资产。前几年大数据时代到来的时候,大家都说“得数据者得天下”。去年,微软研究院的沈向阳博士曾经说过“懂语言者得天下”。而我曾经论述过,机器要懂语言,背景知识不可或缺。因此,在这个意义下,将是“得知识者得天下”。如果说数据是石油,那么知识就好比是石油的萃取物。如果我们只满足卖数据盈利,那就好比是直接输出石油在盈利。但是石油的真正价值蕴含于其深加工的萃取物中。石油萃取的过程与知识加工的过程也极为相像。都有着复杂流程,都是大规模系统工程。我今天的报告就是在当前的时代背景下重新解读图灵奖获得者,知识工程的鼻祖,费根鲍姆曾经说过的一句话“knowledge is the power in AI”。这句话已经出现几十年了,在当今语境下需要重新解读。

最后用三个总结结束今天的报告。总结1概括了这个报告的主要观点。总结2试图再次强调我的三个观点。总结3想用一句话再次强调知识的重要性。知识的沉淀与传承铸就了人类文明的辉煌,也将成为机器智能持续提升的必经之路。只不过到了机器身上,知识的沉淀变成了知识的表示,知识的传承变成了知识的应用。所以,知识的沉淀和传承不仅铸就了人类文明的辉煌,或许也将造就机器智能的全新高度。


(版权声明:本文为知识工场实验室原创文章,若需转载请联系邮箱info.knowledgeworks@gmail.com。)

更多产品试用请点击知识工场网站主页:http://kw.fudan.edu.cn/

合作意向、反馈建议请联系我们:

info.knowledgeworks@gmail.com

或直接联系知识工场负责人肖仰华教授:

shawyh@fudan.edu.cn


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

 

AAAI 2018经典论文获奖者演讲:本体论的昨天和今天

本文转自公众号:AI科技评论

AI 科技评论按:正在美国新奥尔良召开的 AAAI 2018 的经典论文奖颁给了《Algorithm and Tool for Automated Ontology Merging and Alignment》。这篇论文发表在 2000 年的第 17 届 AAAI 大会上。这次颁奖是为了表彰这篇论文在本体匹配和集成研究方面的先驱性贡献,论文中分析了这个问题的具体情况,并提出了首个创新的解决方案。组委会认为这篇论文直到今天也有重要意义,它非常清晰地定义了本体合并问题,并创造了启发式的工具来应对这个问题。

根据维基百科介绍,在计算机科学与信息科学领域,理论上,本体是指一种「形式化的,对于共享概念体系的明确而又详细的说明」。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。本体是人们以自己兴趣领域的知识为素材,运用信息科学的本体论原理而编写出来的作品。本体一般可以用来针对该领域的属性进行推理,亦可用于定义该领域(也就是对该领域进行建模)。作为一种关于现实世界或其中某个组成部分的知识表达形式,本体论目前的应用领域包括:人工智能、语义网、软件工程、 生物医学信息学、图书馆学以及信息架构。

趁获奖机会,AAAI 组委会邀请了论文作者之一的 Natasha Noy 进行演讲。当年论文发表时 Natasha Noy 还在斯坦福大学攻读,如今她就职于谷歌研究院。

继续阅读“AAAI 2018经典论文获奖者演讲:本体论的昨天和今天”

李涓子 | 机器智能加速器:大数据环境下知识工程的机遇和挑战

本文转载自公众号:数据派THU

导读:知识图谱已经成为推动人工智能发展的核心驱动力之一。本文选自清华大学计算机科学与技术系教授、清华-青岛数据科学研究院科技大数据研究中心主任李涓子老师于2017年12月20日在阿里联合中文信息学会语言与知识计算专委会举办的知识图谱研讨会上做的以“知识工程:机器智能的加速器”为题的报告。李涓子老师在报告中概述了与知识图谱密切相关的在大数据环境下的知识工程在知识表示、知识获取、知识推理计算以及知识服务中面临的研究挑战,并介绍了在知识图谱的相关研究工作。

继续阅读“李涓子 | 机器智能加速器:大数据环境下知识工程的机遇和挑战”

研讨会 | 知识图谱大咖云集阿里,他们都说了啥

前言

12月20日,由阿里巴巴联合中国中文信息学会语言与知识计算专委会(KG专委)举办的知识图谱研讨会在杭州召开。研讨会由阿里巴巴集团副总裁墙辉(玄难)主持,知识图谱领域国内知名专家参与了此次研讨。在阿里巴巴持续发力知识图谱这一人工智能基础设施的背景下,此次研讨会是对阿里巴巴知识图谱建设的一次评估,也是建设与改进方向的一次讨论。

到场的国内知名专家包括:中科院软件所、中国中文信息学会副理事长兼秘书长孙乐教授,清华大学李涓子教授、刘知远助理教授,中国科学院自动化所赵军教授、刘康副教授,浙江大学陈华钧教授,东南大学漆桂林教授,苏州大学张民教授、陈文亮教授,北京大学赵东岩教授、冯岩松副教授。

继续阅读“研讨会 | 知识图谱大咖云集阿里,他们都说了啥”