肖仰华 | 做个“有知识”的机器人

 

本文转载自公众号:知识工场

肖仰华博士,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。

本文是肖仰华教授应《中国计算机学会通信》邀请所撰写的特邀文章,全文见 CCCF 2019 年第 5 期。

摘要:时下人工智能(AI)飞速发展,AI最为吸引人眼球的载体不外乎实体化的机器人。越来越多的机器人,特别是服务机器人“飞入”寻常百姓家。机器人产业似乎一片繁荣。然而,看似繁华的表象背后隐藏着深深的忧患。我们的服务机器人在很多看似简单的任务中却“出乎意料”地难以胜任。我们一直“梦想”着让服务机器人为人类服务,比如端茶倒水,但如此简单的任务却难倒几乎所有的机器人。因为机器人必须要知道水是要往杯子里倒的而不是向人嘴里灌的,并且快倒满了就不能再倒。凡此种种,在复杂的开放环境中可能会用到的知识几乎不可穷尽。这些对机器而言异常困难的知识积累与应用对于我们人类而言却是十分简单。让机器“有知识”将成为进一步发展机器人产业的关键举措。在向这一宏伟目标迈出征程之前,很多基本问题需要得到澄清。让机器“有知识”何以必要?为何困难?是否可行?如何做到?本文尝试对这些问题作一初步回答。

随着我国人工智能战略的持续推进,作为人工智能的重要分支的机器人产业迎来了发展的黄金期。其中,各种服务机器人,包括客服机器人、陪伴机器人、问诊机器人、导购机器人、理财机器人等已经日益融入到人们的日常生活中。与工业机器人相比,服务机器人对机器的认知水平要求更高,而对动作能力要求相对较低。因此,决定服务机器人服务效果的是大脑而非四肢。建设具有一定认知能力的机器智脑是服务机器人产业发展的至关重要的环节。而机器智脑的重要组成部分是知识库。机器是否具有知识并且能够利用知识形成认知能力进而解决问题,是服务机器人更好地造福人类社会的关键。

引言

自人工智能提出之初,让机器利用人类的知识解决问题就一直是重要的发展思路之一。上世纪七十年代发展起来的专家系统,就是以“让机器利用专家知识来解决现实问题”作为基本目标。以构建专家系统为核心目标的知识工程成为符号主义思潮的代表,与以神经网络为代表的连接主义交相辉映,成为人工智能发展历程中最为亮丽的两道风景线。近年来,伴随着大数据技术飞速发展,知识工程进入了大数据知识工程的全新阶段。以知识图谱为代表的大规模知识表示不仅为大数据的价值挖掘带来了全新机遇,也为机器智脑的发展带来全新机遇。大数据知识工程以大规模自动化知识获取为其根本特征。自动化知识使得知识库的规模呈几何级数增长。知识库在规模上的量变正在酝酿着知识库在效用上的质变。这一质变对于机器智脑而言集中体现在构建一个能够应对开放复杂世界的机器智脑成为可能。

大数据知识工程将为机器人打造一颗“最强大脑”。伴随着这一发展进程的将是机器认知智能的逐步发展。认知智能发展过程本质上将是人类脑力不断解放的过程。在工业革命和信息化时代,人类的体力被逐步解放。而随着人工智能技术的发展,尤其是认知智能技术的发展,人类的脑力也将会被逐步解放。越来越多只有人才能从事的知识工作将逐步被机器所代替,伴随而来的将是机器生产力的革命性进步。

然而,在我们即将迈出构建机器智脑的豪迈征程之前,仍然存在一些问题必须得到清晰地回答。首先,当下人工智能的发展很大程度上体现在以深度学习为代表的机器学习突飞猛进,这一定程度上宣告了联结主义的“胜利”。此时提及符号知识会不会不合时宜。换言之,符号知识对于发展机器智脑是否必要(本文第二节)?如果承认了这种必要性,将知识灌输给机器难在何处,是否有充分的研究价值(本文第三节)?当前的知识库积累以及当前的研究项目是否能应对这些挑战(本文第四节)?未来还有哪些困难需要我们解决(本文第五节)?只有清晰地回答了这些问题才能放下思想包袱轻装上阵。

是否必要?

符号知识对于发展机器智脑的必要性至少体现在三个方面:产业发展、研究意义和应用价值。

(1)产业发展:感知智能的产业升级需要知识库技术。对于智能机器人而言,首先要具备人类的视、听、触、嗅、味觉等五官的感知能力。受益于大数据所提供给的海量标注样本,以及深度学习模型强大的学习能力,机器感知能力在语音识别、图像识别等方面日益接近甚至超越人类水准,机器感知智能率先进入大规模产业化应用阶段。然而,机器的智能不应仅仅停留在感知阶段。类人五官的感知能力只是再现了绝大部分动物所具备的能力。机器智能的进一步发展势必会对认知智能提出诉求。语音处理应用日益要求从“听见”升级为“听懂”,图像处理应用日益要求从“看到”升级为“看懂”。而“懂”就是理解,要求机器形成认知能力。

从以信号识别为主的感知智能发展到以符号理解为主的认知智能是语音与视觉产业后程发展的必经路径。一定程度上,信号感知只是在为符号理解提供数据来源,一旦信号感知的使命结束,对由感知而得的数据形成理解,进而理解人类社会、理解世界,并形成有效的推理与决策将是机器智脑的重要使命。只有机器智脑具备了一定的认知能力,才能最终形成与环境交互的闭环,最终有效指导智能机器的行为。

(2)研究意义:机器的理解和解释能力需要符号知识。语言能力是人从猿猴进化为智人的关键。让机器具备理解人类语言的能力将是机器智能发展历程中的分水岭,也是机器人为人类社会服务的前提。人类之所以能够很自然地“理解”彼此的语言,是因为彼此有着类似的生活体验、类似的教育背景,塑造具有类似知识的心灵。要让机器理解我们人类的语言,机器必须具备与我们类似的知识。符号知识对于认知智能的另一个重要意义在于“解释”,使得可解释的人工智能成为可能。大部分机器人都是以“为人类服务”为基本目标的,比如家庭陪伴机器人。机器必须合理地解释自身的行为与决策才能服务人类,才能融入人类社会。当人类的指令或要求不合理时,机器应该具备反抗意识,适时地提醒并且给出解释。服务机器人必须具备一定的理解和解释能力。

机器的“理解”和“解释”均与符号知识有着密切关系。所谓机器的理解是针对输入数据形成特定形式的内在表示。比如让机器帮我们“订一张周杰伦的演唱会门票”,机器必须将“周杰伦”这个字符串映射到知识库中我们所熟知的歌手周杰伦,才能够准确完成任务。所谓机器的解释是用知识库中的片段来解释问题的过程。例如,鲨鱼为什么可怕?因为鲨鱼是食肉动物,这实质上是在用概念解释。若问鸟儿为什么能飞翔?因为它有翅膀,这是在用属性解释。人类倾向于利用概念、属性、关系这些认知的基本元素去解释现象和事实。而对于智能机器而言,概念、属性和关系都是符号知识。因此,机器的“解释”能力离不开符号知识。

(3)应用价值:服务机器人的核心能力包括自然人机交互、决策辅助等都对知识提出了需求。自然人机交互是发展智能机器人的关键技术,人机交互方式可以体现为问答系统、智能搜索和聊天互动等等。无论人机对话系统采取哪种具体形式,知识库都扮演着至关重要的角色。在一个典型的人机交互的系统架构中(如图1所示),其控制层中的核心包括问题理解、对话管理、答案生成等各模块均需要来自知识层所提供的高质量知识。比如在影视相关的问答交互中,当用户问及“吴京最近有什么电影”,平台必须知道“吴京”是电影演员,才能准确理解用户的提问意图,这是问题理解的核心。在信用卡业务问答中,客服机器人需要具备信用卡办理的相关知识,才能正确引导用户办理信用卡业务,这是对话管理通常需要实现的功能。在出行平台的用户投诉问答中,平台需要各类判责的知识才能向客户解释。在司法相关的问答机器人,更是需要专业的司法知识才能准确为用提供司法解答。这些知识均在答案生成部分扮演重要角色。

图1:特定任务型人机交互系统框架

随着智能机器人应用的深化,人类的脑力工作将越来越多地交给机器。因此,机器不但要理解人类社会、理解人类的意图,更需要开展一定的自主决策。为了实现这种自主决策,需要机器人能够按照人类社会的价值观与规则体系,按照预设任务的基本目标,开展有效的推理,实现自主决策。当前的推理决策主要分为基于规则和基于统计两大类。基于规则的推理是早期知识工程采用的主流技术路线。但是规则的获取一直是个瓶颈问题。在很多相对开放的应用领域,规则获取与规则匹配十分困难,还难以应对开放世界的挑战。基于统计的推理是在信息不完整或者决策不确定等环境下的推理方式。概率图模型是基于统计的推理方式的典型代表。概率图模型又演化出了多种不确定推理模型,比如马尔科夫决策过程、部分可观测马尔科夫决策过程[1][2]、动态贝叶斯网络[3]等。这些模型均采用概率建模决策要素之间的条件依赖、状态迁移甚至因果关联。概率图模型等统计推理模型以专家的先验知识确定决策要素,通过大规模数据训练以确定不同要素之间的统计关联强度。这一思路充分地体现了专家知识+数据驱动的问题求解思路。对于样本稀疏但专家知识丰富的应用场景具有十分积极的意义。司法、医疗、金融等领域的服务机器人均应认真考虑此类模型的适用性。

为何困难?

近年来,越来越多的智能机器人走进了我们的日常生活与生产。不同的领域对机器人的智能水平要求完全不同。在生产车间的机械手臂只需要按照固定程序完成工作即可。在仓库中的无人驾驶汽车也只需要沿着固定路线行驶即可。这些封闭的应用场景,对于机器的智能水平要求相对不高。但是服务机器人的使命不同,大部分服务机器人是直接面向人类的,是直接“生活”或“工作”在一定的家庭或者社会环境中的。这一类直接面向人类社会的服务机器人需要应对“开放性”挑战。所谓开放性挑战是指无法预期可能发生的事态,从而无法有效预设先验规则。换言之,在开放环境中,机器很容易碰到无法合理处理的情形,因为这些情形没有被定义过、没有被描述过,从而机器显得无法适从。开放性问题是整个人工智能的根本难题。这个问题或许太难,以至于很少被提及与讨论。开放性难题被巧妙地隐藏在诸如常识理解、小样本学习、元学习等一系列表层问题背后。开放性难题是带来一次次人工智能寒冬的“罪魁祸首”。

然而,在今天这个时间节点讨论人工智能的开放性难题是合适的。因为我们面临全新机遇。在数据+算力+模型的三驾马车的牵引下,开放性难题的解决面临一些新机遇。本文聚焦在知识工程给智能机器人带来的机遇。因此,着重讨论知识库相关技术应对开发性难题的主要思路。首先,大规模通用知识图谱的建设,为应对开放性难题带来新机遇。互联网上的海量数据,使得从中获取大规模通用知识图谱成为可能。再加上人类专家经年累月积累的各类知识库,我们可以灌输给机器的知识库规模是前所未有的,甚至可以企及普通人类的知识容量。量变总是酝酿质变,当机器的知识库规模逐步增大,开放环境所需知识不被命中的可能性势必下降。其次,最近几年大规模概念图谱的出现,使得归纳和类比成为可能,进而使得类人化的开放问题求解成为可能。归纳能力是我们人类抽象思考的前提。归纳使得人类不必纠缠于不熟悉的实例,而只需关注其类别就可以进行准确的认知。类比使得我们人类能够通过同类相似的案例从容应对从未遇到的情形。随着概念图谱的日益完善,这些人类解决开放性问题的典型思路对于机器而言也将越加可行。

是否可能? 

4.1各类互联网知识库已有多年积累与沉淀

在知识工程、Web数据挖掘、自然语言处理等领域大量的研究工作致力于大规模知识获取的工作,为打造机器智脑提供了丰富的知识库来源。目前互联网上可用于智能机器人的知识库包括以下各类知识:

(1)事实知识(Factual Knowledge)。是关于某个特定实体的基本事实。例如(中国,首都,北京)。事实知识是知识图谱中最常见的知识类型。大部分实体的事实可以对应实体的特定属性或者关系。很多以实体为中心组织的知识库均富含此类知识,比如DBpedia[4]、Freebase[5]以及CN-DBpedia[6]等等。

(2)概念知识(Taxonomy Knowledge)。分为两类,一类是实体与概念之间的类属关系(InstanceOf关系),例如(柏拉图 InstanceOf哲学家)。另一类为子概念与父概念的子类关系(SubclassOf),比如(唯心主义哲学家SubclassOf 哲学家)。一个概念有子概念也可能同时具有父概念,使得整个概念之间构成层级体系。概念之间的层级关系是本体定义中最为重要的部分,特定领域的概念知识是机器认知领域的基本框架。典型概念知识图谱(有时简称概念图谱)包括Yago[7][8][9][10]、Probase[11]、WikiTaxonomy[12]等等。概念是归纳的前提,是基于概念推理的(类别推理,taxonomy reasoning)依据。概念知识是一种典型的元知识(Meta-knowledge)。元知识处理概念知识之外,还包括概念之间的属性、概念与属性的领域与约束等元知识。这些知识通常在传统的本体中加以定义与明确。

(3)词汇知识。词汇知识主要包括实体与词汇之间的关系(比如实体的命名、称谓、英文名等等)以及词汇之间的关系(包括同义词,反义词、缩写词以及上下位词关系等等)。例如(柏拉图,英文名, “Plato”)、(赵匡胤,谥号,宋太祖)、(妻子,同义词,老婆)。一些跨语言知识库比如BabelNet[13]专注于建立实体或概念之间的跨语言等价关系。词汇知识的自动化获取在目前的实际应用中已经取得较好效果。从丰富的领域语料自动挖掘领域词汇,并建立词汇之间的语义关联以及词汇与实体之间的关联已经成为知识图谱构建最为重要的一步。词汇知识也是相对简单的知识。人类学习某个新领域往往是从该领域的术语或者词汇开始的。因此,赋予机器认知领域词汇,是实现机器认知整个领域知识的第一步。此类典型知识图谱包括WordNet[14]等。

(4)常识知识。常识是人类通过身体与世界交互而积累的经验与知识,是人们在交流时无需言明就能理解的知识。例如我们都知道鸟有翅膀,鸟能飞等。再比如如果x是个人,那么x要么是男人要么是女人。常识的表征与定义、常识的获取与理解等问题一直都是人工智能发展的瓶颈性问题。常识知识的基本特点是我们每个人都知道,但很少在文本里提及,使得基于文本抽取的常识获取方式效果有限。典型的常识知识图谱包括Cyc[15],ConceptNet[16]等。

(5)领域知识。服务机器人需要建立人类社会与生活相关的方方面面知识库。比如日常陪伴机器人需要具备衣食住行等各方面的知识库。比如当用户抱怨“空气不好”,机器人能够开启空气净化器;当用户感冒了,机器应该能够结合医学和用户医疗知识库提供相应的药物与生活建议;在午餐时间,机器人能通过饮食知识库推荐近期的饮食等等。

4.2各类服务机器人专用知识库蓬勃发展

除了上述几类常见的知识之外,下面几类知识对于服务机器人尤为重要并受到了密切的关注,发展迅速:

(1)个性知识。我们希望服务机器人具有个性化服务能力。因此,服务机器人应该具备其服务对象的个性化知识,也就是传统的用户画像包括的内容,比如职业、身份、婚姻、年龄等等,也包括服务对象的喜怒哀乐、兴趣爱好、技术能力以及服务对象近期的行为轨迹、社会交往、消费娱乐等动态画像。

(2)动态知识。人类所身处的真实世界不是静态的,而是动态变化的。因此,对于智能机器人,不仅需要各种静态知识(比如番茄是一种蔬菜),还需考虑如何表示和应用动态知识,特别是决策过程知识、因果关联知识、时序依赖知识等等。例如用户想看电影,如果机器人具备看电影场景的基本知识,就可以帮助用户约朋友、订票、选座位、建议出行路径。这些服务的实现均需要建立起看电影场景下事件之间的逻辑关联。

(3)情感知识。随着我国老龄化的发展,家庭陪伴机器人需要能够像人类伴侣一样感知用户情感、能在回答或者辅助人类工作时表达出相应的情感[17][18]。比如当用户表达:“今天空气不好,感冒了,好难受”的时候,服务机器人应该通过主观情感知识库将该语句归类为寻求关心与呵护类的情感表达范畴,并提供相应的情感输出,以表达合理的人文关怀。让智能机器人富有“情绪”是另一类让机器更加类人的关键技术。情绪的检测和有效的传达是人类自然交互中不可或缺的部分,显然情绪知识库是实现这些能力的前提。

(4)多模态知识。人类之间相互交流和沟通的方式不仅仅是单一的文字问答,还需结合图像、语音、手势、情绪、表情、眼神以及暗示等多模态来了解外部世界。因此对于智能机器人,所需要构建的知识库不应该拘泥于文本形式,而是应该向多模态方式转变。多模态知识库可以有效帮助智能机器人从多维角度去理解人类社会,可以在与人类的交互中更准确地理解人类的意图。在图像识别领域的ImageNet[19]就是典型的图像知识库。最近有学者提出的多模态知识图谱[20]将实体、文本、图像、视频等相链接,使得机器可以理解实体的不同模态表示。

 

4.3面向机器智脑的典型研究项目具有一定的示范与带动作用

此外,也存在一些专门的针对智能机器人的知识引擎。其中具有代表性的是RoboBrain[21] 。RoboBrain是斯坦福大学和康奈尔大学为机器人定制的知识引擎项目。机器人系统涉及的数据模态多样(包括符号、语言、语音、图像、视频以及轨迹等等),机器人需要从事的任务多样(包括感知、规划、控制、决策等等)。因此,面向机器人的知识引擎必须能够将多模态多任务的知识统一表示。RoboBrain知识引擎采用图统一表达各种知识。RoboBrain除了存储了来自互联网的多个来源的公开知识库(包括前面提及的百科图谱、语言知识库、图像知识库等),还通过学习模型习得机器与物理环境进行交互的知识。知识引擎主要实现知识的获取、解析、存储以及推理功能,并提供查询语言RQL(Robot Query Language)供第三方平台使用知识。RoboBrain能够帮助机器理解人类活动并采取相应行动。比如图2所示,RoboBrain通过“冰箱是固定的”,“人、碗是活动的”等常识知识预测人将拿着碗走向冰箱,此时智能机器人就可以为人类打开冰箱。

图2:机器人通过常识知识预测人类行动

总结与展望 

随着服务机器人产业的进一步发展,将认知能力赋予机器,让机器“掌握”一定的知识,并利用这些知识更好地为人类服务已经是服务机器人产业乃至整个智能机器人产业进一步发展所面临的重大问题。大数据为知识工程、智能机器人等领域的发展所带来的巨大数据红利,仍有待相关领域的进一步消化与利用。相信在大数据知识工程等技术的助力下,实现智能机器人的认知能力,显著提升机器人的智能水平是完全可能的。

然而,需要指出的是构建机器智脑的强大知识库仍然面临很多挑战。

首先、知识表达困难重重。人类用于解决问题的很多知识是难以言说的隐性知识,表达这类知识仍然十分困难。多模态知识的表达也是十分困难的,如何在一个统一的表示空间表达不同模态的数据与知识仍然是个十分活跃的研究问题。此外,如何将知识的向量表示与符号表示相融合以进一步增强知识的表达能力也是个值得探索的问题。知识表示在服务机器人的实际应用中也还存在一些基本的理论问题需要澄清。比如需要多少类型的知识,需要多大规模的知识才足以使得机器能够像人一样应对复杂开放环境?机器胜任开放环境处理能力的最小知识集合是什么?这些问题的回答是深化知识表示研究的前提。

其次、知识获取任重道远。大数据为知识获取带来了量的提升,但是在质的方面仍有很大提升空间。很多知识是从元知识通过实例化或者隐喻派生而得。元知识对于机器而言是十分必要的。元知识获取仍然缺乏有效的方法。此外,常识在语料中的稀疏造成了常识获取的巨大困难。机器在常识获取与理解的道路上仍需经历漫长的征程。

最后,知识应用仍需深化。人类在面对实际问题时,可以很自然地以一种近乎直觉的方式适配和调用自己积累的知识来完成任务。但机器的自动知识适配却仍然十分困难。随着知识体系的日益完善,如何协同各类不同的知识表示形成有效的推理机制,也是亟待研究的问题。

总之,我们相信我们身边的机器将不仅会拥有发达四肢,也将会拥有超强的大脑。未来的智能机器将绝不仅仅是一堆冰冷的铁皮与硅基,表皮之下镶嵌的将是一颗“有知识”、“有文化”、“有温度”的“有趣”“灵魂”。

参考文献

本文转自CCF数字图书馆——CCCF2019年第5期专题

了解更多信息请点击知识工场网站主页:http://kw.fudan.edu.cn/


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注