章乐焱 | 用“科技”监管“科技”,知识图谱能做什么?

 

文章转载自公众号

恒生技术之眼 , 作者 恒小发

本文转载自公众号:恒生技术之眼

人工智能、大数据等前沿科技的爆发,推动金融科技进入了一个崭新的时代,也成为监管科技发展的重要推动力。在这个Fintech的黄金时代,前沿科技正在如何赋能监管?这方面,恒生公司首席架构师章乐焱带来了一场关于“大数据+知识图谱在RegTech的应用探索”分享:

变革时代,Regtech如何提档升级?

继续阅读“章乐焱 | 用“科技”监管“科技”,知识图谱能做什么?”

YOCSEF TDS | “知识图谱”专题探索班

 

12月14日,YOCSEF将在中科院计算所举办“知识图谱”专题探索班,邀请自然语言处理、数据库、知识工程和机器学习领域重量级的专家做报告,让参会者在了解学科专题基础的同时,掌握本领域最新技术动态,了解未来技术趋势。

◆ ◆ ◆ ◆

中国计算机学会YOCSEF TDS《专题探索班》

The CCF YOCSEF Theme Discovery Symposium

知识图谱

2018年12月14日 北京

地址:中科院计算所一层报告厅 

报名网址:http://conf2.ccf.org.cn/TDS2  

◆ ◆ ◆ ◆

知识图谱和图数据是目前计算机学科相关研究中的热点,其具体研究涵盖知识图谱构建,知识图谱的存储和查询系统,面向知识图谱应用,以及大图数据的处理分析方法及系统等。知识图谱的研究之所以引起了众多研究者的关注,是因为面向知识图谱和图数据为计算机研究者提供一个非常好的交叉研究对象,这包括自然语言处理、数据库、知识工程和机器学习等领域。同时基于知识图谱的工业应用,也是各大互联网公司以及一些创业型企业共同关注的焦点。

本期CCF YOCSEF专题探索班“知识图谱”邀请到了自然语言处理、数据库、知识工程和机器学习领域重量级的专家学者做主题报告。他们将对知识图谱的基础学习理论、工业应用进行深入探索性的介绍,并对如何开展本领域前瞻性的研究等进行探讨。使参加者在了解学科专题基础、提高理论水平的同时,掌握本领域最新技术动态,了解未来技术趋势。

特邀讲者

张  钹

清华大学计算机系教授,中科院院士

张钹教授主要研究人工智能、人工神经网络、机器学习等基础理论,以及这些理论应用于模式识别、知识工程与机器人等技术研究。他的专著获得国家教委高等学校出版社颁发的优秀学术专著特等奖。他的成果分别获得ICL欧洲人工智能奖、国家自然科学三等奖、国家科技进步三等奖、国家教委科技进步一、二等奖、电子工业部科技进步一等奖以及国防科工委科技进步一等奖等奖励。此外,他参与创建智能技术与系统国家重点实验室,于1990-1996年担任该实验室主任。

张钹教授主要研究人工智能、人工神经网络、机器学习等基础理论,以及这些理论应用于模式识别、知识工程与机器人等技术研究。他的专著获得国家教委高等学校出版社颁发的优秀学术专著特等奖。他的成果分别获得ICL欧洲人工智能奖、国家自然科学三等奖、国家科技进步三等奖、国家教委科技进步一、二等奖、电子工业部科技进步一等奖以及国防科工委科技进步一等奖等奖励。此外,他参与创建智能技术与系统国家重点实验室,于1990-1996年担任该实验室主任。

吴信东

明略科技首席科学家、路易斯安那大学教授、IEEE/AAAS Fellow

主要研究方向包括:数据挖掘、基于知识的系统等。曾任数据挖掘领域最权威的国际期刊《IEEE Transactions on Knowledge and Data Engineering》主编,是两大国际顶级会议之一IEEE International Conference on Data Mining (ICDM)的创办人和现任指导委员会主席,2004年获得了ACM SIGKDD奉献奖。主持和承担多项美国国防部、能源部、国家科学基金委和中国国家基金委、科技部973计划等资助。

张  伟

阿里巴巴业务平台资深算法专家

张伟博士毕业于新加坡国立大学,本科毕业于哈尔滨工业大学。曾任新加坡资讯通信研究院自然语言处理应用实验室主任。研究领域:知识图谱、自然语言处理,机器学习等。

洪  亮

武汉大学信息管理学院副教授

洪亮现为武汉大学信息管理学院副教授,信息集成与应用实验室主任,武汉大学大数据研究院大数据技术研发中心主任。研究方向为图数据库,知识图谱,社会网络。在TKDE、TKDD、SIGSPATIAL等国际期刊和会议上发表论文40余篇,并获得多项国内外专利授权,撰写中英文专著多部。2017年入选武汉大学珞珈青年学者。

赵东岩

北京大学教授、大数据研究院自然语言处理与认知智能实验室主任

赵东岩,北京大数据研究院自然语言处理与认知智能实验室主任。北京大学研究员,博士生导师。主要研究方向为自然语言处理、大规模语义数据管理、知识服务技术。主持的项目获得国家科技进步二等奖,个人获第十届中国青年科技奖(2007)。中国计算机学会(CCF)中文信息技术专委会秘书长、CCF大数据专家委员会委员。

贾岩涛

华为公司中央软件院知识图谱首席技术专家

贾岩涛博士,华为公司中央软件院知识图谱首席技术专家,曾任中科院计算所副研究员,开放网络课题组组长。在国内外顶级和重要期刊上发表论文50余篇,授权专利15个,出版知识计算相关专著1部。其主导设计与研发的知识图谱自动构建工具多次在国际知识图谱构建权威评测TAC-KBP中排名第一。CCF大数据专家委通讯委员,中文信息学会语言与知识计算专委会委员。

漆桂林

东南大学教授、博导

获得“六大人才高峰”资助。担任中国中文信息学会语言与知识计算专业委员会副主任和中国科学技术情报学会知识组织专业委员会副主任,开放知识图谱联盟openKG的联合创始人之一。新华社中国经济信息社特约专家。是语义Web权威期刊Journal of Web Semantics的副主编和Semantic Web Journal的编委。

肖仰华

复旦大学计算机科学与技术学院教授

肖仰华博士,复旦大学计算机科学与技术学院教授、博士生导师、复旦大学知识工场实验室创始人、上海市互联网大数据工程技术中心副主任、知识图谱前沿技术系列课程发起人、十多个国家/省市/企业研究奖项获得者、三十多个国家/省市/企业研发项目负责人。在国际顶级学术会议与期刊发表论文百余篇,授权近20项知识图谱专利。领导构建了知识库云服务平台(知识工场kw.fudan.edu.cn),发布了一系列知识图谱,以API形式为数百家应用单位服务近10亿次。

执行主席

包云岗

中科院计算所研究员

CCF YOCSEF 学术委员会副主席、CCF杰出会员、杰出演讲者。现为中科院计算所先进计算机系统研究中心副主任。研究方向主要是计算机体系结构, 目前正在开展高效能数据中心设计与优化技术方面的研究。博士期间带领小组设计与实现了软硬件结合的计算机访存监控HMTT系统,为十几个国内外大学企业提供访存Trace数据。在国际顶级计算机系统会议期刊(如ASPLOS/ISCA/HPCA/Sigmetrics等)发表了一系列论文,曾两次获计算所优秀论文一等奖,获2013年”CCF-Intel青年学者提升计划”奖。

罗  训

天津理工大学教授

CCF YOCSEF 学术委员会副主席、CCF杰出会员、天津市千人计划专家。毕业于伊利诺伊大学芝加哥分校,此后在摩托罗拉研究院担任高级研究工程师,研究领域为个人计算。在高通研究院担任主任研究工程师,研究领域为移动多媒体标准和增强现实,是高通增强现实产品Vuforia的创始研究团队成员之一。除论文和专著外,他是28项美国和国际专利申请的发明人,其中18项已获授权。并作为主要代表参与了低功耗蓝牙与802. 11ac两个无线标准中关于多媒体部分的制定工作。

线上主席

邹  磊

北京大学教授

邹磊于2003年和2009年毕业于华中科技大学计算机科学与技术学院,分别获得工学学士学位和工学博士学位。邹磊于2009年7月入职北京大学计算机科学技术研究所,任讲师;并于2012年8月晋升为副教授。目前其主要研究方向为“海量图数据的管理”和“基于图的RDF知识库数据管理”等研究领域。

陈云霁

中科院计算所研究员

目前他带领其实验室,研制寒武纪系列深度学习处理器。在此之前,他从事国产处理器的研发工作十余年,先后负责或参与了多款龙芯处理器的设计。他在包括ISCA、HPCA、MICRO、ASPLOS等国际顶会及期刊上发表论文60余篇。陈云霁获得了首届国家自然科学基金“优秀青年基金”、首届国家万人计划“青年拔尖人才”、中国计算机学会青年科学家奖以及中科院青年人才奖。

注册标准

参会提示

建议加入CCF(http://sso.ccf.org.cn/sso/login.do),以会员价参会。

OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

阿里副总裁玄难:藏经阁计划首次在阿里应用落地

在全国知识图谱与语义计算大会(CCKS)上,阿里巴巴集团副总裁、藏经阁计划阿里负责人墙辉(玄难)宣布藏经阁计划首次在阿里应用落地,以及首次披露大规模知识构建技术细节,并从三个方面进行了解读。

本文转自阿里技术 公众号

继续阅读“阿里副总裁玄难:藏经阁计划首次在阿里应用落地”

陈华钧 | 知识图谱构建,将成为智能金融的突破口

 

本文转载自公众号:恒生技术之眼

我们太容易被机器下棋这样的事所吸引,以至于现在谈到人工智能就基本都是在说机器学习和深度学习,而相对忽视了与人工智能相关的另外一个重要的方向:知识图谱。

——陈华钧

尽管人工智能依靠机器学习技术的进步取得了巨大的进展,例如,AlphaGoZero不依赖人类知识的监督,通过自我强化学习获得极高的棋力,但人工智能在很多方面,如语言理解、视觉场景理解、决策分析等,仍然举步维艰。关键问题在于,机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。

人类知识与机器知识

哲学家柏拉图把知识(Knowledge)定义为“Justified True Belief”,即知识需要满足三个核心要素:合理性(Justified)、真实性(True)、被相信(Believed)。简单而言,知识是人类通过观察、学习和思考有关客观世界的各种现象而获得和总结出的所有事实(Facts)、概念(Concepts)、规则或原则(Rules & Principles)的集合。人类发明了各种手段来描述、表示和传承知识,如自然语言、绘画、音乐、数学语言、物理模型、化学公式等。具有获取、表示和处理知识的能力是人类心智区别于其它物种心智的重要特征。人工智能的核心也是研究怎样用计算机易于处理的方式表示、学习和处理各种各样的知识。知识表示是现实世界的可计算模型 (Computable Model of Reality),广义的讲,神经网络也是一种知识表示形式。

在人工智能的早期发展流派中,符号派(Symbolism)侧重于模拟人的心智,研究怎样用计算机符号来表示人脑中的知识和模拟心智的推理过程;连接派(Connectionism)侧重于模拟人脑的生理结构,即人工神经网络。符号派一直以来都处于人工智能研究的核心位置。近年来,随着数据的大量积累和计算能力大幅提升,深度学习在视觉、听觉等感知处理中取得突破性进展,进而又在围棋等博弈类游戏、机器翻译等领域获得成功,使得人工神经网络和机器学习获得了人工智能研究的核心地位。深度学习在处理感知、识别和判断等方面表现突出,能帮助构建聪明的AI,但在模拟人的思考过程、处理常识知识和推理,以及理解人的语言方面仍然举步维艰。

符号派关注的核心是知识的表示和推理(KRR:Knowledge Representation and Reasoning)。早在1960年,认知科学家Allan M. Collins提出用语义网络(Semantic Network)来研究人脑的语义记忆。WordNet是典型的语义网络,它定义了名词、动词、形容词和副词之间的语义关系,例如动词之间的蕴含关系(如:“打鼾”蕴含着“睡眠”)等。WordNet被广泛应用于语义消歧等自然语言处理领域。

从“知识库”到“推理机”

1970年,随着专家系统的提出和商业化发展,知识库构建和知识表示更加得到重视。专家系统的基本想法是:专家是基于大脑中的知识来进行决策,因此,人工智能的核心应该是用计算机符号来表示这些知识,并通过推理机模仿人脑对知识进行处理。依据专家系统的观点,计算机系统应该由知识库和推理机两部分组成,而不是由函数等过程性代码组成。早期专家系统最常用的知识表示方法包括基于框架的语言(Frame-based Languages)和产生式规则(Production Rules)等。框架语言主要用于描述客观世界的类别、个体、属性及关系等,较多的被应用于辅助自然语言理解。产生式规则主要用于描述类似于IF-THEN的逻辑结构,适合于刻画过程性知识。

经常与知识表示并提的另外一个重要概念是机器推理,实际上推理相比于机器学习对于高层AI的实现来说可能更加重要。目前AI比较前沿的研究方向都是在考虑怎样把连接主义所推动的机器学习能力与传统符号主义所关注的机器推理问题相结合,以实现感知到认知层的跨越。

让机器像人类一样认知世界

知识图谱说yes

知识图谱的早期理念来自于Web之父Tim Berners Lee于1998年提出的Semantic Web,其最初理想是把基于文本链接的万维网转化成基于实体链接的语义网。语义网十余年的发展积累了大量语义知识库,如:Freebase、DBpedia、Yago、WikiData等。谷歌在吸收语义网相关成果基础上于2012年推出了基于其称之为知识图谱的搜索引擎产品。随后,知识图谱逐步在语义搜索、智能问答、辅助语言理解、辅助大数据分析等很多领域发挥出越来越重要的作用。

1989年,万维网之父、图灵奖获得者Tim Berners-Lee提出构建一个全球化的以“链接”为中心的信息系统(Linked Information System)。任何人都可以通过添加链接把自己的文档链入其中。他认为以链接为中心和基于图的组织方式,比起基于树的层次化组织方式,更加适合于互联网这种开放的系统。这一思想逐步被人们实现,并演化发展成为今天的World Wide Web。

1994年,Tim Berners-Lee 又提出,Web不应该仅仅只是网页之间的互相链接。实际上,网页中所描述的都是现实世界中的实体和人脑中的概念。网页之间的链接实际包含有语义,即这些实体或概念之间的关系,然而机器却无法有效的从网页中识别出其中蕴含的语义。他于1998年提出了Semantic Web(语义互联网)的概念。Semantic Web仍然基于图和链接的组织方式,只是图中的节点代表的不只是网页,而是实体(如:人、机构、地点等),而超链接也被增加了语义描述,具体标明实体之间的关系(如:出生地是、创办人是等)。相对于传统的网页互联网,Semantic Web的本质是知识的互联网或语义互联网。

在语义互联网被提出之后,出现了一大批新兴的语义知识库。如作为谷歌知识图谱后端的Freebase,作为IBM Waston后端的DBPedia和Yago,作为Amazon Alexa后端的True Knowledge,作为苹果Siri后端的Viv等。尤其值得一提的是,2010年谷歌收购了早期语义网公司MetaWeb,并以其开发的Freebase为数据基础之一,于2012年正式推出了称为知识图谱的搜索引擎服务。谷歌知识图谱的宣传口号是:“Things, Not Strings!”。所解决的核心问题是把对文本(String)的网页搜索转化为的对事物(Things)的语义搜索,可以看做是语义互联网的一种商业化实现。

从“后备”到“前锋”,现代知识图谱遇难题

知识图谱并非突然出现的新技术,而是历史上很多相关技术相互影响和继承发展的结果,这包括语义网络、知识表示、本体论、Semantic Web、自然语言处理等,有着来自Web、人工智能和自然语言处理等多方面的技术基因。

从早期的人工智能发展历史来看,Semantic Web是传统人工智能与Web融合发展的结果,是知识表示与推理在Web中的应用;RDF/OWL都是面向Web设计实现的标准化的知识表示语言;而知识图谱则可以看做是Semantic Web的一种简化后的商业实现。

但我们要强调知识图谱与传统专家系统时代的知识工程有显著的不同。首先,传统专家系统的知识库构建大多以实现高端的决策智能为目标,而知识图谱虽然也被用来实现大数据决策分析(如Plantir),其首要的应用目标是辅助搜索和智能问答。另外一方面,与传统专家系统时代主要依靠专家手工获取知识不同,现代知识图谱的显著特点是规模巨大,无法单一依靠人工和专家构建。传统的知识库,如由Douglas Lenat从1984年开始创建的常识知识库Cyc仅包含700万条的事实描述(Assertion),最新的ConceptNet 5.0也仅包含2800万RDF三元组关系描述,而现代知识图谱已经包含超过千亿级别的三元组。

知识图谱的规模化发展

现代知识图谱对知识规模的要求源于“知识完备性”难题。冯诺依曼曾估计单个个体的大脑中的全量知识需要2.4*1020个bits来存储。客观世界拥有不计其数的实体,人的主观世界更加包含有无法统计的概念,这些实体和概念之间又具有更多数量的复杂关系,导致大多数知识图谱都面临知识不完全的困境。在实际的领域应用场景中,知识不完全也是困扰大多数语义搜索、智能问答、知识辅助的决策分析系统的首要难题。

此专家非彼专家

领域知识图谱变身“百事通”

领域知识图谱是相对于通用知识图谱(如DBPedia、Yago、Wikidata等)而言,面向特定领域的知识图谱,如电商、金融、医疗等。相比较而言,领域知识图谱知识来源更多、规模化扩展要求更迅速、知识结构更加复杂、知识质量要求更高、知识的应用形式也更加广泛。

通用知识图谱与领域知识图谱的比较

以比较有代表性的金融领域为例。在金融领域,围绕金融的本体知识建模一直都有不少人在做。在大约10多年前,就有一批做金融信息的结构化描述的人在尝试构建整个金融领域的本体知识模型,其中一直延续到现在的一项工作是FIBO。他们的目标就是希望能够定义整个金融域的规则,并且是采用Top-Down的做法,这是成本非常高昂的工作,而我们现在更多的强调领域知识图谱的构建应该从大量数据中去挖掘和总结。

金融领域比较典型的例子如Kensho采用知识图谱辅助投资顾问和投资研究,国内以恒生电子为代表的金融科技机构以及不少银行、证券机构等也都在开展金融领域的知识图谱构建工作。金融知识图谱构建主要来源于机构已有的结构化数据和公开的公报、研报及新闻的联合抽取等。在知识表示方面,金融概念也具有较高的复杂性和层次性,并较多的依赖规则型知识进行投资因素的关联分析。在应用形式方面,则主要以金融问答和投顾投研类决策分析型应用为主。金融知识图谱的一个显著特点是高度动态性,且需要考虑知识的时效性,对金融知识的时间维度进行建模。

金融知识图谱特点(细化到具体层面论述)

此外金融领域还有一些比较适合于做知识图谱的特点,如文本资源非常丰富,且动态性非常高。大量高度动态的新闻、公报、研报都是自动化获取知识图谱的有力来源,在这方面,我们可以较为深入应用实体识别、大规模自动化词库构建、结合远程监督和深度学习的关系抽取等多方面的图谱构建技术。只要一点一点积累高质量的知识图谱,结合深度学习和自然语言处理等领域的最新进展,金融知识图谱会发挥出门槛式的重大价值。

结语

互联网促成了大数据的集聚,大数据进而促进了人工智能算法的进步。新数据和新算法为规模化知识图谱构建提供了新的技术基础和发展条件,使得知识图谱构建的来源、方法和技术手段都发生极大的变化。知识图谱作为知识的一种形式,已经在语义搜索、智能问答、数据分析、自然语言理解、视觉理解、物联网设备互联等多个方面发挥出越来越大的价值。AI浪潮愈演愈烈,而作为底层支撑的知识图谱赛道也从鲜有问津到缓慢升温,虽然还谈不上拥挤,但作为通往未来的必经之路,注定会走上风口。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。


内容转载自公众号

恒生技术之眼