科普 | 动态本体简介

本文转载自知乎专栏知识图谱和智能问答,作者为高桓、漆桂林

近年来,随着语义Web的兴起,本体技术受到了广泛关注。很多大型跨国公司都开始研究本体技术。谷歌于2012年提出了知识图谱的项目,旨在利用本体技术来提高搜索的精度和更智能化的知识浏览。国内的互联网公司,如百度、搜狗,也已经开展这方面的项目。微软提出了Probase项目,旨在通过爬取网页中的信息来构建大规模的本体。IBM利用语义Web技术来处理异构医疗数据的整合以及更准确的查询回答。本体技术在IBM的著名问答系统Watson中发挥了重要的作用。Oracle实现了一个强大的语义数据推理和索引系统。本体技术还受到欧美政府的支持。英国政府发起了Data.gov.uk项目,把很多政府网站的信息都以本体的形式分布。而美国政府也有类似的项目。学术界对本体的研究有很多成果,特别是在计算机科学领域,有很多实用的技术被开发。欧盟在最近5年投入大量科研经费(累积超过数亿欧元)用于本体相关的研究。

继续阅读“科普 | 动态本体简介”

鲍捷 | 知识表示——面向实战的介绍

本文转载自文因互联 2016 年 6 月份组织的第一期北京知识图谱学习小组 Wiki。


知识表示(Knowledge Representation,KR,也译为知识表现)是如何将结构化数据组织,以便于机器处理和人的理解的方法。从结构推导出新的结构,这就是推理。传统上KR属于逻辑的分支,但在实践中我们会用很简单、可读、可维护的数据结构。

经典的教科书中的 KR,主要关注的是如何方便机器处理。但是在现实的工程中,如何方便人的理解也是极为关键的。在工程实践中,人才是知识不能被处理好、不能快速交换、不能规模化的核心。

知识表现的瓶颈不在于机器处理能力的不足,而在于人的认知能力的不足。因此,我们在学习知识表现方法的时候,要始终牢记知识的可读性、可维护性要远远比它的表达力、计算速度重要。知识是为人阅读而设计的,只是偶尔被机器执行。

继续阅读“鲍捷 | 知识表示——面向实战的介绍”

科普 | 典型的知识库/链接数据/知识图谱项目

从人工智能的概念被提出开始,构建大规模的知识库一直都是人工智能、自然语言理解等领域的核心任务之一。下面首先分别介绍了早期的知识库项目和以互联网为基础构建的新一代知识库项目。并单独介绍了典型的中文知识图谱项目。

1. 早期的知识库项目

Cyc  :  Cyc 是持续时间最久,影响范围较广,争议也较多的知识库项目。Cyc 是在 1984 年由 Douglas Lenat 开始创建。最初的目标是要建立人类最大的常识知识库。典型的常识知识如 ”Every tree is a plant” ,”Plants die eventually”等。Cyc 知识库主要由术语 Terms 和断言 Assertions 组成。Terms 包含概念、关系和实体的定义。Assertions 用来建立 Terms 之间的关系,这既包括事实 Fact 描述,也包含规则 Rule 的描述。最新的 Cyc 知识库已经包含有 50 万条 Terms 和 700 万条 Assertions。 Cyc 的主要特点是基于形式化的知识表示方法来刻画知识。形式化的优势是可以支持复杂的推理。但过于形式化也导致知识库的扩展性和应用的灵活性不够。Cyc 提供开放版本 OpenCyc。

继续阅读“科普 | 典型的知识库/链接数据/知识图谱项目”

梁家卿 | 百科知识图谱同步更新

本文转载自公众号知识工场


本文整理自复旦大学知识工场梁家卿博士在IJCAI 2017 会议上的论文报告,题目为《How to Keep a Knowledge Base Synchronized with Its Encyclopedia Source》,作者包括:梁家卿博士(复旦大学,上海数眼科技发展有限公司),张圣硕士(复旦大学),肖仰华教授(复旦大学,上海互联网大数据工程技术研究中心,小i机器人)

 

IJCAI(International Joint Conference on Artificial Intelligence,国际人工智能联合会议)是人工智能领域最顶级的学术会议之一,被中国计算机学会推荐国际学术会议列表认定为 A 类会议。该会议聚集了人工智能领域最顶尖的研究者和优秀从业者,关注研讨领域涵盖机器学习、计算可持续性、图像识别、语音技术、视频技术等,对全球人工智能行业具有巨大影响力。8月19日-8月25日,IJCAI 2017在澳大利亚墨尔本正式开启。

 

继续阅读“梁家卿 | 百科知识图谱同步更新”

领域应用 | 中医临床术语系统

本文转载自公众号中医药知识组织与标准。


什么是中医药术语系统?它是干什么用的呢?

中医药术语系统是运用计算机与信息技术等工具,对中医药学各领域中的事物、现象、特性、关系和过程进行标记和概括,并为每个概念赋予指称形成概念体系,具有管理中医药术语研究、制作、更新、维护等功能,根据不同需求形成系列术语管理体系,称为中医药术语系统。

目前中医药术语系统包括:中国中医药学主题词表、中医药学语言系统(包括古籍语言系统)、中医临床术语系统。

中医临床术语集是给计算机使用的,是为了解决中医临床数据在采集及信息传递过程中遇到的交流障碍,提高中医临床数据的利用率和知识的转化率而研制的一套术语系统。

继续阅读“领域应用 | 中医临床术语系统”

领域应用 | CCKS-2017 行业知识图谱构建与应用-上篇

本文转载自公众号PlantData知识图谱实战摘录自CCKS-2017(成都),王昊奋、胡芳槐演讲PPT《行业知识图谱构建与应用》的文章。


本次Tutorial主要包括以下三方面内容:

  1. 行业知识图谱概述,包括行业图谱简介,行业知识图谱的应用及挑战,以及行业知识图谱生命周期管理。

  2. 行业知识图谱关键技术,包括行业知识图谱生命周期中各过程的相关技术、现有可用的工具,以及各过程中的最佳实践及相关组件。

  3. 行业知识图谱应用实战,以金融证券行业应用为例,演示知识图谱从知识建模、知识抽取到行业应用的全过程。

继续阅读“领域应用 | CCKS-2017 行业知识图谱构建与应用-上篇”

自由讨论 | KBQA从入门到放弃—入门篇

本文转载自公众号 PaperWeekly 。


本期问题清单

  • KBQA 的定义/概念/应用前景是什么?

  • KBQA 和 DBQA 的区别以及各自的应用场景是什么?

  • KBQA 传统方法框架及经典系统结构(问题解析,生成查询,答案检索及评分等)包括哪些子模块?涉及哪些技术点?代表系统在测试集上效果如何?

  • IBM Watson/Microsoft DeepQA 等成熟业界问答系统 KBQA 部分的解决方案

  • 值得读的论文和开源项目(侧重于工程实用)

继续阅读“自由讨论 | KBQA从入门到放弃—入门篇”

领域应用 | 阿里知识图谱首次曝光:每天千万级拦截量,亿级别全量智能审核

本文转自公众号阿里技术


阿里妹导读:借助阿里知识图谱的建设,阿里电商平台管控从过去的“巡检”模式升级为发布端实时逐一检查。在海量的商品发布量的挑战下,最大可能地借助大数据、人工智能阻止坏人、问题商品进入阿里生态。同时面临问题商家实时的对弈、变异和恶意攻击等诸多挑战,知识图谱仍然保持着每天千万级别的拦截量,亿级别的全量智能审核次数,在滥发、侵权、合规、假货、经营范围等多个场景全面与问题卖家正面交锋,实时对弈。为了最大限度地保护知识产权,保护消费者权益,我们对知识图谱推理引擎技术提出了智能化、自学习、毫秒级响应、可解释等更高地技术要求,实现良好的社会效益。

继续阅读“领域应用 | 阿里知识图谱首次曝光:每天千万级拦截量,亿级别全量智能审核”

领域应用 | 从数据到智慧:知识图谱如何助力实现智能金融?

本文转载自公众号恒生技术之眼,作者为应雄,姜海军,楼承先。


近年来,由于金融科技(FinTech) 的迅猛发展,传统金融领域与金融科技的结合也越来越密切,金融科技产品如雨后春笋般涌现,人们对这些金融产品的关注和参与度也迅速高涨。然而现有的金融科技产品琳琅满目,与这些产品相关的资讯更是众多纷纭,人们要从这海量的资讯中获取自己关注和感兴趣的资讯变得极其繁琐和困难。推荐系统作为解决信息过载问题的有效手段之一,已被广泛应用于各个领域,该系统能够主动的向用户提供需求信息,让每个用户都能够得到具有针对性的推荐结果。然而现有的许多推荐算法存在没有考虑物品本身内涵知识的缺陷,导致对资讯内容分析的不完全和不精确,使得推荐效果不理想。本文的主要贡献在于提出了一个知识图谱和推荐系统的融合模型,在基于经典推荐算法基础上,充分考虑资讯本身内在的语义信息,利用资讯之间的标签关联关系,有效地提升了推荐算法的准确率、召回率和F值。

继续阅读“领域应用 | 从数据到智慧:知识图谱如何助力实现智能金融?”