开源开放 | Gowild 狗尾草“七律”知识图谱进入 OpenKG,开放 8000 万中文百科知识三元组数据

 

项目网站: https://ai.gowild.cn/kg

OpenKG发布地址: http://openkg.cn/dataset/7lore

狗尾草科技:https://www.gowild.cn

1.七律开放知识图谱简介

作为人工智能技术的重要分支,知识图谱自2012年被提出并成功应用后,就获得了迅速发展,成为推动互联网及AI发展的“重要武器”。

上海Gowild狗尾草人工智能研究院此次发布了中文开放知识图谱“七律”,及实体概念体系schema。七律知识图谱包含了事物、事实、概念、规则等信息,目前涵盖超过2亿个实体和超过30亿条关系,并且每天保持稳定地增量学习和增长。

七律,源自于Gowild狗尾草旗下AI虚拟生命琥珀家乡(瓦歌世界)中魔法体系的高度抽象和理解,根据理解的层次和强弱共分为七层,称之为“七律”。七律知识图谱沿用了“七律”这一名称,将这种对于知识的抽象理解延伸至人类世界,将以结构化实体、关系为核心的百科知识图谱定作为基石的第七律,并把概念、常识、空间等复杂知识作为目标逐步抽象上层完善,最终形成真正的七律。

用户可通过七律官网:https://ai.gowild.cn/kg进行访问,目前支持三类知识查询:

  • QA 查询:支持自然语言问句查询,返回问句答案,例如问句“美人鱼的导演是谁”,答案为“周星驰”
  • 实体查询:支持mention-level的实体关键词查询,返回相关匹配的实体,并包含消歧字段,例如“三体”,返回结果包括“刘慈欣著科幻小说-三体”、“ 书法名词-三体”等
  • 概念查询:支持mention-level的概念关键词查询,返回相关的上下位概念和同义词概念,例如“妻子”的父类(上位)概念为“配偶”,同义概念包括“媳妇”、“老婆”等




2.开放数据简介

本数据集包含百科事实三元组,即(s,p, o)形式,可用于构建百科知识图谱、抽取领域知识子图、构建冷启动训练数据等任务。本开放数据为七律的子集,后续将持续加大开放。

用户可通过访问OpenKG进行下载:http://openkg.cn/dataset/7lore

数据详情:

  • 数据类型:百科三元组
  • 数据量:8000万条
  • 数据格式:csv
  • 实体信息最新更新时间:2019-03-01

数据样例:

s, p, o

锅饺, 中文名, 锅饺

锅饺, 主要食材, 饺子

锅饺, 辅料, 油

锅饺, 辅料, 陈醋

锅饺, tag, 食品

陈醋, 外文名,  MATURE VINEGAR

陈醋, 主要原料, 大米

陈醋, 发源地, 山西省-太原市

陈醋, 主要食用功效,  散瘀

3.知识图谱助力构建AI虚拟生命

知识图谱是人类知识数据化的结晶,同时也是AI虚拟生命的“大脑”。通过多年潜心研发,Gowild人工智能研究院推出了GAVE虚拟生命引擎,并将其应用于AI虚拟生命“琥珀虚颜”,而知识图谱是让其理解、学习人类世界的重要工具。

与其他人工智能不同的是,AI虚拟生命不仅能够执行命令,还可以与人类进行语音、视觉的沟通交流,甚至有自己的生活轴和情绪输出。知识图谱是未来人工智能实现从感知到认知跨越的重要基石之一,随着数据红利的消失,以大数据和深度学习为基础的感知智能会遭遇天花板。不断更新的七律开放知识图谱,则为AI虚拟生命处理各种通用型任务、掌握客观常识、主动进行推理联想等认知能力提供了可能。

核心研发人员张凯工程师表示,七律的开放也是希望能吸引更多有志者参与到知识共享中,共同构建和完善知识金字塔。Gowild 狗尾草 AI Lab 负责人邵浩博士认为,我们人类当前所能达到的知识结构化和数字化即处于第七律这个层次,还需要无数科学家献身人工智能,为达到更高成果而努力。


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

发表评论

电子邮件地址不会被公开。 必填项已用*标注