研讨会 | 知识图谱大咖云集阿里,他们都说了啥

前言

12月20日,由阿里巴巴联合中国中文信息学会语言与知识计算专委会(KG专委)举办的知识图谱研讨会在杭州召开。研讨会由阿里巴巴集团副总裁墙辉(玄难)主持,知识图谱领域国内知名专家参与了此次研讨。在阿里巴巴持续发力知识图谱这一人工智能基础设施的背景下,此次研讨会是对阿里巴巴知识图谱建设的一次评估,也是建设与改进方向的一次讨论。

到场的国内知名专家包括:中科院软件所、中国中文信息学会副理事长兼秘书长孙乐教授,清华大学李涓子教授、刘知远助理教授,中国科学院自动化所赵军教授、刘康副教授,浙江大学陈华钧教授,东南大学漆桂林教授,苏州大学张民教授、陈文亮教授,北京大学赵东岩教授、冯岩松副教授。

继续阅读“研讨会 | 知识图谱大咖云集阿里,他们都说了啥”

刘志明 | 知识图谱及金融相关

本文转载自公众号:挖地兔,本文的作者刘志明先生也是 Tushare 的作者。

Tushare 是一个基于 Python 语言的免费、开源的财经数据接口包,可以为金融量化分析人员提供快速、整洁和多样的结构化数据,帮助量化投资人员节省数据采集和清洗时间,使他们有更多的精力集中在策略的研发上,极大提高投研效率。作为国内最早一个服务于量化投资的 Python 开源项目,目前用户超过 10 万,机构 300 家,已经成为量化投资领域比较常用或者借鉴的数据工具。

继续阅读“刘志明 | 知识图谱及金融相关”

论文浅尝 | Reinforcement Learning for Relation Classification

论文链接:http://aihuang.org/p/papers/AAAI2018Denoising.pdf

来源:AAAI 2018

Motivation

Distant Supervision 是一种常用的生成关系分类训练样本的方法,它通过将知识库与非结构化文本对齐来自动构建大量训练样本,减少模型对人工标注数据的依赖。但是这样标注出的数据会有很多噪音,例如,如果Obama和United States在知识库中的关系是 BornIn,那么“Barack Obama is the 44th President of the United States.”这样的句子也会被标注为BornIn关系。

为了减少训练样本中的噪音,本文希望训练一个模型来对样本进行筛选,以便构造一个噪音较小的数据集。模型在对样本进行筛选时,无法直接判断每条样本的好坏,只能在筛选完以后判断整个数据集的质量,这种 delayed reward 的情形很适合用强化学习来解决。

继续阅读“论文浅尝 | Reinforcement Learning for Relation Classification”

鲍捷 | 知识图谱从 0 级到 10 级简化版

本文转载自公众号:文因学堂


文因学以前写过几个进阶指南,可能都太难,不接地气。这里重新写一个更实事求是、更便于工程落地的版本yiqm  df以前写过几个进阶指南,可能都太难,不接地气。这里重新写一个更实事求是、更便于工程落地的版本。

0级:掌握正则表达式、SQL、JSON和一门支持if-then-else的高级语言  —— 是的,这些不是知识图谱技术,但是这些可以解决问题。我们要的是解决问题,不是吗?

1级:学会ER建模(对,就是数据库里的ER建模),理解实体(Entity)和关系(Relation)的概念。这个可能比你想象得难很多。学会更复杂的SQL,能熟练掌握至少一种主流的关系数据库,至少学会一种语言的数据库操作。

2级:学会两种给实体命名的方法:数据库里的主键,Web上的URI。理解分类树。这时候可以学下RDF了,掌握Turtle和JSON-LD两种语法。会用Java或者Python操作RDF。(小白一般到这里就开始大批阵亡)

继续阅读“鲍捷 | 知识图谱从 0 级到 10 级简化版”