袁峻峰 | AI 与理性投资——基于金融知识图谱的智能问答

本文转自公众号蚂蚁金服评论,版权属于袁峻峰,仅代表个人观点。
作者介绍:袁峻峰,花名观妙,蚂蚁金服人工智能部。

 

国内的股票市场,一般认为是更加倾向于主题投资而不是基本面、价值投资的市场,原因之一是散户贡献了大部分成交量。与此同时,监管机构一再教育广大投资者要理性投资、价值投资,在2017年全国证券期货监管工作会议上,证监会主席刘士余也批判了题材炒作,鼓励理性投资、价值投资。

理性一直是人类探讨的一个永恒话题。本文并不打算就这一话题展开讨论,这里只描述下相关假设。本文所描述理性是按诺贝尔经济学奖,图灵奖获得者郝伯特·西蒙的不确定性环境下决策理论中的定义:理性应当是有限的理性,而不是完全理性;应当是过程合理性,而不是本质合理性。过程理性决策步骤可以参考文章[1][3]中描述。其实不论价值投资还是主题投资其实都可以理性投资。

继续阅读“袁峻峰 | AI 与理性投资——基于金融知识图谱的智能问答”

漆桂林 | 开放:知识图谱发展的必由之路

​本文整理自漆桂林老师在广州知识图谱与问答系统论坛上的演讲。

首先向大家介绍一下我们研讨会的一些情况。本次研讨会是知识图谱系列活动之一,我们几乎每个月都会举行知识图谱相关的活动。这次活动是知识图谱论坛,它是在中文信息协会下属的语言与知识计算专业委员会组织的活动。这个组织是我们中国的知识图谱的一个官方组织,这个组织的主任是李涓子教授。由于李涓子教授事务繁忙,所以由我跟刘康老师来主持这个论坛,我们作为系列论坛的组织方,那么这一次非常高兴能够到广州来,把这个论坛放到广州来,而且本次论坛的主题也非常有吸引力,知识图谱与问答系统论坛。我可能不会给大家介绍知识图谱,因为王昊奋老师会做更深入的介绍。我给大家介绍的我们正在做的一个事情,这个是我们知识图谱领域下面要发生的一个大事,希望大家能够仔细关注,也希望大家能够来做一些贡献。

继续阅读“漆桂林 | 开放:知识图谱发展的必由之路”

数据动态 | “方药”模块发布——中医药知识服务平台升级

本文转自中医药知识服务平台公众号,作者为田野,于彤。

中医药知识服务平台 (http://www.tcmkb.cn) 集成了中医药领域的领域本体、术语资源(包括中医药学语言系统、中医临床术语集、中医古籍语言系统等),以及证候、中药、方剂等领域的知识库,面向中医专家提供知识检索、知识问答、知识浏览等服务。

系统研发团队近期对平台进行更新升级,增加了方药模块,该模块下设置包括中药、中成药、药典(中药)、医院院内制剂、西药等分类模块,全面整合方药类相关数据,以期为中医专家们更好的提供检索服务。

继续阅读“数据动态 | “方药”模块发布——中医药知识服务平台升级”

鲍捷 | Web:为所有人-——记图灵奖得主 Tim Berners-Lee 的伟大贡献

​来源:文因互联 CEO 鲍捷博士发布于《中国计算机学会通讯》2017年第6期《动态》
编者按
蒂姆·伯纳斯-李(Tim Berners-Lee),人们通常称他为Tim。作为万维网(World Wide Web,Web)的发明人而为世人所知,他也因此获得了2016年的图灵奖。但他的贡献并不止于Web。在过去近三十年的工作里,他的贡献大体可分为三个阶段。第一阶段从1989年到1999年,他的主要精力在Web本身的发明和推广上,贡献是互联的文档。第二阶段是1999年到2009年,他主要在推广语义网,贡献是互联的知识。第三个阶段从2009年至今,主要致力于数据的开放、安全和隐私,贡献是互联的社会。本文简述他在这三个阶段的贡献。

继续阅读“鲍捷 | Web:为所有人-——记图灵奖得主 Tim Berners-Lee 的伟大贡献”

海翼知 | 图谱在手 天下我有

本文转载自公众号 PlantData知识图谱实战,内容整理自胡芳槐博士 6 月 9 日北理工知识图谱实战学习活动上分享的《知识图谱应用关键技术及行业应用》的PPT报告。

胡芳槐博士,上海海翼知信息科技有限公司创始人,现任上海海翼知信息科技有限公司 CTO,知识图谱和本体学习 6 年以上的研究以及产业化经验,多个相关方向的国家项目和上海市政府项目骨干成员,国内最早研究中文知识图谱构建并进行产业化探索实践,在国际知名会议和期刊上发表多篇中文图谱构建、机器学习方面相关论文。

继续阅读“海翼知 | 图谱在手 天下我有”

阮彤 | 中文医疗健康知识图谱在临床电子病历挖掘中的应用探讨

​作者介绍

阮彤 – 现任华东理工大学计算机技术研究所所长,自然语言处理与大数据挖掘实验室主任,专注于自然语言处理、知识图谱方面的研究,承担了多项 863 与科技支撑项目。

以医院电子病历为核心的临床数据记录了病人的疾病、诊断和治疗信息。挖掘此类数据,可以辅助医生了解人口学信息、临床症状、治疗方法和疗效之间的量化关系,帮助病人选择更好的治疗方案,进而提升医疗服务质量,降低医疗成本。

然而,在临床中,大量的医疗文书是以文本形式存在。同时,医生录入缺乏语义规范,同一诊断与治疗方案,不同医生的录入结果会不同。因此,在挖掘之前,需要对数据进行结构化与规范化。在这个过程中,医疗健康知识图谱是不可或缺的一部分。另外,病历数据处理和使用过程中,通过病历数据与健康图谱的关联挖掘,可以获得更为隐含的、深刻的信息。为处理方便,整体用知识图谱表示与关联,会更为方便有效。

继续阅读“阮彤 | 中文医疗健康知识图谱在临床电子病历挖掘中的应用探讨”

技术动态 | 揭开知识库问答 KB-QA 的面纱 9 · 非结构化知识源篇

​作者,四川大学博士生,刘大一恒。本文已经获得 ChatbotMagazine 公众号授权。
内容速览
☛ 非结构化的知识库——维基百科☛ 思路与模型(文档检索与文档理解;段落encoding、问题encoding与答案预测)☛ 实验与总结

如果你想寻找一个问题的答案,比如谢霆锋的出生年月,那么你可能会先去查看关于谢霆锋的百度百科 或者 维基百科,找到和出生年月相关的那一行信息,再提取答案。那么,我们能不能让机器也这样去回答问题呢?在我们前面讲到的文章中,我们都使用了结构化的知识库来回答问题,今天我们将介绍一种使用非结构化的知识库——维基百科作为知识源来进行KB-QA。

继续阅读“技术动态 | 揭开知识库问答 KB-QA 的面纱 9 · 非结构化知识源篇”

技术动态 | 揭开知识库问答 KB-QA 的面纱 8 · 深度学习下篇(二)

作者,四川大学博士生,刘大一恒。本文已经获得 ChatbotMagazine 公众号授权。
内容速览

☛ 引入注意力机制的KB-QA

☛ 深度学习篇总结

在上一篇 技术动态 | 揭开知识库问答 KB-QA 的面纱 7 · 深度学习下篇(一)中我们介绍了关于如何将记忆网络应用到KB-QA中的文章。今天我们将给大家介绍另一篇使用深度学习另一种经典模型进行KB-QA的文章,带注意力机制的循环神经网络(Recurrent Neural Networks with Attention Mechanism)。这也是深度学习用于自然语言处理领域(Deep Learning for NLP)中相当火热的方法,就让我们一起来看看如何将它应用到KB-QA中吧。

继续阅读“技术动态 | 揭开知识库问答 KB-QA 的面纱 8 · 深度学习下篇(二)”

基于新标注模式的实体和关系联合抽取方法 | 论文访谈间 #07


「论文访谈间」是由 PaperWeekly 和中国中文信息学会青工委联合发起的论文报道栏目,旨在让国内优质论文得到更多关注和认可。 
这是第 7 期「论文访谈间」


论文作者 | 郑孙聪,王峰,包红云,郝悦星,周鹏,徐波

(中科院自动化研究所)

特约记者 | 钟世敏(西华大学)



本期论文访谈间我们将以“川普百科信息抽取”为例,来向大家介绍来自中科院自动化研究所的郑孙聪同学,王峰同学,包红云老师,郝悦星同学,周鹏同学,徐波老师的相关工作。他们的论文“Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme”发表在今年的 ACL 2017 上,并被评为 ACL 2017 杰出论文。


实体和关系的联合抽取问题作为信息抽取的关键任务,其实现方法可以简单分为两类:一类是串联抽取方法。另一类是联合抽取方法。串联抽取方法将该问题分解为两个串联的子任务,即先采用实体识别模型抽取实体,再采用关系抽取模型得到实体对之间的关系,其优势是便于单独优化实体识别任务和关系抽取任务,但缺点是它们以获取三元组的中间产物(实体或者关系类型)为目标,而实体识别的结果会进一步影响关系抽取的结果,导致误差累积。不同于串联抽取方法,联合抽取方法使用一个模型同时抽取实体及其关系,能够更好的整合实体及其关系之间的信息。但现有的联合抽取方法也存在诸多问题,比如:大部分的联合抽取模型需要人工参与构建特征;基于 end to end 的联合抽取模型,因在模型实现过程中分开抽取实体及其关系而导致信息冗余等问题。近期郑孙聪同学,王峰同学,包红云老师,郝悦星同学,周鹏同学,徐波老师在论文“Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme”中提出了一个新的模型框架来解决此类问题,并在公开数据集 NYT 上取得了很好的效果。


接下来我们先来看看该模型能够干些什么。如下图,模型的输入为一句非结构化的文本,输出为一个预定义关系类型的三元组。


为了实现该任务,作者首先提出了一种新的标注模式,将信息抽取任务转化为序列标注任务。如下图:



标注模式将文本中的词分为两类,第一类代表与抽取结果无关的词,用标签”O”来表示。第二类代表与抽取结果相关的词,这一类词的标签由三部分组成:当前词在 entity中的位置–关系类型–entity 在关系中的角色。作者使用“BIES”(Begin,Inside,End,Single)标注,来表示当前词在 entity 中的位置。而关系类型则是从预先设定的关系类型集中获得的。entity  在关系中的角色信息,用“1”,2”来表示。其中1”表示,当前词属于三元组(Entity1,RelationType,Entity2)的 Entity1,同理”2”表示,当前词属于 Entity2。最后根据标注结果将同种关系类型的两个相邻顺序实体组合为一个三元组。例如:通过标注标签可知,United”与States”组合形成了实体United States”,实体United States”与实体Trump”组合成了三元组 {United States, Country-President, Trump}。


当输入为文本语句的时候,如何自动实现对文本词序列的标注工作呢?接下来作者提出了一个端到端的模型来实现了该工作。模型结构如下图:



其中:


  • 词嵌入层将每个词的 one-hot 表示向量转化为低维稠密的词嵌入向量(维度为 300) 

  • Bi-LSTM 编码层(层数为 300)用于获得词的编码信息

  • LSTM 解码层(层数为 600)用于产生标签序列。其中加入偏移损失来增强实体标签的关联性


对话作者


关于新标注模式的适用性,作者认为本论文主要考虑一个词只属于一个三元组的情况,对于三元组重叠问题,即多个三元组都包含同一个词的情况,将在以后的工作中进行探讨。当说到关系数量增多导致标签总数大幅度增加,是否对输出层有影响的问题时,作者向我们解释到,关系数量增多会导致输出层的标签总数增加,对结果会有影响,如果训练集足够丰富本模型任然可以表现出很好的效果。


关于模型与实验,在实验部分作者将本模型(LSTM-LSTM-Bias)与经典模型(LSTM-CRF,LSTM-LSTM)进行比较,根据实验结果作者分析到,CRF 旨在最大化整个标签序列的联合概率,LSTM 能够学习序列元素之间的长距离依赖关系。由于关联标签之间可能彼此具有较长距离,所以基于 LSTM 的解码方式比 CRF 稍好。LSTM-LSTM-Bias 增加了偏置权重以增强特殊标签的作用,并削弱无效标签的影响。因此,它可以获得比常见端对端模型更好地效果。此外,由于关联实体对在文本中的位置是随机的,难以用一个固定结构的模型来增强二者之间的联系,目前想到的思路是通过设计有效地目标函数来增强实体对标签之间的关联性。此外,如何记录已经预测出来的特殊标签信息并用于辅助预测下一个关联标签,目前也没还没想到比较好的思路。


关于模型的应用场景,作者说到,从任务的应用背景回答,该模型可以用于丰富已有的知识图谱资源。如今各种智能化应用,如:自动问答、智能搜索、个性化推荐等,都需要知识图谱的支撑。为推动各领域智能化应用的发展,需要不断的去丰富和完善已有的知识图谱。不断涌现的网络文本数据中存在着大量的知识信息,基于人工整理的方式的成本太高,而且也难以跟上知识出现的步伐。因此,本文方法作为一种从非结构化文本数据中自动化地抽取实体以及他们之间关系进而形成结构化信息的技术,对丰富已有知识资源具有着十分重要的意义。


欢迎点击「阅读原文」查看论文:

Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme


关于中国中文信息学会青工委


中国中文信息学会青年工作委员会是中国中文信息学会的下属学术组织,专门面向全国中文信息处理领域的青年学者和学生开展工作。


关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


点击 | 阅读原文 | 查看论文

技术动态 | 基于深度学习知识库问答研究进展

本文整理自刘康博士在 4 月 29 日广州知识图谱与问答系统论坛上的演讲。

大家好。我这个报告的题目是基于深度学习的知识库问答研究进展。其实就是想跟大家介绍,目前在做面向知识库问答的时候,一个解决的方案是用 Deep Learning 来做。

1 问答系统的历史

那么首先的话我们来回顾一下问答的一些历史的一些情况。我们现在用搜索引擎的话,其实用户来访问数据,还是以文档列表的形式。当用户问一个问题的时候,是需要用户在下面排序的结果中,来找到自己所需要的答案,其实搜索引擎并不能直接给你最精准的答案。另外,我们现在有各种各样的可穿戴设备,屏幕的缩小需要我们这个系统能够自动的从我们的数据库,或者我们的文本库里面,抽取最精准的答案。

继续阅读“技术动态 | 基于深度学习知识库问答研究进展”