领域应用 | 实事求是谈金融报告自动化

本文转载文因互联公众号,根据作者在某咨询公司的讲座整理。


三个迷信

在讲具体的技术之前,我想先说说关于人工智能的三个迷信。

第一个迷信,因为AlphaGo 战胜了围棋冠军,所以 AI 也可以做 XYZ(比如炒股)。可事实是,AlphaGo 只是 AI 的极小的一个分支。AI 总体还是处于“有多少人工就有多少智能”的水平。

第二个迷信,因为机器效率高,所以效率低的人会被机器消灭掉。我一开始也是这样想的,但是后来我发现并不是这样的。比如说计算器,计算器做加减乘除是比所有的人做得效率都高的。但会计并没有因为计算器而失业。恰恰相反,现在这个时刻,可能是人类历史上会计最多的一个时刻,未来还有可能更多。能被机器取代的,是完全的机械工作,就像工厂里的机器人那种工作,月工资2000块钱以下的那种工作。大多数的工作还是需要创造力的,至少需要有一部分的创造力。当机器提高了工作效率之后,实际上是使得拥有这种技能的人反而被增强了,而不是被替代了。所以在我看来,分析师肯定不会被机器替代掉,而是随着机器能力的上升,分析师的人数将来会越来越多。

第三个迷信,即人工智能应用就要搞深度学习。我前两天去拜访一个客户的时候,他们问我人工智能是什么?怎么能够应用到金融分析?我给他看了一堆列表,他看完了之后,觉得这不是人工智能,因为据他所知人工智能就是深度学习。甚至很多人会把关系颠倒过来,认为机器学习是深度学习的一个分支。可能最近两年里面,在媒体里到处都是这样的报道,所以产生这样的误解。但是在人工智能的几个学派里面,神经网络只是其中的一个学派,我们称为连接主义学派。深度学习又只是连接主义学派当中的一个细小的分支。任何一个项目通常都不是一种算法能够完成的,而是很多种算法集合在一起才能做成的。人工智能有4个不同的主义,其中一个是连接主义的神经网络;再有一个是理性主义,就是逻辑的那一套;还有经验主义,是机器学习那一套;但这些主义,都没有最后一个主义厉害,我管它叫媒体主义,媒体说的AI其实是我们根本还做不到的。

金融报告是什么

 

言归正传,回到今天我们的主题——金融报告能不能自动化以及怎么自动化。首先要确认有哪些东西可以称为金融报告。

 

 

第一种是信息披露报告,有股转书,有做债的报告,有贷款的报告。新三板、A股、美股都有招股说明书、股转书,这是信息披露类型的报告。还有年报、季报等等,全球每年有几百万份。

 

第二种就是研究报告,基于这些公开的材料,我们再做一些加工,有卖方的券商的报告,有买方的基金的报告,还有中介机构、咨询公司的报告。

 

第三种报告,我称为摘要型的报告。在各个大的券商,微信群里面,每天都会发,比如说分行业、计算机行业、汽车行业,发生了很多事情,做一个每天的摘要这样一个报告。巨潮网每天也都会发,早上发、中午发、晚上发,重要公告列表,这是一种公告摘要。还有一种是日常的跟踪报告,有按天的、有按小时的,有按月的、按周的,报盘的新闻,在很多的财经媒体上,这种股票走势、大盘走势,这种行为都是机器人写的。再有一种就是企业的信息图、基本要素的分析,很多刚入行的分析师、实习生,每天都在写这种东西,把这个企业拿过来看一下,基本亮点是什么,股转书里面弄一个PPT出来,写这种东西。

 

最后一种,我把它称为陈述性的文章。我把所有前面不能够囊括的东西都归在这个里面了,各种各样的新闻,背景介绍、公司介绍、行业介绍,或者介绍一个新公司。比如,做锂电池的,锂电池是什么?等等信息。然后深度进行观点分析,我认为这件事情是什么样的,展开讲述。最后就是八卦,比如“金融八卦女”。像八卦这个东西,机器人肯定替代不了。

 

前面这些东西,哪些是机器可以取代的,这就是我们今天要讨论的话题。

人 vs 机器

 

分析师和记者会失业吗?如果要有一个简短的回答就是:NO。当然,实际情况并不是这么简单,因为分析师和记者,他们做的事情可以分为很多维度,有些维度的的确确是机器可以去做的。

 

分析师和记者到底在做什么事情?我们把东西整个抽象起来就是三步,第一步信息获取,第二步信息加工,第三步发布出去。举一个例子,对一个企业做一个分析,我们通过某种渠道来找到这个信息的发源地,可能是股转书,或者是公司的路演材料等等,我们进行分析,这是案头的工作,还有一种是非案头的工作,打电话跟董事长聊,去见他的董秘跟他聊,然后自己做分析达到一个结果,这是一个一般的流程。这里面肯定有一部分工作是机器目前还没有办法做的,比如说尽职调查这个过程,打电话的过程。机器能先在案头工作这一部分提高我们的效率。但最关键的东西就是 Insights,是机器人不能做的。人为什么能够做好这件事情?因为我们能够有 Insights,有洞察,人能够发现事情背后的一些联系,这是之所以需要人类分析师的原因。

 

 

我们对比来看,人的报告和机器的报告。

 

第一点,人的报告的优点是语言流畅。当然也不是绝对的,我看过一个股转书里面有大量的语法错误,所以被股转中心给打回来了。但总的来说,人的语言比机器的语言是要流畅很多的。

 

第二点,内容相对来讲比较丰富。因为机器能做的还很有限,它输入的是什么,说出的就是什么。人可以发现很多种不同的相关的因素。比如说像我们最近在看某咨询机构的报告,假如只是从内容的角度来看,50页纸的报告里,我们评估下来,应该是90%以上的内容是机器没有办法生成的,这可能让大家(分析师们)更加放心一点。就是说如果仅仅只是从内容本身以及公开材料的获取的角度来说,机器现在还没有办法替代人在内容组织上的优势。

 

第三个,人有丰富的Insights。我们人不仅可以发现 Insights,还可以关联 Insights。

 

机器的优点在哪里?快,非常非常快,一天24小时可以不间断地工作,一秒钟就会做出一个报告,这是人做不到的事情。内容,它也可以相对集中。人无法收集到太多信息,但是机器可以几万份报告全部扒过来,然后从里面挑东西。简单的分析罗列,在量上面,机器可以做得更好。

背后的技术

 

 

如果用机器来做,涉及到哪些技术?我们把它大概分成三部分内容。

 

输入的时候是一些原始数据。这些原始数据有些是结构化数据,但我们现在面临更大量的是非结构化的数据,各种各样的文本。我们会进行自然语言理解(Nature Language Understanding),生成相对而言结构化的数据。这个结构化的数据,跟大家数据库用到的结构化数据不是完全一样的。因为如果我们想把数据完全去归约成结构化的数据,比如把一个公司的财报全部变成数据库的模式,成本是非常高的。我们在每一步处理都会犯很多错误,为了纠正这些错误,会需要大量的工程性投入。通常我们为了降低工程成本,在结构化的时候,会满足一定终止条件,比如到某个力度不往下分了,比如说段落,会停留在这里,这个段落会打标签,这些标签又是结构化的数据。通常这里的结构化数据是根据我们在这个场景下面的预算来决定的。

 

有了结构化数据之后,我们重新把它变成人容易理解的语言,这个过程叫自然语言生成(Nature Language Generation)。从数据变成文本,还有另外一种就是从数据变成图像,图形可视化。大家天天都在用 Excel,或者其他的东西来进行可视化。把这些文字和这些图表结合在一起,就会形成一篇文章,这是一般的流程。

 

 

我们先看第一步的非常简化的一个示意,我们输入各种数据,有PDF的、XBRL的半结构化金融报表,EXCEL的、WORD的拿过来进行分析。得到了相对而言干净的数据。什么叫干净?这个干净与否,主要是对机器而言,那些机器很难处理的数据,我们通常把它称为脏数据,机器相对而言比较容易处理的数据,我们称为干净数据。我对股转书比较熟悉,对新三板的股转书,里面有7%的股转书是扫描件,这种扫描件,我们把它称为脏数据。我们要花巨大的精力来做数据清洗工作。还有大量的重复,比如说券商的报告。券商去年发布了18万份报告,其中大量是重复的东西,他们的晨报,在每个平台都发一遍。所以我们要做去重工作。还有就是数据排序,按照各种各样数据的质量、重要性来探寻。

 

做完数据清洗,这最难的一步,可能80%的工作就做完了。下一步,就是进一步去做结构化的提升。主要就是实体的发现和关系的发现。什么是实体?公司、人、产品,每个东西都是一个实体(Entity)。实体和实体之间是有关系的,万事万物之间都有关系,最后构成了一个图(Graph)。这是一个基本的过程。

 

自然语言生成有三种常见方法。一种是基于模板的方法,是非常简单的方法。可以说它不需要太高深的技术,非常多的机构都已经在用了。可能大家没有注意到,很多财经媒体在好几年之前,就已经在用模板,做报盘数据、跟踪的报告。这几年基于模板的方法得到了长足的进步,因为以前用人来写模板,只能写几十个模板、几百个模板,所以那个句子一眼就看得出来,就那么几种编写。现在大家可以用机器学习来生成这些模板,通过学习海量的已有文档,发现以前人是怎么描述这些事,机器生成成千上万的模板,所以现在的句子就写得越来越好看。

 

下一种方法是基于知识图谱的方法,比上面一种稍微进步一点。前面这种一般是填表,基于知识图谱相对而言要复杂一点,要做一个推理而不是直接的句子、直接的词和词,数字到数字的过程。下面给了个例子,比如说这是从两个不同的数据源来,一个数据源说,这个公司的主营业务是汽车的涂料生产。第二个数据源说,汽车的销售量在下降。在这个过程中,我们要做一个推理,汽车销量下降,意味着汽车涂料也可能会下降,有可能这个公司的主营业务会下降。但这个逻辑不是100%的,只是说存在这样一个推理途径,我们可以推理出来,这个事情还没有发生。机器是可以写出这样的话,是因为背后我们有推理机。

 

第三种方法是机器学习。现在的方法,不仅仅局限于学习模板,很多时候是直接把句子拿过来用,往大了说,现在有很多机器学习和深度学习的问答系统。输出一个问题,回答一个这样的句子,这些句子并不是机器生成的,而是机器从浩如烟海的人类文档里面把它提取出来。这种方法的前提是什么?是要有海量的数据。所以这种方法一般只适用于Web头部的搜索,一些细分的领域是没有办法去做的。

 

我们现在正在做公告摘要,是报告的其中一个模块。之所以提出来,是因为它是两种不同方法的混合。我在一开始的时候也提到了,人工智能方法不止一种。我们通常是用多种方法进行混合来解决问题的。在这里,我们综合运用深度学习的方法和知识图谱的方法。我们会在公告的处理上,首先用深度学习来进行句子层面的解析,全面训练句子并打标签,这是用深度学习的方法来做的。有了这些句子层面的数据和所谓的元数据之后,我们在知识图谱上面进行一个标注,因为所有的标签背后都是有关系的。这个关系就是知识图谱,最终基于此我们来生成公告摘要。之后我会给一些例子。

知识图谱

 

 

接下来具体讲一下知识图谱。知识图谱用一句话来说就是图谱,即图(Graph)。在座每一位都学过如何画画,就知道知识图谱是什么了。困难在哪里?人画图和让机器来理解图是不一样的。让机器去存储几张图和让机器去存储几万张、几千万张图,也是不一样的。所以在工程上,我们仅仅为了解决图的提取、表达、存储、检索这几件事情,就不得不发明一整套的方法来做。知识图谱技术,并不是从天上掉下来的,实际上它是基于过去二三十年时间,几个不同的细分领域的发展。后来,大概在五年之前,它们交汇在一起,所以我们给它一个新的名字叫知识图谱。它大概有4个不同的分支:

 

第一个分支是从传统的自然语言处理发展来,叫做知识提取。它主要研究如何从各种各样的文本里,把知识的结构发现出来。

 

第二块叫知识表现。研究怎么让机器更好的表达图谱。我们有一个任务叫做推理。推理在数学上严格的表述,实际上是当图上面有一些边之后,如何发现新的边,这个过程就是推理。推理有非常多的变种,但是你把它抽象了看,其实就是在讲图上推导边。怎么去做这种推理,怎么去做这种图在计算机里的表示,怎么样的方法是最高效的,最不容易犯错误的,这个研究领域就称为知识表现。在研究过程中,我们产生了很多好东西,把它称为知识库。比如说 Wikipedia 或者百度百科,我们去看的时候,在它的右边有一个叫做 Infobox的边栏。比如说我们查北京,在 Wikipedia 上就会有北京的人口、经度、纬度等等,实际上它是一个很简单的表格。这些表格以前是人来看的。后来就有人说,为什么不把这个东西变成一个机器可以读的格式呢?于是就有好几拨人来做 Wikipedia 知识图谱的构造,后来在德国的一些大学里,他们做了一个项目叫 DBpedia,后来在美国有个公司叫 Metaweb,他们做了一套叫 Freebase,这些所有的系统都是在说我们怎么去方便用机器来进行知识的表示,后来 Freebase 被谷歌给买了之后,改成谷歌知识图谱,这是2012年的事情。

 

第三部分是知识存储。当我们有了海量的知识以后,如何放在计算机里面,让数据库能够更好地存储和表达呢?传统的数据库是关系型的数据库,一张一张的表。现在我们要面临的不是一个简单的关系,表的两列之间可能有关系,表的两行之间可能还有关系,表的每一个格子和每个格子都可以有关系。所以说它很难用传统的关系数据库或EXCEL来表示,所以又兴起了一系列的新数据库。比如图数据库,还有像RDF数据库,根据不同的应用,我们会选择不同的数据库。

 

最后一块叫知识检索,从最低层面的大家常见的关键词的检索,到最高层面的问答系统的检索,中间有很多不同的环节。这一块就是在讲,我现在有了一大堆的知识在我的数据库里头,怎么发现它,这一块基本上是从搜索引擎的研究里边分出来的。

大概在2012年前后,这4个领域都都遇到了瓶颈,都发现知识是如此的重要,发现解决方案就是知识的处理,于是融合成新一个领域叫知识图谱。

数据的递进

 

数据的递进可以大致分为六层。从原始的数据,比如说我们从巨潮网上看到的那些公告数据,或者是我们从客户那里拿到的原始的财务报表,到最后我们能够“变魔术”,中间有一级一级、数据质量不断提升的过程。这个魔术会根据不同的场景变化。比如说并购,假如一个海外公司委托我们分析国内哪家公司是最值得并购的,我们就能告诉他这个公司的名字,这是魔术。又比如说散户,他要投资,希望你告诉他哪支股票买了可以涨,这也是魔术。但是不管是人还是机器,现在都没有办法通过这些数据立即得出结论。我们需要一步一步分析,每一步的分析背后还要有证据。我们需要一步一步地去发现数据背后的关系,提高数据背后的质量。

 

其实在没有这些东西的时候,比如说100年前,那时候也是要做投资的,所有这些数据全都没有,大家怎么做?当时也有办法。人是有直觉的,人是有经验的,人是有人脉的。我听说李四说这个股票会涨,这个股票肯定会涨。这是当时的方法。100年前的股市,就是投机分析。后来大家慢慢地变得更加理性了,慢慢地发现我们需要信息披露,慢慢地需要进行审计了,包括这些年随着信息化的成熟,大数据技术,各种信息的自动化,一级级地把数据质量提升上去,每提升一级数据质量之后,人做判断的时候,就没有必要完全依靠非数字的物理世界的经验和人脉来做。我们每多一些数据,都可以加快我们的分析的速度、效率。

 

分析的递进

 

分析技术也分为六层来讨论。

 

 

第一层在我看来就是提高数据的可访问性问题。现在我们有大量的数据是在每个企业自己的墙里边的,在每一个部门,每一个组织,都有一道信息墙。每一个组织内部都有自己的数据的不同的格式,各种处理的流程。很多数据壁垒问题,我们也很难仅仅通过技术的手段就能够解决,但是还是存在大量的事情我们可以做得更好。比如说那些PDF的数据,在美国的SEC网站(https://www.sec.gov/)上,你可以下载到所有的公司结构化的数据,但在中国是没有的。我们就需要从PDF里面把这些数据搜索出来,这个事情技术上是可行的,因为我们能做到,这就是在进行数据的可访问性的探索。包括有一个工具叫 TuShare(http://tushare.org/),在座很多人可能也用过,它就做了一件很好的事情,把分散在很多地方的数据变成一个统一的API。大家做量化的,或者做投资的、做分析的,都可以用它那个API来访问数据,这也是提高数据的可访问性。

第二层就是数据的可发现性。现在我们有数据了,问题就来了,太多数据怎么办?根本找不到。如何提高数据的信噪比,这是数据的可发现性问题。我们有搜索引擎的技术、推荐系统的技术、推送系统的技术,可以解决这些问题。

 

第三层,深度的关系的发现。现在我已经有数据了,数据背后是什么?当我发现这个企业有很多问题,我就要想,这个股东是一个有限合伙人,这个有限合伙真实的股东是谁?一直追溯到自然人,这就是一个典型的关系的发现。

 

第四个层面是在讲领域知识的集成。因为在我们进行分析的时候,通常我们是会针对比如说一个垂直行业来做,做行业分析的时候,我们都会看每一个行业,锂电池有锂电池的逻辑,珠宝有珠宝的行情。每个领域里头都有大量的专有名词,大量的人的关系、公司的关系,我们把所有的这些关系都称为领域知识。这块会有各种知识库构造的工具方法需要我们去探索。

 

第五层就是业务知识的集成。比如说我们要进行股票投资的时候,不管是长期的投资,还是短期的投机,其实都是有大量前人已经摸索出来的规律,比如说财务的校验,哪个公司的财务可能出问题,这是最基本的,有很多很多财务的规律,我们可以去套。比如说像做波段的,或者做短期的,也是有很多前人推导出来的微观的市场结构的东西,我们可以去推导,这些东西都可以变成软件。

 

最后一层就是更笼统了。凡是上面不能够囊括的东西,我都把它扔在这里边了,包括用户的建模问题,逻辑链条的学习,风险、渠道的认证,证据的收集,证据的排序,所有这些东西会产生一个策略,会有帮助。那么把这些所有的东西做成之后,我们就会有了一种研究系统,通常会包含这6层的东西。

一些实践

 

说了太多理论了,下面说一些实践。这里具体举几个例子,在我们过去大半年的探索中,根据上面说的这些方法,尝试了很多种不同的生成报告的方式。

 

 

这是我们去年7月份做的,行业快报。它主要是针对新三板做的,有哪些公司挂牌了,有哪些公告,成交量怎么样,大家很容易想象的一些很基本的东西,做了个图文并茂的快报。

 

 

这个跟上面那个很类似,但是是在微信里分享用的,一个可视化的年报和半年报。去年在半年报季的时候,我们给差不多几千个新三板公司都自动生成了这样一个报告,把半年报里最重要的一些信息概括起来,生成大概十几页的可视化报告,HTML5格式的。

 

 

自动化企业分析报告。这是给一家咨询公司做的。他们之前找了很多实习生来做这件事情。他们主要是做并购,所以对领域里的每一个公司都要了解到。这些公司的基本情况大概包括十几个要素,包括基本面、产品、竞争优势、销售模式、实际控制人,还包括有没有诉讼,实际控制人有没有负面新闻等等。一般来说,一个实习生进来的时候,第一个月根本干不了这事,要培训至少一个月才能做。手快的要一天,手慢的要两天才能做这样一份报告。我们看了以后,认为整个报告全部可以自动化,就把它给自动化了,最后我们可以1秒钟生成这样一份报告。

 

 

这是2016年10月份,跟银行做的另外一个事情。银行看了我们的自动化报告以后,觉得可以用在信贷报告上。银行在做准备工作的时候,信贷报告有大概两三百个考虑要素。我们做了一个评估,蓝色的那些东西是可以自动化的内容,那些红色的东西是没有办法自动化的,黄色的是可以半自动化的,至少是可以提高效率的。我们对几百项都做了这种评估,我们发现这样做下来,至少还是可以提高一半的效率。跟那个类似的还做了债券的评级报告,也是差不多的事情。

 

 

后来开始做公告摘要。我们评估了一下,在过去的一年里,A股有36万份公告,新三板有33万份公告,去年一年有18万份的研报,其中5万份的深度研报。每个分析师平均要跟进20家企业,每天要花一小时时间阅读公告,可以考虑到其巨大的人力投入。把非常初步的信息跟踪自动化,就是我们的希望。

 

现在一些机构在用人工来做这件事情,平均每家都有至少20个人的团队来做人工摘要的编写。在去年12月6号的时候,我们看了A股披露的所有公告,当天是1700份,其中有摘要的只有125份,也就是说目前人力的极限,大概是不到10%。我们有没有什么办法可以覆盖到100%?所以我们先开始做了一些测试,大概从去年12月份开始做。A股一共有99种各种不同的公告,要分别处理。比如说停牌公告,一般是两页纸,最核心的是两件事情,什么时候停牌,什么时候复牌。以前是要人来做摘要的。如果我们用机器能够帮他们做到这一点,我觉得是一个非常有价值的事情。大家至少可以多点时间和家人一起,有时间谈恋爱了。

 

 

后来我们陆陆续续做了十几种不同类型的公告。比如担保公告,担保额度是多少,标的是什么,为什么,与公司的关系是什么,这些提取都是可以用机器来自动化。还有中标公告,招标方是谁,招标的项目是什么,招标的金额是多少,都可以用机器处理。

 

 

数据提取出来后,就可以生成一个自然语言的公告摘要。生成了这种摘要之后,我们把它集成在一起,我们把它称为公司历程。这是一个例子,这个公司过去这段时间发生了很多事情,我们把不重要的都已经过滤掉了,不用每个公告打开看了,里面最核心的数据点都在这儿,一目了然。

 

什么能够自动化?

 

 

我们现在可以回过头来看,一开始这张表,金融报告能够自动化吗?我们分类来讨论:

 

第一类信息披露报告,我们认为这一部分报告主要是写作,这个是可以部分自动化的。在这之前,我们跟券商挂牌部门,就是通道部门,进行过很多次接触,里面相当多的部分是可以自动化的。比如说财务部分,它是跟银行的业务是一样的,大量的财务报表,本来企业交上来的时候,就已经是结构化数据,没有必要人工的再重新搞一遍,这是可以完全自动化的部分。

 

再说可以半自动化的,提高效率的。比如说在券商做招股书的时候,都会有一个过程,就是反馈意见。股转系统认为不清楚的地方该如何处理?通常他们的做法是找到以前类似公司的处理方法。然后看案例,这些案例只能在PDF里面。浩如烟海的PDF几万份,之前只有非常熟这件事情才能够做到。实际上这些反馈意见,其实都在那儿,这是可以提取出来变成案例库的。把它提取出来变成案例库以后,就可以大大地节约人力,这是一种半自动化。所以股转书、公开转让说明书,跟银行的审计报告一样,存在大量可以自动化的部分。

 

第二类是研究性的报告,卖方的报告、买方的报告,包括咨询公司的报告。这些报告单从写作的层面上来说,我认为现在还是比较难以自动化的。之所以大家要这样的报告,是因为它的 Insights。18万份报告里面,大概5万份的深度报告是有Insights的,其他13万份还是一个比较普通的报告,那部分报告是有可能被自动化的,但是深度报告还是很难。这一块我认为机器能做得最主要的工作就是数据准备。比如说要做一个公司的报告,这个公司的A股上的对标公司是谁,美股上的对标公司是谁,这些公司对应的财务指标是什么。在这些信息的挖掘上,机器是可以帮大家的。

 

第三类是日常的报告,这一类基本上是可以自动化的,我认为5年之后,这些东西很可能不会再由人来写了。

 

最后一部分就是知识的介绍、观点分析和八卦等等。我认为目前还是比较难自动化的,所以“金融八卦女”还是一个很好的项目 :)。

 

分析师如何应对AI

 

 

最后再多说一点,在人工智能的威胁之下,大家该怎么应对这些事情。人工智能是纸老虎,它并不可怕,因为它毕竟只是一些算法。但是如果我们不准备好了,它也可以变成真老虎。

 

要做什么样的准备呢?大家可以听一个笑话,如果在森林里头遇到了老虎怎么办?有两个策略,第一个是跑得比老虎快,第二个是跑得比身边那个人快。跑得比老虎快是比较难的,但是跑得比旁边那个人快,还是容易一点点。大家看看旁边那个人,是不是可以跑得比他快一点。

 

 

我们还是有办法跑赢真老虎的。

 

第一条是颜值、情商和亲和力。为什么有了这么多在线房源数据库之后,还要房地产中介,它起什么作用?其实它就是心理咨询。买家和卖家中间的担心、焦虑、不确定性,这种东西是没有办法通过机器消灭掉的。这就是中介永远会存在的原因。包括医生很大程度上也是这样的,医生至少超过一半的作用是安慰。这一部分机器是肯定干不了的。

 

我曾问我司的分析师,到我们公司来以后,你觉得你最想加强的能力是什么?她给我一个非常令人吃惊的答案,她说PPT。我仔细一想,这蛮有道理的。我原来也在大公司工作,干活的不如写PPT的,写PPT的不如讲PPT的,所以如何把信息给表达出来的能力,机器还是做不到的,机器填表那种方式做出来的东西,那种表达力、说服力还是不如人做的东西。

 

第三个就是信息的抽象能力。机器在纷繁复杂的数据中进行抽象,特别是发现背后的这些关系是不如人的。

 

第四个是信息源。因为机器所有的分析都建立在比特世界的基础上面。事物数据化之后机器才可以处理。在这之前,大多数重要的信息,在它之前就已经发生了。这是我们人类的优势,我们可以找到专家、企业的负责人去聊,这是机器很难做到的事情。

 

最后一点是长程的逻辑推理链条,机器很容易做所谓的短程关系的发言,比如说奥巴马老婆是谁,这件事情很容易做的。但是长程的,巴西下雨了,什么样的农产品会涨价,这是一个长程的关系,机器是比较难以做判断的。这是跑赢老虎的办法。

 

跑赢旁边那个人怎么做呢?我们用机器去加强我们自己的能力,编程能力,提高我们效率的能力。

 

提高效率细分为几块,一个是提高我们获取数据的能力,比如爬虫。在使用一些金融终端进行分析的时候,很多事情其实是机器可以做的,它可以自动帮你,每天、每周,把你关心的数据爬下来,可以节约你很多很多的时间。要想学会这个事情不难,很快,如果想做的话,一个星期就可以做到。以后一生都可以用这样的机器,多好。

 

我们可以用数据库,可以写规则。比如在网上有很多现成的规则的工具,其中一个叫IFTTT,如果在新浪微博上发现了一个人在讲某一个股票,让它发个Email给我,可以节约大量时间。

 

我们去进行信息搜集的工作。凡是一件会让你烦的事情,那就意味着它可以自动化。

 

学习机器学习的基本工具,比如说 weka,是有可视化界面的,基本上只要学会怎么导数据,怎样一步一步选一个算法,就可以得到结果,机器学习并没有大家想象的这么难以去掌握。

 

我们只要掌握了工具去进行信息的收集和信息的整理,我们可以比我们身边的人,或者另外的那个楼的人工作效率更高。

 

最后一点,我觉得也挺重要,跟第一点一样重要。现在有太多的人会声称人工智能无所不能,但是真正的从业者知道,它非常局限。在大多数事情上,我们只能推进一点点,而这一点点还是要大量的人工去堆的。“有多少人工就有多少智能”,现在还真是一句真理。我们在工作当中,通常大多数时候并不需要非常高深的人工智能的知识,就可以极大地提高我们的效率。这一点点,就可以帮助大家跑赢旁边那个人!

 


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

发表评论

电子邮件地址不会被公开。 必填项已用*标注