滕放 | 知识图谱在股权投资领域的尝试

本文整理自因果树创始人滕放在杭州金融知识图谱论坛上的演讲。

今天非常感谢大家来到浙大参加这个沙龙。首先我要感谢的是中文信息学会,能够让我们企业有这么一个平台跟大家交流;第二感谢的是浙江大学;最后感谢的是文因互联的鲍总。我们同业者能够聚在一起真的非常难得。我今天讲的是我的视角,跟各位专家不太一样。我们作为创业者,内心深处最大的愿望,是能够把我的企业做得更快、更好。所以今天我给大家分享的视角,是如何用技术来提高我们企业自身的、未来的竞争力。因为在过去大概十几年的经验里,我一直是在科技公司里面,但我对技术的理解是,技术绝对不是企业成功的最重要因素,技术可能占企业成功因素的 40%,剩下 60% 就在于如何利用技术找到相应的业务场景,让技术和业务相结合。你要有一个中间把控技术的进度。所以从这个方向给大家分享一下,我们因果树在过去两年多都做了什么事,以及为什么做这些事。

首先智能投顾是一个非常大的市场,可能比我们想象得都要大。我听到不同的数据,有人说是 5 万亿,我用的 2 万亿美金这个数据(到 2020 年),这是一个非常大的市场。这个市场大到什么程度呢?我认为它可以颠覆现有的一些金融上的理论。本身我也是学金融的,大家都知道非常传统的金融理论里面的 DCF(Discounted Cash Flow),Golden Model,但是这些 Golden Model 都是基于现金流的,而我们现在在尝试一些东西,尤其是对创投企业的估值。比如说我们开始用单用户的价值折现,或者其他方式的折现来估算企业的价值。这种计算方法颠覆了原来传统应用现金流,用 net income 计算企业估值的金融理论,所以它是个非常非常大的创新。

我感到非常幸运。

第一个幸运在于生活在这个时代。不知道大家怎么看待,我的判断是整个国家在经历一场创业。我们的经济模式从以前的出口、投资到消费,在转入一个新的模式,新的模式来自于哪儿,就来自于创业、创新、新的科技、新的商业模式,这些模式一旦被市场验证之后,会被现在大量的企业吸收到体内,成为现有企业的一部分,所以这个是第一个感到很幸运的地方。

第二个幸运的地方在于,我们找到了一个比较好的方法。过去两年中,我们一直试图在用数据的方式解决风险投资市场的信息不对称问题,尝试了各种不同的方法。最终我们认为用数据、用知识图谱来解决这个信息的不对称,包括一些知识的重构,知识的推理,这是解决这个市场,现在的信息不对称的一个的方案。

第三个感到很幸运的就是我最底下的这一句话。我不知道大家怎么理解,因为我们在座的几位同仁,都在做的一件事就是打破信息的不对称。而所有的金融机构都是在想尽办法保持信息不对称。这既是我们的一个机会也是一个挑战,所以我认为未来类似我们这样的企业不是太多,而是太少了。因为每一个金融机构,都需要一个像我们这样的企业为他们提供服务,因为金融机构的本质就是要控制信息,保持信息不对称。

这是一幅图,谈到智能投顾的时候,有非常多 confusion 的地方,我们希望借这一幅图给大家分享一下我们的看法。

这里面我省了一个维度,首先大家知道投资分为股权投资和债权投资。咱们国民社会融资总额里面,95% 都是债权类投资。债权类投资不是我们做的方向,因为债权类投资的思维方式和股权投资完全不一样。简单讲,一个是向下看,一个是向上看。债权投资担心的是你会不会往下走,能不能付本息,你往上怎么走都没有关系,而股权投资在意的是你能不能往上走,所以我们是往上看。

第二个维度是做一级市场还是二级市场。一级市场和二级市场的打法完全不一样,二级市场的信息非常公开,有各种研报、公告、新闻、数据,而一级市场的信息非常闭塞,而且内容也不一样,所以在这里面用的方法完全不一样。

第三个维度是做资金端还是做资本端。因为我看到很多的企业,所谓做智能投顾都是在往资金端走,就是找到那些个体的投资人。我认为这种机会是在大平台上,比如像蚂蚁、京东、百度或者其他的地方,比如券商的大平台。他们有现有的流量、用户,适合做资金端的有投入的产品。而左上角的资产端,就是所谓一级市场资产端,是我们因果树给自己的定位。

我们现在做的这件事怎么样?我认为我们现在做的这件事,内心深处还是被人看不起的阶段。经常会问,你的数据准不准?我经常是花一个小时给人介绍完了我们的产品之后,他还问我,数据源在哪里,到底准不准。但这是一个必经的阶段,所以我希望和更多的企业同仁一起参与这样的会议,让外界慢慢地看到这一场颠覆式创新。

几个思考

在谈论具体的知识图谱之前,先谈谈这几个思考,也是基于创业者的思考。因为我的想法,最主要的还是要让企业能活,并且能够活得好。

第一个思考是做一级市场还是二级市场。这里面核心在于如何验证你的模型,如何验证你的数据。二级市场相对好验证一些,因为可以通过实时报价,实时具体的操作来验证,而一级市场是很难做验证的,这是关于一级市场、二级市场的思考。

第二个思考是做工具还是做交易。这个其实我们之前也有很多尝试,做工具面临的问题是产业链很长,从做数据到交易到完成到投后,流水线非常长。另外一个是做交易,对接投融资双方做交易类型的,这是两种不同的打法。

第三个思考就是做产品还是做项目。现在很多的大数据公司,包括在智能投顾领域,很多是以项目的方式提供服务。它没有具体的产品,只能按照别人的需求来开发一个项目,而这种方式是不能够快速复制的。

第四个就是到底是 2B 还是 2C。这是经常被大家问的一个问题。我认为在智能投顾领域, 2C 的只适合大的平台,而做这种资产端的,比较偏重于 2B。

第五个是要做一个专家系统还是真正的机器学习系统。我们认为,在现阶段专家系统还是必不可少的。因为这里面涉及到如何找到数据的使用场景,而现在的使用场景,很多还是依靠传统的专家来判断的,机器还是远远没有达到能够超越人类的地步。这其实也涉及到我们做这件事情的出发点到底是什么,是要超越人类,还是成为人类的伙伴,成为一个工具。

最后一个就是从短期目标到长期目标。说白了你怎么样去变现,怎么样去平衡你自己。做深度的技术上的研究,是有很大的成本的,而你短期要有很多的现金,要有业务的流量,所以你怎么平衡这个。

知识图谱的价值

关于知识图谱价值,这是我个人的理解。不同于百度或者是谷歌的知识图谱,我们的知识图谱,是针对于一个垂直领域的知识体系的构建。所以从这个层面讲,它可以分成两个阶段。

第一个阶段我认为是 BI(Business Intelligence)的阶段。这个没有什么噱头,过去二三十年大家都在做这件事情。尽管如此,我们认为一级市场做的还是非常不完善,所以要想利用知识图谱做好一级市场的智能投顾,你要做的第一件事,是要把自己变成一个真正的大数据公司,如果不是一家大数据公司,你无法成为一个人工智能的公司。第二步是基于现有的 BI 体系,再叠加上各种机器学习的方法、自然语言的处理、实体的挖掘、知识的挖掘,找到一些突破。我认为比较现实的做法,是找到一些单点上的突破,你可能无法在全面的知识图谱上进行突破,先在一两个点上实现突破,就已经能够非常好的颠覆这个市场。所以我认为知识图谱的价值,是从 BI 到 AI 的提升。

知识图谱的实践

因果树过去两年一直在做知识图谱的工作。这些工作我们分成两个阶段,第一阶段就是知识库搭建和找到数据应用场景。其实这两块是非常非常难的地方,我们对这两块的定位,其实就是基于知识图谱的搜索和分析引擎。这里面要找到数据源,对结构化和非结构化的数据源进行整理和分析。当然最重要的还是要用这些数据去解决用户什么样的问题,这也是所有 2B 企业最大的挑战。我们要深入到用户的应用场景里面,在这个应用场景里面,重塑现有 B 端业务的一些场景,成为它的工具。这是第一阶段。

其实第一阶段,要纯粹用 BI 去做也可以。因为它没有涉及到知识的推理,只是用现有的专家体系,用自动化的方式,更快地找到信息、搜索信息、分析信息,对企业进行支持。这一块说白了,不用知识图谱也可以做。但是要让机器超越人,你必须得有一个知识的框架,来让机器去学习。所以这时候我们才开始把那种知识装入到一个框架里头,让机器不断地去学习,不断地去挖掘。这里面其实涉及到,不仅仅是自然语言处理的应用,还有很多机器学习、深度学习上的应用,比如说我们除了看企业自身的一些描述性的文字,还会看具体企业的一些信息,比如你的财务数据怎么样。这是第二阶段。

说到这儿,我跟大家再分享一下因果树过去两年所做的比较有意义的工作,看跟大家有没有进一步的合作的可能。

第一块我们在平台上收集了大概 50 万家创业企业的数据。这些数据分成大概四个类型。第一个类型是企业的基本数据,包括供应商、股东的数据,企业的描述性数据,企业的标签,这是比较基本的数据。第二块数据是我们通过跟运营商合作,把企业,尤其是互联网企业在网上的一些行为,不管是 APP 端的还是移动端的数据进行整理和分析。第三块数据是企业各种知识产权的数据,这个对判断科技型企业是非常有意义的。第四块数据是泛舆情的信息,比如说招聘、搜索热度、工资水平、人员流动,通过你的信息和一些数据,我们来判断企业的好与不好。

在维度上把数据分成了三个维度,第一个维度是对行业的划分,因为行业划分是一个大难题,我们把整个创投领域 TMT 分解成了 800 个细分子行业。第二个维度是对产业链的梳理。如果说行业的分类是横向的,产业链的分类就是纵向的。我们大概定义了几十个产业链的分类,所有的公司都可以按这两个维度进行统计。第三个维度是从公司到产品层面的数据梳理,很多情况下公司会有多个产品,尤其是大中型公司,他们会有很多的产品,他所在的行业和所在的产业链都非常不一样。我们把各种信息,按照这些维度进行统计,再用模型来判断企业好与不好。

最后,我们做知识图谱的目标也非常简单,就想做两件事,第一件事是判断一家企业是不是好的企业,尤其是创新型的企业,现在全国每天有一万五千家创业企业出现,判断这些企业,靠人力是无法完全覆盖的。第二个就是判断企业之间的相关性,到底哪个企业应该被哪家投资机构投,到底哪家企业应该被上市公司进行并购,到底哪家企业可以之间有相互合作的基础。这是我们做整个知识图谱的一个大的脉络。谢谢大家。


​OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

 

发表评论

邮箱地址不会被公开。 必填项已用*标注