文飞翔 | 创投数据库的建设与商业场景探索

本文整理自 IT 桔子 CEO 文飞翔在杭州金融知识图谱论坛上的演讲。

这个主题,我相信在场的很多人已经非常熟悉了。我重点从以下五个方面介绍。刚才因果树的滕放也已经跟大家讲得非常详细,我会在他的基础上进行一些补充,特别是包括一些创业场景在内的案例。

 

首先来看“起始”,一定是市场交易繁荣之后,做数据的公司才会越来越多。我们可以回顾一下,从 2008 年的金融危机以后,有一些领域在中国非常发达,包括股权投资市场、私募市场。根据今年的最新数据,私募市场的资金量可能有 11 万亿元人民币,这可能还只是备案的基金数量。我相信更真实的流动在市场中的资金数量,可能比 11 万亿还要多一些。

其次是财富管理的发达,此前不管是互联网金融公司,还是资管公司,包括国家在给一些公司不断地放宽资金的流动性,可以看到财富管理发展非常快速。在从一级市场到二级市场的过渡,出现了一个 1.5 级的市场,就是新三板。目前公司超过了一万家。关于新三板,我比较认同一个说法,它未来会成为中国最大的 FA 市场,或者是最大的股权交易和流通市场。在一级市场非常发达的情况下,创投数据库,包括像 IT 桔子这样的公司才会出现。

我们在做数据的时候,赶上了三个大趋势。

第一块我们都可以看到,中国的经济进入产业转型之后,新经济产业可能会成为中国最重要的经济组织。第二块是科技的创新,不管是以前的像移动互联网技术,包括云计算、大数据,包括大家讨论非常多的 AI 技术。第三块,新一代的青年人,尤其是对于中国最充满活力、充满想法的人而言,我相信这一批人还是会投入到创业的浪潮中去。

虽然短期会遇到经济周期,或者创投周期的影响,但是有一些趋势是不可阻挡的。在做创投数据的过程中,一定离不开技术。今天来分享的三位嘉宾,其实都是从互联网出发的。在做整个创投数据的过程中,我觉得可能会经历三块,第一块是大数据本身,然后会到知识图谱,后面可能会到我们所说的人工智能。回到数据本身,目前可能还处于获取数据或者数据结构化的阶段。我们都知道在国内,要做数据非常难。一方面数据孤岛的现象在中国非常严重,另外一方面对于数据的真实性、准确性和全面性,还有一些地方达不到。第三个方面,对于数据如何用,也需要一拨一拨公司和一些商业案例去探索。IT 桔子目前主要有的数据和因果树类似,刚才滕放给大家介绍了,我在这里就不展开讲了。

第二方面是知识图谱,和今天的主题关联性很大。有了数据之后,很多人想看的并不是原始数据本身,而是希望基于数据形成一些结果,或者是能够学到一些知识。尤其是在目前产业转型非常快速的时候,我们可以看到,全局的知识库是非常多的人都欠缺的。包括关系图谱,就是公司与公司之间的关系,包括公司、产品、机构、人的多重关系,越来越复杂,大家也希望能够用比较清晰明了的关系图谱来表示。

最后一块是异常值的提醒。创投本身的风险是非常大的,大多数公司会失败。数据要去实现两块价值,一块是发现价值,另外一块是提示风险,不管是价值本身,还是风险本身,都需要对异常值进行处理。到了人工智能的时代,大家都觉得人工智能加金融是一个很大的方向。但是我觉得目前还比较早,不管是在智能投顾方面,还是在量化投资方面,都还有一段距离。一方面是因为数据本身还没有实现持续性,这个时候做智能投顾或者做量化,本质上跟我们用概率去赌博投资是一样的,而且一级市场的数据,相比二级市场来说,最重要的一个特征点是数据的离散性高。少量的公司会成为交易中的重点,而大量的非主流的公司,甚至像僵尸一样的公司,也不能说是完全没有投资价值的。还包括量化投资,其实量化投资现在在二级市场已经比较发达了,尤其是很多做对冲基金和私募基金的团队,很多都是工程师出身去做量化投资。放到一级市场来看,比如说像股权众筹,很多人以前想去做这种基于量化、组合的投资,但是距离智能投顾还更远一点。

讲完科技,再来看一下需求。因为所有的技术都是为了解决问题,或者是为了让需求得到更好的满足,所以我们需要去了解潜在的用户和客户。我把用户和客户,很宽泛地分成了三大类:创业者、投资人、第三方。

首先来看创业者这一端。不得不承认他们不仅是我们创投数据当中,非常重要的数据的贡献者,也是这些数据的生产者和提供商。其实对于创业者而言,目前主要从数据变现的角度来说,他们通过贡献数据,来获得投资的机会,或者是做智能 FA 匹配。从一拨拨的公司探索下来,这种模式已经陷入到了一个短暂的停滞阶段,大家可以去看以太的产品,华兴 Alpha 的产品,逐鹿 X 的产品都是这样。

非常多的众筹平台探索到现在,真的能够从数据的角度去帮创业者解决资金的问题,还有些距离。但这一块的应用上面,也不是 IT 桔子在重点解决的。IT 桔子在帮创业者解决两块问题,一块是情报信息,第二块是客户挖掘和商业 BI。所谓情报信息就是以前舆情监控系统慢慢升级下来的。我相信每一个创业公司的创始人,或者是产品经理,都需要大量的信息。光看新闻没有办法帮助他系统地了解这个行业的变化,尤其是目前行业变化是非常快速的。怎样通过有效的程序了解所在的行业,或者是产业的极速变化是非常重要的。第二块可能对创业公司而言,更重要的价值在于能够从数据当中去挖掘一些客户,或者是做一些商业 BI 的探索。尤其是目前创业中非常大的一个方向,从以前的消费互联网到现在的企业互联网,甚至大家还在想,接下来可能会有产业互联网或者是工业互联网。在这个过程中,所有人都特别想知道自己的客户在哪里,对工业互联网创业者而言,他们想知道自己的用户的前端在哪里。这个时候如果能够积累大量信息,他们可以对数据和自己的 BI 系统进行探索,下面我也会给大家一些例子。

在投资这一块,前面讲到要做投融资服务。去帮创业公司解决融资的问题是很难的。但是从另外一个角度讲,比如说帮助投资人找标的,或者帮助投资人提高投资效率,或者用智能投资机器人帮助投资机构实现初步的筛选,替代一部分分析师的工作是有可能的。这里的投资人指的是广义的投资人。投资人主要分成两大类,一类是把公司作为标的,可能包括天使、VC、PE、投行、券商、上市公司等等;另外一类是把投资机构作为标的,包括母基金、财富管理机构、信托和政府引导基金等。不同类型的投资机构,在看信息,或者在用数据的时候,需求会不太一样。如果说真的让很多投资人去用这些数据,应用到他们的使用场景的话,需要把产品进行不断地细分。桔子在过去的探索过程当中,从客户数量来看,也仅仅只是探索了里面一部分投资人的场景,还有很多投资人的场景,目前的数据量和业务流程,并不足以满足他们的需求。

第三类是第三方。当创业和投资成为这个社会非常重要的一部分时,第三方服务商也会非常多,包括咨询机构、媒体、政府、高校的科研系统,非常多的产业服务提供商、征信服务提供商,甚至包括很多舆情机构。其实他们在服务过程当中,也都需要大量的数据。一开始我们会把第三方想象成自己的客户进行服务,后来发现其实真的要把创业者和投资人服务好,第三方是我们非常好的合作伙伴。我们可能需要和第三方一起去看这些数据,到底在哪一条线,或者是哪一个客户场景上面,如何去进行服务。

最后要实现的是从用户到客户的转化。数据的生意还是 2B 业务为主,获取用户对于我们而言,可能会相对容易一些,但是把用户转化为客户,中间要经历的场景很复杂,需要做非常多的探索。最重要的探索一定在于,客户到底为什么东西买单。这里列的一些场景,是我们此前曾经收过费的。有一些收费模式是可以持续的,有了第一家客户之后,会有第五家、第十家。还有一些商业模式不可持续,就像标准化的产品和标准化的服务,像标准化和定制化之间的取舍,这也是非常多的公司,在自己的成长过程当中,一定要去解决的问题,我们把所有的客户分成了三大类,因为确实这三大类都是有可能来收费的,而且从桔子的探索来看,我们也比较成功地向他们收取了一些费用。

从投资人来看,分成两大类。最重要的是最标准化的应用场景,可能就是做 Deal Source,这是一个非常常见的应用场景,现在在做 Deal Source 之类的公司其实也非常多。对于投资人尤其是对于天使投资人,或者是对于 VC 这个阶段而言,他要处理的信息量非常大,但是他又需要集中做 Deal Source,如果能够把自己的数据产品,封装成 Deal Source 帮助投资机构解决一个项目管理系统的问题是非常重要的。但是要去交付的东西是非常多元化的。在我们刚开始交付的时候,非常简单粗暴,比如按天或者按周提供 Excel 数据,到了后面可以批量提供上市产品。比如他可以去用桔子雷达,再到了后面,可以把这些数据直接给到机构内部,比如用 API 的方式和机构内部的信息化系统结合。这个时候就会发现,大量机构的信息化程度并没有大家想象得那么好。虽然现在有很多工程师转型去做投资经理、分析师、 VP,甚至去做合伙人,但是互联网技术出身的人,其实本身并没有办法很好地带动机构的信息化升级。这个时候就带来了另外一个机会,现在非常多的公司在探索投资机构的内部管理系统。不管是哪一种方式,其实本质上解决的问题,是帮机构去做 Deal Source,但是因为机构发展的阶段不一样,你需要交付给它的数据会不太一样。

与投资决策相关联的一些服务,真正的要深入到投资决策里面去,其实会比较难。这里比较像一些项目制的方式,最简单的项目制的方式一定是 DD(Due Diligence),就是尽职调查,投前、投中、投后其实都有。在做尽职调查的过程当中,会非常的不一样,比如说去年上半年直播很火,很多人都想知道那些直播的数据,到了下半年,可能很多人想去看短视频这一块。到了现在可能很多人去看摩拜、ofo 他们的单车数量,包括他们的应用场景什么样子,中间会出现一系列的和尽职调查相关联的信息。再加上不得不承认在互联网圈,假数据或者是不诚信的数据是非常多的,这会在很大程度上需要投资人去了解数据本身的一些场景。假设要去做投资决策的话,目前尽职调查是一个比较现实的场景,当然在投资决策的过程中,还有一些其他相关联的服务,但是目前很多数据是没有办法有效地切入到投资场景中的。

第二块是创业者,客户数量比大家想象的要好一点。确实要承认,创业者也是非常重要的客户场景。前面也提到,他们一方面是想去做客户挖掘,另外一方面是需要竞争情报。

在做客户挖掘方面,目前的适用场景多在于 2B 的公司。比如说做云计算的公司,做企业各种运营服务的公司,包括很多做餐饮信息化、旅游信息化的公司。当他们不断发展之后,一方面需要知道自己的客户在哪里,以前可能很多客户不上网,现在有了数据之后,我们可以从网上很方便地看到各个方面的信息。另外一方面大家可以先在网上,不管是微信还是其他渠道,去进行简单初步的接触,可能都比去一个会展上交换名片的效率高。所以客户挖掘是一个非常大的生意。在这一块,有一些比 IT 桔子更早的公司其实已经实现了转型,比如说 Everstring在美国做得非常成功,估值也很高。国内目前面对的应用场景主要是在帮金融机构去进行客户的挖掘。桔子在金融机构这块,做的不太多,我们挖掘到的场景,举一个例子比如云计算厂商 AWS 进入中国之后要去扩大云业务,但他们明显在时间窗口上有些晚了,那他可能会觉得出海的公司会是不错的机会,可能想围绕一些特定的场景和特定阶段的公司,进行潜在客户的挖掘。

第二个方面是在竞争情报上面。其实初创型的公司对竞争情报的需求量并没有那么大,但是对于中后期的公司就会比较重要,比如说 B 轮,C 轮,D 轮以后,尤其是在那些竞争比较激烈的行业。一方面为了做业务,另外一方面也希望通过竞争情报的了解做资本端的整合,比如说去收购一些小型的公司,尤其是大数据方面的公司。因为有很多应用场景需要落地,所以有非常多的公司会去做各种垂直行业的应用,这个时候如果能够比较快地了解竞争情报的话,确实能够帮助他的业务更好地发展。

第三方之前我们接触的两大类客户,一类是咨询公司,一类是政府部门。

其实咨询公司是比较好的合作伙伴。咨询公司发展了这么多年以后,目前很多在经历转型或者升级。我们有一家咨询公司的客户是奥迪或者宝马这种汽车类的公司。他们以前可能会通过其他的一些方式,比如和行业协会合作去获取批量的信息。如果有数据公司能够集中地在垂直产业上去提供信息,咨询公司在此基础上进行公司的调研,然后促成一些潜在的合作对接。这就需要数据一方和咨询公司一方都参与得非常深。

政府部门的需求非常多,但是变化也非常多。首先每一个想和政府部门合作的公司,都需要不断地学习和获取经验。第二个方面,政府的付费能力比大家想得要更强。但是在短时间内,他们所要的一些产品或者一些服务,与数据的结合并没有大家所想得那么好。尤其是大数据成为一个很火热的创业概念之后,非常多的大数据公司,最重要的商业模式是来自于政府部门的付费。目前对于桔子而言,在政府客户这一块的探索比较有限。但是有些客户的场景是比较明显的,比如说政府需要对越来越多的众创空间和园区的数据进行持续不断的跟踪。然后还需要知道这些公司在科技方面的信息,比如说商标专利、知识产权等等。此外还需要跟踪这些公司的融资,以及税收的各种情况。尽管他的付费愿意很强,但是整合这些数据其实是非常难的。这就好比把某某政府信息办的任务,分担到企业,由企业去整合各个部门的数据。这个工作的难度不在于技术本身,而在于服务流程和业务流程的复杂性。


讲完商业场景就到了最后一个问题。第一部分我们说市场很发达产生了很多数据,然后我们需要去用很多数据,这个时候就会产生一个问题——怎样把它做成闭环。我认为这个闭环一定就是与我们现在最热门的人工智能,智能投顾、量化投资形成关联。

从数据出发回到投资,而不是投资的周边的话,我一直都觉得这个过程好比是鲤鱼跳龙门,它存在着很大的可行性。这个过程也是非常多的公司在摸索的。在这个过程中,有三件事情是需要大家去探索的,否则这种闭环很难实现,或者说只能在一些局部的场景中实现。

在第一点更好的数据这一块,现在可能就困扰着非常多的人。桔子从去年开始做商业化探索,做了一年之后,第一个感觉就是我们好缺数据。所以今年春节以后,第一件大事情就是重新梳理数据结构。因为需要把以前放过的一些数据重新捡回来,会去想数据应该怎么处理。假如我们没有技术去处理的话,可能还需要和一些数据公司合作。另外一方面,假设没有数据的话,可能会有两个问题。一是你可能需要买数据,比如说运营商有一些非常成熟的数据,正在对外进行销售,但是客单价比现在所有创业公司能想像的高很多。也有一些市场化运作的创业公司,他们的客单价会比运营商的数据更便宜,但是可能数据质量和数据全面性会有问题。以前我们都不会把预算花在采购数据上面,而是用技术去解决了,但是后来发现有些数据技术确实是解决不了,还是需要去采购。

第二个点大家可能需要去做项目开发,包括和一些金融机构甚至科研院所合作,共同开发一些项目。怎样能够通过个体的方式,获取必要的数据,非常重要。对于数据方面而言,其实有非常简单的词语描述,什么样的数据是更好的,比如全面、准确和及时。但是说起来很容易,真的要去实现的话,会比较难。你只能够做到相对性,要把数据细分的话,甚至只可能做到在某一个链条上面,这些数据是相对更好的。这中间有很多差别,但我觉得最大的差别在于服务。习惯了做 2C 生意的互联网公司去做 2B 生意的时候,一定要学习和锻炼服务能力。不是你有了好的产品,就可以去提供好的服务。这种服务能力,本质上跟以前中国非常多的传统行业,去做生意的逻辑可能是一样的。这也是现在我们需要花大量的时间去学习的。你的技术领先,互联网思维领先,但是你本质上面要去做生意的时候,其实很多东西需要花时间去学习,你才能知道到底什么样的服务是好的服务。

最后一点是投资,大家都想把投资做的更加聪明,更加高效。不管是做智能投顾还是做量化,其实一方面是想节约成本,因为金融行业的人力成本是涨得最快的,另一方面是想去提高投资回报,其实提高投资回报的愿望比降低成本还要大,但是真能做到也比较难,尤其是在一级市场。因为哪怕你发现了好标的,也不一定能投的进去,可能创业者不一定想要你的这笔钱,尤其是在当下优质公司更欠缺的环境下,我相信可能公司在这方面的话语权还会更大,但是如果没办法解决这种问题的话,实现交易还是挺难的。

最后一个简单的广告,我就不再具体的介绍了。一方面欢迎大家去试用一下我们的产品——桔子雷达。我们希望把一些数据用标准化的形式去提供服务,不过我相信桔子雷达只是一个表面上的产品,可能更重要的还是在挖掘客户的过程中,能够帮助我们去想到更多的商业场景,然后慢慢地把这些商业场景,至少在产品和数据层面进行标准化。我相信在服务或者在交易层面,可能仍然需要花费很多的心思去做场景的开发。谢谢大家。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

发表评论

电子邮件地址不会被公开。 必填项已用*标注