从制度看中国在人工智能发展中的现状
作者: 许成钢
第四次产业革命正在快速兴起。人工智能是这次产业革命的核心内容之一。构成产业革命的创新都是革命性创新。这类的创新具有特别高的不确定性。人工智能前沿工作的发展,包括基础研究、应用研究、初创企业,都属于这类性质。
这类创新的未来酝酿在大量的研究成果和初创企业成果里。最后通过市场优胜劣汰的过程,产生出来技术上和市场上最好的结果。在此之前,即便是在相关领域里成功的专家和企业家,也很难预测未来的结果。因此,了解未来,最重要的在于了解学术界在研究什么、初创企业在做什么,以及数量。
为了了解中国人工智能的现状和展望未来,我们构建的人工智能指数,集中在三个方面,对比中国和国际前沿国家。这三个方面是,人工智能的初创企业、学术成果、开源软件的应用。从初创企业这个维度,可以勾勒出人工智能作为一个产业的现状和最近的未来。通过初创企业不同发展阶段的国际对比,我们可以看到中美人工智能企业之间的差异。以融资机制为例,融资机制本身就是初创企业的发展机制。融资机制其实是优胜劣汰机制的核心。中国过去是计划经济,现在仍然还保留着相当一部分计划经济的制度。所以,中国和美国在制度上的差别是,中国有两大类不同的机制,一大类是优胜劣汰的市场机制,另一大类是命令式的机制,即自上而下的命令或者计划。
因为我们的主要目的是从产业革命的角度来看人工智能,因此在学术领域,我们关心的是产业长远的未来发展。今天的学术工作就是明天的人工智能产业。在这个维度,我们观察的是学术论文的定量和定性的指标。
第三个维度是开源软件的开发和应用,这是学术与产业高度连接的部分。从应用研究的角度讲,这是一个非常重要的指标。
人工智能与制度
绝大部分的人工智能方面的开创性研究,都是从学术上开始的。学术研究和应用研究是产生革命性创新的必要条件,没有它们就没有后来的一切。所以学术研究的成果是最重要的。但仅仅是学术研究的成果仍然并不充分。比如专利。看上去非常优秀的项目是不是最后能够在商业化的过程中成功?在商业上没有实现之前,没有人能回答这个问题。所有在学术上和专利上非常优秀的内容,在商业实现之前仍然都面临着巨大的挑战和非常高的不确定性。因此,人工智能这个行业是不是能成功,整个行业在一个国家在一个地区是不是能够成功,除了取决于当地的学术和应用的研究成就之外,还一定取决于当地的制度。与创新技术发展相关的最重要的具体制度,就是所谓的硬预算约束的制度。
面对高度的不确定性,在没有人知道某一个项目是不是能成功的情况下,必须有大量的创新想法在最早期的时候就能获得投资。需要强调的是,是不是能获得投资和是不是获得大规模投资是两回事。这是第一点,即是不是有大量的新想法能获得投资。第二点,获得投资的这些项目,当被发现没有前途的时候,是不是能够及时地被中断。硬预算约束指的就是是否能被及时地中断。因为硬预算约束决定了不在失败的项目上浪费资源,使得更多创新项目可以得到试一试的机会。
在中国,特别需要认识到,跟计划经济相关的软预算约束,缺少停止不成功项目的能力。因此在软预算约束下,被迫依赖在没有投资之前的、事先的审查项目,用这个方法来减少投资创新项目。这是计划经济的一个重要特点。但是,一旦事先减少了投资的项目,就减少了最终成功的机会。
当说到融资制度,风险投资是行之有效的非常重要的基本制度,它的核心是阶段性的硬预算约束。阶段性的投资,最重要的就在于它能够及时地中断这些不成功的项目;或者换句话说,它是硬预算约束,用这个方式来降低失败的风险。风险资本制度高度依赖股市和独立的司法制度。
中国人工智能初创企业规模及国际对比
在人工智能的初创企业方面,中国的投资不仅数量巨大,而且从增长速度来看,在过去几年里,初创企业的增长速度是世界上最快的。特别是从2014年以后,投资急剧加速。从总投资额来看,位居于全世界第一的是美国,第二就是中国。创新具有高度不确定性,其中非常重要的一个机制是投资的数额要大,这个数额指的不仅仅是投资的总量,而是指项目的总量。
第一个特点,从项目看,无论是初创企业的总数还是交易总数(所谓交易总数指的是有的企业可能有不止一个项目,它有不同的阶段,因此交易总数和企业总数不是一回事,交易数字会更大)。从这两个方面来看,中国的总投资额排名世界第二,但是企业总数或者交易总数,那么中国不是世界第二,而是世界第三,和居于世界第二的英国距离不是很大。更详细的信息我们在后面来介绍。
第二个特点,中国人工智能初创企业的融资高度依赖对外开放的。我们的发现是中国总投资额全世界第二,那么这些投资从哪里来的?从统计数字来看,将近40%的交易是来自国内的,而其他的超过46%是完全来自国外的,还有超过14%是国内外联合的。这组数据可以很清楚地看到,超过一半以上人工智能初创企业的融资是来自国外,这是非常重要的一个特点。不仅仅中国的研究跟改革开放高度相关,跟国际间的融合高度相关,即便在融资方面也跟国际的融合与开放是高度相关的。
中国人工智能初创企业的投资主体是风险资本,而不是中国传统的金融机构。前面我们讲硬预算约束,硬预算约束主要来自于风险资本。在中国,74%的交易来自风险资本,将近16%的交易是来自私募,私募股权的性质跟风险资本是高度相近的,所以我们把这两者合并在一起。也就是说,将近90%的人工智能初创企业的投资来自于风险投资。这是极端重要的一个信息。
前面讲到2014年以后,中国加速了人工智能初创企业的投资,而且投入早期项目的资金总量非常之巨,但是有个重要的特点是值得关注的。虽然投入的资金量非常的大,但是投入的初创企业的总数字以及总的交易数字,没有相应的那么大,导致了一个初创企业的早期,平均获得的投资额非常高。不同的人对此可以有不同的解释,我们的解释留待最后的分析之中。
初创企业融资情况的统计数字,来源于VC Experts和Crunchbase这两个数据库。这两个是世界上最大的风险投资融资的数据库。两个合并在一起,基本上概括了全世界的所有的风险投资的融资情况。中国跟世界的对比数据,全部从这里获得。
我们首先关心是跟IT相关的领域,然后在数据库里搜索公司简介,使用了近20个与人工智能各个方面相关的关键词。如果这个企业涉及到这些方面,我们就把它定义为人工智能的初创企业。用这个方式,我们找到全世界所有初创企业的情况。美国的总数是4600多个,占全世界的比率超过45%;英国有846个,占全世界的8.2%,中国有730个排第三位,占全世界的7.11%。从初创企业的总数来看,中国在全世界是相当的领先,但是和美英相比,还有显然的差距。
融资方面,美国的融资额是1273亿美元,占全世界的59%。中国是487亿美元,占全世界近23%。从企业总数来对比,中国的比例远没有这么大,但是从投资总额上看,中国的投资总额已经快要接近美国的一半了,排到全世界第二。排到全世界第三位的是英国,跟中国相差很远。
平均每个初创企业获得的投资是多少?美国跟世界上其他的发达国家比,没有显著高很多,只是稍微高一点点。而中国自从2013年之后开始起步,2014年拉开距离,平均每个企业获得风险投资的数字远远高过世界上其他国家。这其中有两个可能性,一个可能性就是我们前面讲到的软预算约束机制。在面对高度风险、高度不确定性的项目的时候,尤其是在早期,投资的数字一定是非常小的,因为越小就越便宜。等到有相当的把握以后,扩大你的投资,这样才能保证你以最小的代价获得更大的成果。如果在早期投了很多钱进去,有相当的一部分可能是浪费,这个是从机制上的一个解释,另一方面也有一种可能的解释,早期阶段的初创人工智能企业,它的不确定性没有那么高。这一点我们的数据没有办法告诉我们,行业里面的同事们,可能会比我们更清楚。
在面对高度不确定性的时候,关键问题在于在最早期的时候是不是有足够多的探索性的项目。在探索性项目的数字这个方面(种子期的交易量),美国远远高于世界上所有其他国家。排名第二的是英国,排名第三的是中国和加拿大。在这个方面,中国只有英国的一半多一点,只有美国的大约七分之一。由于探索面对很高的失败的风险,有效配置资源的方法是,在启动探索的阶段,每一个项目投尽量少的钱。但是在这方面,中国的情况与发达国家非常不同。与发达国家相比,中国初创企业在种子期,对每个项目的投资量都很大。
到创业的晚期,从风险投资的角度,人们对项目的成功已经有相当的把握。从我们的数据来看,晚期的投资交易总额,也就是有多少项目获得了融资,美国排第一,中国排第二,英国排第三。从趋势上可以看到,从2016年之后,中国和其他国家之间拉开很大距离。就是说从2016年之后,晚期的投资额明显比其他发达国家要多,但是与美国相比还是有显然的差距,这个差距似乎有一点缩小的趋势但也不是很确定。但是比起其他发达国家来,中国显然是领先的。排第三的是英国。英国和其他发达国家之间的距离并不大,但是中国和美国之外的所有发达国家之间的距离拉开很大。
从晚期的平均投资额来看,平均每一个项目的投资,中国远远高于世界上的其他国家,美国排第二,英国排第三。中国比排第二的美国高很多,而美国和其他发达国家之间没有显然的距离,发达国家在平均的时候基本都差不多。这是一个很重要的信息,说明对发达国家来说有一些规律性的内容,这些规律性的内容决定了它们认为什么时候合算,基本上大家的做法都差不多。但是中国在讨论到平均的时候,明显的非常高。
怎么解释这个现象呢?有两种可能的解释,一种可能的解释就是前面讲的软预算约束和硬预算约束。中国可能仍然存在着一定程度的软预算约束问题,因此导致它的平均投资额更高。另一种解释是,可能中国的市场规模超级的大,包括在人工智能相关的应用领域里。因此,即便在每个项目都投入很多,成本很高,总体上仍然能盈利。有可能这两个解释同时都成立,都是一部分的原因。

学术及开源软件的国际对比
从学术论文的发表量和论文被引用的指数来看,在最近几年里,中国整体上在世界上排名第二。在大体上,和美国的差距在缩小,但仍然有一些重要的方面,差距还是相当明显。
首先来看一下在期刊和会议论文的发表情况。在期刊和会议发表论文的总数方面,中国在世界上排名第二,其中包括最近20年里积累的总数,以及最近几年的年度的发表数字。很重要的一点是,自从2017年之后,中国年度发表的总数和美国的差距是在逐年缩小之中。如果我们把期刊跟会议分开、单独看期刊的话,中国在期刊发表的总数是世界第一。在期刊的被引用总数也是世界第一。所以,如果我们单纯看期刊的话,中国现在已经超过了美国,位居世界第一。这也是为什么有相当一些报告会认为中国在人工智能方面超过了美国成为世界第一,其实指的是在期刊发表的论文方面。但是,如果我们把这个引用分成类别,分成高引用的论文和普通引用的论文和低引用的论文,我们就会发现,如果我们看被引用1000次以上的,那么中国在期刊方面仍然是排得很高。
在会议论文方面,中国的排名就不太一样。如果看加总,中国在会议上发表的论文总数大体上是世界第二,被引用的总数也大体上是世界第二。如果我们看会议论文的引用次数,被引用千次以上的甚至百次以上的,中国都在世界上排名第二,但和世界第一的美国之间的差距没有清楚地缩小的趋势。