大模型创业潮：狂飙180天

大模型创业潮：狂飙180天0

图/视觉中国

中国的大模型创业者已经集结在十字路口。他们之中既有研究自然语言理解将近40年的科学家，也有已经功成名就的前创业者，还有刚刚博士毕业的年轻人。创业者们在各个层面展开竞争。这个十字路口甚至是物理的——就是清华大学东门外的那个十字路口。这些公司地理位置上也紧挨着彼此，最近的仅仅隔着几层楼板。

搜狐网络大厦在十字路口的一侧。它可能是国内大模型人才密度最高的写字楼。王慧文的光年之外在三层。孵化自清华计算机系的智谱AI租下七层到十一层，九层以上都还空着，保留着搜狗在这里办公时的痕迹，楼道贴着“搜狗大事记”。搜狗创始人王小川在第二层的一个会议室里开了媒体沟通会，宣布开始大模型创业，成立新公司百川智能，但他准备在附近园区选址，“我不跟他们在这里卷”。这些公司忍受着比北京CBD均价还贵的写字楼租金，只为物理上“接近中国最顶尖的AI人才”。

路的另一侧有“清华系”代表团队聆心智能和深言科技。前者由清华大学计算机系副教授黄民烈创办，自2021年底开始自研“超拟人大模型”，后者创始团队几乎全部来自清华NLP实验室，实验室的学术带头人孙茂松教授担任公司的首席科学家。创始人兼CEO（首席执行官）岂凡超想和教授交流时，只用走几百米回学校。

他们的创业契机不相同。智谱AI于2019年成立，是其中最早起步的公司。创业初期，公司基于谷歌2018年推出的BERT大模型做应用。光年之外2023年4月初正式启动。王慧文年初看到大模型的机会，“几天之内就做完决策”，决定再次创业。

他们都被ChatGPT显示出的“才能”震撼。一位大模型创业者让ChatGPT用动态规划方法列出从北京到上海的最短路径，每条路的里程数要被3整除。一位资深科技投资人让ChatGPT翻译日本唱片介绍。ChatGPT可以把“N响”准确地翻译成“NHK交响乐团”，这是相当资深的古典音乐发烧友才知道的“黑话”。一位AI创业公司的科学家请ChatGPT写人类和AI的故事，不断要求加入新角色，比如一只哈士奇，不断涌出的字词还是自然地组织起来。

真格基金设计了300多个问题，包含“香蕉的平方根是多少”，以及要求大模型模拟抽塔罗牌占卜。3月中旬，刚发布几天的GPT4回答准确率超过70%，同期已发布的国产大模型平均准确率20%。5月，国产大模型的平均准确率已经追到50%以上。

被大模型能力震撼的创业者们将其比作“下一代计算机”“火的发明”“人类创造的上帝”；动用各式比喻来解释他们预计的变化量级，“寒武纪”“工业革命”“文艺复兴”“大航海”“苹果微软时刻”“黑莓时代”等等。

质变从2020年面市的GPT-3开始。这款模型参数量和预训练数据量比上一代增大百倍以上，展示出更强的语言理解和预测能力。OpenAI的设想被印证：当数据规模足够大，模型就能学到其中包含的翻译、算数、编程等各种任务的例子，因此变得更通用。ChatGPT沿着这条路更进一步。IDEA研究院认知计算与自然语言讲席科学家张家兴在一次活动上，引用《三体》里著名的那句“物理学不存在了”，在现场感叹，“传统的NLP（自然语言处理）技术不存在了”。

“大模型重点在数据、模型、可以规模化实施的算法，传统NLP研究重点在模型上做很多精巧的设计，但很多在大数据大模型上就不再有效了。”黄民烈解释。

原本就在AI领域的创业者也活跃起来。商汤、第四范式、科大讯飞等公司相继推出大模型。AI创业公司出门问问CEO李志飞感叹，“大模型的供给比想象中多多了。”他最初认为大模型的资金和技术门槛高，能做的国内公司最多两三家。一个半月之后，他预感大模型的市场竞争可能比上一波AI热潮更激烈。

怎么理解OpenAI的成功，部分意味着这些创业者将怎么对待他们的竞赛。李志飞认为OpenAI的成功是“把研究范式切换为产品驱动”。澜舟科技创始人、前微软亚研院副院长周明认为，这家公司把数据清洗、训练速度等各方面做到极致，并且集成所有能力，包括优秀的算法、工程甚至PR。而王慧文认为OpenAI的成功是“正确的使命、愿景、价值观，正确的组织方法的成功”。

创业者们对大模型的终极目标AGI（通用人工智能）的看法，从定义到理解都有很大差异。

王小川只跟ChatGPT简单聊了几轮，就确信“AGI已经来了”。他认为ChatGPT印证了他六七年前的判断：当机器掌握了语言，强人工智能就到来了。在一个小范围分享会上，几位AI领域创业者仅从功能上定义ChatGPT的进步。

“大家把这件事想小了。”王小川说。他会后接到一个在场者的电话，对方问，“小川，你是不是又在装？”几天后，那人又打来电话：“这次你又说对了。”

王慧文认为，“对AGI的认知，随着对事实的掌握和结果的展开，可能会翻转很多次的。”

共同点在于，他们都确信大模型技术变革比他们经历过的任何一次变化都大，而他们站在这场可能长达几十年的变革浪潮的起点。

“这次AI的浪潮应该是一个持续几十年，由多个小浪潮波次构成的大浪潮。它不会一个波次就完成，会在不同的波次里出现不同的创新。”王慧文说。

他认同美国投资人埃拉德·吉尔（Elad Gil）的观点：在部分科技浪潮中，所有的价值都可以由初创企业捕获，而在另外的浪潮中，大部分价值会归成熟企业所有，或者会在初创企业和成熟企业之间分配。王慧文认为，AGI浪潮属于后者，因为大模型技术跟过去的技术差异化足够大，导致了市场的不可预测性，创业公司因此有了发展空间。

直到ChatGPT教育了国内市场

2022年10月，多个美国投资人跟李志飞提到一款叫Jasper的AIGC应用很赚钱。当时Jasper仅仅成立18个月，估值15亿美元。Jasper基于GPT-3模型，针对市场营销场景做了精调，靠生成营销文案打开市场，2022年ARR（衡量SaaS或订阅业务的收入指标）约8000万美元。

“看到它的那一刻，我真觉得自己是傻子。”李志飞说。

一位美国红杉的投资人跟李志飞说：“你的时代来了。”对方还提到美国红杉的管理合伙人只讨论AIGC项目，别的都不看。当时，投资界的关注点更多在应用而非底层的大模型。

Jasper解决了李志飞两年前就开始思考的问题：GPT-3到底适合应用在什么场景？李志飞想过文案场景，但只“答对”一半。“过去我们做的是纠错、润色、改写，没想到完全生成一篇内容”。他2020年做过一款基于自研大模型UCLAI的辅助写作应用，因为没想到好的商业前景，最终没有上市推广。

AI创业公司第四范式也有类似的尝试。第四范式副总裁兼主任科学家涂威威带领百人团队，负责研究全球最前沿AI技术并提前投入。2018年谷歌推出BERT大模型，各方面性能显著提升，涂威威和同行当时都以为，“那就是NLP的拐点”。他接到越来越多辅助写作的需求。其中一些客户很坦白地说，希望AI帮忙生成“八股文”式的汇报材料，“AI都能下棋，这还写不了”？

涂威威团队尝试基于BERT和GPT系列模型做辅助写作应用，但只能实现续写两三句，准确性还不高，最终没有对外发布。

创业公司算力资源有限，注定向投入产出比更高的主营业务倾斜。这些先行者的大模型实验当时也很难得到外部支持。2020年6月，GPT-3推出，Google科学家出身的李志飞看到了大模型更通用的能力。他和工程师结成研究组，“像上瘾一样”读论文。

几个月后，在一个科技企业家的登山活动上，李志飞花一小时跟同行的人解释大模型是什么。他讲得兴奋，别人“只是当故事听”，并且不断质疑：“So what？怎么商业化？”其中一位企业家委婉地说：“志飞，你就适合当科学家，不适合创业。”李志飞意识到，“不可能有人投资你做这个”。他们研发的中文大模型最终停在60亿参数量，没有足够的资本支持它走到能力“涌现”那一刻——如今从业者普遍认为400亿-500亿参数量级是模型能力“涌现”的门槛。

创投界此时还没意识到GPT-3背后的商业空间。真格基金管理合伙人戴雨森在2021年就接触过两家大模型创业团队，他们也想做类似Grammarly的AI辅助写作或小说续写。戴雨森当时并不看好，认为应用场景比较局限。

企业客户更现实。周明在2020年底开始创业，拜访上百家客户，得到的反馈往往是：“你做大模型，我们也用不起。”周明公司的客户大多是央国企，为了数据私有化，得把大模型部署到本地，至少得投入上千万元的训练成本。即使不做训练，只做本地部署推理，成本也在一两百万元。客户认为不合算。

直到2023年1月，ChatGPT教育了国内市场。李志飞此时已重启自研大模型三个多月，他发现有“看起来跟大模型毫不相干”的人，也来问他得花多少钱、招什么人能做。涂威威接触到各行各业咨询大模型合作的客户，甚至包括“农林牧副渔”行业。

2月10日，一条“人工智能宣言”流传开。“5000万美元，带资入组，不在意岗位、薪资和title，求组队。”三天后，宣言变成传播度更高的AI“英雄榜”。王慧文公告了他的决心：打造中国OpenAI。

他的下场加剧了这一轮AI装备竞赛的激烈程度。一位大模型创业公司的员工说，“老王这么投入”让他意识到，这个赛道的火热程度远超想象。算力资源明显紧张起来，一位创业者抱怨，“求爹告娘才搞到一些机器”。

“边登月边修螺丝”

2月7日开始，王慧文给他认为适合大模型创业的人一个个地打电话。他总在问“你怎么看……”再问“你要不要干”？

听到的回答经常是否定的，“太烧钱了”

“这是巨头的事”……一周后，他决定自己下场。“大家往往低估了看到大变化立刻冲进去的重要性。”王慧文说。

美团到家事业群总裁王莆中评价王慧文“人才识别能力超强”。因此，被王慧文联系过的大模型人才也受到其他竞争者的关注。深言科技CEO岂凡超就是其中一位。他在清华NLP实验室读博期间，参与研发智源研究院“悟道”大模型，在国际顶级刊物发表30多篇论文，和同学研发产品“Want Words反向词典”，吸引超过500万用户。在一位深言科技员工眼中，岂凡超是难得的兼备技术和产品能力的人才，他的创新意识驱动他做科研、做产品，“他不愿意做跟别人一样的事”。

GPT4发布后的一个月，创投圈氛围逐渐升至沸点。各公司开发布会，展示大模型如何在办公、营销等场景落地，如何跟医疗、智慧交通等行业结合。投资机构开闭门会，要求被投公司跟紧变化，避免被颠覆。一年前被派去新加坡看web3项目的投资人回来“猛学AI”，不少投资经理开始攻读技术论文。奇绩创坛创始人兼CEO陆奇让团队的人做“大模型日报”来同步最新信息，感慨新出的论文多到他“实在是跟不上”。

王小川提问ChatGPT：我想做好这次创业，招更多合伙人和优秀的领军人物，应该做些什么？得到的建议之一是：你应该先把你的想法告诉外界。他听取了ChatGPT的建议，召开媒体沟通会，第一次宣告成立百川智能，计划年底发布对标GPT-3.5的大模型。

钱迅速涌入。王小川刚和朋友透露创业想法，就被问“能不能加个亲友股”。百川智能启动资金5000万美元均来自他个人及好友的支持。王兴以个人身份投资王慧文的光年之外，宿华则投资了多家生成式AI相关公司。

目前，国内估值最高的两家创业公司是光年之外和MiniMax。

真格基金是最早认投光年之外的投资机构之一。戴雨森认为，大模型技术产品化这个过程很难由科学家完成，需要一个有商业思维的人。同时，大模型资金门槛高，需要创业者有“融几亿美金并且有效地花出去”的经验。