大模型创业潮:狂飙180天

作者: 朱丽琨

大模型创业潮:狂飙180天0

图/视觉中国

中国的大模型创业者已经集结在十字路口。他们之中既有研究自然语言理解将近40年的科学家,也有已经功成名就的前创业者,还有刚刚博士毕业的年轻人。创业者们在各个层面展开竞争。这个十字路口甚至是物理的——就是清华大学东门外的那个十字路口。这些公司地理位置上也紧挨着彼此,最近的仅仅隔着几层楼板。

搜狐网络大厦在十字路口的一侧。它可能是国内大模型人才密度最高的写字楼。王慧文的光年之外在三层。孵化自清华计算机系的智谱AI租下七层到十一层,九层以上都还空着,保留着搜狗在这里办公时的痕迹,楼道贴着“搜狗大事记”。搜狗创始人王小川在第二层的一个会议室里开了媒体沟通会,宣布开始大模型创业,成立新公司百川智能,但他准备在附近园区选址,“我不跟他们在这里卷”。这些公司忍受着比北京CBD均价还贵的写字楼租金,只为物理上“接近中国最顶尖的AI人才”。

路的另一侧有“清华系”代表团队聆心智能和深言科技。前者由清华大学计算机系副教授黄民烈创办,自2021年底开始自研“超拟人大模型”,后者创始团队几乎全部来自清华NLP实验室,实验室的学术带头人孙茂松教授担任公司的首席科学家。创始人兼CEO(首席执行官)岂凡超想和教授交流时,只用走几百米回学校。

他们的创业契机不相同。智谱AI于2019年成立,是其中最早起步的公司。创业初期,公司基于谷歌2018年推出的BERT大模型做应用。光年之外2023年4月初正式启动。王慧文年初看到大模型的机会,“几天之内就做完决策”,决定再次创业。

他们都被ChatGPT显示出的“才能”震撼。一位大模型创业者让ChatGPT用动态规划方法列出从北京到上海的最短路径,每条路的里程数要被3整除。一位资深科技投资人让ChatGPT翻译日本唱片介绍。ChatGPT可以把“N响”准确地翻译成“NHK交响乐团”,这是相当资深的古典音乐发烧友才知道的“黑话”。一位AI创业公司的科学家请ChatGPT写人类和AI的故事,不断要求加入新角色,比如一只哈士奇,不断涌出的字词还是自然地组织起来。

真格基金设计了300多个问题,包含“香蕉的平方根是多少”,以及要求大模型模拟抽塔罗牌占卜。3月中旬,刚发布几天的GPT4回答准确率超过70%,同期已发布的国产大模型平均准确率20%。5月,国产大模型的平均准确率已经追到50%以上。

被大模型能力震撼的创业者们将其比作“下一代计算机”“火的发明”“人类创造的上帝”;动用各式比喻来解释他们预计的变化量级,“寒武纪”“工业革命”“文艺复兴”“大航海”“苹果微软时刻”“黑莓时代”等等。

质变从2020年面市的GPT-3开始。这款模型参数量和预训练数据量比上一代增大百倍以上,展示出更强的语言理解和预测能力。OpenAI的设想被印证:当数据规模足够大,模型就能学到其中包含的翻译、算数、编程等各种任务的例子,因此变得更通用。ChatGPT沿着这条路更进一步。IDEA研究院认知计算与自然语言讲席科学家张家兴在一次活动上,引用《三体》里著名的那句“物理学不存在了”,在现场感叹,“传统的NLP(自然语言处理)技术不存在了”。

“大模型重点在数据、模型、可以规模化实施的算法,传统NLP研究重点在模型上做很多精巧的设计,但很多在大数据大模型上就不再有效了。”黄民烈解释。

原本就在AI领域的创业者也活跃起来。商汤、第四范式、科大讯飞等公司相继推出大模型。AI创业公司出门问问CEO李志飞感叹,“大模型的供给比想象中多多了。”他最初认为大模型的资金和技术门槛高,能做的国内公司最多两三家。一个半月之后,他预感大模型的市场竞争可能比上一波AI热潮更激烈。

怎么理解OpenAI的成功,部分意味着这些创业者将怎么对待他们的竞赛。李志飞认为OpenAI的成功是“把研究范式切换为产品驱动”。澜舟科技创始人、前微软亚研院副院长周明认为,这家公司把数据清洗、训练速度等各方面做到极致,并且集成所有能力,包括优秀的算法、工程甚至PR。而王慧文认为OpenAI的成功是“正确的使命、愿景、价值观,正确的组织方法的成功”。

创业者们对大模型的终极目标AGI(通用人工智能)的看法,从定义到理解都有很大差异。

王小川只跟ChatGPT简单聊了几轮,就确信“AGI已经来了”。他认为ChatGPT印证了他六七年前的判断:当机器掌握了语言,强人工智能就到来了。在一个小范围分享会上,几位AI领域创业者仅从功能上定义ChatGPT的进步。

“大家把这件事想小了。”王小川说。他会后接到一个在场者的电话,对方问,“小川,你是不是又在装?”几天后,那人又打来电话:“这次你又说对了。”

王慧文认为,“对AGI的认知,随着对事实的掌握和结果的展开,可能会翻转很多次的。”

共同点在于,他们都确信大模型技术变革比他们经历过的任何一次变化都大,而他们站在这场可能长达几十年的变革浪潮的起点。

“这次AI的浪潮应该是一个持续几十年,由多个小浪潮波次构成的大浪潮。它不会一个波次就完成,会在不同的波次里出现不同的创新。”王慧文说。

他认同美国投资人埃拉德·吉尔(Elad Gil)的观点:在部分科技浪潮中,所有的价值都可以由初创企业捕获,而在另外的浪潮中,大部分价值会归成熟企业所有,或者会在初创企业和成熟企业之间分配。王慧文认为,AGI浪潮属于后者,因为大模型技术跟过去的技术差异化足够大,导致了市场的不可预测性,创业公司因此有了发展空间。

直到ChatGPT教育了国内市场

2022年10月,多个美国投资人跟李志飞提到一款叫Jasper的AIGC应用很赚钱。当时Jasper仅仅成立18个月,估值15亿美元。Jasper基于GPT-3模型,针对市场营销场景做了精调,靠生成营销文案打开市场,2022年ARR(衡量SaaS或订阅业务的收入指标)约8000万美元。

“看到它的那一刻,我真觉得自己是傻子。”李志飞说。

一位美国红杉的投资人跟李志飞说:“你的时代来了。”对方还提到美国红杉的管理合伙人只讨论AIGC项目,别的都不看。当时,投资界的关注点更多在应用而非底层的大模型。

Jasper解决了李志飞两年前就开始思考的问题:GPT-3到底适合应用在什么场景?李志飞想过文案场景,但只“答对”一半。“过去我们做的是纠错、润色、改写,没想到完全生成一篇内容”。他2020年做过一款基于自研大模型UCLAI的辅助写作应用,因为没想到好的商业前景,最终没有上市推广。

AI创业公司第四范式也有类似的尝试。第四范式副总裁兼主任科学家涂威威带领百人团队,负责研究全球最前沿AI技术并提前投入。2018年谷歌推出BERT大模型,各方面性能显著提升,涂威威和同行当时都以为,“那就是NLP的拐点”。他接到越来越多辅助写作的需求。其中一些客户很坦白地说,希望AI帮忙生成“八股文”式的汇报材料,“AI都能下棋,这还写不了”?

涂威威团队尝试基于BERT和GPT系列模型做辅助写作应用,但只能实现续写两三句,准确性还不高,最终没有对外发布。

创业公司算力资源有限,注定向投入产出比更高的主营业务倾斜。这些先行者的大模型实验当时也很难得到外部支持。2020年6月,GPT-3推出,Google科学家出身的李志飞看到了大模型更通用的能力。他和工程师结成研究组,“像上瘾一样”读论文。

几个月后,在一个科技企业家的登山活动上,李志飞花一小时跟同行的人解释大模型是什么。他讲得兴奋,别人“只是当故事听”,并且不断质疑:“So what?怎么商业化?”其中一位企业家委婉地说:“志飞,你就适合当科学家,不适合创业。”李志飞意识到,“不可能有人投资你做这个”。他们研发的中文大模型最终停在60亿参数量,没有足够的资本支持它走到能力“涌现”那一刻——如今从业者普遍认为400亿-500亿参数量级是模型能力“涌现”的门槛。

创投界此时还没意识到GPT-3背后的商业空间。真格基金管理合伙人戴雨森在2021年就接触过两家大模型创业团队,他们也想做类似Grammarly的AI辅助写作或小说续写。戴雨森当时并不看好,认为应用场景比较局限。

企业客户更现实。周明在2020年底开始创业,拜访上百家客户,得到的反馈往往是:“你做大模型,我们也用不起。”周明公司的客户大多是央国企,为了数据私有化,得把大模型部署到本地,至少得投入上千万元的训练成本。即使不做训练,只做本地部署推理,成本也在一两百万元。客户认为不合算。

直到2023年1月,ChatGPT教育了国内市场。李志飞此时已重启自研大模型三个多月,他发现有“看起来跟大模型毫不相干”的人,也来问他得花多少钱、招什么人能做。涂威威接触到各行各业咨询大模型合作的客户,甚至包括“农林牧副渔”行业。

2月10日,一条“人工智能宣言”流传开。“5000万美元,带资入组,不在意岗位、薪资和title,求组队。”三天后,宣言变成传播度更高的AI“英雄榜”。王慧文公告了他的决心:打造中国OpenAI。

他的下场加剧了这一轮AI装备竞赛的激烈程度。一位大模型创业公司的员工说,“老王这么投入”让他意识到,这个赛道的火热程度远超想象。算力资源明显紧张起来,一位创业者抱怨,“求爹告娘才搞到一些机器”。

“边登月边修螺丝”

2月7日开始,王慧文给他认为适合大模型创业的人一个个地打电话。他总在问“你怎么看……”再问“你要不要干”?

听到的回答经常是否定的,“太烧钱了”

“这是巨头的事”……一周后,他决定自己下场。“大家往往低估了看到大变化立刻冲进去的重要性。”王慧文说。

美团到家事业群总裁王莆中评价王慧文“人才识别能力超强”。因此,被王慧文联系过的大模型人才也受到其他竞争者的关注。深言科技CEO岂凡超就是其中一位。他在清华NLP实验室读博期间,参与研发智源研究院“悟道”大模型,在国际顶级刊物发表30多篇论文,和同学研发产品“Want Words反向词典”,吸引超过500万用户。在一位深言科技员工眼中,岂凡超是难得的兼备技术和产品能力的人才,他的创新意识驱动他做科研、做产品,“他不愿意做跟别人一样的事”。

GPT4发布后的一个月,创投圈氛围逐渐升至沸点。各公司开发布会,展示大模型如何在办公、营销等场景落地,如何跟医疗、智慧交通等行业结合。投资机构开闭门会,要求被投公司跟紧变化,避免被颠覆。一年前被派去新加坡看web3项目的投资人回来“猛学AI”,不少投资经理开始攻读技术论文。奇绩创坛创始人兼CEO陆奇让团队的人做“大模型日报”来同步最新信息,感慨新出的论文多到他“实在是跟不上”。

王小川提问ChatGPT:我想做好这次创业,招更多合伙人和优秀的领军人物,应该做些什么?得到的建议之一是:你应该先把你的想法告诉外界。他听取了ChatGPT的建议,召开媒体沟通会,第一次宣告成立百川智能,计划年底发布对标GPT-3.5的大模型。

钱迅速涌入。王小川刚和朋友透露创业想法,就被问“能不能加个亲友股”。百川智能启动资金5000万美元均来自他个人及好友的支持。王兴以个人身份投资王慧文的光年之外,宿华则投资了多家生成式AI相关公司。

目前,国内估值最高的两家创业公司是光年之外和MiniMax。

真格基金是最早认投光年之外的投资机构之一。戴雨森认为,大模型技术产品化这个过程很难由科学家完成,需要一个有商业思维的人。同时,大模型资金门槛高,需要创业者有“融几亿美金并且有效地花出去”的经验。

上一篇 点击页面呼出菜单 下一篇