一个“90后”创业团队的技术信仰与实践

作者:李晓洁
一个“90后”创业团队的技术信仰与实践03月中旬的一天傍晚,接近7点,北京市海淀区东升大厦6楼,星海图人工智能科技有限公司(简称“星海图”)里的灯还全亮着。公司最左侧搭建了一个厨房场景,两个灰黑色的人形机器人静静站在饮水机和橱柜前。右侧办公区,三四个员工坐在电脑前打字,还有几个人站在一块白板后的窗边闲聊。他们看起来都很年轻,让人分不清是刚毕业工作,还是在校实习生。

“看起来大家都下班了,只有几个人在加班。”带着这样的想法,我走进会议室见到了我的第一位采访对象,星海图联合创始人许华哲。两个小时后,临近晚上9点,我从会议室出来,灯依然全亮着,但几乎每台电脑前都坐着人,盯着满是代码的屏幕,空气似乎都变稠了一些。左侧一个数据采集室里,年轻的员工把手放在类似游戏手柄的装置上,遥控操纵着前方一米外的机器人手臂,带着夹爪的机械臂跟着他的动作向前伸出一道弧线,然后落下,瞄准目标方块后抓取、放到另一个指定位置,如此不断重复——原来机器人和人类都在加班,傍晚只是中场休息。

这种加班场景,在创业公司十分常见。联合创始人许华哲也经常在办公室待到晚上11点多。许华哲今年32岁,微胖,嘴角总带着笑意。他正被北京春天的圆柏花粉过敏折磨,大部分时间戴着口罩。他告诉我,公司员工、包括四位创始人在内,基本都是“90后”,这是一家以年轻人为主的创业公司。但早在10年前,几位创始人就有了机器人、人工智能相关的海外学习、工作经验。

以CEO高继扬为例,他2015年在清华大学电子工程系本科毕业后,用了三年半时间,获得美国南加州大学计算机视觉博士学位,之后在Waymo和国内Momenta两家行业领先的自动驾驶公司工作。另外两位联合创始人赵行、李天威分别是高继扬在两家智驾公司时的同事。其中赵行离职Waymo后,进入清华大学交叉信息研究院担任助理教授,之后与加州大学伯克利分校博士毕业、回清华任教的许华哲成为同事。四人因为工作,在不同阶段结识,有相似的创业目标,又有各自擅长的技术方向,因此在2023年初,高继扬提出创业后,几人陆续加入,当年9月注册了星海图。

如今,这家成立一年半的公司,发布了自研的三款机械臂,两款仿人形机器人R1、R1pro,融资总额接近8亿元,成为当下这波具身智能(Embodied Intelligence)创业热潮中,融资排名靠前的一员。日常,许华哲和赵行除了在清华教课、做科研和实验,其余时间就在北京海淀区的办公室,负责机器人的算法、软件类研究。CEO高继扬和李天威在苏州总部,负责机器人供应链、本体交付的硬件工作。一个“90后”创业团队的技术信仰与实践1许华哲记得,就在三年前,他刚回国任教不久,具身智能还不是一个被广泛接受的词。他写论文用中文提到“具身智能”概念时,还有人认为这是硬造词。如同1956年,“人工智能(Artificial Intelligence,AI)”这个概念第一次被约翰·麦卡锡提出时的质疑一样——“当时没人真正喜欢这个名字,毕竟我们的目标是‘真正的’智能,而非‘人工的’智能,但是我必须给它起个名字,所以我称之为‘人工智能’。”麦卡锡在传记中回忆。

而当下,具身智能越来越热,尤其是今年全国两会期间,具身智能首次被写入《政府工作报告》,与量子科技、生物制造、6G等产业一同列入未来重要的产业方向。近两年,与星海图相似的初创具身智能公司大量出现,被称为第一波具身智能创业热潮。根据科技智库“甲子光年”的统计报告,截至2024年底,国内有超100家具身智能相关企业,融资总额超过百亿元。

“我觉得现在提起具身智能,大家都兴高采烈。”许华哲说,他看到几乎所有以前做AI的,包括算法模型和自动驾驶车厂的人都想要加入进来,人才密度特别高。2025年刚过去三个月,又有一拨公司成立,“比想象中要拥挤”。这让他想起自动驾驶出现后的2016年、2017年,当时他刚去加州大学伯克利分校读博不久,自动驾驶是学界、业界一个热门方向。也在那几年前后,他和星海图其他几位联合创始人,慢慢明确各自的创业想法。创业梦

如果你读过美国作家艾萨克·阿西莫夫的科幻小说,一定有印象,他的小说里,机器人常以动物、汽车、金属或人形等各种形态的高智能体出现,跟人类的关系密切而微妙。许华哲第一次对智能机器人产生兴趣,就是高中时接触阿西莫夫的小说。“我觉得如果能做一个书里那样的智能机器人出来会非常有趣,但当时我根本不认为自己有生之年能看到这样的智能机器人,我以为要等100年。”

第二次接近智能机器人,是他2015年在清华大学电子工程系读大三,有机会去多伦多大学交换一学期。当时他的导师刚从麻省理工学院(Massachusetts Institute of Technology,MIT)毕业,年轻的女老师带他做项目,比如拍一张照片,让计算机去数照片中的大楼有多少扇窗;比如用计算机做“汽车品位的排序”,通过人工智能算法,给不同特点用户推荐不同颜色和外形的汽车。这些项目让许华哲意识到计算机神经网络的强大,它有能力做出判断、选择。那是不是说明,机器也可以通过训练,做出智慧的决策?

那次交换的经历,开阔了许华哲的视野,影响了他之后的选择。他从那些技术反馈中,感受到一种兴奋和模糊的未来。“原来代码不仅能写什么图书馆管理系统,不只是无聊排序,竟然还能在图片、视频上有这么生动的呈现。”许华哲说,那是他除了刷题得高分外,第一次在技术应用上感到如此直接的快乐。他决定去国外读博,研究人工智能。

2016年,许华哲到了加州大学伯克利分校。加州大学伯克利分校是研究人工智能、机器人学习的重地,当年刚好成立了人工智能研究实验室(Berkeley Artificial Intelligence Research,BAIR)。许华哲的导师特雷弗·达雷尔(Trevor Darrell)就是BAIR的发起人之一,主要研究方向是计算机视觉语言。博士一年级时,特雷弗鼓励许华哲开辟新的方向,研究自动驾驶。几个月后,许华哲作为第一作者,写了一篇如何从视觉角度,通过深度学习实现自动驾驶的论文,被录取为2017年计算机视觉领域的最高级别会议之一IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,CVPR)的Oral论文(最高级别论文)。

2016年是自动驾驶热度最旺的时期,国际上各大车企都在做自动驾驶技术研发。包括网约车平台,Uber与老牌的戴姆勒汽车集团共同开发无人驾驶汽车;国内的滴滴出行也开始组建自动驾驶公司。在学术界,各个高校实验室也积极投入研究,认为自动驾驶是当年人工智能起来后,最重大的可落地智能应用。不少人把自动驾驶,当作四个轮子的路面机器人,因为它可以借助视觉、传感器等技术理解路面环境智能移动,有很大的产业空间——如同今天的具身智能热潮。

同一时期,星海图另外几位联合创始人,正充满信心地投入自动驾驶研究。

比许华哲大两岁的赵行告诉我,他2014年开始在MIT读博,做计算机视觉和多模态研究,同时接触了机器人和自动驾驶方向。2015年,赵行联合导师开发了校内第一门自动驾驶课程,之后课程被推广到其他十余所高校。“我觉得自动驾驶是非常好的行业,虽然它后来发展起起伏伏,但从社会价值来看,无论是政府、学界还是产业界都认可这件事。一项技术驱动的产品,有商业价值,并且长期有社会价值,这就是我想做的事情。”因此,2019年博士毕业前,尽管有Facebook、OpenAI等机构邀请赵行,他还是决定投入产业,加入知名的自动驾驶公司Waymo做研究科学家,他在那里认识了高继扬。一个“90后”创业团队的技术信仰与实践2至于创业这件事,几位创始人都是在学生时期萌生的想法。高继扬接受媒体采访时曾说过,他在清华读本科时,就“一直琢磨属于我们这代人的机会到底是什么”。当时(2011~2015年)是国内移动互联网最风生水起的时候,“看着互联网巨头觉得很牛,但也明显感觉到互联网不是我这一代人的机会,直到大四接触到AI深度学习,我很感兴趣,觉得这能彻底改变世界,因为它跟互联网不一样,互联网改变了生产关系,而AI让生产力再次得到提高”。

“想要改变世界、实现个人价值”,类似的话,我也在许华哲和赵行口中听过。这群来自中国顶尖高校的学生,似乎更自然地拥有这样的热情和冲动。尤其在2015年前后,国家出台政策,鼓励大众创业、万众创新,鼓励运用互联网和开源技术,构建创新创业平台,也引导机构投资科技型中小企业。清北校园里,常有学生在大大小小、不同的领域创业。

稍有区别的是,星海图这几位联合创始人更在意技术驱动的长期创业,而不是以产品是否有噱头为先。赵行曾在读博士的头两年,以首席科学家的身份与同学联合创立一家人脸情绪识别的公司。用计算机视觉技术,判断、搜集人在观看广告时的反应,据此数据对广告内容做评分,再把这个数据反馈卖给广告公司。大约一年后,赵行离开了公司。“我觉得技术太薄了,我还是对硬科技有向往,希望能做长期规划、技术支撑的事业。”之后,四人陆续回国,想在国内最大化实现个人价值。一个“90后”创业团队的技术信仰与实践3最先感到创业时机来了的是高继扬。1992年出生的他看起来沉稳老练,说话语速很快,左侧头发常年有一缕自然白。高继扬很早就在为创业做准备,他用极快的速度,三年半读完博士,毕业后在Waymo和Momenta的两段工作都有明确的目标——Waymo锻炼技术能力,后者学习量产交付和管理团队的能力。随后他也确实完成了目标,有自己的技术成果和管理百人团队的经验。

2022年底,高继扬觉得做AI机器人的时机来了。这除了与他自身能力提升有关,也有大环境的因素。那一年,国际上先是有Figure AI这样致力于通用人形机器人的公司成立,迅速获得关注和融资,特斯拉也在9月发布第一代人形机器人Optimus。而年底ChatGPT的爆火,让世界看到大语言模型的成功,似乎只要数据量增大,模型的智能程度就跟着增大,有无穷上限。而在国内,关键零部件供应链不断成熟,价格优势等,正在缩小中美差距。高继扬决定,在Momenta做完最后一个产品交付后离职创业。一个“90后”创业团队的技术信仰与实践4几个月后的2023年,彻底解除疫情封控后不久,赵行和许华哲也有了迫切想要创业、时不我待的心情。许华哲记得,他在加州大学伯克利分校的导师经常说,“不要等待一艘已经离开的船”。意思是无论做研究还是创业,不要做别人已经做到顶点的事。而2023年,具身智能的船可能刚开始搭建。许华哲回看2016年前后国内成立的自动驾驶公司,虽然也经过寒冬、淘汰了一批企业,但最终活到现在且活得不错的几家,还是最开局就进来的人。“他们做得早,积累了各种数据、客户壁垒,寒冬一过可以迅速复活,具身智能也是一样,再等几年,机会就少了。”所以当2023年中,高继扬陆续找到互相认识的几人讨论创业后,几乎没什么犹豫,四个“90后”创业团队就成形了。

“从成立开始,我们就有共识,要以技术驱动为核心,做一家‘链主’企业。”许华哲向我解释,“链主”意味着全产业链的主人,星海图希望最终能自研本体的各个零部件、制造本体,同时研发出算法模型,训练机器人在物理世界做各项任务,有直接把整机产品交付给客户的能力,不被产业链上任何环节钳制。“就像汽车行业里的比亚迪、特斯拉,而不仅是供应商。”

但刚开始创业,距离“链主”还有很长一段路,要先从哪儿开始?星海图经历了两三个月的探索期。

作为CEO的高继扬是四人中最有产业管理经验的角色。他务实,非常在意商品的成本、收益,以及可落地性。他在不同场合对外提到过“失效成本”的概念。他常用Robotaxi(自动驾驶出租车,类似于国内的“萝卜快跑”)举例,假设它失效一次,发生碰撞,大概要赔偿几万到几十万美元不等,而ChatGPT失效一次,成本仅仅是浪费了用户20秒时间,失效成本很低,收益才能为正。

而星海图刚注册时,具身智能创业热潮还未显现,加上疫情后经济大环境欠佳,高继扬和伙伴们不确定市场是否看好具身智能,所以选择偏保守,决定先发挥自动驾驶背景优势,在小区、园区内做一个有手臂的物流机器人,帮助用户送餐、送货上门,获取收益,同时有数据反馈。做通这个场景之后,再扩大业务。

但很快,他们发现具身智能“是一个比想象中更大的事业”。首先是融资市场反馈很好。2024年1月,星海图完成天使轮第二轮投资,获得IDG资本、BV百度风投等机构投资的几千万美元。另外,他们发现美国新成立了一家叫作Physical Intelligence的、致力于机器人大脑研究的公司。创始人中,加州大学伯克利分校教授谢尔盖·莱文(Sergey Levine)、前谷歌AI研究员切尔西·芬恩(Chelsea Finn)都是他们当年在海外读书时非常熟悉的师长级别人物,这给了他们更多开拓的信心。

星海图迅速转变。2024年初,他们决定不局限于一个业务,同步研发机器人本体、算法模型和扩大商业场景。同年3月,北京办公室投入使用。“终局来看,我们想做出一个通用具身大模型VLA(Vision Language Action),类似于现在的ChatGPT,你输入一个文字或图片指令,机器人能直接做出反馈,不过是动作上的反馈。”赵行说。数据闭环

“放可乐。”

“放雪碧。”

“拿最近的碗。”

“清扫垃圾。”

在一个厨房桌面前,工作人员直接跟机器人说话、下指令,机器人一边语音回复“好的”,一边完成任务,在听到“停止工作”的声音后,垂下双臂静立。

这是星海图今年3月下旬发布的一则一镜到底视频,视频中灰黑色的机器人R1,是去年初公司决定转向后,花了半年左右做出来的完整本体,除了芯片外,90%以上全自主研发。R1不同于双足人形机器人,下肢选用了轮式360度底盘。“我们现阶段客户所在的工厂、园区,绝大部分都是硬化路面,轮式可以走得更稳更快。而且目前对机器人上半身操作能力需求更大,这样的轮式便宜、落地快,是现阶段最理想的商品形态。”许华哲说。

如果仔细看这则视频,会发现左上角备注“端到端VLA模型驱动”。这是星海图的技术目标,希望研发出一个类似于大语言模型,但能让机器人在物理世界执行任务的具身智能大模型。换句话说,只要有了这个模型,未来智能体可以是任意形态——人形、轮式、四足……一个“90后”创业团队的技术信仰与实践5那么,什么是端到端的方法?许华哲以机器人伸手抓水瓶为例解释,传统的分层方法,可能是把这个行为分为四步:机器人先检测水瓶在哪儿,再判断位置,然后伸手到附近,最后抓取。每一步都需要写一个规则,这很容易造成规则的堆叠,从而每一步都产生小的误差。而端到端的方法,不去写过多规则操纵机器人,而是让它通过大量数据学习,最终直接执行抓瓶子的任务。虽然作为观众,我们看到这个动作都是一样的,但端到端的上限更高,机器人可以自动校正误差,有点类似ChatGPT与人聊天时,可以不断校准自己的回答。

听起来,端到端是一种万能方法,但要实现这个结果,需要大量的数据和模型训练。同样以ChatGPT为例,训练出如今大语言模型的互联网文本数据在千亿级,图片和视频数据在百亿级,而机器人这样一个几乎需要物理世界所有数据的平台,目前仅有几百万个数据片段。所以,目前行业内公认的难题之一就是数据采集。赵行告诉我,现在大概有四种方式获取数据,分别是真人遥控操作、VR操作、仿真器模拟学习、视频学习,其中数据最精准、成本也最高的是真人遥操,也是星海图目前主要的数据采集方式。

“这里容易有个误解,并不是说大家都‘烧钱’找真人遥操采集数据,就一定能做到行业领先。如何采集高质量的、机器人能学会的数据?如何降低采集数据的成本?采集数据后如何训练模型?这些问题都很重要。”赵行说,目前机器人依然在练习认识这个世界,它所依赖的除了数据,还有人的干预和解释,这就进一步需要优秀的训练模型——越好的模型,越能使用较少的数据,完成低错误率的任务。

2024年11月,许华哲带领团队发布了具身基础VLA模型Efm-1,这个模型仅需大约50条真人演示数据就能学习数据中的动作,成功率达85%。同时还能简单地泛化,比如不仅能学习数据演示中的抓玻璃杯,还可以在完全没训练过的情况下,抓取跟玻璃杯大小、形状相似的其他杯子。

赵行团队也在同一时期发现一种扩充数据的方式。原本,训练机器人的方式之一是在仿真器中建构出一个虚拟环境,然后在真实场景中部署。但这种方案往往因为虚拟和真实世界中的误差,导致机器人学习效率很低。而赵行团队借助最新的可微分渲染算法,用相机拍摄一条真实世界中的视频进行三维重建、渲染,再在仿真器中对这些真实数据做增广,训练机器人。能有效缩小虚拟和真实世界的鸿沟,还能把一条真实数据扩充成上千条,这成为星海图训练算法模型的数据补充方式。

有了基础的VLA模型和数据增广方式后,星海图更在意通过数据闭环来迭代模型。赵行告诉我,目前世界上最成功的数据闭环方式是特斯拉的。“他们把车卖给用户前,就在车内装上了自己的芯片和一套算法,几百万个车主开车的时候,算法就在后台对比人与人之间的驾驶差异,便于之后优化自动驾驶算法,特斯拉是第一家这样做的,所以后来谁也赶不上它的速度。”而具身智能领域,目前还没有一套这样公认的数据闭环方式。星海图能做的,就是在把机器人交付给车企、物流园这样的客户后,依然拥有数据自主权,在后台获取机器人执行工业任务的所有数据,实现小型闭环。“有了数据反馈,我们再改进算法,这就是数据驱动。”一辈子的目标

许华哲经常用机器人做饭的例子,描述他心中理想的具身智能大模型能达到的程度。

“我最想让机器人做的是一道松鼠鳜鱼,为什么?首先因为我很喜欢吃松鼠鳜鱼,其次因为这足够难。想象一下,鱼是活的,能动、又滑又黏,还有颗粒状的鳞片,外硬内软。处理完活鱼,还要会改刀、油炸、炒糖色、浇汁、摆盘等等,如果一个机器人能做完这些,一定程度上能证明它的智慧程度非常高。”许华哲说,他一度把这当成“一辈子的目标”。最近一年多资本、人才的不断涌入,让他稍微乐观了一点,觉得也许十几二十年就能吃到机器人做的鱼。

但另一方面,目前关于通用具身智能大模型这个被称为机器人大脑的研究,在行业内还只是开始,星海图的Efm-1模型还需要不断进化。不久前,同在2023年成立的上海智元新创技术有限公司(简称“智元”)也发布了自研的具身模型。“大家的目标没有太多差别。”赵行告诉我,行业内不少公司也跟星海图一样在做大模型,同时研发机器人本体。只是现在还处于早期阶段,没有一个统一的标准评判谁的模型更好。连互联网大厂也少有下场做机器人的,更多只是投资。“大厂更适合做迭代速度快的软件,而具身智能目前整体技术路线还没有收敛,在通往终点的路上,很难讲我们现在走了多远。”赵行说。

这样一个长期的赛道,初创年轻公司要怎么活下去?会不会又像自动驾驶行业一样,融资跟不上的时候倒下一片?

长期关注具身智能领域的蓝驰创投投资人告诉我,他们看重两类创业团队:一类是既懂算法数据,也有硬件能力,同时能商业落地的“六边形战士”,具有长期优势和竞争门槛;另一类是有一技之长,在某些方面有明显差异化优势、特色的公司。“比如银河通用公司的算法能力非常强,也很受资本市场青睐。”高瓴创投的创始合伙人李良更关注具身智能领域的大模型技术,先后投资了智元、星海图、灵初智能等多家公司。他更看好“技术极客与行业老兵”的组合,认为这样才能深刻了解产业链,同时做出颠覆性的技术创新。他举了智元的例子,认为智元不仅有技术极客团队,另外,“智元的董事长兼CEO邓泰华,曾是华为副总裁,计算产品线的总裁,有丰富的管理经验、商业化资源积累以及产业整合经验,加速智元从实验室创新走向规模化应用。而且公司位于长三角的上海,供应商都集中在两三百平方公里内,在产业链协同上非常高效”。

但一个共识是,路途遥远,现在谁都无法说自己能安全到岸。虽然星海图也拥有“六边形战士”团队,自主研发的具身基础模型也在迭代,8亿元左右的融资总额算得上行业前列。但在不断有新公司涌入的背景下,几位联合创始人都能感受到融资上的竞争。高继扬说,公司目前能做的是“沿途下蛋”,尽早盈利,要一直留在第一梯队。

但当下,最基础且必不可少的工作之一还是数据采集。星海图苏州和北京加起来有80名左右员工,其中大约20名在做数据采集工作,在行业内不算大规模。我见过这些年轻的数据采集员,他们大多本科刚毕业,有些还在试用期,看起来青涩、听话。我想到两年多前,我去黄土高原采访一群做数据标注的“宝妈”。她们当时正在为大语言模型、人工智能服务。那份工作无需太多技能,“宝妈”们基本是小学、中学学历,只要学会使用电脑,然后整日坐在桌前,从数不完的文字、图片和视频数据中,标注出“什么是梨子、苹果?”“什么是愤怒情绪?”之类的问题。

这群年轻、成天加班的大学生做的工作,当然比数据标注难一个层级。但当他们拿掉VR眼镜,眼眶上露出两道红印,以及傍晚6点半,接到电话,下楼去拿他们的“拼好饭”外卖时,又让人感到一种相似。 机器人人形机器人星海图具身智能