

人形机器人渐行渐近
作者: 张燕 郑雪 宋杰 郭志强 牛朝阁迎宾的、唠嗑的、端茶倒水的、写诗作画的……在近日举办的2025中关村论坛年会上,“忙里忙外”的机器人成为现场最大的亮点,组团上演了一场科技秀。
过去几个月,人形机器人频繁亮相于各个舞台,大展绝技:在春晚舞台上扭秧歌,在社交平台上跳舞、翻跟头,在工厂里“拧螺丝”,在公众视野中弹琴、端茶倒水……仿佛一夜之间,一轮技术巨变的浪潮汹涌袭来,将我们迅猛卷入曾经只存在于科幻小说中的未来世界。
实际上,机器人技术的发展进程正不断提速。从1973年日本早稻田大学研发的WABOT-1诞生至今,人形机器人的研究范式不断变化。如今,人形机器人被视为实现具身智能的最佳载体之一。
所谓具身智能,顾名思义即“具有身体(物理载体)的智能(能感知交互和会学习思考)”,而人形机器人无疑是最重要、最受期待的实现形式之一。
2023年10月,工信部印发的《人形机器人创新发展指导意见》就已将人形机器人精准定位为“集成人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车后的又一颠覆性产品,它将深刻变革人类生产生活方式,重塑全球产业发展格局”。
今年全国两会上,“具身智能”首次被写入政府工作报告。同时,据记者统计,“具身智能”也出现在了全国6个省份的2025年政府工作报告中。
产业链协同突破前沿技术
感知、计划、行动,这一过程恰似人类与世界的互动模式。人形机器人亦是如此,凭借摄像头、雷达等设备感知外界,借由大模型与算法进行分析并作出决策,最终依靠由执行器构成的肢体付诸行动。
从产业角度来看,人形机器人主要依赖三大核心组件:“大脑”、“小脑”与本体。“大脑”司职高层决策以及智能信息处理;“小脑”专注于运动控制;本体则作为机器人的物理载体,切实承担具体的运动任务。
让机器人递水比跳舞更难
与其他形态的机器人相比,人形机器人的优势就在于未来与人类社会交互并执行任务。这也使得运动控制成为首要需解决的问题。
物理世界的复杂性要求“小脑”系统在训练过程中,必须将各种各样不同的环境变量纳入考量范围。尤其是双足行走,每一次迈出的步伐,都会产生不确定性:地面可能湿滑、物体或许具有弹性、摩擦系数也处于动态变化之中,这些因素均会对机器人的平衡感和判断能力造成干扰。
在一次公开采访中,宇树科技创始人王兴兴透露自己曾经并不看好人形机器人。彼时的算法水平还不足以支持人形机器人应对复杂多变的环境。然而,人工智能的迅猛发展,为人形机器人进步带来了质的飞跃。如今,机器人研发者不再需要编写程序来操作机器人,而是可以通过大模型,让机器人不断学习传感器同步的实时数据,进一步完善运动控制,使人形机器人的平衡控制、动态性能更高。
“人形机器人之所以称为机器人领域最难攻克的类型,就在于其运动控制的门槛极高。若无法做好运动控制,根本不具备进入该领域竞争的资格。”乐聚机器人副总裁柯真东对记者表示,人形机器人的构型极为复杂,身上关节数量少则十几个,多则40多个。要用一套算法同时精准控制40多个关节,还要保障机器人在运动过程中不会倾倒,且动作平滑、柔顺,这使得机器人的建模过程充满挑战。柯真东直言:当下,各家机器人在运动控制方面的差异,已成为拉开彼此差距的关键因素。
对于人形机器人,学会行走只是运动控制的第一步。从产业化视角看,双臂与手的协同操作能力才是重中之重。优必选首席品牌官谭旻指出,未来两三年,机器人行业竞争焦点将集中在上半身,而非下半身。




在运动控制领域,“灵巧手”被业内公认为最难突破的部分。解剖学研究显示,算上手腕,人类双手拥有27个自由度(编者注:自由度是机器人常见术语,指它的各个关节可以在三维空间中独立移动的方向和角度的数量,自由度越高,机器人越灵活),能组合出超300种基础动作模式,这种多维度协同让人类得以完成系鞋带、弹钢琴等精细复杂任务。
宇树科技提供给记者的一段视频中显示,该公司最新发布的Unitree Dex5灵巧手,具备单手20自由度(16主动+4被动)以及单手94个灵敏触点,能够完成打扑克、玩模仿、翻书等动作。在论坛现场,记者还亲眼看到了灵心巧手Linkerbot人形机器人用双手演奏钢琴与电笛的精彩表现。
“灵巧手作为机器人的末端执行器,想要完美复刻人手结构与功能是非常难的,它需要具备强大的能力,执行捏、拿、握等种种精细操作,这关系到复杂的结构设计和精密的控制问题。”灵心巧手(北京)科技有限公司联合创始人张延柏对记者表示,当前常见的人形机器人一般设有16~18个主要关节,而他们公司研发的单只灵巧手,就拥有21个主动关节。
张延柏认为,目前灵巧手研发面临诸多现实挑战,如部件强度与自重平衡、传感技术精度、数据采集效率与准确性、学习算法优化等。这些因素不仅影响优质灵巧手的性能与实际可用性,还关系开发成本、使用成本,甚至决定其能否大规模量产与广泛应用。
关节自由度之外,触觉传感器的相关技术也同样决定着灵巧手的成败。人类历经漫长的进化过程,才发展出对物体的力觉感知和形状感知能力。而机器人只能依靠机器硬件以及算法来作出判断,其间的技术难度不言而喻。
在上海清宝引擎机器人测试中心,一台约1.6米高的双足人形机器人正流畅地摆动双臂,伴随音乐跳起一段机械舞,关节活动时的细微声响与精准动作引得在场人员惊叹。
“它的往返精度达到±0.05毫米,全球能做到这种水平的寥寥无几。”公司董事长王磊说话间,机器人转向观众,眼部高清摄像头捕捉到记者表情后,显示屏立刻浮现微笑。在这台机器人旁,另一台装备皮肤、五官的机器人,也在同步回应记者动作。王磊称,它的眼皮、眉毛、嘴唇均可灵活运动,能根据对话对象情绪切换16种表情。
即便动作精准度如此之高,王磊仍坦言:“让机器人像人一样递一杯水,需融合视觉识别、运动控制和智能决策,难度比跳舞高出10倍。”
让机器人“大脑”更“灵光”
在中关村论坛现场,仿生交互机器人妮娅凭借逼真的形象与细腻的表情,吸引了众多参会者的围观与互动。
北京清飞科技创始人、CEO魏宇飞向记者介绍,妮娅是清飞科技研发的仿生交互型机器人,在中关村论坛年会中承担接待工作。除了语音互动,妮娅还能通过观察人类表情感知情绪反应,让交互过程更加自然、人性化。“这也是仿生人形机器人最大的亮点,它十分通人性,不仅智商高,还很有眼力见儿。”魏宇飞说道。
在这些语音交互、表情交互的背后,发挥关键作用的正是人形机器人的“大脑”。
在人工智能诞生前,人形机器人的“大脑”是一系列精密设定的方程式,尽管经过精密计算,但由于难以涵盖所有变量,机器人距离真正意义上的“思考”仍有很大差距。如今,大部分人形机器人采用VLA模型(Vision-Language-Action Model,即视觉—语言—动作模型),能够从视觉感知出发,通过学习知晓如何行动,实现业内所说的“端对端”效果。
视觉感知是VLA模型的重要组成部分。视比特机器人副总裁刘婷婷介绍,深度相机是当前人形机器人的主流视觉方案,包括结构光、ToF、多目视觉三类。目前国内在视觉感知方面,不管是价格还是技术都非常成熟。
然而,就目前人形机器人的发展状况而言,视觉感知到行动执行之间仍存在一定差距。穹彻智能联合创始人卢策吾指出,当前常见的VLA模型存在两大突出问题:一是缺乏对世界的理解能力;二是在末端执行环节,空间不确定性较大。
刘婷婷也向记者坦言:“将人工智能技术应用于人形机器人领域,目前面临的最大问题是泛化能力不足。人工智能系统在特定场景中经过充分训练后表现良好,但一旦置于不同场景,运行就会陷入混乱,无法有效适应新环境并完成任务。VLA大模型虽为机器人“大脑”的主流构建方式,但以此控制机器人,其泛化性和灵活性仍有很大提升空间。”
“泛化”是业内谈及人形机器人“大脑”时频繁出现的词汇。泛化意味着机器人有能力完成未学习过的任务,可能是举一反三,也可能是基于理解执行更复杂的任务。例如执行任务时,若光影背景、物体种类、空间位置等发生变化,甚至任务过程受到人为干扰,机器人也应具备应对能力,这正是泛化需要攻克的难题。
让机器人包揽家务,是人们对人形机器人的初步设想。然而,即便机器人能够完成高难度武打动作、创作出优美诗词,厨房里的一个脏碗却可能让它束手无策。人类凭借直觉就能判断碗的材质、重量、油污程度,并依据水流情况自然地做出清洗动作。而机器人则需通过视觉或触觉逐步识别这些信息,再计算出合适动作,这种感知与运动的复杂性超出了当前技术能力范围。
爱观视觉投融资负责人刘昊对记者表示,未来人形机器人将由三大板块构成:本体系统(包括运动控制与灵巧手)、感知系统(视觉、听觉及传感器)及后端处理系统(大模型或“大脑”)。他强调,当前行业仍处于各板块独立发展阶段,尚未形成高效整合。“真正实现人形机器人的全面替代,需要这三部分协同演进。”
伽南科技(北京)有限公司品牌总监梁骐钧直言:“人形机器人的发展仍需大量时间,还有很长的路要走。”她进一步表示,当下人形机器人企业多聚焦于本体的开发和身体控制研发,虽然目前人形机器人在智能(“大脑”)方面存在欠缺,但有一天人形机器人能接入“大脑”时,此前训练出的良好身体机能便能与之更好地协同配合。
“无论是中国还是全球范围,在软件层面,即机器人的大脑成熟度方面,都尚处于早期阶段,未来的探索之路还很漫长。” 刘婷婷说道。
机器人也需要不断训练
在位于首钢园的人形机器人数据训练中心,超百台机器人拥有各自不同的“工位”,它们每天都在这里重复进行百余次训练。
记者在训练中心看到,人形机器人已经开展了在不同场景下的模拟应用,比如采摘果实、叠衣服、擦家具等场景,而机器人旁边,则站着它们的“老师”——人形机器人训练员。他们操控机器人,以极其细微的动作慢慢“教”会机器人从一个个分解动作开始,熟悉完成一整套连贯动作。
“相当于我们的工作员在教这个机器人怎么操作,怎么完成任务。在完成这个任务的时候,机器人可以记录各种数据,比如相机的、手机的、底盘的或者是末端执行器的。”人形机器人数据训练中心负责人张钦锋介绍,为了让机器人拥有在不同场景“举一反三”的泛化能力,采集员要不断地调试环境。
在上海,智元机器人同样拥有一个类似的数据采集中心。4000平方米的厂房中,搭建出家居、餐厅、工业、商超、办公五大类场景,包含超过200个细分场景的任务。在这些场景中,数百名数据采集员头戴VR眼镜、手持操作手柄指挥着机器人进行各种动作。