

让机器人通过“模仿学习”来完成复杂任务
作者:苗千
Mobile ALOHA项目主要由DeepMind公司和斯坦福大学的助理教授切尔西·芬恩(Chelsea Finn)以及博士生符梓鹏、赵子豪共同完成。芬恩研究团队接受了本刊的专访,芬恩和符梓鹏共同回答了关于Mobile ALOHA机器人的设计制造过程,以及与“模仿学习”等相关的问题。
三联生活周刊:很多人都观看了Mobile ALOHA令人印象深刻的视频。你能否以开发者的身份向我们简单介绍一下这个开源系统?
芬恩:我们关于Mobile ALOHA的工作有两个关键组成部分。首先,它是一个低成本的机器人和远程操作系统,可以以一种直观的方式为某个复杂任务(例如烹饪虾)收集演示数据。其次,我们的工作表明,机器人可以很容易地从远程操作中收集到的数据中学习,以自主完成一些复杂任务。最重要的是,这个机器人以及对它的训练技术是通用的,我们利用相同的数据收集和模仿学习过程,训练机器人完成了7项不同的任务。这7项任务包括烹饪虾、将锅具收纳到橱柜中、呼叫并进入电梯、清理洒出来的东西,以及其他。三联生活周刊:在开发这款系统过程中遇到的最大的技术难题是什么?取得的最大的突破又是什么?
符梓鹏:技术挑战主要有两方面。一方面是硬件挑战。在过去,研究人员主要依赖从制造商那里购买昂贵的现成移动操纵机器人(能够移动和操纵环境中物体的机器人),并且没有低成本、直观且强大的移动操纵机器人或是家庭机器人的远程操作系统。而我们通过组装自己的硬件,并使用ALOHA进行双手操纵和推动移动性,设计了一个高质量且低成本的远程操作系统来解决这两个难题。就像我们项目网站的“远程操作”部分所展示的,我们构建的硬件使我们可以远程操作机器人完成以前无法实现的复杂的家庭和办公任务。通过使用这些硬件,我们有了高质量数据收集的通道。
另一方面就是软件/人工智能挑战。在过去,人们主要通过编程来明确家庭机器人的行为以完成家务(例如,先编程机器人靠近冰箱,然后停下,然后移动手臂去拿苹果等),想要让机器人可靠地完成现实世界的任务,就需要大量的编程和手动调整,这是不实际的。我们采用了数据驱动的人工智能方法,使用人类示范数据来教授机器人(即模仿学习)。我们展示了模仿学习,结合了共同训练技术,利用少量的、大约50次的演示(大约1小时人类数据),就可以教授机器人新的自主技能。通过使用这种软件/人工智能方法,我们就有了高质量数据使用的通道。
最重要的是,我们将硬件和软件一起设计,硬件的数据收集通道与软件很好地协同工作,而且软件训练的模型也能很好地与硬件协同工作。三联生活周刊:这套系统应用了Action Chunking with Transformers(ACT), 它与Genera-tive Pre-trained Transformers(GPT)有什么相同和不同的地方?
芬恩:这两个模型都基于一种相似的神经网络架构,即转换器。然而,GPT是一个语言模型,训练用于从网络数据中预测一系列的语言标记。而ACT是一个用于从图像中预测一系列机器人运动指令的模型。
三联生活周刊:能否简单介绍一下什么是“模仿学习”(imitation learning)?
芬恩:在模仿学习中,由人通过远程操作为机器人展示如何完成任务的多个例子,也就是说通过操纵机器人来完成任务。然后,我们训练一个神经网络来模仿人类示范过的例子。
三联生活周刊:在Mobile ALOHA完成的多项任务中,有些是通过远程控制(teleoperation),有些则是通过模仿学习自主完成的(autonomous)。在未来发展中,如何平衡对机器的控制(control)和自主学习(autonomous learning)?
符梓鹏:我们希望在收集到足够的数据后,机器人能够自主完成远程操作视频中展示的所有任务。
三联生活周刊:能够生成文字、图像和程序的人工智能主要是通过大量的文字和图像数据进行学习。对于机器人来说,它通过怎样的数据进行学习?是否可以通过录像或是真人的演示来学习某个动作?
芬恩:Mobile ALOHA目前是从人类提供的远程操作演示中进行学习的。我们的一些其他机器人也可以通过试错进行自我提升,还有其他研究人员正在尝试让仿人类机器人从人类的视频和网络上的其他数据中进行学习。
三联生活周刊:自从人工智能成为全世界的焦点以来,整个2023年人们都在进行关于人工智能道德的辩论。对于人形机器人(humanoid)来说,如果受到了不恰当的训练,就可能对人类社会造成危害。那么作为开发者你认为该如何预防这样的情况发生?
符梓鹏:这些机器人,包括仿人类机器人在内,目前距离能具有对人类社会构成风险的普遍智能行为还非常遥远。
三联生活周刊:你们为什么选择对于硬件和算法完全开源?
芬恩:我们开源这个项目是希望:第一,推动这项令人感到兴奋的在机器人领域的实际研究,为大众利益服务;第二,吸引更多人参与家庭、办公室、厨房机器人的研究工作。目前我们还没有任何商业计划。
三联生活周刊:Mobile ALOHA的预算只有2万美元。如果有了更高的预算和更多的资源,你们的下一步研究目标是什么?
芬恩:需要澄清的是,Mobile ALOHA的预算是3.2万美元。如果硬件预算更高的话,我们可以在机器人上加装更多的传感器(例如手指上的触觉传感器)。我们还可以扩大机器人的活动范围,比如说增加一个躯干以提高或降低手臂。
三联生活周刊:关于在老年人护理中采用像Mobile ALOHA这样机器人的问题一直存在争议,而事实是在这个领域中熟练的护士日益短缺。在你看来,我们离充分利用这种机器人技术来帮助老年人进行护理还有多远?
符梓鹏:在老年人护理方面,目前人类仍然更加有效。也许在将来,机器人可以帮助人类进行护理,但并不一定会取代人类。
三联生活周刊:我们观察到了“模仿学习”在指导Mobile ALOHA机器人执行高度复杂的任务时的有效性。然而,将“强化学习”应用于同样的目的并没有取得同样成功的结果。在你看来,哪种学习机制在该领域更有前景?
芬恩:模仿学习和强化学习对机器人都很有用,并且可以提供互补的效果。模仿学习是一种高效的方式,可以通过人类演示来教授机器人,而强化学习使机器人能够在较少的人类指导下进行自我提高。我预计,在未来两者都将在开发高能机器人方面发挥重要的作用。 人工智能