十问Mobile ALOHA赵子豪：大模型究竟在如何“渗透”机器人- 大数跨境

首页

十问Mobile ALOHA赵子豪：大模型究竟在如何“渗透”机器人

硅基立场

2024-03-07

导读：Aloha的真正意义，机器人的现状，和大模型对机器人的影响。

作者｜王兆洋

Mobile ALOHA可能是很多人今天提到机器人时候，脑海中会立刻浮现出的那个产品。

不久前这个机器人翻炒大虾、擦酒杯、收拾灶台的视频，在中外社交平台上被广泛转发，出圈效果明显，普通人似乎一下子看到了机器人直接进入自己日常生活的样子。

这也带来一些误解，人们以为这代表着机器人已经能“自主”完成这些任务，事实上，它是基于一种“模仿学习”的技术方案，也就是人类先遥控操作，机器人快速学习后再学会自主完成任务。

其实Mobile ALOHA是一个长期进行中的研究项目的一部分，它的基础ALOHA全称“A Low-cost Open-source Hardware System（低成本开源硬件系统）”，而Mobile ALOHA是增加了移动能力的进化版本。

在团队发布的论文中，除了对更低成本的硬件方案的探索，更重要是对模仿学习的不同策略做了研究，其中提出了基于Transformer的动作分块算法 ACT（Action Chunking with Transformers）。它本质是一个端到端的策略：直接把现实世界的RGB图像映射到动作，让机器人从视觉输入中学习和模仿，无需额外人工编码的中间表示，并以动作分块（Chunking）为单元，预测并集成准确而平滑的动作轨迹。

这是一个大模型技术和思想“渗透”进机器人领域的典型代表。

而这种“渗透”正是今年机器人领域火热的重要原因——从英伟达要“一次解决所有机器人模型问题“的GEAR，到成立两年就估值破25亿美元的“机器人OpenAI” Figure，机器人领域一个个大事件迅速发生。

今天回头看，Mobile ALOHA就像是这一切的一个预告。在这个关键节点，我们和Mobile ALOHA背后的作者赵子豪做了一次对话，向他提了10个问题，想了解热闹之下Mobile ALOHA真正重要的意义和机器人今天所处的现状。

赵子豪目前是斯坦福大学博士生和 Google DeepMind兼职研究员，研究重点是端到端的精细机器人操控。他也曾在特斯拉自动驾驶部门和Google X实习。

以下。

为什么最近机器人领域突然火热了起来，GEAR，Figure，都是大事件，包括Mobile ALOHA，从业内人士来看，是因为哪些具体的技术能力出现了突破么？比如你分享中提到的通用可解释的表示上的突破？这些突破如何发生的？还是更多是因为AI的热潮溢出到了机器人领域？

赵子豪：现阶段manipulation一个很大的突破在模仿学习 - 去年的Diffusion Policy, ALOHA/ACT 是比较有代表性的工作。突破点在于（1）学界有了收集高质量数据的方法（2）发现generative modeling techniques在机器人领域能work的很好。同时在locomotion领域sim2real 也有了非常大的进展。

总的来说我会觉得AI的进步启发了机器人的进步。
在AI领域目前还有LLM和世界模型的路线之争，有Transformer和Diffusion的潜在的争夺与融合，在机器人领域有哪些主流的技术路线和方案？你更倾向哪一条路线？

赵子豪：机器人领域有比较传统的感知+规划, 也有比较激进的end-to-end learning。举个例子特斯拉FSD v12之前是传统做法，之后是end-to-end。

我倾向end-to-end imitation for manipulation, end-to-end RL sim2real for locomotion。
很多人形容AI越来越像是一个“用不同新名词描述同一个旧概念”的游戏，机器人领域似乎也有这样的现象，“具身智能”，“通用智能体”，“基础智能体”等时髦的概念出现，但机器人技术的演进是有自己的历史和基础理论的，这是否会带来影响？事实上今天机器人技术主要在解决和攻克哪些问题？

赵子豪：其实这些都不是新名词，一直有人在用。我觉得有意思的点是这些名词更突出“智能”，而不是“机器”。

这其实是机器人技术社区一个观念上的转变，大家意识到“智能”可能比去design a task-specific end-effector更加重要。
看到你的个人简介里写着对startup感兴趣，而你同时也在谷歌和特斯拉这样的大厂工作过，你认为机器人领域还会有自己的“OpenAI”么，还是最终会由大厂主导？尤其是最近从英伟达到Figure都体现出来明显的资源和资本的聚拢，初创公司还有机会么。

赵子豪：我相信任何领域永远都有创业公司的机会。Startups can be nimble, focused, and fast-executing.
Mobile ALOHA最重要的意义是低成本，还是它体现出来的处理现实世界数据的雏形，还是一个可以适配不同的模仿学习算法的底层系统平台？

赵子豪：Mobile ALOHA 是一个proof-of-concept home robot, 设计初衷是研究平台。对我来说它的意义在于 (1) 证明imitation learning 在 mobile manipulation的可行性 (2) 开源软硬件促进接下来的算法研究。
ACT把预测的基本元素定为Chunk，这让人想到transformer的token、和最近因为Sora而火了的patch，这种对智能的最基本单元的理解和定义，会对技术探索带来多大的不同？这是否也是你们研究时思考的一个重点。

赵子豪：这个问题感觉有点apples to oranges。

（我：哈哈哈问了一个apple to orange 的外行问题。

赵子豪：没事儿～别的问题都很好。）
Mobile ALOHA的相关研究都给我一种感觉，就是你们追求尽可能的简洁。这是因为现在机器人的相关技术到了收敛的阶段，还是你们想要先提供一个更简洁的样本给技术社区？

赵子豪：我非常信奉Elon的“The best part is no part”，和Richard Sutton的bitter lesson。最能利用数据/计算的算法往往是简洁的。语言建模里的next-token-prediction是一个很好的例子。

当然，去真正产品化Mobile ALOHA还是会需要很多工程细节. 这篇论文只是一个雏形。
从Mobile ALOHA来看，机器人的数据收集和动作训练学习，以及动作执行是不是基本上是同时进行的？你提到训练数据现在是个难题，过往自动驾驶使用大量模拟数据，今天各种大模型训练里也开始讨论合成数据的可行性，这些对解决机器人的训练数据问题有什么启发？

赵子豪：从数据收集到部署需要几个小时的模型训练时间。模拟器sim2real对于locomotion已经有了很大的帮助，但对于模拟contact-rich，deformable object manipulation仍然需要模拟器上的进步。
接下来你最期待的机器人领域或者泛人工智能领域的技术突破是什么？

赵子豪：期待一个和state-of-the-art相似的open-source vision language model. 这对于学界机器人研究会有很大帮助。
你自己接下来有什么计划，有什么可以提前剧透的么

赵子豪：模仿学习在灵巧性的上限非常高，请期待接下来更多在ALOHA上的工作！

点击关注，洞察前沿科技发展↓

点个“在看”，再走吧👀

【声明】内容源于网络

硅基立场

硅基世界的时代立场与中国立场。

内容 45

粉丝 0

硅基立场硅基世界的时代立场与中国立场。

总阅读37

粉丝0

内容45