
Mobile ALOHA可能是很多人今天提到机器人时候,脑海中会立刻浮现出的那个产品。
-
为什么最近机器人领域突然火热了起来,GEAR,Figure,都是大事件,包括Mobile ALOHA,从业内人士来看,是因为哪些具体的技术能力出现了突破么?比如你分享中提到的通用可解释的表示上的突破?这些突破如何发生的?还是更多是因为AI的热潮溢出到了机器人领域? 赵子豪:现阶段manipulation一个很大的突破在模仿学习 - 去年的Diffusion Policy, ALOHA/ACT 是比较有代表性的工作。突破点在于(1)学界有了收集高质量数据的方法 (2)发现generative modeling techniques在机器人领域能work的很好。同时在locomotion领域sim2real 也有了非常大的进展。 总的来说我会觉得AI的进步启发了机器人的进步。 -
在AI领域目前还有LLM和世界模型的路线之争,有Transformer和Diffusion的潜在的争夺与融合,在机器人领域有哪些主流的技术路线和方案?你更倾向哪一条路线? 赵子豪:机器人领域有比较传统的感知+规划, 也有比较激进的end-to-end learning。举个例子特斯拉FSD v12之前是传统做法,之后是end-to-end。 我倾向end-to-end imitation for manipulation, end-to-end RL sim2real for locomotion。 -
很多人形容AI越来越像是一个“用不同新名词描述同一个旧概念”的游戏,机器人领域似乎也有这样的现象,“具身智能”,“通用智能体”,“基础智能体”等时髦的概念出现,但机器人技术的演进是有自己的历史和基础理论的,这是否会带来影响?事实上今天机器人技术主要在解决和攻克哪些问题? 赵子豪:其实这些都不是新名词,一直有人在用。我觉得有意思的点是这些名词更突出“智能”,而不是“机器”。 这其实是机器人技术社区一个观念上的转变,大家意识到“智能”可能比去design a task-specific end-effector更加重要。 -
看到你的个人简介里写着对startup感兴趣,而你同时也在谷歌和特斯拉这样的大厂工作过,你认为机器人领域还会有自己的“OpenAI”么,还是最终会由大厂主导?尤其是最近从英伟达到Figure都体现出来明显的资源和资本的聚拢,初创公司还有机会么。 赵子豪:我相信任何领域永远都有创业公司的机会。Startups can be nimble, focused, and fast-executing. -
Mobile ALOHA最重要的意义是低成本,还是它体现出来的处理现实世界数据的雏形,还是一个可以适配不同的模仿学习算法的底层系统平台? 赵子豪:Mobile ALOHA 是一个proof-of-concept home robot, 设计初衷是研究平台。对我来说它的意义在于 (1) 证明imitation learning 在 mobile manipulation的可行性 (2) 开源软硬件促进接下来的算法研究。 -
ACT把预测的基本元素定为Chunk,这让人想到transformer的token、和最近因为Sora而火了的patch,这种对智能的最基本单元的理解和定义,会对技术探索带来多大的不同?这是否也是你们研究时思考的一个重点。 赵子豪:这个问题感觉有点apples to oranges。 (我:哈哈哈问了一个apple to orange 的外行问题。 赵子豪:没事儿~别的问题都很好。) -
Mobile ALOHA的相关研究都给我一种感觉,就是你们追求尽可能的简洁。这是因为现在机器人的相关技术到了收敛的阶段,还是你们想要先提供一个更简洁的样本给技术社区? 赵子豪:我非常信奉Elon的“The best part is no part”,和Richard Sutton的bitter lesson。最能利用数据/计算的算法往往是简洁的。语言建模里的next-token-prediction是一个很好的例子。 当然,去真正产品化Mobile ALOHA还是会需要很多工程细节. 这篇论文只是一个雏形。 -
从Mobile ALOHA来看,机器人的数据收集和动作训练学习,以及动作执行是不是基本上是同时进行的?你提到训练数据现在是个难题,过往自动驾驶使用大量模拟数据,今天各种大模型训练里也开始讨论合成数据的可行性,这些对解决机器人的训练数据问题有什么启发? 赵子豪:从数据收集到部署需要几个小时的模型训练时间。模拟器sim2real对于locomotion已经有了很大的帮助,但对于模拟contact-rich,deformable object manipulation仍然需要模拟器上的进步。 -
接下来你最期待的机器人领域或者泛人工智能领域的技术突破是什么? 赵子豪:期待一个和state-of-the-art相似的open-source vision language model. 这对于学界机器人研究会有很大帮助。 -
你自己接下来有什么计划,有什么可以提前剧透的么 赵子豪:模仿学习在灵巧性的上限非常高,请期待接下来更多在ALOHA上的工作!


