比起ChatGPT和SORA,Figure1这类机器人才是AI这桌宴席的“硬”菜 —— GPT光环下的Figure01放出了一段Demo,让不少人惊呼“机械公敌”里的场景近在眼前了,有人说Figure1吊打了波士顿动力和特斯拉的机器人。我看了网上的一个我见过讲机器人最专业最接地气的视频,基本结论就是:这主要就是个为Figure01搞的噱头营销。
首先这个Demo里所有的机器人的动作,收垃圾,放盘子,递苹果,去年Figure1就能流畅完成了,GPT做的只不过是把人的语言翻成文字,把文字解析为参数去调三个预置的函数 —— 这个功能去年GPT的Function calling就搞定了。而且,据说拍的时候还录了几遍,Cherry pick了一个效果最好的。这里说GPT是画蛇添足倒也不公平,但说跟一个Siri的作用差不多,没什么问题。

第二,说Figure1这个机器人本身的运动能力,连Figure这家公司的CEO自己都承认,自己的机器人目前定位是一些仓库里的常规活动(那也不知道为啥要做成人形,仓库里轮子不是更方便吗),不是波士顿动力的Atlas那种“后空翻”,“跑酷”的动作。说起行动能力,Figure1去年10月份才能直立行走,Atlas去年一月就已经可以跳着空中转身了。包括什么抓苹果这些动作,象丰田的UMI那种机器人训练开源项目,训练几个小时就会了,实在算不得惊艳。所以最后的结论,与其说是GPT赋能(变身)具身智能,还不如说机器人扩展了GPT的一个应用(插件)。个人觉得,怎么看就象OpenAI想给自己投的机器人公司站个台,硬把机器人人机界面里加上了个GPT。

当然,也不是完全没有新意,GPT不仅只处理了语音和文字信息,据说还有机器人看到的图像,用GPT的视觉插件GPT4V(这个插件我以前分析过,我试过几次,有些视觉识别效果,差强人意)做了解析。这一定程度上展示了大模型+ 机器人的方向,多模态,的雏形。机器人的外界信息感知,相当大部分会来自于视觉信息,把摄像头信息和文字信息打通整合起来,再做行为规划和任务分解,显然会比只用大语言模型效率高得多 —— 其实机器人领域,一直没有什么大语言模型的位置,主要都是视觉模型那一套。最近谢塞宁他们搞的在Google地图环境里漫游的AI Agent “VIRL”,就是用视觉模型和语言模型协同赋能AI Agent在真实环境的视频里完成一系列的感知、推理、行为规划、协同的任务。

所以要让自己的机器人有亮点,OpenAI得想想办法把Dall-E,SORA这些模型的视觉和空间计算能力尽快跟GPT融合起来,让机器人尽快拥有“空间认知”中枢,配合语言和推理中枢,这样的机器人才能做一些In-The-Wild的任务,而不是跟仓库机器人一样只能完成一些固定任务。GPT作为一个大语言模型在文字表征的信息处理方面已经做得很好了,而现实世界太多场景里信息不会自动变成文字(文字已经是人类对世界的建模了),我们总不能每个机器人配一个人类把看到的图像翻译成文字,让GPT来推理吧。
大家都清楚机器人未来的大脑一定是AI大模型,但如果机器人的语言/推理中枢和视觉中枢,运动中枢不能很好打通,机器“人”还只能是在“机器”的范畴。—— 仅代表尹智个人观点 Ken’s personal view only


