
图源:视觉中国
文丨雅萱 编辑丨叶锦言
人形机器人似乎从科幻正在奔向现实。
刺拳、勾拳、踢腿,闪避……宇树机器人G1出现在第七届“北京智源大会”的智源具身智能会客厅现场时,表演了搏击,瞬间整个会场的氛围被点燃。此外,人形机器人还会帮你挑选合适的早餐水果、协助购物,叠衣服,做三明治……
宇树机器人G1、天工机器人和银河通用的机器人盖博特(Galbot)纷纷在现场上演了各自的绝活。2025年被视为人形机器人“量产元年”,标志着具身智能技术正加速从实验室走向现实场景。
大语言模型后,何时会出现基于物理世界真实数据和仿真数据的专属具身智能通用大模型?人形机器人是AI向物理世界进化的终极形态吗?
围绕着这个话题,宇树科技CEO王兴兴、北京人形机器人创新中心总经理熊友军、银河通用创始人兼CTO王鹤、穹彻智能联合创始人卢策吾、Physical Intelligence联合创始人兼CEO Karol Hausman和智源研究院院长王仲远进行了对话。
王兴兴认为,机器人参加搏击等比赛本质是通过AI技术让人形机器人可以做各种全身动作,但终极目标是让机器人干活,真正解放人类生产力。在具身智能形态方面,熊友军认为,目前人形机器人没有成本优势,但从长远看,人形是具身智能比较好的载体。在模型和算法方面,卢策吾认为VLA模型在具身智能长链条任务执行(如多步骤操作)、物理交互鲁棒性(如力控制精度)、跨场景泛化(从厨房到仓库)上仍存在明显瓶颈,需进一步突破。
以下是王仲远与王兴兴、熊友军、王鹤、卢策吾、Karol Hausman的现场对话实录:
搏击是炫技?人形机器人的终极目标是干活
王仲远:今年人形机器人马拉松、格斗比赛备受关注,今年8月份北京市还将举办一场世界人形机器人运动会。各位对这种具身智能赛事活动怎么看?是技术的验证场,还是秀肌肉的表演,有没有可能拉高公众对机器人能力的预期?
王兴兴:无论是上春晚还是格斗比赛,目的是给人形机器人一个展示平台,让大家知道目前机器人发展到什么阶段,本质是通过AI技术让人形机器人可以做各种全身动作,跳舞和格斗是全身动作的一部分。
但宇树的终极目标是让机器人干活,真正解放人类生产力,无论是进工厂还是进入家庭场景。但最近几年让人形机器人去家里干活还不太现实,在这个终极目标实现之前,我们通过表演、格斗比赛等给大家展示人形机器人的基本情况,并产生一部分的商业价值是必要步骤。比如今年上半年比较火爆的人形机器人租赁市场。
熊友军:第一,比赛等可以给大众普及机器人的发展状况,比如将要在鸟巢举行的比赛,会有短跑、长跑、障碍接力赛等田径比赛,这会让大众对人形机器人有个潜移默化的了解。
第二,比赛是机器人的技术训练场,比赛不少场景源自我们真实的生活场景,比如工厂提出的物流搬运,医院提出的医药分拣以及酒店服务等,对提升机器人的技术有帮助。
第三,对于有潜在需求的客户来说,比赛是一个桥梁,可以加速机器人产业化落地,在市场中做试点应用。
王仲远:海外的机器人比赛多吗?
Karol Hausman:会有一些比赛,比如机器人世界杯,在家里举行的机械战警和学术竞赛等,但这些比赛的规模通常不及这里的比赛那么大。
王仲远:我们希望机器人能帮我们解决哪些实际问题?
王鹤:尽管我们目前看到许多机器人都展示了炫酷的技能,但我们的目标是推动具身智能产业化,比如在货架场景中完成移动、抓取、放置等任务。行业一直在谈我们要推动人形机器人生产力时刻的到来,比如银河通用的机器人已经在北京开了7家无人药店,由我们的机器人在里面拣药、对接骑手等。预计到今年年底,我们将在北京、上海、深圳三地总共开设100家这样的无人药店。
卢策吾:机器人比赛能让大家看到机器人的性能,这是起点,下一步我们要让机器人具备生产力价值,因此,今后的比赛也会往生产力技能方面倾斜。目前,我们的机器人已经在食品食材加工领域落地应用。
人形未必是具身智能的终极形态
王仲远:清华大学计算机系张钹院士曾说,人形机器人不是具身智能的最佳路径,走向通用机器人硬件要多样性,软件要通用性,大家怎么看这个问题?
王兴兴:宇树也做机器狗,也做人形机器人。我几次公开表态,具身智能并不一定非要采用人形设计。相较于仿人腿的设计,使用轮式底盘在很多应用场景中更为实用。当前大家倾向于用人形设计,主要是因为现有的AI技术大多基于人类的数据进行采集和训练,使得上半身模仿人类动作变得更加简便。一旦实现了通用人工智能(AGI),机器人的形态将会变得千奇百怪,可能会比现在多样百倍。
熊友军:我同意王兴兴的说法,具身智能的载体是多种多样的,不一定是局限于人形。在现阶段,人形仍是具身智能最合适的载体。
首先,从应用场景来看,家庭服务将是未来具身智能最大的市场,相比之下,当前在工厂中的应用还只是“开胃小菜”。
其次,在人机交互方面,随着技术的发展,具身智能将逐步进入家庭,成为人们生活中的伙伴,甚至可能成为年轻人的情感依托。在这样的背景下,人形更容易被用户接受。
第三,我们所处的物理环境大多是为人类设计的,使用人形机器人可以在不大幅改造现有环境的前提下实现更顺畅的落地和应用。
但目前人形机器人没有成本优势,但从长远看,人形是具身智能比较好的一个载体。
VLA模型存在瓶颈
王仲远:机器人要真正有用,它上面的模型非常关键,在智能驾驶领域,VLA模型(视觉-语言-动作)已经是一个主流方案,在具身智能领域呢?
王鹤:自动驾驶领域的进展证明了端到端方案的可行性。银河通用于2025年1月推出全球首个完全基于合成数据预训练的具身大模型。该模型能够将人类语言指令、视觉信号与机器人全身传感器数据融合,直接输出精准的关节控制信号,在视觉理解、语言交互和动作执行三大层面展现泛化能力。
VLA模型的意义在于,视觉观测是最主要的信息来源,自然语言可以给它下达任何命令,不经过中间产物,直接做到端到端输出动作。现在VLA最适合做移动、抓取和放置等动作,因为这几个动作主要依靠视觉,末端再加一个触觉或力觉的传感器辅助就能执行任务。
虽然VLA模型是具身智能研究的热点方向,但依靠视觉仅是起点,人类还有力觉、触觉、嗅觉、味觉、听觉等,为了构建通用的具身智能模型,还要整合更多感知模式。
卢策吾:VLA确实很火,V代表对世界的理解,L代表与人类的沟通,A代表对世界的改造,这三者基本涵盖了机器人应具备的核心能力。然而,要实现通用智能,VLA模型仍面临不少挑战。
VLA模型在长链条任务执行(如多步骤操作)、物理交互鲁棒性(如力控制精度)、跨场景泛化(例如从厨房到仓库)上仍存在明显瓶颈,需进一步突破。
这与无人车在道路上行驶、无需直接与物理世界进行复杂交互不同。在操作复杂度、场景多样性和仿真难度等方面,具身智能的执行体(如通用机器人)所面临的挑战远大于无人车——其数据不确定性至少高出几十倍。这种巨大的不确定性扩大了具身智能所需的数据空间,而实现通用智能的关键之一,就在于如何有效压缩这种不确定性。
比如,穹彻智能着力研发的力反馈技术,通过将操作过程中的物理常识与力反馈信息融合,并嵌入到智能体行为决策的联合训练过程中,从而推动具身智能的能力提升和实际落地。


小满工作室 | 腾讯新闻出品
本文版权归“腾讯新闻”所有,如需转载请在文后留言,经允许后方可转载。
第1318期
运营排版:文文
你“在看”我吗?






