大数跨境
0
0

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 量子位
2025-12-21
3
导读:具身智能具有本质性的重要性
编辑部 整理自 MEET2026
量子位 | 公众号 QbitAI

过去一年,具身智能领域持续被追问:它究竟是多模态模型的一个应用,还是物理世界独有的基础模型?

自变量机器人创始人兼CEO王潜指出:

具身智能模型是物理世界的基础模型,独立于、平行于语言模型与多模态模型等虚拟世界模型。

这一判断源于对物理世界与虚拟世界本质差异的重新认知:语言与多模态模型处理的是高度可复现、低随机性的符号系统;而机器人所处的物理世界则具有连续性、强随机性、不完全可观测性,以及大量与力、接触和时序强耦合的过程。

沿用以语言和视觉为中心的建模范式,存在结构性错位。因此,自变量机器人选择长期路径——不将具身智能视为应用层问题,而是从模型架构、数据范式、推理机制到硬件形态,系统性构建“物理世界的智能底座”。

为完整呈现王潜的核心观点,量子位对演讲内容进行专业编辑整理,力求准确传达其技术洞察。

核心观点梳理

  • 具身智能不是多模态模型的延伸应用,而是专为物理世界设计、与语言模型平行的基础模型。

  • 物理世界高度随机——相同动作在不同次执行中结果可能显著不同,这与虚拟世界确定性本质截然不同。

  • 当前基于语言与视觉的建模方式,难以精准刻画力、接触、动态交互等物理过程。

  • 若以十年为尺度,具身智能基础模型或将重构甚至替代现有多模态模型的技术生态。

  • 端到端统一模型已成为行业共识;未来突破关键在于是否真正适配物理世界的建模逻辑。

具身智能模型是平行于语言模型的独立基础模型

当前具身智能模型多基于多模态模型微调,仅引入动作输出模块,预训练亦限于视觉维度,尚未覆盖语言与物理交互联合建模。尽管如此,一线实践表明:具身智能模型必须作为独立范式发展——它服务于物理世界,其数据、架构与评估标准均无法被虚拟世界模型体系兼容。

视角转变带来全局重构:模型设计、数据采集策略、产品定义与商业化路径都将随之发生根本变化。这也解释了为何即便现阶段仍依赖多模态backbone,团队仍坚定将其定位为基础模型。

为什么需要一个单独的基础模型

物理世界与虚拟世界的根本差异,在于其不可控的随机性。例如,以相同角度与力度推动同一杯子十次,其停止位置可能各不相同;而在代码运行中,相同内存状态必然产出相同结果。

这种随机性使现有模型架构、训练方法与数据体系难以充分建模物理过程。语言擅长描述长时序抽象事件(如“煮一锅汤”),但难以表达毫秒级操作细节(如“翻炒时手腕旋转30度并施加5N压力”);图像虽精度更高,却受限于遮挡、工具交互与力反馈缺失。

因此,沿用语言+视觉框架构建具身模型,本质上是方向性偏差。必须另起炉灶,构建真正面向物理世界的基础模型。

多模态模型的未来

人类在物理世界中的感知与学习方式,与虚拟世界存在本质区别。传统多模态模型依赖静态图像统计特征提取(如“一万张狗图中归纳共性”),而人在真实场景中通过主动观察(Active Perception)、交互感知(Interactive Perception)及三维空间建模完成学习——仅需单次环绕观察即可建立物体因果结构与运动规律认知。

若继续依赖静态、批量化数据训练范式,将难以实现类人高效学习。具身智能的发展,正推动多模态模型向“动态、实时、交互、因果”方向演进。

当前模型架构的权衡取舍

端到端统一模型已成共识,但尚未形成共识的是:是否应引入快慢双系统以平衡推理速度与决策质量?王潜认为,这实为当前架构局限下的折中方案。

根本解法在于——将具身模型从设计之初即视为独立系统:面向端侧部署优化、嵌入物理先验、支持在线增量学习。自变量已在复杂任务中实现超实时控制(推理速度超越人类遥操作采集速度),并在跨本体泛化上验证模型对基础物理规律与动作模式的掌握能力。

理想具身模型应兼具多项能力:动作生成、世界建模(World Model)、空间智能(Spatial Intelligence)与语言理解(VLA)。这些并非互斥技术路线,而是同一物理世界基础模型的不同输出维度——这也正是确立其独立范式地位的关键依据。

具身智能的Scaling Law

大模型发展依赖三大Scaling Law:模型规模、数据量、算力。而在具身智能领域,“数据Scaling”最具挑战。自变量研究表明:真实世界数据仍是核心来源;训练需分阶段(预训练→后训练→推理时增强),且推理阶段可通过思维链(CoT)等方式拓展模型能力。

物理世界的持续学习天然契合在线更新机制——每条新数据均可实时融入模型生命周期,无需集中上传与批量重训。该范式虽提升系统复杂度,却是突破虚拟世界训练范式瓶颈的必由之路。

让AI定义硬件

新学习范式要求硬件同步进化。自变量坚持软硬协同路线,已推出全自研轮式底盘人形机器人及高自由度灵巧手(15主动自由度,20总自由度),并启动市场交付。

具身智能的战略意义常被低估。当前AGI发展受限于物理资源获取效率——芯片、电力、能源、数据皆源于现实世界。第一次工业革命提出“机器制造机器”的指数增长构想,但现实中因依赖人工环节而未真正实现。若具身智能成熟,将推动万物制造进入类似芯片摩尔定律的自我强化轨道,从而为ASI提供持续增长的物理基础设施支撑。

具身智能不是AI的分支应用,而是与语言模型并行的、面向物理世界的基础模型范式。唯有确立其独立地位,才能释放其重构智能基础设施的全部潜力。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14492
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读91.6k
粉丝0
内容14.5k