文|南都记者 严兆鑫
具身智能正处在技术突破与商业落地的关键阶段。万亿级市场潜力吸引资本和技术加速涌入,但从实验室走向现实场景仍面临巨大挑战。当前多数企业依赖人工遥控采集数据,导致机器人“大脑”智能化不足,难以应对复杂任务。
在此背景下,大晓机器人成为行业关注焦点。12月4日,商汤科技联合创始人王晓刚正式出任大晓机器人董事长,标志着商汤“1+X”架构调整后,具身智能业务进入独立运作新阶段。大晓机器人将聚焦解决行业核心痛点——智能决策能力缺失问题。
不同于主流“以机器为中心”的研发路径,大晓提出“以人为中心”的技术范式,通过穿戴设备记录人类与物理世界的交互过程,提取常识与物理直觉,训练具备泛化能力的“通用大脑”。在商业模式上,坚持“软硬一体”,以场景驱动硬件定义,打造可落地的完整产品解决方案。
12月9日,南都湾财社记者就行业关切问题与王晓刚展开对话,深入解析大晓机器人的技术路线与战略方向。
以下为对话节选:
范式重构:跳出“机器中心”的数据陷阱
南都湾财社:为什么商汤选择此时通过“大晓”独立主体深耕具身智能?
王晓刚:我们正处于从AI 2.0向AI 3.0演进的关键节点。过去的大模型依赖互联网文本和图像数据,但这些数据缺乏物理交互信息。要实现真正的智能跃迁,必须让AI与真实世界持续互动。
具身智能是下一个数十万亿级赛道,未来机器人数量或超手机,价值堪比汽车产业。商汤长期积累的视觉感知与场景理解能力,为机器人落地提供了基础。通过“1+X”模式将大晓独立运营,有助于建立更灵活的机制,专注垂直整合,推动技术闭环。
南都湾财社:目前行业普遍存在“泛化难”问题,大晓提出的“ACE技术范式”有何不同?
王晓刚:关键在于技术起点——是以机器为中心,还是以人为中心。
当前主流采用“机器中心”路线:先构建机器人本体,再通过遥控操作采集数据训练模型。这种方式存在两大瓶颈:一是数据孤岛,不同结构的机器人无法共享数据;二是能力局限,遥操只能完成简单动作,无法教会机器人处理复杂、长序列任务。
大晓采用“以人为中心”路径:利用穿戴设备和多视角传感器,直接采集人类与环境的真实交互数据,包括视觉、触觉、力觉等多模态信息。我们将这些数据输入世界模型,训练出具备物理常识和行为逻辑的“通用大脑”,再适配到各类机器人本体上,从根本上提升泛化能力。
生态定位:不做“安卓”,要做“苹果”
南都湾财社:大晓在生态中更倾向做“安卓”还是“苹果”?
王晓刚:现阶段我们走“苹果”路线,坚持软硬一体交付完整产品。
当前硬件供应链尚未成熟,许多设备不满足实际场景需求。例如市面上的机器狗摄像头视野狭窄,无法识别红绿灯,也无法稳定跟随移动目标。仅靠算法优化无法弥补硬件缺陷,因此我们必须参与硬件定义。
我们会基于具体场景提出设计规范,甚至在关键模块(如全景感知系统)上与厂商联合开发。但我们并非完全封闭:模型端保持开放,提供基础模型与开发方案;硬件端联合生态伙伴共同设计。最终面向客户的是可解决问题的整机产品,而非需自行集成的代码包。
南都湾财社:大晓在商业化落地上有哪些规划?
王晓刚:我们分三个阶段推进:
短期聚焦四足机器人在工业巡检领域的规模化应用。传统机器狗依赖人工遥控,自主性差。大晓通过搭载“具身大脑模组A1”,赋予其自主导航、空间认知和语音指令理解能力,结合云端管理平台,实现无人值守巡检、异常识别与响应,满足安防刚需。
中期拓展至商业服务场景,如即时零售前置仓。仓内SKU众多,任务复杂,传统示教方式效率低下。我们将依托环境式采集训练的大模型,使机器人具备处理海量商品的泛化操作能力。
长期布局家庭服务机器人市场。该场景对安全性与交互复杂度要求极高,需要长期技术沉淀,是我们重点攻关方向。
核心壁垒:给世界模型加上“物理定律”
南都湾财社:“开悟”世界模型3.0与Sora、World Labs相比有何差异化?
王晓刚:核心差异在于对物理规律的真实理解与因果预测能力。
Sora本质是视觉驱动的视频生成模型,基于大量视频学习帧间关系,常出现违背物理规律的“幻觉”内容。而大晓的“开悟”模型输入维度更丰富,包含视频、相机位姿、3D轨迹、触觉、力学等多模态数据。
这使得“开悟”具备三大独特能力:
一是多模态融合理解:不仅能识别物体运动,还能判断动因,理解施加的力和作用关系。
二是精准预测与操作指导:生成的结果不仅用于观看,更能指导机器人执行动作。模型可根据指令预测机械臂下一步运动轨迹,且符合物理因果律。
三是动态场景编辑:可分离场景中的动态元素(如人、物体),自由替换背景或目标物(如将瓶子换成杯子),同时保持交互过程的真实性与一致性。
南都湾财社:具身智能何时能迎来类似ChatGPT的“奇点时刻”?
王晓刚:ChatGPT的爆发源于互联网文本数据达到临界规模。具身智能要实现类似突破,需两个条件:
第一,**物理维度扩展**:除视觉外,需大规模接入力、触觉、惯性等传感器,构建完整的物理感知体系。
第二,**数据规模积累**:当环境式采集普及,机器人走出实验室,在真实场景中持续运行并积累海量交互数据,达到互联网级别时,Scaling Law将在具身领域重新生效,推动智能水平跃升。

