具身智能领域,世界模型正成为继大模型之后的新一轮技术竞争焦点。
近日,大晓机器人宣布,其开悟世界模型 Kairos 在 RoboTwin 2.0、LIBERO-Plus、WorldModelBench Robot、DreamGen Bench 四项国际权威评测中均斩获第一,性能超越 Cosmos3、Pi、MotuBrain 等主流模型。从双臂操作、场景泛化到物理建模与视频预测,Kairos 是目前罕见地在多个核心维度实现全面领先的具身世界模型。
从“视频生成”走向“理解—生成—预测”统一架构
过去一年,世界模型虽快速发展,但主流路线多基于视频生成模型,普遍存在物理规律建模不足、因果理解有限及推理链路长等问题。
针对此痛点,大晓机器人于 2025 年底推出 Kairos 世界模型,提出原生统一架构,将多模态理解、视频生成与状态预测整合至同一体系。该模型未采用后训练改造路线,而是从底层网络架构和预训练范式重构,核心包括自研混合线性注意力机制及全局状态共享机制,实现了理解、生成和预测能力的协同运行。
这一技术路线与国际主流方向高度契合。英伟达近期发布的 Cosmos 3.0 同样采用统一架构设计,进一步验证了该技术路径的行业价值。
十余万小时真实数据构建世界认知能力
除架构创新外,数据规模是决定世界模型能力的关键。Kairos 在训练阶段使用了超十万小时 human-centric 真实场景数据及数百万小时互联网真实世界视频,覆盖数百种职业与生活场景。
团队结合显式模仿学习与隐空间强化学习,使模型能同步学习环境变化规律、动作演化逻辑及任务执行中的因果关系。这种训练方式不仅提升了场景理解力,更增强了未知环境下的泛化能力,为具身智能领域关于世界模型 Scaling Law 的探索提供了新样本。
Kairos-4B:让机器人直接使用世界模型
针对世界模型预测结果与机器人执行系统间存在多层转换环节的长期难题,Kairos-4B 提出了突破性解决方案。
作为首个能在端侧直接驱动机器人本体运行的具身世界模型,Kairos-4B 可同时完成世界理解和状态预测,并直接输出决策结果,大幅减少中间转换延迟。这意味着机器人将获得更快的响应速度和更高的执行精度,推动世界模型从“认知系统”向“执行系统”实质性延伸。
RoboTwin 2.0 登顶:双臂操作能力获得验证
RoboTwin 2.0 由上海交通大学、香港大学及上海人工智能实验室等机构联合推出,包含 50 项复杂双臂协同任务,被视为当前最具挑战性的双臂操作评测之一,重点考察复杂环境下的操作与规划能力。
测试结果显示,Kairos 以 96.1% 的平均成功率位居所有参评模型榜首。其中:
- Clean 场景:96.9%
- Randomized 场景:95.2%
该成绩超越了 G0.5、starVLA 等 VLA 模型,以及 AIM、Fast-WAM、MotuBrain 等世界模型方案,证明 Kairos 在复杂双臂协同、精细动作控制及多任务泛化方面具备卓越能力。
LIBERO-Plus:世界模型首次超越主流 VLA 路线
若 RoboTwin 侧重操作能力,LIBERO-Plus 则聚焦机器人在真实世界的适应性。该基准由上海创智学院、复旦大学、同济大学和新加坡国立大学团队联合提出,通过光照、背景、噪声、语言指令、相机视角等七类变量模拟真实环境变化。
在此评测中,Kairos 以 89.0 分排名第一,超越了 ACoT-VLA、Pi 0.5、ProGAL-VLA 及 Being-H0.7 等模型。
尤其在环境鲁棒性方面表现突出:
- 光照:97.7
- 背景:95.8
- 噪声:96.8
- 相机视角:95.5
结果表明,世界模型路线在场景级泛化能力上已展现超越传统 VLA 路线的潜力。这对产业落地意义重大,意味着机器人在部署至家庭、工厂等不同环境时,对重新训练和环境适配的依赖将显著降低。
WorldModelBench Robot:4B 参数挑战更大模型
在由加州大学伯克利分校、UCSD、英伟达和麻省理工学院联合推出的 WorldModelBench Robot 中,参数量仅为 4B 的 Kairos-4B 取得了 9.30 分的总成绩。
相比之下,竞品模型参数量普遍更大:Lingbot(28B)、Cosmos3(16B)、Abot-PhysWorld(14B)、Wan2.2(5B)。
细分评测结果显示:
- 指令遵循:2.36(与 Cosmos3 并列第一)
- 物理遵循:4.96
- 牛顿力学:1.00
- 重力规律:1.00
- 时序质量:1.00
以更小的参数规模达到同等甚至更优表现,充分体现了 Kairos 在参数效率方面的显著优势。
DreamGen 双项第一:验证世界模型泛化价值
DreamGen Bench 是专为机器人世界模型泛化能力设计的重要评测,由英伟达联合华盛顿大学、UC 伯克利、UCLA 等机构提出,其评分与机器人策略训练效果高度相关。
评测数据显示,Kairos 在两项核心指标上位居全球第一:
- AVG_PA(平均物理遵循):0.538
- AVG_Score(总平均分):0.618
在核心泛化场景中同样领跑:
- 新行为执行 PA:0.489
- 新环境适配 PA:0.581
- 新行为执行 IF:0.745
相比 Cosmos3、Lingbot 等模型,Kairos 在多个维度取得领先。这不仅证明其能生成符合物理规律的数据,更展现了强大的跨场景迁移能力,为机器人训练数据生成开辟了新路径。
从 RoboTwin 的操作能力,到 LIBERO-Plus 的场景泛化,再到 WorldModelBench 的物理建模和 DreamGen 的数据生成,Kairos 在四项国际评测中的优异表现,清晰展示了世界模型技术的发展趋势。
对于具身智能而言,行业关注点正从单纯的动作生成转向对世界规律的理解、预测与推理。世界模型也正从实验室研究走向机器人实际部署的核心基础设施。随着 Kairos 等新一代模型的涌现,具身智能的大规模商业化落地或将加速到来。

