生成式世界模型,正在成为智能驾驶系统中越来越关键的一环。
过去几年里,从行车记录仪式的视频生成,到可控、多视角、长时序的4D 驾驶场景合成,世界模型在视觉效果上的进步有目共睹。但当这些模型开始被尝试用于仿真测试、闭环规划验证、合成数据引擎等真实链路时,一个更现实的问题逐渐显现出来:我们该如何判断一个世界模型是否真的“可用”?
在现有实践中,评估往往仍然停留在LPIPS、FVD 等视频指标,或对 “清晰、流畅、像真视频” 的主观判断上。然而,这类指标天然聚焦帧级或短时感知质量,很难触及真实系统最关心的属性——几何是否自洽、多视角是否一致、时间是否稳定、行为是否可执行,以及在闭环与下游任务中是否会放大误差、甚至引入风险。
当评估对象从“视频” 升级为 “世界”,原有评测范式显然已经不够用了。
在这一背景下,WorldBench 团队提出了一套全新的评测体系 WorldLens。这是一套面向生成式世界模型的系统化评估方案,试图为当前分散、不可比的评测现状提供统一语言。
论文标题:
《WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World》
论文链接:
https://arxiv.org/abs/2512.10958
Project Page:
https://worldbench.github.io/worldlens
GitHub Repo:
https://github.com/worldbench/WorldLens
01
从“能生成”到“能落地”,
评测开始成为刚需
世界模型研究正在经历一个关键转折。
早期阶段,研究重点集中在“能不能生成”:能否合成连贯的视频,能否响应文本或条件控制。而当模型逐步进入工程与产业视野,问题开始转向 “能不能用”:它是否足以支撑仿真、规划、验证与数据生成等任务。
这时,评测不再只是技术报告中的一小节,而是直接影响模型能否被采用的基础设施问题。
现实中,一个常见却棘手的现象是:有的模型在单视角下纹理细腻、观感极佳,但一旦切换视角,几何便开始错位;有的模型在短时序里看起来稳定,却在长时序中逐渐抖动;也有模型在开环评测中尚可,一进入闭环,规划器便迅速失效。更麻烦的是,不同工作各自使用不同指标,这些失败模式往往难以复现,更谈不上横向对比。
WorldLens 的出发点正是这一断层:如果世界模型正被当作系统级组件使用,那么评估也必须覆盖“世界属性”,而不仅是“视频质量”。
02
WorldLens在评测什么?
五个关卡,对应五个现实问题
WorldLens 并未尝试用一个总分给模型下结论,而是将评估拆解为五个彼此互补的方面,每一个都对应一个真实落地场景中的关键问题。
生成(Generation)
生成是最容易“看走眼” 的一环。
WorldLens 在这里关注的,不是画面有没有质感,而是世界中的关键元素是否稳定可靠。车辆和行人是否看起来合理?同一个对象在时间维度上是否还能被识别为 “同一个”?是否会出现纹理闪烁、形状漂移,甚至在连续帧中 “换了一个实体” 的情况?
更重要的是,评测并不会忽略几何与多视角一致性。即便模型不直接预测深度,也可以通过深度估计检查几何是否随时间平滑演化;通过跨相机匹配,判断不同视角下的结构是否对得上。
这些问题在视频指标里往往“看不出来”,但在真实系统中却是致命的。
重建(Reconstruction)
一个真正成立的世界,应当隐含稳定的空间结构,而不仅是视觉幻象。
WorldLens 在重建方面采用了一种高度辨识度的方法:将生成视频统一提升为 4D高斯场,再从多个维度检验其空间与时间一致性。在原视角上,它关心重建是否能忠实再现输入;但更关键的是新视角评测——沿着未见过的相机轨迹渲染画面,观察几何是否崩坏、遮挡是否合理、结构是否连贯。
在新视角下,很多模型会迅速暴露问题:几何碎片悬浮、结构断裂、遮挡关系混乱。这种常见失效被称为floaters,它非常直观地说明了一点:
画面“像”,并不代表结构“对”。
这一结果反复印证了一个结论:感知真实≠ 几何真实。纹理再逼真,只要几何与时序不自洽,新视角就会迅速“露馅”。
指令跟随(Action-Following)
如果世界模型要进入自动驾驶核心链路,绕不开的一步是:把它生成的世界交给规划器,看系统还能不能跑起来。
WorldLens 在这一方面同时引入了开环与闭环评测。开环条件下,规划器的预测并不会反过来影响车辆状态,更像是在固定输入上的功能性检查;而在闭环条件下,规划输出会不断作用于系统,误差随时间累积。
评测结果非常一致:不少模型在开环中仍能维持相对合理的表现,但一旦进入闭环,微小的不一致便会被迅速放大,导致碰撞、越界、路线中止等失败。闭环并不是“更严格的开环”,而是一个完全不同的放大器。
这一发现对产业落地尤为重要:如果世界模型的目标是服务决策与控制,那么闭环评测不应是可选项,而应是基本门槛。
下游任务(Downstream Task)
另一个常见的场景,是将世界模型作为数据引擎,用合成数据补充真实数据。
WorldLens 并未停留在假设层面,而是直接将生成数据用于多个真实下游任务,包括 BEV 地图分割、3D 目标检测、3D 跟踪与语义 Occupancy 预测。结果相当“反直觉”:一些视觉观感极佳的模型,在下游任务中反而会出现显著性能下降,降幅可达 30–50%。
这意味着,合成数据并不能被简单视为真实数据的等价替代。若分布对齐、几何噪声与时间一致性处理不当,生成数据甚至可能带来负迁移。
这一部分评测的意义在于,它将“世界模型有没有用”从概念讨论落到了具体任务与具体数字上。
人类偏好(Human Preference)
并非所有世界属性都能用自动指标完整刻画。
WorldLens 因此构建了大规模人类偏好数据集 WorldLens-26K,包含26,808 条评测样本。每条样本不仅给出数值评分,还配有自然语言解释,记录标注者认为哪里真实、哪里不合理、哪里存在安全风险。
更进一步,该数据并未止步于用在人工评测,而是基于这些偏好监督训练了自动评估代理WorldLens-Agent。该Agent 能输出与人类判断高度一致的评分,并给出可解释理由,从而在不重复大规模人工标注的前提下,实现可扩展、可复现的主观评估。
从工程视角看,这一步相当于把“人类觉得哪里不对”转化为可学习、可迭代的评测信号,也为未来通过偏好对齐反向优化世界模型提供了工具基础。
03
实验与观察
通过统一的五个方面评测,WorldLens 揭示了一个重要现实:目前不存在所有维度都占优的世界模型。
一些模型在Generation 上表现突出,却在 Reconstruction 或闭环中暴露问题;有的模型几何较稳,却在行为或下游任务中失效。这说明世界模型的能力并非线性刻度,而是存在明显的结构性断层。
进一步分析还发现,几何与时序稳定性像一条贯穿多个方面的“共同瓶颈”。几何不稳不仅会在新视角中产生 floaters,也更容易在闭环中引发事故,并拖累下游任务表现。这也解释了一个常见现象:为什么某些模型看起来更清晰,却不一定更可用。
04
评测正在成为世界模型的基础设施
从更宏观的角度看,WorldLens 的意义不止于一篇基线工作。
它所提供的,是一套覆盖生成、重建、行为、下游与人类判断的系统性评估协议,以及与之配套的EvalKit、Leaderboard、偏好数据集与自动评估代理。这使得不同模型之间的比较不再依赖零散指标,而是可以在同一坐标系下被理解、被复现、被诊断。
当世界模型从“生成好看的片段”走向“构建可交互的世界”,评估的重要性将不亚于生成本身。WorldLens 的尝试,是为这一阶段提供共同语言与可执行标准。
如果说世界模型的上半场比拼的是“能不能生成”,那么下半场,很可能比拼的是:谁能在几何、物理、行为与人类判断上,经得起系统性的检验。
END
智猩猩矩阵号各有所长
点击名片即可关注

