大数跨境
0
0

LeCun出手,造出视频世界模型,挑战英伟达COSMOS

LeCun出手,造出视频世界模型,挑战英伟达COSMOS 机器之心
2025-07-29
167
导读:填补了大型像素空间生成模型与小规模潜在空间世界模型之间的空白。

Meta提出新型视频世界模型DINO-world,基于特征学习实现高效未来预测

该模型在冻结的DINOv2潜在空间中训练,显著降低算力消耗,提升跨领域迁移能力

2018年,LSTM之父Jürgen Schmidhuber在论文《Recurrent world models facilitate policy evolution》中推广了“世界模型”概念,即通过神经网络根据智能体的历史观测与动作预测环境未来状态[k]。近年来,这一方向受到广泛关注,Yann LeCun更将其视为通向人类智能的关键路径[k]。然而,世界模型的训练仍面临数据获取成本高、建模复杂、算力消耗大及评估困难等挑战[k]

为应对上述难题,Meta研究团队提出通用视频世界模型DINO-world,其核心创新在于:在冻结的视觉编码器(如DINOv2)的潜在空间中预训练世界模型,再通过动作数据进行后训练,以实现规划与控制[k]

该方法具备三大优势:
其一,将视频预训练与动作条件微调解耦,可利用海量无标注视频学习通用表征,大幅减少对标注数据的依赖[k]
其二,直接在潜在空间建模,避免像素级生成带来的高昂计算开销,更契合下游任务需求[k]
其三,冻结的DINO编码器提供强语义与几何理解能力,简化训练流程,加速收敛[k]

研究团队在约6000万条未清洗的网络视频上训练预测器,使其获得良好的跨域迁移能力[k]。在VSPW分割预测任务中,预测未来0.5秒的表现mIoU提升6.3%,显著优于现有模型[k]。动作条件微调实验也验证了大规模无监督预训练的有效性[k]

模型架构与关键技术

帧编码器
DINO-world采用专为表征学习设计的DINOv2作为固定编码器,而非联合优化编码-预测结构(如V-JEPA)[k]。在该潜在空间建模显著降低计算成本,使参数量低于10亿的世界模型得以高效训练,远小于COSMOS等生成模型(高达120亿参数)[k]

预测器架构
预测器由N个残差预归一化交叉注意力块堆叠而成,通过可学习嵌入初始化查询token,并对历史patch token执行交叉注意力与MLP操作[k]。最终经线性映射输出预测patch token[k]

位置编码
引入旋转位置编码(RoPE),将注意力头维度分为三部分,分别编码时间坐标、水平与垂直空间坐标[k]。空间坐标采用[-1, +1]²相对网格,确保分辨率变化下距离不变;时间戳以秒为单位绝对表示,支持多帧率处理与长视频外推[k]

训练目标
采用“下一帧预测”目标并结合teacher forcing策略,损失函数覆盖所有token,相较仅计算掩码区域损失的方法(如V-JEPA)更利于并行化与信息完整学习[k]

可变帧率处理
通过在预设区间[Δτ_min, Δτ_max]内随机采样时间间隔生成时间戳,使模型接触多样时间跨度,增强时间泛化能力[k]

动作条件微调
引入动作模块,将动作a_t融入查询向量更新过程[k]。该模块可初始化为恒等映射,并在小规模动作轨迹数据上微调,视频模型主干可保持冻结以减轻过拟合,提升跨任务泛化性[k]

实验结果

密集预测任务
在Cityscapes、VSPW和KITTI数据集上,DINO-world在短期(200ms)和中期(500ms)预测中均优于V-JEPA和COSMOS等基线模型[k]。尽管DINO-Foresight在驾驶场景略优,但DINO-world整体表现更稳健,验证了“冻结编码器+潜在空间建模”范式的有效性[k]

表1:密集预测性能对比。当前表现与理想预测差距越小,模型能力越强[k]

直觉物理测试
在IntPhys、GRASP和InfLevel三个物理推理基准上,DINO-world展现出与V-JEPA ViT-H相当的物理理解能力[k]。COSMOS虽在IntPhys接近完美,但在更复杂任务上表现不足,凸显DINO-world的均衡性能[k]

表2:直觉物理测试平均相对准确率[k]

动作条件与规划评估
在离线轨迹上微调动作模块25个epoch后,DINO-world在多个环境下的规划成功率显著高于从头训练的模型[k]。冻结主干网络的轻量微调策略亦表现良好,表明大规模预训练对下游任务具有强大赋能作用[k]

表4:规划任务成功率对比,基于512个测试回合统计[k]

【声明】内容源于网络
0
0
机器之心
专业的人工智能媒体和产业服务平台
内容 17012
粉丝 0
机器之心 专业的人工智能媒体和产业服务平台
总阅读97.8k
粉丝0
内容17.0k