vivo BlueImage Lab团队 投稿 | 量子位 公众号QbitAI
视频世界模型长时间运行后易出现“散架”问题——动态目标静止或场景崩坏。核心原因在于误差累积。
MagicWorld针对当前视频世界模型在长时间交互中易出现的运动不合理与场景崩坏问题,提出面向长时稳定性的交互式建模框架。
该方法通过基于光流的运动约束提升动态真实性,利用历史检索机制增强跨时间一致性,并通过多步聚合训练优化交互序列质量,有效缓解误差累积。MagicWorld在长时间交互下实现了更稳定、一致的世界生成能力。

研究背景:解决视频世界模型的“长时漂移”问题
视频世界模型(Video World Model)旨在学习视觉世界在用户动作下的持续演化,支持交互式探索与长期规划,对自动驾驶、具身智能和虚拟世界构建具有重要价值。但现有模型面临两大挑战:一是运动漂移(motion drift),即行人、车辆等动态目标在生成中静止或运动异常;二是长时不稳定(long-horizon instability),因自回归方式导致小误差累积,引发场景结构扭曲和语义偏移。
针对上述问题,浙江大学和vivo蓝图实验室等机构联合提出MagicWorld,核心目标是让动态目标“动得真实”且整个世界在长时间交互中保持稳定一致。

核心技术:MagicWorld框架
MagicWorld通过三部分实现长时稳定性:基于光流的运动保持约束、基于latent相似度的历史缓存检索,以及多步聚合的交互训练策略。

基于光流的运动保持:抑制动态目标运动漂移
MagicWorld引入flow-guided motion preservation模块,在latent空间中利用光流信息对动态区域施加时间一致性约束。模型预测去噪后latent表示,通过相邻帧光流进行warping对齐,并对高运动区域赋予更大权重,确保动态主体运动连贯。此机制使模型能聚焦真实运动区域,提升演化合理性。
历史缓存检索:让模型“记住过去”
为避免场景随时间偏离初始状态,MagicWorld设计history cache retrieval机制:在自回归过程中将latent特征存入缓存池;推理时匹配当前帧与历史latent的语义相似度;检索最相关历史状态注入生成过程。该方法在latent空间进行结构化匹配,使模型能参考关键历史片段,维持长时序一致性。
多步聚合训练:从优化单步转向优化整段交互
针对传统方法仅关注单步局部最优的问题,MagicWorld提出multi-shot aggregated DMD策略:完整模拟多步交互rollout后,聚合整段序列的蒸馏损失统一优化;同时引入dual-reward weighting,结合视觉质量与运动质量奖励信号,使模型同步学习画面清晰度和动态一致性。实验表明,此方式显著减少误差累积。
数据支撑:构建真实世界数据集RealWM120K
为支持真实场景建模,研究团队构建RealWM120K数据集,覆盖全球多城市街景视频,包含不同季节、天气及多模态标注(文本描述、相机轨迹、目标mask等)。该数据集强调复杂动态主体与非平凡相机运动,更贴近长时交互模型的训练需求。
性能表现:在长时稳定性与运动真实性上全面提升
在RealWM120K-Val评测中,MagicWorld总体得分达0.8547,位居对比方法首位;推理延迟15秒,效率具竞争力。

总结:从“能生成”走向“能长期稳定生成”
MagicWorld攻克了交互式视频世界模型实用化的核心瓶颈——实现长时间交互中运动合理、场景稳定及语义一致。其通过光流约束解决动态建模,历史缓存强化记忆能力,结合多步聚合训练优化整段轨迹,系统性提升了运动真实性与长时稳定性。

