Yume1.5团队 投稿
量子位 | 公众号 QbitAI
当视频生成迈向可交互的“世界模型”,核心瓶颈正从画质指标转向如何在长时间、强交互下持续记忆并理解物理世界。
上海AI Lab联合多家机构开源的Yume1.5,提出**时空信道联合建模(TSCM)**,在长视频生成中实现**近似恒定计算成本的全局记忆访问**。
该设计将长时记忆、实时推理与“文本+键盘”双重交互控制整合于统一系统,为世界模型的工程化落地提供可行路径。
构建能理解物理规律、具备长期记忆并支持实时交互的“世界模型”(World Model),已成为通向通用人工智能(AGI)的关键方向。继2024年7月开源首个完全开放的世界模型Yume1.0(含数据、测试集、训练/推理代码及权重)后,团队近期发布升级版Yume1.5。
Yume项目以持续迭代方式推进,其核心创新即**时空信道联合建模(TSCM)**:通过统一上下文压缩与线性注意力机制缓解长视频生成的记忆瓶颈;结合TSCM与Self-Forcing策略优化实时推理效率。
Yume的核心设计
Yume在数据、架构与交互三个层面实现系统性突破:

1. 数据:基于开源Sekai数据集训练——覆盖全球750个城市、累计5000小时高质量第一人称(POV)视频。Yume1.0引入量化相机轨迹技术,将现实运动映射为离散键盘指令(如WASD)。
Yume1.5进一步融合高质量T2V合成数据,并构建专用**事件数据集**,支撑“突然出现幽灵”等非常规场景生成:
- 人工构造:志愿者编写涵盖日常、科幻、奇幻、天气四类事件描述,并用于合成训练数据;
- VLM重标注:利用InternVL3-78B对Sekai原始数据二次标注,将背景描述转向动作与事件导向,提升提示词有效性。
2. 架构:提出TSCM框架,在时间、空间、通道三维度同步压缩历史帧信息,显著降低长上下文推理复杂度。
3. 交互:构建“文本+键盘”双控体系。用户既可通过WASD键实时漫游,也可用自然语言动态编辑环境事件。
时空信道联合建模(TSCM)
TSCM是Yume1.5解决长视频生成记忆与计算矛盾的技术核心。
1. 上下文爆炸问题
标准Self-Attention机制面临两大挑战:
- 存储全部历史Token的KV Cache迅速耗尽GPU显存;
- 单帧生成耗时随历史长度线性增长,难以满足实时交互需求。
2. TSCM的压缩机制
TSCM采用两条并行压缩路径:**时空压缩**与**通道压缩**。
时空压缩:聚焦视觉细节保留,对历史帧进行分级采样——近期帧高保真、远期帧渐进模糊。参考FramePack设计,先按每32帧随机采样压缩时序维度,再执行空间下采样。
该策略使模型在生成当前帧时,能以极低开销访问数分钟前的上下文信息。
通道压缩:在通道维度实施强制降维,将历史帧特征通道数由常规768/1024压缩至96;配合线性注意力机制,使整体计算量几乎不随历史增长而上升。
- 通道压缩:历史帧通道维度统一压缩至96;
- 线性注意力:因通道维度大幅缩减,注意力计算复杂度显著下降,实现接近恒定的推理资源消耗。
特征融合:DiT模块内设融合层,拼接并整合时空压缩与通道压缩所得特征,保障信息完整性。
3. 推理与训练加速策略
Yume1.0采用OSV(对抗蒸馏方法)加速扩散模型采样;Yume1.5引入改进型Self-Forcing训练策略:微调阶段不再输入真实上一帧,而是让模型自生成上一帧作为条件预测当前帧。
区别于传统滑动窗口缓存,Yume1.5以TSCM替代KV Cache,获得全局上下文输入能力。该方法训练高效,仅需64帧训练即可外推生成近30秒视频。
提示词解耦
为提升实时推理效率,Yume1.5将提示词解耦为两类独立处理:
动作描述(如“向前走”“向左转”):词汇有限且固定,系统预计算并缓存其T5 Embedding,避免重复编码。配套定义精细动作词表,确保键盘操作精准映射视角变化。
事件描述:描述生成目标内容(如“出现一只黑猫”),仅在初始化或接收新指令时调用T5编码器处理一次。
该解耦与缓存机制大幅降低文本编码器在实时推理中的计算负载。
性能评测
1. 指令跟随能力:Yume1.5 IF得分为0.836,验证其交互控制的有效性。
2. 生成速度:较Yume1.0的572秒大幅提升至8秒。
消融研究:
- 移除TSCM改用单纯空间压缩后,IF得分由0.836降至0.767;同时,TSCM使自回归推理时间在8个Block后趋于稳定,实现上下文长度无关的恒定步耗。
全面开源
Yume模型权重、训练与推理代码、Sekai数据集已全部开源。
Github主页提供Windows一键启动方案运行Web Demo:执行run_oneclick_debug.bat,在浏览器中打开提示URL即可体验。该方案已在RTX 4090 Laptop GPU(16GB)上完成验证。
局限性
物理逻辑缺失:缺乏底层物理引擎支持,偶发因果谬误(如倒行)及长周期细节漂移;TSCM仅起缓解作用。
模型规模权衡:当前采用5B参数规模以兼顾实时性。未来拟引入MoE架构,支撑30B+级大模型,实现高性能与低延迟平衡。
展望
Yume及其数据集的全面开源,有望加速世界模型领域的研究进程。随着技术持续演进,“真实”与“生成”的边界将进一步模糊。
论文链接:https://arxiv.org/pdf/2512.22096
开源代码:https://github.com/stdstu12/YUME
项目主页:https://stdstu12.github.io/YUME-Project
数据集:https://github.com/Lixsp11/sekai-codebase

