让世界模型推理效率提升70倍：上海AI Lab用“恒算力”破解长时记忆与交互瓶颈- 大数跨境

首页

让世界模型推理效率提升70倍：上海AI Lab用“恒算力”破解长时记忆与交互瓶颈

量子位

2026-01-09

导读：首个完全开源真实世界模型更新，用新架构实现长视频全局记忆

Yume1.5团队投稿
量子位 | 公众号 QbitAI

当视频生成迈向可交互的“世界模型”，核心瓶颈正从画质指标转向如何在长时间、强交互下持续记忆并理解物理世界。

上海AI Lab联合多家机构开源的Yume1.5，提出**时空信道联合建模（TSCM）**，在长视频生成中实现**近似恒定计算成本的全局记忆访问**。

该设计将长时记忆、实时推理与“文本+键盘”双重交互控制整合于统一系统，为世界模型的工程化落地提供可行路径。

构建能理解物理规律、具备长期记忆并支持实时交互的“世界模型”（World Model），已成为通向通用人工智能（AGI）的关键方向。继2024年7月开源首个完全开放的世界模型Yume1.0（含数据、测试集、训练/推理代码及权重）后，团队近期发布升级版Yume1.5。

Yume项目以持续迭代方式推进，其核心创新即**时空信道联合建模（TSCM）**：通过统一上下文压缩与线性注意力机制缓解长视频生成的记忆瓶颈；结合TSCM与Self-Forcing策略优化实时推理效率。

Yume的核心设计

Yume在数据、架构与交互三个层面实现系统性突破：

1. 数据：基于开源Sekai数据集训练——覆盖全球750个城市、累计5000小时高质量第一人称（POV）视频。Yume1.0引入量化相机轨迹技术，将现实运动映射为离散键盘指令（如WASD）。

Yume1.5进一步融合高质量T2V合成数据，并构建专用**事件数据集**，支撑“突然出现幽灵”等非常规场景生成：

人工构造：志愿者编写涵盖日常、科幻、奇幻、天气四类事件描述，并用于合成训练数据；
VLM重标注：利用InternVL3-78B对Sekai原始数据二次标注，将背景描述转向动作与事件导向，提升提示词有效性。

2. 架构：提出TSCM框架，在时间、空间、通道三维度同步压缩历史帧信息，显著降低长上下文推理复杂度。

3. 交互：构建“文本+键盘”双控体系。用户既可通过WASD键实时漫游，也可用自然语言动态编辑环境事件。

时空信道联合建模（TSCM）

TSCM是Yume1.5解决长视频生成记忆与计算矛盾的技术核心。

1. 上下文爆炸问题

标准Self-Attention机制面临两大挑战：

存储全部历史Token的KV Cache迅速耗尽GPU显存；
单帧生成耗时随历史长度线性增长，难以满足实时交互需求。

2. TSCM的压缩机制

TSCM采用两条并行压缩路径：**时空压缩**与**通道压缩**。

时空压缩：聚焦视觉细节保留，对历史帧进行分级采样——近期帧高保真、远期帧渐进模糊。参考FramePack设计，先按每32帧随机采样压缩时序维度，再执行空间下采样。

该策略使模型在生成当前帧时，能以极低开销访问数分钟前的上下文信息。

通道压缩：在通道维度实施强制降维，将历史帧特征通道数由常规768/1024压缩至96；配合线性注意力机制，使整体计算量几乎不随历史增长而上升。

通道压缩：历史帧通道维度统一压缩至96；
线性注意力：因通道维度大幅缩减，注意力计算复杂度显著下降，实现接近恒定的推理资源消耗。

特征融合：DiT模块内设融合层，拼接并整合时空压缩与通道压缩所得特征，保障信息完整性。

3. 推理与训练加速策略

Yume1.0采用OSV（对抗蒸馏方法）加速扩散模型采样；Yume1.5引入改进型Self-Forcing训练策略：微调阶段不再输入真实上一帧，而是让模型自生成上一帧作为条件预测当前帧。

区别于传统滑动窗口缓存，Yume1.5以TSCM替代KV Cache，获得全局上下文输入能力。该方法训练高效，仅需64帧训练即可外推生成近30秒视频。

提示词解耦

为提升实时推理效率，Yume1.5将提示词解耦为两类独立处理：

动作描述（如“向前走”“向左转”）：词汇有限且固定，系统预计算并缓存其T5 Embedding，避免重复编码。配套定义精细动作词表，确保键盘操作精准映射视角变化。

事件描述：描述生成目标内容（如“出现一只黑猫”），仅在初始化或接收新指令时调用T5编码器处理一次。

该解耦与缓存机制大幅降低文本编码器在实时推理中的计算负载。

性能评测

1. 指令跟随能力：Yume1.5 IF得分为0.836，验证其交互控制的有效性。

2. 生成速度：较Yume1.0的572秒大幅提升至8秒。

消融研究：

移除TSCM改用单纯空间压缩后，IF得分由0.836降至0.767；同时，TSCM使自回归推理时间在8个Block后趋于稳定，实现上下文长度无关的恒定步耗。

全面开源

Yume模型权重、训练与推理代码、Sekai数据集已全部开源。

Github主页提供Windows一键启动方案运行Web Demo：执行run_oneclick_debug.bat，在浏览器中打开提示URL即可体验。该方案已在RTX 4090 Laptop GPU（16GB）上完成验证。

局限性

物理逻辑缺失：缺乏底层物理引擎支持，偶发因果谬误（如倒行）及长周期细节漂移；TSCM仅起缓解作用。

模型规模权衡：当前采用5B参数规模以兼顾实时性。未来拟引入MoE架构，支撑30B+级大模型，实现高性能与低延迟平衡。

展望

Yume及其数据集的全面开源，有望加速世界模型领域的研究进程。随着技术持续演进，“真实”与“生成”的边界将进一步模糊。

论文链接：https://arxiv.org/pdf/2512.22096
开源代码：https://github.com/stdstu12/YUME
项目主页：https://stdstu12.github.io/YUME-Project
数据集：https://github.com/Lixsp11/sekai-codebase

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14605

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读107.2k

粉丝0

内容14.6k