大数跨境
0
0

让世界模型推理效率提升70倍:上海AI Lab用“恒算力”破解长时记忆与交互瓶颈

让世界模型推理效率提升70倍:上海AI Lab用“恒算力”破解长时记忆与交互瓶颈 量子位
2026-01-09
6
导读:首个完全开源真实世界模型更新,用新架构实现长视频全局记忆
Yume1.5团队 投稿 
量子位 | 公众号 QbitAI

当视频生成迈向可交互的“世界模型”,核心瓶颈正从画质指标转向如何在长时间、强交互下持续记忆并理解物理世界。

上海AI Lab联合多家机构开源的Yume1.5,提出**时空信道联合建模(TSCM)**,在长视频生成中实现**近似恒定计算成本的全局记忆访问**。

该设计将长时记忆、实时推理与“文本+键盘”双重交互控制整合于统一系统,为世界模型的工程化落地提供可行路径。

构建能理解物理规律、具备长期记忆并支持实时交互的“世界模型”(World Model),已成为通向通用人工智能(AGI)的关键方向。继2024年7月开源首个完全开放的世界模型Yume1.0(含数据、测试集、训练/推理代码及权重)后,团队近期发布升级版Yume1.5。

Yume项目以持续迭代方式推进,其核心创新即**时空信道联合建模(TSCM)**:通过统一上下文压缩与线性注意力机制缓解长视频生成的记忆瓶颈;结合TSCM与Self-Forcing策略优化实时推理效率。

Yume的核心设计

Yume在数据、架构与交互三个层面实现系统性突破:

1. 数据:基于开源Sekai数据集训练——覆盖全球750个城市、累计5000小时高质量第一人称(POV)视频。Yume1.0引入量化相机轨迹技术,将现实运动映射为离散键盘指令(如WASD)。

Yume1.5进一步融合高质量T2V合成数据,并构建专用**事件数据集**,支撑“突然出现幽灵”等非常规场景生成:

  • 人工构造:志愿者编写涵盖日常、科幻、奇幻、天气四类事件描述,并用于合成训练数据;
  • VLM重标注:利用InternVL3-78B对Sekai原始数据二次标注,将背景描述转向动作与事件导向,提升提示词有效性。

2. 架构:提出TSCM框架,在时间、空间、通道三维度同步压缩历史帧信息,显著降低长上下文推理复杂度。

3. 交互:构建“文本+键盘”双控体系。用户既可通过WASD键实时漫游,也可用自然语言动态编辑环境事件。

时空信道联合建模(TSCM)

TSCM是Yume1.5解决长视频生成记忆与计算矛盾的技术核心。

1. 上下文爆炸问题

标准Self-Attention机制面临两大挑战:

  • 存储全部历史Token的KV Cache迅速耗尽GPU显存;
  • 单帧生成耗时随历史长度线性增长,难以满足实时交互需求。

2. TSCM的压缩机制

TSCM采用两条并行压缩路径:**时空压缩**与**通道压缩**。

时空压缩:聚焦视觉细节保留,对历史帧进行分级采样——近期帧高保真、远期帧渐进模糊。参考FramePack设计,先按每32帧随机采样压缩时序维度,再执行空间下采样。

该策略使模型在生成当前帧时,能以极低开销访问数分钟前的上下文信息。

通道压缩:在通道维度实施强制降维,将历史帧特征通道数由常规768/1024压缩至96;配合线性注意力机制,使整体计算量几乎不随历史增长而上升。

  • 通道压缩:历史帧通道维度统一压缩至96;
  • 线性注意力:因通道维度大幅缩减,注意力计算复杂度显著下降,实现接近恒定的推理资源消耗。

特征融合:DiT模块内设融合层,拼接并整合时空压缩与通道压缩所得特征,保障信息完整性。

3. 推理与训练加速策略

Yume1.0采用OSV(对抗蒸馏方法)加速扩散模型采样;Yume1.5引入改进型Self-Forcing训练策略:微调阶段不再输入真实上一帧,而是让模型自生成上一帧作为条件预测当前帧。

区别于传统滑动窗口缓存,Yume1.5以TSCM替代KV Cache,获得全局上下文输入能力。该方法训练高效,仅需64帧训练即可外推生成近30秒视频。

提示词解耦

为提升实时推理效率,Yume1.5将提示词解耦为两类独立处理:

动作描述(如“向前走”“向左转”):词汇有限且固定,系统预计算并缓存其T5 Embedding,避免重复编码。配套定义精细动作词表,确保键盘操作精准映射视角变化。

事件描述:描述生成目标内容(如“出现一只黑猫”),仅在初始化或接收新指令时调用T5编码器处理一次。

该解耦与缓存机制大幅降低文本编码器在实时推理中的计算负载。

性能评测

1. 指令跟随能力:Yume1.5 IF得分为0.836,验证其交互控制的有效性。

2. 生成速度:较Yume1.0的572秒大幅提升至8秒。

消融研究

  • 移除TSCM改用单纯空间压缩后,IF得分由0.836降至0.767;同时,TSCM使自回归推理时间在8个Block后趋于稳定,实现上下文长度无关的恒定步耗。

全面开源

Yume模型权重、训练与推理代码、Sekai数据集已全部开源。

Github主页提供Windows一键启动方案运行Web Demo:执行run_oneclick_debug.bat,在浏览器中打开提示URL即可体验。该方案已在RTX 4090 Laptop GPU(16GB)上完成验证。

局限性

物理逻辑缺失:缺乏底层物理引擎支持,偶发因果谬误(如倒行)及长周期细节漂移;TSCM仅起缓解作用。

模型规模权衡:当前采用5B参数规模以兼顾实时性。未来拟引入MoE架构,支撑30B+级大模型,实现高性能与低延迟平衡。

展望

Yume及其数据集的全面开源,有望加速世界模型领域的研究进程。随着技术持续演进,“真实”与“生成”的边界将进一步模糊。

论文链接:https://arxiv.org/pdf/2512.22096
开源代码:https://github.com/stdstu12/YUME
项目主页:https://stdstu12.github.io/YUME-Project
数据集:https://github.com/Lixsp11/sekai-codebase

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14605
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读107.2k
粉丝0
内容14.6k