张吕敏团队突破视频生成“遗忘症”:新型记忆编码器实现长程连贯性
AI绘画领域知名研究者张吕敏(Lvmin Zhang),斯坦福大学计算机科学博士生,近日联合斯坦福、MIT、CMU与港科大团队发布一项面向长视频生成的关键技术,有效解决自回归模型中历史上下文过长导致的显存爆炸与内容崩坏问题。
张吕敏为ControlNet第一作者,获ICCV 2023 Marr Prize最佳论文奖;主导开源项目Fooocus、IC-Light、FramePack、LayerDiffuse等,在AI图像与视频生成工具链建设中具有广泛影响力。
当前Sora2、Veo3.1、Kling2.5等主流视频模型正推动从“单图→短视频→长叙事”的演进,但其核心瓶颈在于:自回归架构需依赖历史帧作为上下文,而60秒480p@24fps视频原始上下文可达56万Token,远超消费级显卡承载能力。
传统滑动窗口会切断长程联系,VAE压缩则牺牲高频细节——角色变脸、服装错位、环境跳变等“遗忘症”由此频发。
显存压缩与细节保留的平衡艺术
研究团队提出“预训练记忆编码器”范式:不依赖生成过程同步学习压缩,而是先专注一个目标——在任意时间点高质量重建原始帧。
该编码器将20秒视频历史压缩至约5000 Token,仍能以高保真度检索任意帧,显著优于仅低分辨率分支(Only LR)、无低分辨率分支(Without LR)及Large Patchifier等方案。
训练机制采用随机帧掩码:对输入视频随机选取若干帧保留,其余添加多层级潜在噪声并要求重建。此举避免模型“偷懒”,强制其对整段视频进行均匀、高保真编码。
预训练记忆编码器的构建与机制
架构上复用DiT上下文表示能力:先将高分辨率视频下采样为低分辨率版本,经VAE与DiT切片器处理;再将原始高分辨率视频编码为残差增强向量,直接叠加于DiT首层投影后的3072维内部通道上,绕过VAE仅16通道的瓶颈,大幅保留纹理与光影信息。
起始采用3D卷积捕获时空特征,结尾以注意力层收束,在轻量化前提下保障建模能力。
实验验证与长程一致性表现
接入WAN系列视频扩散模型后,微调所得系统支持超20秒历史窗口,上下文成本仅约5k Token。
在VBench评估体系中,Cloth(衣物一致性)、Identity(身份一致性)、Object(物体一致性)等指标均接近或超越未压缩基线;用户主观评测与ELO评分显示其在连贯性与画质上优势显著。
该框架通过“压缩–检索–生成”新范式,兼顾长程一致性与低计算开销,使消费级GPU具备长视频生成能力,为AI电影制作与长篇故事生成提供可扩展技术路径。
参考资料:
https://arxiv.org/pdf/2512.23851v1

