最近,视频生成领域又迎来了一个重磅玩家。来自洛桑联邦理工学院(EPFL)的研究者们推出了一种名为 Stable Video Infinity (SVI) 的全新方法,旨在解决一个困扰业界已久的难题:如何生成具有高时序连贯性的无限长视频。
想象一下,当AI生成的视频播放几秒钟后,画面就开始出现“漂移”,人物逐渐变形,场景也变得越来越奇怪,这就是目前大多数长视频生成技术面临的“误差累积”问题。而SVI的出现,似乎为我们指明了一条全新的道路——让模型学会在生成过程中“自我纠错”。
-
论文标题: Stable Video Infinity: Infinite-Length Video Generation with Error Recycling -
作者: Wuyang Li, Wentao Pan, Po-Chien Luan, Yang Gao, Alexandre Alahi -
机构: 洛桑联邦理工学院 (EPFL) -
论文地址: https://arxiv.org/abs/2510.09212 -
项目主页: https://stable-video-infinity.github.io/homepage/ -
代码仓库: https://github.com/vita-epfl/stable-video-infinity
核心挑战:训练与现实的“鸿沟”
要理解SVI的巧妙之处,我们得先看看现有方法为什么会失败。
目前的视频生成模型,大多采用自回归(autoregressive)的方式,即一帧接一帧地生成内容。在训练时,模型看到的全是“干净”的、来自真实世界的视频帧。然而,在实际生成(推理)时,模型下一步的输入却是它自己前一步生成的、可能带有微小瑕疵的“微瑕品”。
这种训练与现实之间的“假设鸿沟”(Hypothesis Gap)是致命的。微小的误差会像滚雪球一样不断累积,最终导致视频内容完全偏离轨道,出现逻辑混乱和视觉伪影。如下图所示,传统的生成模型(a)在训练和测试之间存在明显的鸿沟,而SVI(c)通过让模型在训练时就接触并学习修复这些错误,成功弥合了这一差距。
SVI的解法:创新的“错误回收微调”
为了解决这个问题,研究者们提出了一种名为“错误回收微调”(Error-Recycling Fine-Tuning)的全新训练策略。其核心思想非常直观:与其在测试时才手忙脚乱地处理错误,不如在训练阶段就让模型提前“预习”这些错误,并教会它如何“亡羊补牢”。
整个过程形成了一个巧妙的闭环学习系统:
-
注入错误 (Inject Errors) :在训练开始时,系统会有意地将模型之前犯过的“历史错误”注入到干净的输入数据中,模拟出真实生成时那种充满误差的环境。 -
计算错误 (Calculate Errors) :模型会尝试对这些“被污染”的输入进行预测。SVI采用了一种高效的“一步式双向积分”方法来快速估算模型的预测结果,并将其与真实目标进行比较,从而精确计算出模型在当前步骤中产生的“新错误”。 -
存储与重采样 (Bank & Resample Errors) :这些新计算出的错误并不会被丢弃,而是被动态地存入一个“错误银行”(Replay Memory)中。在下一次训练迭代时,系统会从这个银行中重新采样一些错误,再次注入到新的输入数据里。
通过这样一套“注入-计算-存储-重采样”的闭环流程,模型(Diffusion Transformer, DiT)被迫不断地面对和修正自己产生的各种错误,从而逐渐培养出强大的“纠错”能力。
实验效果:稳定、可控且高效
那么,SVI的实际表现如何呢?答案是:非常出色。
最引人注目的一点是,SVI能够生成几乎无限长度的视频,同时保持极高的时间一致性。从实验结果图可以看出,随着视频长度的增加,其他方法的性能(如CLIP-Score)会出现明显下降,而SVI则能保持在一个非常稳定的水平。
在定性比较中,SVI的纠错能力也得到了充分验证。当画面中出现错误时,SVI能够主动识别并修正它们,而其他方法则会放任错误蔓延。
在包含场景切换的超长创意视频生成任务中,SVI在所有评估指标上都达到了SOTA水平。
更关键的是,这一切都是在 无额外推理成本 的情况下实现的。SVI的“纠错”能力是在训练阶段“内化”于模型之中的,生成视频时不需要额外的计算开销。
此外,SVI还展示了强大的多功能性,它能够兼容各种条件输入,如音频(生成同步对话的数字人)、骨骼动画(控制人物动作)和文本流(根据故事线生成连续场景),在这些任务上的表现同样优异。
无论是生成飞机降落的连贯故事,还是动物园里的奇妙之旅,SVI都能轻松驾驭。
总结
CV君认为,SVI提出的“错误回收”思想非常具有启发性。它不仅为长视频生成提供了一个优雅且高效的解决方案,更可能为其他自回归生成任务(如长文本生成、音频合成等)带来新的思路。通过让模型直面并学习自身的不足,我们或许能构建出更鲁棒、更智能的生成式AI。
作者已经开源了代码,感兴趣的朋友可以去项目主页一探究竟。
大家对这个“自我纠错”的方法怎么看?欢迎在评论区留下你的看法!

