EPFL提出Stable Video Infinity：让AI学会“自我纠错”，无限长度视频生成不再是梦

我爱计算机视觉

2025-10-15

导读：AI视频生成迎来新突破，模型学会自我纠错，无限时长不再是难题！

最近，视频生成领域又迎来了一个重磅玩家。来自洛桑联邦理工学院（EPFL）的研究者们推出了一种名为 Stable Video Infinity (SVI) 的全新方法，旨在解决一个困扰业界已久的难题：如何生成具有高时序连贯性的无限长视频。

想象一下，当AI生成的视频播放几秒钟后，画面就开始出现“漂移”，人物逐渐变形，场景也变得越来越奇怪，这就是目前大多数长视频生成技术面临的“误差累积”问题。而SVI的出现，似乎为我们指明了一条全新的道路——让模型学会在生成过程中“自我纠错”。

论文标题: Stable Video Infinity: Infinite-Length Video Generation with Error Recycling
作者: Wuyang Li, Wentao Pan, Po-Chien Luan, Yang Gao, Alexandre Alahi
机构: 洛桑联邦理工学院 (EPFL)
论文地址: https://arxiv.org/abs/2510.09212
项目主页: https://stable-video-infinity.github.io/homepage/
代码仓库: https://github.com/vita-epfl/stable-video-infinity

核心挑战：训练与现实的“鸿沟”

要理解SVI的巧妙之处，我们得先看看现有方法为什么会失败。

目前的视频生成模型，大多采用自回归（autoregressive）的方式，即一帧接一帧地生成内容。在训练时，模型看到的全是“干净”的、来自真实世界的视频帧。然而，在实际生成（推理）时，模型下一步的输入却是它自己前一步生成的、可能带有微小瑕疵的“微瑕品”。

这种训练与现实之间的“假设鸿沟”（Hypothesis Gap）是致命的。微小的误差会像滚雪球一样不断累积，最终导致视频内容完全偏离轨道，出现逻辑混乱和视觉伪影。如下图所示，传统的生成模型（a）在训练和测试之间存在明显的鸿沟，而SVI（c）通过让模型在训练时就接触并学习修复这些错误，成功弥合了这一差距。

SVI的解法：创新的“错误回收微调”

为了解决这个问题，研究者们提出了一种名为“错误回收微调”（Error-Recycling Fine-Tuning）的全新训练策略。其核心思想非常直观：与其在测试时才手忙脚乱地处理错误，不如在训练阶段就让模型提前“预习”这些错误，并教会它如何“亡羊补牢”。

整个过程形成了一个巧妙的闭环学习系统：

注入错误 (Inject Errors) ：在训练开始时，系统会有意地将模型之前犯过的“历史错误”注入到干净的输入数据中，模拟出真实生成时那种充满误差的环境。
计算错误 (Calculate Errors) ：模型会尝试对这些“被污染”的输入进行预测。SVI采用了一种高效的“一步式双向积分”方法来快速估算模型的预测结果，并将其与真实目标进行比较，从而精确计算出模型在当前步骤中产生的“新错误”。
存储与重采样 (Bank & Resample Errors) ：这些新计算出的错误并不会被丢弃，而是被动态地存入一个“错误银行”（Replay Memory）中。在下一次训练迭代时，系统会从这个银行中重新采样一些错误，再次注入到新的输入数据里。