Real-world Video Super-Resolution | VSR的十字路口

极市平台

2025-10-20

↑ 点击蓝字关注极市平台

作者丨子不语@zhihu

来源丨https://zhuanlan.zhihu.com/p/1959430260706744130

编辑丨极市平台

极市导读

扩散视频超分正从 T2I 基模“高画质、低一致”走向 T2V 基模“高一致、低画质”的拉锯；作者提出两阶段 Dual-LoRA 训练，交替优化画质与一致，左脚踩右脚迭代上升，在 T2I/T2V 框架上都能无痛落地。>>加入极市CV技术交流群，走在计算机视觉的最前沿

太长不看版

VSR经历了从判别模型到生成模型的转变，"多帧"的意义也发生了变化。在判别模型时代，transformer/cnn网络并不足以将每一帧画质都恢复得很好，因此每一帧的恢复都需要借助上下文多帧的信息来补充更多细节，提高恢复质量。而在生成时代，diffusion足以将每一帧画质都恢复好，上下文多帧更多起到协调consistency、压制随机性的作用。
生成时代，VSR正在经历着从T2I基模主导到T2V基模崛起的转变。以SD和Flux为首的T2I基模，在后续finetune到VSR任务时提供了强大的生图能力，但却没能兼顾consistency；而后起之秀的CogVideo和Wan等T2V基模，则提供了更强的consistency先验，但画质却不如前者。但无论选择什么基模，选择finetune还是train from scratch，本质上，仍然是per-frame image quality和帧间consistency之间的博弈。
目前来看，T2V-based、T2I-based、train from scratch的模型都没有提供VSR的标准答案，也难以定性孰优孰劣。

本文参考的paper顺序来自于https://github.com/yjsunnn/Awesome-video-super-resolution-diffusion

01 T2I-based VSR

自从Stable Diffusion、Flux等T2I模型出现后，单帧超分（Single Image Super-Resolution, SISR）便立刻跟上，推出了诸如StableSR[2]、OSEDiff[3]、PiSA-SR[4]等一系列视觉效果很好的模型。视频超分 (Video Super-Resolution, VSR) 也顺势搭乘东风，推出了Upscale-A-Video[5]、MGLD[6]等开山之作。然而，此时大家便已发现，直接将image generation的基模应用到VSR是存在严重的帧间不连续的问题的，如下图所示。

在LR中相似的细节，在经过T2I-based SR方法后，得到的结果出现了明显的差异

这种现象也十分合乎情理，毕竟图像生成的过程是不稳定的，很难保证前后两帧中相似的LR细节能够在经过T2I模型之后得到相似的生成结果。一种非常直观的缓解这种不连续问题的方式是，在每一帧生成的过程中，都将相邻帧的内容参考过来（插入3D layer、用光流引导都属于这类思路）。在理想的情况下，模型会因为帧间交互而获得有着更多细节、也更加连续的输出。这样就可以既利用T2I模型的画质先验，又轻松利用多帧的交互得到了细节丰富、连续的video，听上去马上就可以快哉快哉江湖悠悠了！

但实际的效果却并非如此，而这就要牵扯到VSR在CNN/Transformer上古时代就面临的三个历史遗留问题了。

帧间交互是不是真的能够生成更多合理的细节？---> 答案是可以。
帧间交互是不是能让输出帧更加连续？---> 答案是可以。
帧间交互有什么缺点吗？---> 有的有的，会让画面变平滑，甚至导致画质一路狂跌。

之所以将这些问题称之为历史遗留问题，是因为在早期采用判别模型时，就已经出现了单帧比多帧更容易保持预测结果的锐利这一反常现象。例如下图这个case，显然单帧超分的结果要远远好于burst和video两类多帧方法。

从左到右依次是：SISR方法（CDC[7]），BurstSR方法（DBSR[8]），VSR方法（BasicVSR++[9]）

之所以会出现这种情况，简单来说是帧间交互时很常见的跨帧加权融合导致的。毕竟加权在combine了信息的同时也会引入一些不那么正确的选项。如果更深入地分析这个问题，我们可以将一个维度是[T,1,H,W]的输入video看成是很多个[T,1,1,1]的小tube。一条tube代表的就是，在相同的[x,y]坐标下，当前video中在该坐标下的所有信息。当这个video中运动比较小时，就代表着大部分的tube内信息几乎时不怎么变化的（也就下图中的"consistent tube"，每一帧提供的信息基本一致）；当然也会有帧间的运动比较大的区域，我们可以起名叫ambiguous（混淆的）tube。这类tube中，在相同的坐标处，每一帧都提供了不同的信息（由不同的形状表示）。

显然，如果是consistent tube的情况，帧间交互不会带来什么信息收益，和单帧超分某种程度上很接近了。但ambiguous tube却让模型感到头大：这么多不同的信息混在一起，到底要听谁的呢？如果铁了心以reference frame中的信息为主，那么不会带来额外信息收益的同时基本也跟单帧超分差不太多了；如果多偏袒一些其他帧的信息，虽然会有信息增益，但会面临大方差信息的加权（无论是deformable/3D conv/cross attention/etc., 最后的落点都是在学习加权的权重）。而大方差信息的加权就很容易变糊。

而除了帧间交互的架构设计之外，采用T2I基模的模型为了更加对consistency力挽狂澜，经常也会搭配一些consistency loss（例如对第i帧结果进行光流warp，并将warp后的结果和第i+1帧进行约束）。但对于模型来说，面对这类损失，**"变糊"/平均解是降低一致性损失的最容易的方法**。

也就是说，当你开局拥有一个T2I模型，你会自动在后续的VSR任务中获得不错的画质和稀烂的帧间一致性；当你试图用帧间交互模块和loss拉回一致性时，你的画质会一去不复返地下滑。

02 T2V-based VSR

面对大家日益增长的video一致性需求和当前T2I基模难以满足的现状，T2V基模开始在VSR任务上大展拳脚。从一开始建立在CogVideoX系列的STAR、DOVE、Vivid-VR，到最新的基于Wan系列的RealisVSR、OASIS、FlashVSR等工作，T2V基模中的consistency prior让后续的VSR finetune过程不需要花太多力气建模一致性，只需要维持不崩就好。

但同样，继承了良好一致性的代价就是牺牲了每一帧的画面细节。这种牺牲从T2V基模的预训练阶段就有迹可循：

数据方面：相比于高质量的图像数据，同等画面质量的video数据要更稀少
网络结构方面：相比较于T2I模型所配备的Image VAE，T2V模型的Video VAE压缩率更大（多了一个temporal维度的压缩），后续生成细节也变得更加困难
从更加high-level的层面看，text到video的mapping中，既要从0开始学习帧间的运动建模，又要兼顾每一帧的画面细节。这两个任务无论哪一个都很困难，难以真正完全学好。因此当模型在运动建模上做得比较好时，自然就会牺牲掉一部分生成画面细节的能力，无可厚非

以Wan2.1的VAE架构为例。相比Image VAE而言，Video VAE压缩更大，生成也更困难

从T2V基模继承而来的VSR模型也不可避免地在画质上逊T2I-based VSR一筹。尽管在finetune时，也采用了各种方式增强画质（例如，视频数据里混入一定比例的高质量图像），但画质和consistency始终就像跷跷板的两头，压下一端就浮起另一端。

03 NIPS25 我们的新工作One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution

为了解决画质和consistency之间的这种冲突，我们提出了一种新的训练范式Dual-LoRA Learning (DLoRAL)。一句话来概括，我们采用两阶段训练，分别在不同的阶段优化画质与帧间一致性。与传统的多目标优化方法不同的是，我们的核心原则在于利用LR视频中已有的一致性。当输入的视频变得一致时，生成的内容自然也会更一致。因此，我们的方法可以直观地理解为：首先让退化严重的LR视频变得一致 --> 在一致的LR视频上进行细节增强 --> 对画质变好的LR视频继续增强一致性 --> 对一致性更好的LR视频继续增强细节。就这样左脚踩右脚，一步一步往上走。而这种训练范式，不只局限于我们目前采用的T2I框架，同样也可以无痛推广到T2V框架上。只要为不同的训练阶段准备不同偏好的数据（例如，一致性阶段准备连续的video，细节增强阶段准备高画质图像），就可以实现最终的共同优化。

同时，我们准备了一个2分钟无痛理解DLoRAL全部细节的讲(dong)解(hua)，希望可以帮助大家更快速地上手。

感兴趣的伙伴可以自行观看 https://www.bilibili.com/video/BV1DxWqzYEoL/?vd_source=75cb8675598b8dd7a4dc0d0b55578409

以及我们项目的主页：https://yjsunnn.github.io/DLoRAL-project/

和不需要本地部署就可以直接上传视频并查看效果的colab（但由于Colab显存的问题，高于320*240的视频都会先被压缩再运行，因此效果和实际版本有差距）：https://colab.research.google.com/drive/1QAEn4uFe4GNqlJbogxxhdGFhzMr3rfGm?usp=sharing

欢迎大家多多来卷DLoRAL的效果。如果愿意star+引用，那就先给大家比心了！

04 写在最后

这半年以来，见证了diffusion-based VSR工作从一个月冒出一篇，到每天都会有新工作。在感慨领域更新迭代速度之快的同时，也越来越意识到一些难以摆脱的桎梏：

数据：与业界动辄几十、几百甚至几千M的数据相比，学术界可用的开源video数据集可谓少之又少，而其中堪称“高质量”的数据更是凤毛麟角。常用的补救措施是将高质量的image数据也一并混入训练，但因此而面临的quality-consistency trade-off又是棘手难题。尽管DLoRAL在此基础上提供了一种行之有效的解决思路，但更多更高质量的video数据仍然是进一步提升性能的关键。
基模：日新月异的基模一定程度上也基本决定了VSR模型的大致性能。尤其是近期视频生成模型的统一爆发，也让VSR模型见到了更多的可能。强大的基模意味着更好的连续性、更高的画质，也意味着少走十年弯路（bushi
Finetune策略：尽管基模的涌现百花齐放，但毕竟都不是为了VSR任务。因此finetune阶段的训练策略也直接决定了你最终的效果是乘着基模起飞，还是和基模中的prior一起碰撞着沉沦。同样以video generation为例，预训练阶段的目标是从给定的text prompt/first-frame image出发生成运动合理的、连续的、多样的、尽可能长的视频，与VSR目前最关注的per-frame quality和效率问题都有着一定距离。如何在保证这些预训练阶段已经注入的prior不受损失，同时一定程度上为VSR服务，也决定了模型最终的上限。