大数跨境
0
0

Real-world Video Super-Resolution | VSR的十字路口

Real-world Video Super-Resolution | VSR的十字路口 极市平台
2025-10-20
2
↑ 点击蓝字 关注极市平台
作者丨子不语@zhihu 
来源丨https://zhuanlan.zhihu.com/p/1959430260706744130
编辑丨极市平台

极市导读

 

扩散视频超分正从 T2I 基模“高画质、低一致”走向 T2V 基模“高一致、低画质”的拉锯;作者提出两阶段 Dual-LoRA 训练,交替优化画质与一致,左脚踩右脚迭代上升,在 T2I/T2V 框架上都能无痛落地。>>加入极市CV技术交流群,走在计算机视觉的最前沿

太长不看版

  1. VSR经历了从判别模型到生成模型的转变,"多帧"的意义也发生了变化。在判别模型时代,transformer/cnn网络并不足以将每一帧画质都恢复得很好,因此每一帧的恢复都需要借助上下文多帧的信息来补充更多细节,提高恢复质量。而在生成时代,diffusion足以将每一帧画质都恢复好,上下文多帧更多起到协调consistency、压制随机性的作用。
  2. 生成时代,VSR正在经历着从T2I基模主导到T2V基模崛起的转变。以SD和Flux为首的T2I基模,在后续finetune到VSR任务时提供了强大的生图能力,但却没能兼顾consistency;而后起之秀的CogVideo和Wan等T2V基模,则提供了更强的consistency先验,但画质却不如前者。但无论选择什么基模,选择finetune还是train from scratch,本质上, 仍然是per-frame image quality和帧间consistency之间的博弈
  3. 目前来看,T2V-based、T2I-based、train from scratch的模型都没有提供VSR的标准答案,也难以定性孰优孰劣。

本文参考的paper顺序来自于https://github.com/yjsunnn/Awesome-video-super-resolution-diffusion

01 T2I-based VSR

自从Stable Diffusion、Flux等T2I模型出现后,单帧超分(Single Image Super-Resolution, SISR)便立刻跟上,推出了诸如StableSR[2]、OSEDiff[3]、PiSA-SR[4]等一系列视觉效果很好的模型。视频超分 (Video Super-Resolution, VSR) 也顺势搭乘东风,推出了Upscale-A-Video[5]、MGLD[6]等开山之作。然而,此时大家便已发现,直接将image generation的基模应用到VSR是存在严重的帧间不连续的问题的,如下图所示。

在LR中相似的细节,在经过T2I-based SR方法后,得到的结果出现了明显的差异
在LR中相似的细节,在经过T2I-based SR方法后,得到的结果出现了明显的差异

这种现象也十分合乎情理,毕竟图像生成的过程是不稳定的,很难保证前后两帧中相似的LR细节能够在经过T2I模型之后得到相似的生成结果。一种非常直观的缓解这种不连续问题的方式是,在每一帧生成的过程中,都将相邻帧的内容参考过来(插入3D layer、用光流引导都属于这类思路)。在理想的情况下,模型会因为帧间交互而获得有着更多细节、也更加连续的输出。这样就可以既利用T2I模型的画质先验,又轻松利用多帧的交互得到了细节丰富、连续的video,听上去马上就可以快哉快哉江湖悠悠了!

但实际的效果却并非如此,而这就要牵扯到VSR在CNN/Transformer上古时代就面临的三个历史遗留问题了。

  1. 帧间交互是不是真的能够生成更多合理的细节?---> 答案是可以。

  2. 帧间交互是不是能让输出帧更加连续?---> 答案是可以。

  3. 帧间交互有什么缺点吗?---> 有的有的,会让画面变平滑,甚至导致画质一路狂跌。

之所以将这些问题称之为历史遗留问题,是因为在早期采用判别模型时,就已经出现了单帧比多帧更容易保持预测结果的锐利这一反常现象。例如下图这个case,显然单帧超分的结果要远远好于burst和video两类多帧方法。

从左到右依次是:SISR方法(CDC[7]),BurstSR方法(DBSR[8]),VSR方法(BasicVSR++[9])
从左到右依次是:SISR方法(CDC[7]),BurstSR方法(DBSR[8]),VSR方法(BasicVSR++[9])

之所以会出现这种情况,简单来说是帧间交互时很常见的跨帧加权融合导致的。毕竟加权在combine了信息的同时也会引入一些不那么正确的选项。如果更深入地分析这个问题,我们可以将一个维度是[T,1,H,W]的输入video看成是很多个[T,1,1,1]的小tube。一条tube代表的就是,在相同的[x,y]坐标下,当前video中在该坐标下的所有信息。当这个video中运动比较小时,就代表着大部分的tube内信息几乎时不怎么变化的(也就下图中的"consistent tube",每一帧提供的信息基本一致);当然也会有帧间的运动比较大的区域,我们可以起名叫ambiguous(混淆的)tube。这类tube中,在相同的坐标处,每一帧都提供了不同的信息(由不同的形状表示)。

将一个video看成是多个tube,运动越大的位置对应的tube信息方差越大
将一个video看成是多个tube,运动越大的位置对应的tube信息方差越大

显然,如果是consistent tube的情况,帧间交互不会带来什么信息收益,和单帧超分某种程度上很接近了。但ambiguous tube却让模型感到头大:这么多不同的信息混在一起,到底要听谁的呢?如果铁了心以reference frame中的信息为主,那么不会带来额外信息收益的同时基本也跟单帧超分差不太多了;如果多偏袒一些其他帧的信息,虽然会有信息增益,但会面临大方差信息的加权(无论是deformable/3D conv/cross attention/etc., 最后的落点都是在学习加权的权重)。而大方差信息的加权就很容易变糊

而除了帧间交互的架构设计之外,采用T2I基模的模型为了更加对consistency力挽狂澜,经常也会搭配一些consistency loss(例如对第i帧结果进行光流warp,并将warp后的结果和第i+1帧进行约束)。但对于模型来说,面对这类损失,**"变糊"/平均解是降低一致性损失的最容易的方法**。

也就是说,当你开局拥有一个T2I模型,你会自动在后续的VSR任务中获得不错的画质和稀烂的帧间一致性;当你试图用帧间交互模块和loss拉回一致性时,你的画质会一去不复返地下滑。

02 T2V-based VSR

面对大家日益增长的video一致性需求和当前T2I基模难以满足的现状,T2V基模开始在VSR任务上大展拳脚。从一开始建立在CogVideoX系列的STAR、DOVE、Vivid-VR,到最新的基于Wan系列的RealisVSR、OASIS、FlashVSR等工作,T2V基模中的consistency prior让后续的VSR finetune过程不需要花太多力气建模一致性,只需要维持不崩就好。

但同样,继承了良好一致性的代价就是牺牲了每一帧的画面细节。这种牺牲从T2V基模的预训练阶段就有迹可循:

  1. 数据方面:相比于高质量的图像数据,同等画面质量的video数据要更稀少
  2. 网络结构方面:相比较于T2I模型所配备的Image VAE,T2V模型的Video VAE压缩率更大(多了一个temporal维度的压缩),后续生成细节也变得更加困难
  3. 从更加high-level的层面看,text到video的mapping中,既要从0开始学习帧间的运动建模,又要兼顾每一帧的画面细节。这两个任务无论哪一个都很困难,难以真正完全学好。因此当模型在运动建模上做得比较好时,自然就会牺牲掉一部分生成画面细节的能力,无可厚非
以Wan2.1的VAE架构为例。相比Image VAE而言,Video VAE压缩更大,生成也更困难
以Wan2.1的VAE架构为例。相比Image VAE而言,Video VAE压缩更大,生成也更困难

从T2V基模继承而来的VSR模型也不可避免地在画质上逊T2I-based VSR一筹。尽管在finetune时,也采用了各种方式增强画质(例如,视频数据里混入一定比例的高质量图像),但画质和consistency始终就像跷跷板的两头,压下一端就浮起另一端。

03 NIPS25 我们的新工作One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution

为了解决画质和consistency之间的这种冲突,我们提出了一种新的训练范式Dual-LoRA Learning (DLoRAL)。一句话来概括,我们采用两阶段训练,分别在不同的阶段优化画质与帧间一致性。与传统的多目标优化方法不同的是,我们的核心原则在于利用LR视频中已有的一致性。当输入的视频变得一致时,生成的内容自然也会更一致。因此,我们的方法可以直观地理解为:首先让退化严重的LR视频变得一致 --> 在一致的LR视频上进行细节增强 --> 对画质变好的LR视频继续增强一致性 --> 对一致性更好的LR视频继续增强细节。就这样左脚踩右脚,一步一步往上走。而这种训练范式,不只局限于我们目前采用的T2I框架,同样也可以无痛推广到T2V框架上。只要为不同的训练阶段准备不同偏好的数据(例如,一致性阶段准备连续的video,细节增强阶段准备高画质图像),就可以实现最终的共同优化。

同时,我们准备了一个2分钟无痛理解DLoRAL全部细节的讲(dong)解(hua),希望可以帮助大家更快速地上手。

感兴趣的伙伴可以自行观看 https://www.bilibili.com/video/BV1DxWqzYEoL/?vd_source=75cb8675598b8dd7a4dc0d0b55578409

以及我们项目的主页:https://yjsunnn.github.io/DLoRAL-project/

和不需要本地部署就可以直接上传视频并查看效果的colab(但由于Colab显存的问题,高于320*240的视频都会先被压缩再运行,因此效果和实际版本有差距):https://colab.research.google.com/drive/1QAEn4uFe4GNqlJbogxxhdGFhzMr3rfGm?usp=sharing

欢迎大家多多来卷DLoRAL的效果。如果愿意star+引用,那就先给大家比心了!

04 写在最后

这半年以来,见证了diffusion-based VSR工作从一个月冒出一篇,到每天都会有新工作。在感慨领域更新迭代速度之快的同时,也越来越意识到一些难以摆脱的桎梏

  1. 数据:与业界动辄几十、几百甚至几千M的数据相比,学术界可用的开源video数据集可谓少之又少,而其中堪称“高质量”的数据更是凤毛麟角。常用的补救措施是将高质量的image数据也一并混入训练,但因此而面临的quality-consistency trade-off又是棘手难题。尽管DLoRAL在此基础上提供了一种行之有效的解决思路,但更多更高质量的video数据仍然是进一步提升性能的关键。
  2. 基模:日新月异的基模一定程度上也基本决定了VSR模型的大致性能。尤其是近期视频生成模型的统一爆发,也让VSR模型见到了更多的可能。强大的基模意味着更好的连续性、更高的画质,也意味着少走十年弯路(bushi
  3. Finetune策略:尽管基模的涌现百花齐放,但毕竟都不是为了VSR任务。因此finetune阶段的训练策略也直接决定了你最终的效果是乘着基模起飞,还是和基模中的prior一起碰撞着沉沦。同样以video generation为例,预训练阶段的目标是从给定的text prompt/first-frame image出发生成运动合理的、连续的、多样的、尽可能长的视频,与VSR目前最关注的per-frame quality和效率问题都有着一定距离。如何在保证这些预训练阶段已经注入的prior不受损失,同时一定程度上为VSR服务,也决定了模型最终的上限。



公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读197
粉丝0
内容8.2k