大数跨境
0
0

ACM MM 2025|南洋理工×华科×港理工联合推出 B2SCVR:实现任意码流损坏视频的一键盲修复

ACM MM 2025|南洋理工×华科×港理工联合推出 B2SCVR:实现任意码流损坏视频的一键盲修复 极市平台
2025-12-04
2
↑ 点击蓝字 关注极市平台
作者丨热心网友
编辑丨极市平台

极市导读

 

南科大-华中科大-港理工联合提出 B2SCVR:让视觉大模型感知视频损坏,驱动多专家特征补全网络完成修复,BSCV-YouTube-VOS/DAVIS评估视频修复性能SOTA,同步修正受画质影响的跟踪/描述错误。>>加入极市CV技术交流群,走在计算机视觉的最前沿

导读

在不可靠信道传输、存储介质物理损坏、网络攻击等现实挑战下,视频码流文件的损坏导致的解码视频“花屏”不仅破坏信息保真度、影响用户观感,更制约了下游视觉任务。来自南洋理工大学、华中科技大学、香港理工大学的联合团队,提出了一种视觉基础模型驱动的视频修复框架 B2SCVR。该方案变革了先前方法对人工标注掩膜的依赖,另辟蹊径,构建从“检测一切损坏”到“损坏感知补全”新范式,在ACMMM 2025上展示了解决真实世界视频码流受损问题的SOTA级能力 。

论文标题:Towards Blind Bitstream-corrupted Video Recovery: A Visual Foundation Model-driven Framework

ArXiv地址:https://arxiv.org/abs/2507.22481

项目主页:https://github.com/LIUTIGHE/B2SCVR

01 痛点解析:真实场景下的“盲修复”困局

高清流媒体点播、实时视频会议,乃至极端环境下的应急通信等真实业务场景中,受限于带宽波动或存储介质老化,视频码流在压缩和传输链路上极易发生损坏。这种损坏不仅表现为恼人的“马赛克”和色彩失真,更会导致目标跟踪、视频理解等下游AI任务的失效 。

然而,现有的修复方案面临着严重的落地瓶颈

  1. 标注成本高企:传统方法依赖逐帧的“损坏指示掩膜(Corruption-indication Mask)”作为输入。但在海量视频数据中,获取这种像素级掩膜需要巨大的人力成本,难以在实时系统中部署 。
  2. 修复机制“盲目”:面对千变万化的损坏模式,现有模型往往在视频损坏的区域中难以区分“有效纹理”与“损坏伪影”,导致特征提取过程产生混淆,修复效果大打折扣 。
  3. 推理成本:CVPR 2025上有研究者通过大规模的扩散模型实现了初步的盲修复方法,然而巨大的训练和推理成本使得盲修复仍然面临重重困难。

破局之道,在于引入“视觉基础模型”的强大泛化能力,实现真正的自动化“盲修复”。

02 匠心独运:从“检测一切”到“感知修复”的完美闭环

针对上述痛点,研究团队提出了B2SCVR框架。核心洞察在于:利用视觉基础模型(VFM)对视频损坏进行多层级、多尺度的深度理解,从而动态协调修复策略 。

该框架包含两大核心组件,构成了完整的修复闭环 :

Stage 1: Detect Any Corruption (DAC) —— 视觉大模型“慧眼识错”

为了解决“盲修复”中无法定位损坏的难题,DAC模块基于SAM 2.1构建 。

  • 跨域Prompt增强:通过对视频解码信息的重编码,结合自更新提示嵌入(Prompt Embeddings),DAC跨领域地增强了SAM的分层Transformer编码器 。
  • 精准定位:这使得模型对视频损坏极其敏感,能够输出像素级精度的损坏掩膜序列,实现了从“通用分割”到“损坏检测”的迁移 。
图1:Detect Any Corruption结构概览

Stage 2: Corruption-aware Feature Completion (CFC) —— 多专家协同“对症下药”

在获取精准掩膜后,CFC模块利用从DAC强大的编码器中提取的多尺度视频损坏嵌入(Multi-scale Embeddings),进行针对性修复 。

  • 分层特征增广:首先进行分层特征增强,实现初步补全。
  • 混合残差专家(MoRE):引入一组修复专家,通过共享的损坏嵌入池和交叉注意力机制,对特征进行精细化打磨。
  • 语义级调度:为了处理复杂的损坏模式,CFC创新性地引入了CLIP视觉编码器。利用CLIP隐空间的高层语义分布,进行适应性的专家投票(Adaptive Voter),引导通道级别的残差抑制或增强,确保修复结果在语义上的一致性 。
图2:B2SCVR框架概览

B2SCVR框架,它通过DAC模块检测和定位视频损坏,并提取其强大编码器中得到的多尺度嵌入,输入到CFC模块进行分层的特征增广,增强的特征将进行初步的补全,再由混合can差专家协同修复并送入内容修复解码器得到修复视频。

03 卓越表现:SOTA级性能,刷新画质天花板

3.1 定量评估:全面领先

在BSCV Benchmark中受损的YouTube-VOS和DAVIS等主流数据集上,B2SCVR在盲修复与非盲修复设置下,均取得了SOTA(State-of-the-Art)的成绩 。特别是在PSNR、SSIM、LPIPS和VFID等关键指标上,全面超越了包括ProPainter、E2FGVI-HQ、BSCVR在内的现有方法  。
表1:定量分析的量化评估结果,B2SCVR在不同设置,各个指标中均有最佳性能

3.2  定性展示:肉眼可见的质变

可视化结果显示,B2SCVR不仅精准定位了各种复杂的马赛克和伪影,其修复后的视频在纹理细节和时序一致性上均表现出色,极大地提升了视觉观感 。

图3:B2SCVR通过精准检测和定位以及强力修复,实现了最佳的输出视频质量
图3:B2SCVR通过精准检测和定位以及强力修复,实现了最佳的输出视频质量

3.3 下游赋能:提升AI系统鲁棒性

不仅是画质修复,研究还展示经过B2SCVR修复的视频,能显著提升Video Captioning(视频描述)和Object Tracking(目标跟踪)等下游任务的准确性。例如,在受损的画面修复后,下游算法能重新精准捕捉到画面中的语义细节 。

图4:码流受损的视频不仅会降低视频用户的体验,还会对下游任务造成影响
图4:码流受损的视频不仅会降低视频用户的体验,还会对下游任务造成影响

04 总结与展望

B2SCVR通过整合视觉基础模型的感知与生成能力,成功打破了码流受损视频修复对人工标注的依赖,提供了一套低成本、高精度、端到端的解决方案。这不仅为流媒体传输质量提供了可靠保障,更为视频分析系统在复杂网络环境下的鲁棒运行提供了新的技术底座 。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k