大数跨境
0
0

ICCV 2021|北邮&Intel提出基于超分算法的视频传输压缩新方法!

ICCV 2021|北邮&Intel提出基于超分算法的视频传输压缩新方法! 极市平台
2021-09-06
0
导读:本文创新性的利用超分辩率算法定义网络视频传输任务,目的是减少网络视频传输的带宽压力。
↑ 点击蓝字 关注极市平台

作者丨北京邮电大学-模式识别与智能系统实验室、intel中国研究院
编辑丨极市平台

极市导读

 

本文创新性的利用超分辩率算法定义网络视频传输任务,提出了一种Content aware feature modulation结合联合训练的方式,将每个视频段对应的模型参数量压缩为原来的1%。在相同的带宽压缩下,性能(PSNR)可以超过商用的H264和H265,在工业届拥有很大的应用潜力。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

论文链接:http://arxiv.org/abs/2108.08202

GitHub 地址:https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV2021

1 概述

本文创新性的利用超分辩率算法定义网络视频传输任务,目的是减少网络视频传输的带宽压力。本文提出一种Content aware feature modulation结合联合训练的方式,将每个视频段对应的模型参数量压缩为原来的1%。并在不同长度的视频、超分尺度和多个SISR模型上验证了我们方法的普适性。在相同的带宽压缩下,性能(PSNR)可以超过商用的H264和H265,在工业届拥有很大的应用潜力。

2 摘要

网络间的视频传输近几年来一直经历着巨大的增长,然而网络视频传输系统的质量很大程度取决于网络带宽。正因如此,DNN近期被提出可以应用于提高视频传输质量。这些DNN的方法将一整个视频平均分成一些视频段,然后传输低分辨率的视频段和其对应的context-aware模型到客户端,客户端用这些训练好的模型推理对应的低分辨率视频段。因此,传输一段长视频需要同时传输多个超分辨率模型。

在这篇论文中,我们首先探索不同视频段所对应的不同模型间的关系,然后我们设计了一种引入Content-aware Feature Modulation (CaFM)模块的joint training框架,用来压缩视频传输中所需传输的模型大小。通过我们的方法,每一个视频段只需传输原模型参数量的1%,同时达到更好的超分效果。我们做了大量的实验在多种超分辨率 backbone、视频时长和超分缩放因子,展现了我们方法的优势和普适性。另外,我们的方法也可以被看作是一种新的视频编解码方式。在相同的带宽压缩下,我们方法的性能(PSNR)优于商用的H.264和H.265,体现了在工业应用中的潜能。

3 引言

互联网视频在过去几年发生了爆发式增长,这给视频传输基础设施带来了巨大的负担。视频质量在很大程度上取决于服务器和客户端之间的网络传输带宽。双方的技术随着时间的推移而发展,以应对互联网规模不断扩展所带来的挑战。受客户端/服务器日益增长的计算能力和深度学习的最新进展的启发,一些工作提出将深度神经网络 (DNN) 应用于视频传输系统的工作。这些工作的核心思想是将低分辨率视频和内容感知(content-aware)模型从服务器传输到客户端。客户端对模型进行推理完成低分辨率视频的超分辨率工作。通过这种方式,可以在有限的互联网带宽下获得更好的用户体验质量 (QoE)。

与当前单图像超分辨率 (SISR)和视频超分辨率 (VSR)的方法相比,内容感知 DNN 利用神经网络的过拟合特性和训练策略来实现更高的性能。具体来说,首先将一个视频分成几段,然后为每个段视频训练一个单独的DNN。低分辨率视频段和对应的模型通过网络传输给客户端。不同的backbone都可以作为每个视频段的模型。与 WebRTC 等商业视频传输技术相比,这种基于DNN的视频传输系统取得了更好的性能。

尽管将 DNN 应用于视频传输很有前景,但现有方法仍然存在一些局限性。一个主要的限制是他们需要为每个视频段训练一个DNN,从而导致一个长视频有大量单独的模型。这为实际的视频传输系统带来了额外的存储和带宽成本。在本文中,我们首先仔细研究了不同视频段的模型之间的关系。尽管这些模型在不同的视频段上实现了过拟合,但我们观察到它们的特征图之间存在线性关系,并且可以通过内容感知特征调制(CaFM)模块进行建模。这促使我们设计了一种方法,该方法允许模型共享大部分参数并仅为每个视频段保留私有的CaFM层。然而,与单独训练的模型相比,直接fine-tuning私有参数无法获得有竞争力的性能。因此,我们进一步设计了一个巧妙的joint training框架,该框架同时训练所有视频段的共享参数和私有参数。通过这种方式,与单独训练的多个模型相比,我们的方法可以获得相对更好的性能。

除了视频传输,我们的方法也可以被视为一种新的视频编码方法。我们进行了初步实验,在相同的带宽压缩下,将我们的方法与商业H.264 和 H.265 标准进行比较。由于过拟合特性,我们的方法可以实现更高的性能(峰值信噪比),显示出本文所提出方法的巨大潜力。

我们的贡献可以总结如下:

(1)我们提出了一种新颖的引入Content-aware Feature Modulation (CaFM)模块的joint training框架,用于网络间的视频传输。

(2)我们对各种超分辨率backbone、视频时间长度和缩放因子进行了广泛的实验,以证明我们方法的优势和普适性。

(3)我们在相同的带宽压缩下与商业H.264 和 H.265标准进行比较,由于过度拟合的特性,我们展示了更有潜力的结果。

图1

4 我们的方法

4.1概述

神经网络视频传输是在传输互联网视频时利用DNN来节省带宽。与传统的视频传输系统不同,它们用低分辩率视频和内容感知模型取代了高分辨率视频。如上图所示,整个过程包括三个阶段:(i)在服务器上对每个视频端的模型进行训练;(ii) 将低分辨率视频段与内容感知模型一起从服务器传送到客户端;(iii) 客户端上对低分辨率视频进行超分工作。但是,该过程需要为每个视频段传输一个模型,从而导致额外的带宽成本。所以本文提出一种压缩方法,利用CaFM模块结合joint training的方式,将模型参数压缩为原本的1%。

4.2动机和发现

图2

我们将视频分成 段,并相应地为这些视频段训练 个SR 模型 。然后 我们通过一张随机选择的输入图片(DIV2K) 来分析 模型间的关系。我们在图 2 中可视化了 3 个 模型的特征图。每张图像代表某个 channel 的特征图,为了简单起见,我们只可视化了一层 模型。

具体来说,我们将特征图表示为 , 其中 表 示第 个模型, 表示第 个通道, 表示 模型 的第 层卷积。对于随机选择的图像, 我们可以计算 之间的余弦距离,来衡量这两组特征图之间的相似度。对于 图 2 中的特征图,我们计算 之间的余弦距离矩阵。

如图 3 所示,我们观察到虽然 . . 是在不同的视频段上训练的,但根据图 3 中矩阵的对角线值 可以看出“对应通道之间的余弦距离非常小”。我们计算 、S2 和 之间所有层的余弦距 离的平均值,结果分别约为 。这表明虽然在不视频段上训练得到了不同的 模型,但是 之间的关系可以通过线性函数近似建模。这也是我们提出 模块的动机。

图3

4.3内容感知特征调制模块(CaFM)

我们将内容感知特征调制 (CaFM) 模块引入baseline模型(EDSR),以私有化每个视频段的 SR模型。整体框架如图 4 所示。正如动机中提到的,CaFM 目的是操纵特征图并使模型去拟合不同的视频段。因此,不同段的模型可以共享大部分参数。我们将 CaFM 表示为channel-wise线性函数:

其中 是第 个输入特征图, 是特征通道的数量, 分别是 channel-wise 缩放和 bias 参数。我们添加 CaFM 来调制 baseline 模型的每个卷基层的输出特征。以 EDSR 为例, 的参数约占 EDSR 的 0.6%。因此, 对于具有 个段的视频,我们可以将模型的大小 从 个 EDSR 减少到 1 个共享 EDSR 和 个私有 模块。因此, 与 baseline 方法相比 我们的方法可以显着降低带宽和存储成本。

图4

4.4联合训练

正如上文中所介绍的,我们可以利用CaFM去替换每个视频段的SR模型。但是通过在一个SR模型上finetuning n个CaFM模块的方式很难将精度提升到直接训练n个SR模型的PSNR。因此我们提出了一种联合训练的框架,该框架可以同时训练n个视频段。公式可以表示为:

对于 图片 表示第 个视频段, 表示该视频段中的第 个 sample 。公式中 表示 共享的参数, Wi 表示每个视频段私有的参数。对于每个视频段,我们可以这样计算损失函数:

在训练过程中,我们从视频段中统一采样图像来构建训练数据。所有图像用于更新共享参数 Ws,而第i个视频段的图像用于更新相应的 CaFM 参数Wi。

5:VSD4K 数据集

Vimeo-90K 和 REDS 等公共视频超分数据集仅包含相邻帧序列(时常太短),不适用于视频传输任务。因此,我们从YouTube收集了多个4K视频来模拟实际的视频传输场景。我们使用标准的双三次插值来生成低分辨率视频。我们选择了六个流行的视频类别来构建 VSD4K,其中包括:游戏、vlog、采访、体育竞技、舞蹈、城市风景等。每个类别由不同的视频长度组成,包括:15 秒、30 秒、45 秒、1 分钟、2 分钟、5 分钟等。VSD4K数据集的详细信息可在论文的Appendix中阅读,同时VSD4K数据集已经公开在该论文的github链接中。

6:定性&定量分析

6.1主实验对比

根据上表可以清晰的看到,在不用的视频和超分尺度上我们的方法(Ours)不仅可以追赶上训练n个模型(S1-n)的精度,并且可以在峰值信噪比上实现精度超越。Btw:M0表示不对长视频进行分段,在整段视频上只训练一个模型。

6.2 VS codec

该部分实验我们对本文提出的方法和传统codec方法(调低码率做压缩)进行了定量比较。根据上表可以清晰的看到(红色表示第一名,蓝色表示第二名),在相同的传输大小下(Storage),我们的方法(Ours)在大多数情况下可以超越H264和H265。同时视频的长度越长,SR模型所占传输大小的比例越小,我们的方法优势越明显。

6.3定性比较

总体而言,本文创新性的利用超分辩率算法定义网络视频传输任务,目的是减少网络视频传输的带宽压力。利用内容感知特征调制模块(CaFM)结合联合训练的方式,对每个视频段对应的模型参数量进行压缩(1%)。为后续的研究者,提供了新的研究方向。

如果觉得有用,就请分享到朋友圈吧!

△点击卡片关注极市平台,获取最新CV干货

公众号后台回复“CVPR21检测”获取CVPR2021目标检测论文下载~


极市干货
深度学习环境搭建:如何配置一台深度学习工作站?
实操教程:OpenVINO2021.4+YOLOX目标检测模型测试部署为什么你的显卡利用率总是0%?
算法技巧(trick):图像分类算法优化技巧21个深度学习调参的实用技巧


CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart4)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~



觉得有用麻烦给个在看啦~  


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k