背 景
一、视频数据爆炸式增长
(图源:IDC)
1ZB = 109TB
视频数据大概占其中的60-70%,甚至80%,对存储及传输造成了极大负担。
二、传统视频压缩现状
(图源:知乎)
自1984年开始,到现在大概40年的时间,传统视频压缩标准经过多次迭代,现在主流的标准大致分为三类,分别是由ITU与ISO/IEC合作开发的H.26X,国内的AVS,以及谷歌研发的AV1。
拿最近的H.264->H.265->H.266来说,基本上每一代相比于前一代压缩性能大概提升50%,但是复杂度也相应提升,因此现在各大厂商采用的压缩标准仍是H.264/H.265。
还有一个最令人头疼的问题,就是传统压缩标准继续提升性能已经陷入了一个瓶颈期。
三、端到端图像的快速发展
两种主要的端到端图像编码框架:
端到端图像压缩框架与传统图像压缩框架基本一致,都包括“变换-量化-熵编码”三部分,不同的是,变换采用非线性变换,熵编码采用基于学习的熵编码,并且可以端到端联合优化,克服了以往传统压缩方法每个组件只能单独优化的痛点。
现今,端到端图像压缩性能早已超过了VTM,而且端到端图像编码标准JPEGAI也即将发布。
端到端视频框架演变
传统视频压缩框架
相比图像来说,视频压缩重点在于时域冗余的去除。
同图像压缩框架一样,视频压缩框架每个组件都是手工设计,单独优化,无法联合优化达到全局最优。
每个组件的优化往往是牺牲时间换性能,且优化已经达到瓶颈。
2019
DVC: An End-to-end Deep Video Compression Framework [1]
端到端视频压缩开篇之作
mv压缩
运动补偿
组件分析:
-
变换部分:CNN + GDN -
熵模型:HyperPrior -
残差编码框架
主要贡献:
-
所有组件都采用神经网络实现 -
所有组件可以端到端联合优化 -
与传统视频压缩框架形成一个1-1映射,提供了一个视频压缩baseline
实验结果:
从结果上看,其性能在PSNR与MS_SSIM上超越了 ,与 相当。
但是也可以看出在低码率下性能下降较为明显(低码率下时域预测质量较低)。
2020
M-LVC: Multiple Frames Prediction for Learned Video Compression [2]
多帧预测
组件分析:
-
变换部分:CNN + GDN -
熵模型:HyperPrior -
残差编码框架
主要贡献:
a. 提出了基于多帧的MV预测、运动补偿、MV refine、残差细化
b. 提出了一个渐进式训练策略,所有模块依次训练,最后联合训练
c. 在PSNR与MS_SSIM上超过
实验结果:
Ablation:
左图可以看到参考帧数提升,RD性能也随之提升,但3帧以后性能提升就不大了。
右图为渐进训练的有效性,以及各种模块的有效性验证
谷歌这篇论文认为之前使用预训练的光流网络以及采用的双线性warp操作对运动补偿来说是不理想的,具体来说其给了4个理由:
-
光流网络是为了最小化mv预测误差,而压缩是为了码率与失真间的tradeoff -
使用现存的一些光流网络对设计压缩网络增加了一些复杂度与限制 -
预训练的光流网络训练需要一些标签,使得训练过程复杂化 -
预测的光流是稠密的,warp参考帧时所有位置都要warp,不存在某一位置不warp的概念,因此在遮挡区域,残差一定较大
主要贡献:
-
针对上述问题,其提出了scale-space flow与warp操作 -
训练简单,不用预训练光流网络,直接端到端训练
组件分析:
-
CNN + Relu -
熵模型采用HyperPrior -
残差编码框架
理解:
对于scale-space flow其相对于二维流场,多了一个scale维度,这个scale维度相当于对参考图像做了一系列高斯模糊,产生了逐渐模糊的参考图,即 ,而且这个 , M是预先定义的。在压缩时,先对参考帧做高斯模糊,得到scale-space,然后使用网络预测的flow进行3D warp。如果网络预测的flow的scale维度在 之间,那么使用三线性插值方法得到最终预测的值。
实验结果:
可以看到模型在RD性能上超越了 ,与 差不多,但是也是低码率部分性能较差
总结:这一阶段,都是基于残差编码架构各个组件的优化。
2021
Deep Contextual Video Compression [4]
第一篇条件编码架构
显式残差
------------------>
隐式残差
在视频压缩中
刨除 ,对剩余 的压缩需要的比特 VS 知道 , 还有多少不确定性
组件分析:
-
基于CNN的压缩网络 -
熵模型采用了自回归熵模型(时域prior+hyperprior+spatialprior) -
条件编码架构
主要贡献:
-
设计了条件编码架构 -
context定义在特征域(不像以前的残差编码架构直接相减)
实验结果:
可以看到DCVC超越了之前的SOTA DVCPro,而且超越了 挡位
消融实验:
但是其使用了空域自回归,解码复杂度高
FVC: A New Framework towards Deep Video Compression in Feature Space [5]
有学者认为在像素域做mv预测可能不会那么准确,尤其是在有遮挡的地方;此外运动补偿也不会那么精准导致残差较大,因此其提出在特征域内的残差编码框架。
Deformable Compensation
Deformable Convolution
Deformable Convolution的采样位置是可学习的
组件分析:
a. 基于CNN与可形变卷积
b. 熵模型: 采用分解先验模型,残差采用hyperprior
c. 残差编码框架
主要贡献:
-
全特征域的端到端压缩框架 -
提出使用可变形卷积得到预测feature,更加精准(感受野变大)
实验结果:
性能上超越了HEVC medium set。
消融实验:
图a可以看到,没有多帧汇聚模块以及不采用Nonlocal的影响;
图b可以看到特征域与像素域压缩对性能的影响。
可形变卷积的影响:
光流可视化:
可以看到特征域光流与像素域光流很相近,并且特征域光流得到最终重建质量更高,码率也更小。
NeRV: neural representations for videos [6]
此外,视频压缩还有一种基于隐式神经表示的一种方法,其大致原理为:将一段视频拟合为一个模型,编码传输的是这个模型的权重,解码时,解码这个模型,然后输入帧索引就可以获得相应视频帧。
总结:条件编码、特征域编码、隐式神经表示编码逐渐兴起......
参考文献:
[1] Lu G , Ouyang W , Xu D ,et al.DVC: An End-to-end Deep Video Compression Framework[J].IEEE, 2018.DOI:10.1109/CVPR.2019.01126.
[2] Lin J , Liu D , Li H ,et al.M-LVC: Multiple Frames Prediction for Learned Video Compression[J].IEEE, 2020.DOI:10.1109/CVPR42600.2020.00360.
[3] Agustsson E , Minnen D , Johnston N ,et al.Scale-Space Flow for End-to-End Optimized Video Compression[J].IEEE, 2020.DOI:10.1109/CVPR42600.2020.00853.
[4] Li J , Li B , Lu Y .Deep Contextual Video Compression[J]. 2021.DOI:10.48550/arXiv.2109.15047.
[5] Hu Z , Lu G , Xu D .FVC: A New Framework towards Deep Video Compression in Feature Space[J]. 2021.DOI:10.48550/arXiv.2105.09600.
[6] Hao Chen, Bo He, Hanyu Wang, Yixuan Ren, Ser-Nam Lim, and Abhinav Shrivastava. 2021. NeRV: neural representations for videos. NIPS '21. Curran Associates Inc., Red Hook, NY, USA, Article 1649, 21557-21568.

