大数跨境
0
0

上篇丨视频压缩未来:端到端视频压缩?

上篇丨视频压缩未来:端到端视频压缩? 双深科技Attrsense
2025-09-15
0
导读:条件编码、特征域编码、隐式神经表示编码逐渐兴起......

背 景

一、视频数据爆炸式增长

(图源:IDC)

1ZB = 109TB

视频数据大概占其中的60-70%,甚至80%,对存储及传输造成了极大负担。

二、传统视频压缩现状

(图源:知乎)

自1984年开始,到现在大概40年的时间,传统视频压缩标准经过多次迭代,现在主流的标准大致分为三类,分别是由ITU与ISO/IEC合作开发的H.26X,国内的AVS,以及谷歌研发的AV1。

拿最近的H.264->H.265->H.266来说,基本上每一代相比于前一代压缩性能大概提升50%,但是复杂度也相应提升,因此现在各大厂商采用的压缩标准仍是H.264/H.265。

还有一个最令人头疼的问题,就是传统压缩标准继续提升性能已经陷入了一个瓶颈期。

三、端到端图像的快速发展

两种主要的端到端图像编码框架:

端到端图像压缩框架与传统图像压缩框架基本一致,都包括“变换-量化-熵编码”三部分,不同的是,变换采用非线性变换,熵编码采用基于学习的熵编码,并且可以端到端联合优化,克服了以往传统压缩方法每个组件只能单独优化的痛点。

现今,端到端图像压缩性能早已超过了VTM,而且端到端图像编码标准JPEGAI也即将发布。

是否深度学习与视频压缩结合将成为未来视频压缩的一个新方向?

端到端视频框架演变

传统视频压缩框架

相比图像来说,视频压缩重点在于时域冗余的去除。

同图像压缩框架一样,视频压缩框架每个组件都是手工设计,单独优化,无法联合优化达到全局最优。

每个组件的优化往往是牺牲时间换性能,且优化已经达到瓶颈。

2019

DVC: An End-to-end Deep Video Compression Framework [1]

端到端视频压缩开篇之作

mv压缩

运动补偿

组件分析:

  1. 变换部分:CNN + GDN
  2. 熵模型:HyperPrior
  3. 残差编码框架

主要贡献:

  1. 所有组件都采用神经网络实现
  2. 所有组件可以端到端联合优化
  3. 与传统视频压缩框架形成一个1-1映射,提供了一个视频压缩baseline

实验结果:

从结果上看,其性能在PSNRMS_SSIM超越了 相当

但是也可以看出在低能下降较为明显(低码率下时域预测质量较低)

2020

M-LVC: Multiple Frames Prediction for Learned Video Compression [2]

多帧预测

组件分析:

  1. 变换部分:CNN + GDN
  2. 熵模型:HyperPrior
  3. 残差编码框架

主要贡献:

     a.  提出了基于多帧的MV预测、运动补偿、MV refine、残差细化

     b.  提出了一个渐进式训练策略,所有模块依次训练,最后联合训练

     c.  在PSNRMS_SSIM上超过

实验结果:

Ablation:

  • 左图可以看到参考帧数提升,RD性能也随之提升,但3帧以后性能提升就不大了。

  • 右图为渐进训练的有效性,以及各种模块的有效性验证

Scale-Space Flow for End-to-End Optimized Video Compression [3]

谷歌这篇论文认为之前使用预训练的光流网络以及采用的双线性warp操作对运动补偿来说是不理想的,具体来说其给了4个理由:

  1. 光流网络是为了最小化mv预测误差,而压缩是为了码率与失真间的tradeoff
  2. 使用现存的一些光流网络对设计压缩网络增加了一些复杂度与限制
  3. 预训练的光流网络训练需要一些标签,使得训练过程复杂化
  4. 预测的光流是稠密的,warp参考帧时所有位置都要warp,不存在某一位置不warp的概念,因此在遮挡区域,残差一定较大

主要贡献:

  1. 针对上述问题,其提出了scale-space flow与warp操作
  2. 训练简单,不用预训练光流网络,直接端到端训练

组件分析:

  1. CNN + Relu
  2. 熵模型采用HyperPrior
  3. 残差编码框架

理解:

对于scale-space flow其相对于二维流场,多了一个scale维度,这个scale维度相当于对参考图像做了一系列高斯模糊,产生了逐渐模糊的参考图,即 而且这个  M是预先定义的。在压缩时,先对参考帧做高斯模糊,得到scale-space,然后使用网络预测的flow进行3D warp。如果网络预测的flow的scale维度在 之间,那么使用三线性插值方法得到最终预测的值。

实验结果:

可以看到模型在RD性能上超越了 ,与 差不多,但是也是低码率部分性能较差

总结:这一阶段,都是基于残差编码架构各个组件的优化。

2021

Deep Contextual Video Compression [4]

第一篇条件编码架构

显式残差

------------------>

隐式残差

在视频压缩中

刨除 对剩余 的压缩需要的比特 VS 知道 还有多少不确定性

组件分析:

  1. 基于CNN的压缩网络
  2. 熵模型采用了自回归熵模型(时域prior+hyperprior+spatialprior)
  3. 条件编码架构

主要贡献:

  1. 设计了条件编码架构
  2. context定义在特征域(不像以前的残差编码架构直接相减)

实验结果:

可以看到DCVC超越了之前的SOTA DVCPro,而且超越了 挡位

消融实验:

但是其使用了空域自回归,解码复杂度高

FVC: A New Framework towards Deep Video Compression in Feature Space [5]

有学者认为在像素域做mv预可能不会那么准确,尤其是在有遮挡的地方;此外运动补偿也不会那么精准导致残差较大,因此其提出在特征域内的残差编码框架。

Deformable Compensation

Deformable Convolution

Deformable Convolution的采样位置是可学习的

组件分析:

    a.  基于CNN与可形变卷积

    b.  熵模型 采用分解先验模型,残差采用hyperprior

    c.  残差编码框架

主要贡献:

  1.  全特征域的端到端压缩框架
  2. 提出使用可变形卷积得到预测feature,更加精准(感受野变大)

实验结果:

性能上超越了HEVC medium set。

消融实验:

图a可以看到,没有多帧汇聚模块以及不采用Nonlocal的影响;

图b可以看到特征域与像素域压缩对性能的影响。

可形变卷积的影响:

光流可视化:

可以看到特征域光流与像素域光流很相近,并且特征域光流得到最终重建质量更高,码率也更小。

NeRV: neural representations for videos [6]

此外,视频压缩还有一种基于隐式神经表示的一种方法,其大致原理为:将一段视频拟合为一个模型,编码传输的是这个模型的权重,解码时,解码这个模型,然后输入帧索引就可以获得相应视频帧。

总结:条件编码、特征域编码、隐式神经表示编码逐渐兴起......


参考文献:

[1] Lu G , Ouyang W , Xu D ,et al.DVC: An End-to-end Deep Video Compression Framework[J].IEEE, 2018.DOI:10.1109/CVPR.2019.01126.

[2] Lin J , Liu D , Li H ,et al.M-LVC: Multiple Frames Prediction for Learned Video Compression[J].IEEE, 2020.DOI:10.1109/CVPR42600.2020.00360.

[3] Agustsson E , Minnen D , Johnston N ,et al.Scale-Space Flow for End-to-End Optimized Video Compression[J].IEEE, 2020.DOI:10.1109/CVPR42600.2020.00853.

[4] Li J , Li B , Lu Y .Deep Contextual Video Compression[J].  2021.DOI:10.48550/arXiv.2109.15047.

[5] Hu Z , Lu G , Xu D .FVC: A New Framework towards Deep Video Compression in Feature Space[J].  2021.DOI:10.48550/arXiv.2105.09600.

[6] Hao Chen, Bo He, Hanyu Wang, Yixuan Ren, Ser-Nam Lim, and Abhinav Shrivastava. 2021. NeRV: neural representations for videos. NIPS '21. Curran Associates Inc., Red Hook, NY, USA, Article 1649, 21557-21568.



【声明】内容源于网络
0
0
双深科技Attrsense
双深科技(www.attrsense.com)致力于用AI颠覆传统编解码,让AI codec芯片装进每一个终端,让图像视频更小更清晰。
内容 39
粉丝 0
双深科技Attrsense 双深科技(www.attrsense.com)致力于用AI颠覆传统编解码,让AI codec芯片装进每一个终端,让图像视频更小更清晰。
总阅读16
粉丝0
内容39