

上篇丨视频压缩未来：端到端视频压缩？

双深科技Attrsense

2025-09-15

导读：条件编码、特征域编码、隐式神经表示编码逐渐兴起......

背景

一、视频数据爆炸式增长

（图源：IDC）

1ZB = 10⁹TB

视频数据大概占其中的60-70%，甚至80%，对存储及传输造成了极大负担。

二、传统视频压缩现状

（图源：知乎）

自1984年开始，到现在大概40年的时间，传统视频压缩标准经过多次迭代，现在主流的标准大致分为三类，分别是由ITU与ISO/IEC合作开发的H.26X，国内的AVS，以及谷歌研发的AV1。

拿最近的H.264->H.265->H.266来说，基本上每一代相比于前一代压缩性能大概提升50%，但是复杂度也相应提升，因此现在各大厂商采用的压缩标准仍是H.264/H.265。

还有一个最令人头疼的问题，就是传统压缩标准继续提升性能已经陷入了一个瓶颈期。

三、端到端图像的快速发展

两种主要的端到端图像编码框架：

端到端图像压缩框架与传统图像压缩框架基本一致，都包括“变换-量化-熵编码”三部分，不同的是，变换采用非线性变换，熵编码采用基于学习的熵编码，并且可以端到端联合优化，克服了以往传统压缩方法每个组件只能单独优化的痛点。

现今，端到端图像压缩性能早已超过了VTM，而且端到端图像编码标准JPEGAI也即将发布。

是否深度学习与视频压缩结合将成为未来视频压缩的一个新方向？

端到端视频框架演变

传统视频压缩框架

相比图像来说，视频压缩重点在于时域冗余的去除。

同图像压缩框架一样，视频压缩框架每个组件都是手工设计，单独优化，无法联合优化达到全局最优。

每个组件的优化往往是牺牲时间换性能，且优化已经达到瓶颈。

2019

DVC: An End-to-end Deep Video Compression Framework [1]

端到端视频压缩开篇之作

mv压缩

运动补偿

组件分析：

变换部分：CNN + GDN
熵模型：HyperPrior
残差编码框架

主要贡献：

所有组件都采用神经网络实现
所有组件可以端到端联合优化
与传统视频压缩框架形成一个1-1映射，提供了一个视频压缩baseline

实验结果：

从结果上看，其性能在PSNR与MS_SSIM上超越了，与相当。

但是也可以看出在低码率下性能下降较为明显（低码率下时域预测质量较低）。

2020

M-LVC: Multiple Frames Prediction for Learned Video Compression [2]

多帧预测

组件分析：

变换部分：CNN + GDN
熵模型：HyperPrior
残差编码框架

主要贡献：

a. 提出了基于多帧的MV预测、运动补偿、MV refine、残差细化

b. 提出了一个渐进式训练策略，所有模块依次训练，最后联合训练

c. 在PSNR与MS_SSIM上超过

实验结果：

Ablation:

左图可以看到参考帧数提升，RD性能也随之提升，但3帧以后性能提升就不大了。

右图为渐进训练的有效性，以及各种模块的有效性验证

Scale-Space Flow for End-to-End Optimized Video Compression [3]

谷歌这篇论文认为之前使用预训练的光流网络以及采用的双线性warp操作对运动补偿来说是不理想的，具体来说其给了4个理由：

光流网络是为了最小化mv预测误差，而压缩是为了码率与失真间的tradeoff
使用现存的一些光流网络对设计压缩网络增加了一些复杂度与限制
预训练的光流网络训练需要一些标签，使得训练过程复杂化
预测的光流是稠密的，warp参考帧时所有位置都要warp，不存在某一位置不warp的概念，因此在遮挡区域，残差一定较大

主要贡献：

针对上述问题，其提出了scale-space flow与warp操作
训练简单，不用预训练光流网络，直接端到端训练

组件分析：

CNN + Relu
熵模型采用HyperPrior
残差编码框架

理解：

对于scale-space flow其相对于二维流场，多了一个scale维度，这个scale维度相当于对参考图像做了一系列高斯模糊，产生了逐渐模糊的参考图，即，而且这个， M是预先定义的。在压缩时，先对参考帧做高斯模糊，得到scale-space，然后使用网络预测的flow进行3D warp。如果网络预测的flow的scale维度在之间，那么使用三线性插值方法得到最终预测的值。

实验结果：

可以看到模型在RD性能上超越了 ,与差不多，但是也是低码率部分性能较差

总结：这一阶段，都是基于残差编码架构各个组件的优化。

2021

Deep Contextual Video Compression [4]

第一篇条件编码架构

显式残差

------------------>

隐式残差

在视频压缩中

刨除，对剩余的压缩需要的比特 VS 知道，还有多少不确定性

组件分析：

基于CNN的压缩网络
熵模型采用了自回归熵模型（时域prior+hyperprior+spatialprior）
条件编码架构

主要贡献：

设计了条件编码架构
context定义在特征域（不像以前的残差编码架构直接相减）

实验结果：

可以看到DCVC超越了之前的SOTA DVCPro，而且超越了挡位

消融实验:

但是其使用了空域自回归，解码复杂度高

FVC: A New Framework towards Deep Video Compression in Feature Space [5]

有学者认为在像素域做mv预测可能不会那么准确，尤其是在有遮挡的地方；此外运动补偿也不会那么精准导致残差较大，因此其提出在特征域内的残差编码框架。

Deformable Compensation

Deformable Convolution

Deformable Convolution的采样位置是可学习的

组件分析：

a. 基于CNN与可形变卷积

b. 熵模型：采用分解先验模型，残差采用hyperprior

c. 残差编码框架

主要贡献：

全特征域的端到端压缩框架
提出使用可变形卷积得到预测feature，更加精准（感受野变大）

实验结果：

性能上超越了HEVC medium set。

消融实验：

图a可以看到，没有多帧汇聚模块以及不采用Nonlocal的影响；

图b可以看到特征域与像素域压缩对性能的影响。

可形变卷积的影响：

光流可视化：

可以看到特征域光流与像素域光流很相近，并且特征域光流得到最终重建质量更高，码率也更小。

NeRV: neural representations for videos [6]

此外，视频压缩还有一种基于隐式神经表示的一种方法，其大致原理为：将一段视频拟合为一个模型，编码传输的是这个模型的权重，解码时，解码这个模型，然后输入帧索引就可以获得相应视频帧。

总结：条件编码、特征域编码、隐式神经表示编码逐渐兴起......

参考文献：

[1] Lu G , Ouyang W , Xu D ,et al.DVC: An End-to-end Deep Video Compression Framework[J].IEEE, 2018.DOI:10.1109/CVPR.2019.01126.

[2] Lin J , Liu D , Li H ,et al.M-LVC: Multiple Frames Prediction for Learned Video Compression[J].IEEE, 2020.DOI:10.1109/CVPR42600.2020.00360.

[3] Agustsson E , Minnen D , Johnston N ,et al.Scale-Space Flow for End-to-End Optimized Video Compression[J].IEEE, 2020.DOI:10.1109/CVPR42600.2020.00853.

[4] Li J , Li B , Lu Y .Deep Contextual Video Compression[J]. 2021.DOI:10.48550/arXiv.2109.15047.

[5] Hu Z , Lu G , Xu D .FVC: A New Framework towards Deep Video Compression in Feature Space[J]. 2021.DOI:10.48550/arXiv.2105.09600.

[6] Hao Chen, Bo He, Hanyu Wang, Yixuan Ren, Ser-Nam Lim, and Abhinav Shrivastava. 2021. NeRV: neural representations for videos. NIPS '21. Curran Associates Inc., Red Hook, NY, USA, Article 1649, 21557-21568.

【声明】内容源于网络

双深科技Attrsense

双深科技(www.attrsense.com)致力于用AI颠覆传统编解码，让AI codec芯片装进每一个终端，让图像视频更小更清晰。

内容 39

粉丝 0

双深科技Attrsense 双深科技(www.attrsense.com)致力于用AI颠覆传统编解码，让AI codec芯片装进每一个终端，让图像视频更小更清晰。

总阅读16

粉丝0

内容39