2022
Temporal Context Mining for Learned Video Compression [1]
DCVC系列第二篇
动机:之前的DCVC采用了单一尺度的context,而且是从warp后的三通道的预测帧(已经损失了纹理)中提取的上下文,因此context质量不高,因此这篇文章采用了多尺度特征提取,框架如下:
框架分析:
-
条件编码架构 -
TCM + TCR -
传递的是像素帧与feature
主要贡献:
-
TCM + TCR -
PSNR指标上超越了HM参考软件与VTM单帧参考 -
尝试了更长GOP测试(32帧,以前是12帧/10帧)
实验结果:
其处理一张图片大概2.9TMACs
消融实验:
AlphaVC: High-Performance and Efficient Learned Video Compression [2]
动机:为了解决误差传播问题以及之前残差编码框架中mv预测不准确的问题
框架分析:
-
采用残差编码架构 -
特征域压缩,引入了条件I帧架构,对于P帧,参考帧用于残差压缩,对于条件I帧,参考帧则用于那一帧的熵建模 -
像素到feature的运动预测
主要贡献:
-
引入了条件I帧,可以节省I帧码率与减少误差传播 -
像素到feature的运动预测使得运动预测更准确 -
一种熵跳过方案被提出(可以使编解码更快) -
性能超过VTM单帧参考方案,比TCM强
实验结果:
Hybrid Spatial-Temporal Entropy Modelling for Neural Video Compression(DCVC系列第三篇)[3]
动机:提升熵模型,同时实现网络自适应QP实现可变码率模型
框架组成:TCM + 空域先验+可变码率
是第一个超过VTM最高配置(多帧参考)的模型,且能实现可变码率。
MobileCodec: Neural Inter-frame Video Compression on Mobile Devices(高通)[4]
第一个实现端到端视频端上部署的工作
主要技巧:
-
Flow-Agnostic Motion Compensation -
非对称的编解码器,解码器偏小,以便于减少解码复杂度 -
通道级别的QAT -
并行熵编码(多线程)
2023
Neural Video Compression with Diverse Contexts [5]
DCVC系列第四篇
既然HEM已经验证了添加空域先验有效,这篇论文使用更多的context来进一步提升压缩性能。
框架:
条件编码 + 四叉树+ group-based offset diversity TCM(相当于在HEM的进一步提升)+Hierarchical Quality Structure(每一帧有一个weight)
贡献:
第一个超越ECM的视频压缩模型(无论是RGB空间还是YUV空间),标志着端到端视频压缩模型在RD性能上已经超过了传统最先进的方法
消融实验:
总结:端到端视频编码性能大幅提升的两年,在RD性能上现已超过传统方法。
2024
Neural Video Compression with Feature Modulation [6]
DCVC系列第五篇
框架
f_frame
这篇文章的提出是为了解决现有模型长序列测试性能下降明显的问题,具体解决方案:
a
特征调制,使得一个模型可以兼顾多个码率点,且码率范围较大
b
长的预测链,提出了一个周期性的refresh机制,每隔一段时间就从前一帧的重建帧中提取特征。
c
长序列训练,简单而特别有效
最终,FM成为一个可以测试帧内期为-1的模型,且性能超越DCVC-DC。而且FM提出使用YUV-RGB混合loss成为一个模型就可以测试YUV与RGB。
消融实验:
MobileNVC: Real-time 1080p Neural Video Compression on a Mobile Device [7]
实现1080P视频实时编解码(性能不那么好)
框架分析:
-
残差编码框架 -
基于重叠块的warp(减少块效应与减少warp开销) -
并行pipeline + entropy skip
实验性能:
1080P视频在8 Gen2上可实现38.9FPS
总结:针对解决于端到端视频编码的其他问题(落地&误差传播问题)
2025
Towards Practical Real-Time Neural Video Compression [8]
DCVC系列第六篇
为了实现视频编码落地而实现的
how?
1、显示运动转换为隐式运动
2、低分辨率表示学习
采用1/8下采样的低分辨率特征当作压缩特征,实现复杂度显著下降
其框架:
实验性能:
消融实验:
隐式建模vs显示建模
低分辨率表示
两篇提升性能的文章,有兴趣的读者可以阅读了解:
1
Neural Video Compression with Context Modulation [9]
2
ECVC: Exploiting Non-Local Correlations in Multiple Frames for Contextual Video Compression(字节)[10]
提出一种训练策略,减少资源消耗。
智能编码标准
EEM: E2E video codec Exploration Model platform
EEM标准是AVS视频组正在制定的一个智能视频编码标准,其从2023年开始制定,到现在为止,已经更新了6个版本。
其框架为:
性能:
当前对于端到端视频压缩的研究正如火如荼的开展中,虽然不知道视频压缩的未来是否一定是端到端压缩,但是不可否认的是,端到端视频压缩必将在视频压缩的发展史上留下浓墨重彩的一笔。
推荐阅读:The Future of Video Coding
参考文献:
[1] X. Sheng, J. Li, B. Li, L. Li, D. Liu and Y. Lu, "Temporal Context Mining for Learned Video Compression," in TMM, vol. 25, pp. 7311-7322, 2023, doi: 10.1109/TMM.2022.3220421
[2] Yibo Shi, Yunying Ge, Jing Wang, and Jue Mao. 2022. AlphaVC: High-Performance and Efficient Learned Video Compression. In Computer Vision – ECCV 2022
[3] Jiahao Li, Bin Li, and Yan Lu. 2022. Hybrid Spatial-Temporal Entropy Modelling for Neural Video Compression. In Proceedings of the 30th ACM International Conference on Multimedia (MM '22). Association for Computing Machinery, New York, NY, USA, 1503–1511. https://doi.org/10.1145/3503161.3547845
[4] Hoang Le, Liang Zhang, Amir Said, Guillaume Sautiere, Yang Yang, Pranav Shrestha, Fei Yin, Reza Pourreza, and Auke Wiggers. 2022. MobileCodec: neural inter-frame video compression on mobile devices. In Proceedings of the 13th ACM Multimedia Systems Conference (MMSys '22). Association for Computing Machinery, New York, NY, USA, 324–330. https://doi.org/10.1145/3524273.3532906
[5] Li, Jiahao et al. “Neural Video Compression with Diverse Contexts.” CVPR (2023): 22616-22626.
[6] Li, Jiahao et al. “Neural Video Compression with Feature Modulation.” CVPR (2024): 26099-26108.
[7] Rozendaal, Ties van et al. “MobileNVC: Real-time 1080p Neural Video Compression on a Mobile Device.” WACV (2023): 4311-4321.
[8] Jia, Zhaoyang et al. “Towards Practical Real-Time Neural Video Compression.” 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2025): 12543-12552.
[9] Tang, Chuanbo et al. “Neural Video Compression with Context Modulation.” 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)(2025): 12553-12563.
[10] Jiang, Wei et al. “ECVC: Exploiting Non-Local Correlations in Multiple Frames for Contextual Video Compression.” 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)(2024): 7331-7341.

