一、Good,Cheap,and Fast: Overfitted Image Compression with Wasserstein Distortion [1]
这篇文章提出使用Wassertein Distortion (WD) 损失来提升图像的主观效果,基于这个优化的效果能够达到 和 人类评分 Elo scores 94% 的相关性。
Q
什么是Wassertein Distance loss?
Wasserstein距离,也称为Earth Mover’s Distance (EMD),源于最优传输理论(Optimal Transport Theory),用来衡量两个概率分布之间的“距离”。
直观理解:假设你有两堆“土”(两个概率分布),Wasserstein 距离表示:
把一堆土变成另一堆土,最少需要搬运多少“土量 × 距离”。
因此,它不仅关注两个分布的“差异”,还考虑“搬运路径”,比KL散度指标更具空间意义。
对于高斯分布,Wassertein distance 定义为:
对于两个一维高斯分布:
它们之间的 Wasserstein距离为:
01
损失计算
其中显示很具不同的下采样程度计算出各个尺寸feature map 的 统计数据, 然后再根据 saliency map(显著性图) 得到的权重乘 每个尺寸的feature map 的 local WD 损失 后相加得到最终的 WD loss。
02
saliency map 选择
saliency feature 指的是在人眼看来最容易被注意、最重要的区域或特征,比如图像中最亮的部分、对比度最高的边缘、前景目标等。
作者引用了一个计算 sliency map 的 网络(EML-net)来得到权重。
可以看到,增加显著性图权重的loss, 不仅在文字重建上得到提升,而且在手指纹路细节层面重建的更好。
03
损失对比
其中CR 是在解码器和编码器使用了相同的随机种子,WDS表示的是使用网络生成的saliency map,WD8 表示把 σ map 设为 常数值8。
其中PCC 是两个分数序列的相关性,SRCC 关注排名的一致性。
二、Controlling Rate, Distortion, and Realism: Towards a Single Comprehensive Neural Image Compression Model [2]
本文通过提出一个新的对抗损失以及网络设计得到可以在一个模型内实现对码率, 失真 和 感知 的控制, 并且能达到sota 的压缩效果和较宽的码率范围。
01
整体框架
其中q和β分别用来控制quality和主观程度,q通过 ICA 模块进行控制,β则通过经过傅里叶变换和线性层变换后注入到残差块中。
02
Higher Rate Relativistic GAN loss 设计
文章是基于(RaGAN)Relativistic average GAN进行改进的:
首先,作者去掉了原本的对真实图像的 average(右上),这一步是因为在unconditional GAN 求均值是必要的,因为真图与假图没有什么关系, 但是在图像压缩中假图是真图的重建,所以在这里去除了average 得到了RGAN:
其次,作者发现 RGAN 得到的图片现实度甚至会超过原图, 这会给图像压缩一个过大的惩罚项, 导致整体的压缩效果变差,因此为了解决这个问题,作者使用不同的quality 参数来做对抗损失:
03
训练阶段
第一阶段:
第二阶段:
04
实验结果
相比于之前的sota, 不仅能达到更广范围的控制,且能达到差不多的BD-rate。
消融实验:
引用:
[1]. Ballé J, Versari L, Dupont E, et al. Good, cheap, and fast: Overfitted image compression with Wasserstein distortion[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 23259-23268.
[2]. Iwai S, Miyazaki T, Omachi S. Controlling rate, distortion, and realism: Towards a single comprehensive neural image compression model[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2024: 2900-2909.

