

IRPO重磅发布：数据与奖励双驱动，低级图像复原迈入“感知对齐”新纪元！

我爱计算机视觉

2025-12-02

导读：IRPO突破传统IR瓶颈，让图像更美、更真！

最近，图像复原（IR）领域迎来了一个令人振奋的新进展！来自香港科技大学、清华大学、腾讯以及新加坡国立大学的研究人员联合提出了一种名为 IRPO 的全新范式，它通过后训练（Post-training）结合GRPO（Group-normalized Policy Optimization，一种策略优化算法）机制，显著提升了图像复原的效果和泛化能力。你可能好奇，IRPO具体是做什么的呢？简单来说，IRPO（Image Restoration via Post-training GRPO）旨在解决传统图像复原方法在处理复杂退化图像时容易出现过度平滑、泛化能力差的问题，让复原后的图像不仅在客观指标上表现出色，更能符合我们人类的视觉感知偏好。

论文标题: IRPO: Boosting Image Restoration via Post-training GRPO
作者: Haoxuan Xu. Yi Liu, Boyuan Jiang, Jinlong Peng, Donghao Luo, Xiaobin Hu, Shuicheng Yan, Haoang Li
机构: 香港科技大学（广州）, 清华大学, 腾讯优图, 新加坡国立大学
论文地址: https://arxiv.org/abs/2512.00814
项目地址: https://github.com/HaoxuanXU1024/IRPO

研究背景与动机：为什么传统IR方法不够“好”？

在图像复原领域，我们经常会遇到图像模糊、有噪点、被雨雾遮挡、或者在低光环境下拍摄不清晰等问题。传统的图像复原方法通常通过像素级的硬拟合（pixel-level hard-fitting）来让复原图像接近真实的无损图像。这种方法虽然在很多情况下表现不错，但它有几个明显的短板：

过度平滑（Over-smoothing）: 像素级损失函数（如L1/L2损失）倾向于找到平均解，这往往导致复原后的图像丢失细节，看起来模糊或“假”。
泛化能力差（Poor Generalization）: 模型在训练数据上表现良好，但面对实际应用中各种复杂多变的图像退化类型（Out-of-Domain, OOD），效果会大打折扣。生成任务的“后训练”范式，已经在高层级任务（如图像生成）中取得了巨大成功，但其在低层级视觉任务（如图像复原）中的潜力却鲜有探索。IRPO的提出正是为了将这种成功的经验引入到图像复原中，致力于让复原图像既准确又符合人类感知。

IRPO的核心思想：数据与奖励的双重策略

IRPO的核心在于其独特的后训练GRPO范式，它巧妙地结合了“数据导向”和“奖励导向”两大支柱。这个方法就像是一个经验丰富的老师，不仅知道该教哪些“难点”知识（数据导向），还知道如何通过多维度奖励来激发学生潜力，让他们学得更好、更有创造力（奖励导向）。

正如这幅图所示，它清晰地展示了IRPO后训练范式的概览及其卓越的性能。左侧的雷达图直观地比较了平均PSNR，强调了IRPO在域内（In-Domain）任务中达到了SOTA（State-of-the-Art）性能，并在域外（Out-of-Domain）泛化方面表现出更显著的优越性。右侧则揭示了该范式的两大支柱：数据导向和奖励导向。数据导向表明，对30%的“弱数据”（即模型之前表现不佳的子集）进行训练，能够实现最佳性能。而奖励导向则通过我们设计的奖励组件，极大地提升了模型的学习效率和最终效果。

这幅图进一步细化了IRPO后训练范式，将两大支柱的运作机制可视化。左侧的数据导向部分展现了预训练模型如何评估整个数据集，从而筛选出用于后训练的“难样本”数据集。右侧的奖励导向部分，则展示了一个多组件的奖励模型（包括通用奖励、专家奖励、任务感知奖励），它为策略的训练提供了关键信号。通过这种方式，图像复原网络能够更有针对性地修复这些“难样本”数据，甚至包含了GDM（GRPO-Driven Model）模块。

数据导向：专攻“疑难杂症”

IRPO的数据导向核心在于“选择性学习”。研究发现，并非所有训练数据都对后训练同样重要。模型在预训练阶段表现不佳的那些“难样本”（underperforming samples）才是提升泛化能力的关键。

难样本筛选: IRPO通过预训练模型评估整个数据集，然后筛选出其中表现最差的 30% 作为后训练的“难样本”数据集。这种策略能够让模型更专注于解决它之前没学好的问题，从而大大提高训练效率和效果。
可微监督: 对这些难样本，，IRPO 使用了两种可微损失进行优化：

监督损失（）: 传统的L1损失，确保复原图像在像素层面上接近真实图像。其数学表达式为：

其中是复原图像，是真实（ground-truth）图像。
一致性损失（）: 保证策略的随机输出与确定性输出之间的一致性，增强模型稳定性。其数学表达式为：

奖励导向：让复原更懂“人眼”

为了让复原图像不仅仅是“像”，更是要“好看”，符合人类的感知习惯，IRPO引入了多组件奖励模型，并通过GRPO（Group-normalized Policy Optimization）算法进行优化。由于这些感知奖励是不可微的，传统的梯度下降无法直接优化，因此策略梯度方法GRPO就显得尤为重要。

综合奖励信号由以下三部分组成：

其中是复原图像，是真实图像，是平衡超参数。

通用质量奖励（Generic Quality Reward, ）

这是一个综合性的奖励，它结合了多种感知指标，如LPIPS（Learned Perceptual Image Patch Similarity）、CLIP相似度（CLIP similarity）和美学评分（Aesthetic score），以及传统的PSNR和SSIM。这个奖励确保了复原图像在结构保真度、内容相似性和整体美感上都有良好的基础。它的数学表达式为：

其中是CLIP相似度，是归一化的LPIPS感知得分，是来自预训练预测器的归一化美学得分，是映射到的PSNR得分，是标准SSIM得分。

专家偏好奖励（Expert Preference Reward, ）

这是一个非常有趣的创新点！IRPO利用多模态大模型 Qwen-VL 作为“专家评委”，对复原图像进行1到5分的感知质量评分。这相当于引入了一个能理解人类复杂视觉偏好的“智能大脑”，引导模型生成更符合人眼审美、更自然的图像。

任务感知奖励（Task-Aware Reward, ）

针对不同的图像退化任务（如去噪、去雨、去雾等），IRPO设计了专门的启发式奖励。

去噪：通过梯度一致性来衡量，避免过度平滑，保留纹理和边缘。

其中是真实图像梯度幅值的平均值，是复原图像与真实图像梯度幅值偏差的平均值。
去雨：通过各向异性一致性来衡量，因为雨条纹是各向异性的，去雨后图像应恢复自然各向同性。

其中是归一化各向异性指标。
去雾：通过对比度接近度来衡量，确保图像对比度恢复到真实水平。

其中是图像对比度的代理，是复原图像对比度，是真实图像对比度。
去模糊：通过清晰度接近度来衡量，恢复图像的细节和锐利度。

其中是图像清晰度的代理，是复原图像清晰度，是真实图像清晰度。
低光照增强：通过曝光与色彩一致性来衡量，平衡亮度和颜色，避免偏色。

其中是复原图像与真实图像亮度均值的差值，是通道均值偏差之和。

最终，IRPO通过一个混合目标函数，将数据导向的可微损失与奖励导向的GRPO策略优化相结合，在筛选出的难样本数据集上进行联合优化。这使得模型既能学习到像素级的准确性，又能兼顾人类的感知偏好。

其中是GRPO的强化学习目标函数。

实验结果：显著超越SOTA，泛化能力尤其惊艳！

研究团队在多个基准测试上对IRPO进行了全面评估，结果非常亮眼！

域内（In-Domain）任务表现

在单任务复原上，IRPO在去雾、去雨、去噪三项核心任务上均实现了新的SOTA。例如，在去雾任务上，IRPO比PromptIR高出 1.0 dB，在去雨任务上更是高出 2.34 dB。在处理挑战性的Urban100数据集（）上的去噪任务时，IRPO也取得了 0.37 dB 的显著提升，展现了其对重度退化的强大鲁棒性。

这表格展示了单任务复原的对比结果，包括去雾、去雨和去噪。每一项任务都独立训练模型。结果显示，IRPO在所有三个基准上都取得了新的SOTA性能。

在更复杂的“五种退化类型一体化复原”（all-in-one restoration）任务中，IRPO依然表现出色，在所有五种任务上都达到了SOTA。相较于强劲的基线模型AdaIR，IRPO实现了 0.83 dB 的平均PSNR提升，特别是在低光照增强（+1.08 dB）和去噪（+0.78 dB）任务上提升显著。

这个表格对比了五种退化类型的一体化复原性能。其中去噪结果报告的是噪声水平的情况。可以看到，IRPO模型比基线AdaIR取得了显著的平均 0.83 dB 增益。

域外（Out-of-Domain, OOD）泛化能力

这才是IRPO最令人惊艳的地方！在OOD真实世界测试集上，IRPO展现出强大的泛化能力，平均PSNR比基线AdaIR提升了惊人的 3.43 dB！尤其是在低光照增强任务中，提升高达 6.47 dB，在去噪任务中提升 4.35 dB。这充分证明了IRPO能够有效地摆脱像素级损失的束缚，学习到更具通用性的复原策略，更好地适应现实世界中复杂的图像退化。

此表格展示了在域外（OOD）真实世界测试集上的定量比较，涵盖了去雾、去雨、去噪、去模糊和低光照增强任务。IRPO在此类数据上展示出显著的泛化增益，相较于强基线AdaIR，平均PSNR提升了 2.53 dB。

视觉效果方面，IRPO在真实世界数据集上的表现也更胜一筹。

这幅图提供了真实世界数据集上的视觉比较，从上到下依次是去模糊、去雾、去噪、去雨和低光照增强的例子。

消融实验：每个组件都至关重要

研究团队还通过消融实验验证了IRPO各个组件的有效性。

数据选择策略: 实验表明，在后训练时使用模型之前表现最差的 30% 样本（“弱数据”）是效率和效果的最佳平衡点。
奖励组件: 通用质量奖励( )、专家偏好奖励( )和任务感知奖励( )都对最终性能提升有显著贡献。缺少任何一个组件都会导致性能下降，这说明了多组件奖励设计的必要性。

Table 4. Ablation study on the reward components. We compare the Baseline (AdaIR) with models post-trained by adding each of our three reward components (Rgen, Rqwen, Rtask) individually.

此表格是关于奖励组件的消融研究。它比较了基线模型（AdaIR）以及单独添加我们三个奖励组件（、、）后的后训练模型。

GRPO组大小（G）: 在五任务一体化复原基准上，当GRPO的组大小G设定为 4 时，在性能和计算成本之间取得了最佳的权衡。

Table 5. Ablation study on the GRPO group size (G). Performance is measured by average PSNR (dB) on the all-in-one 5-task benchmark. G = 4 provides the optimal trade-off between performance and computational cost.

此表格是关于GRPO组大小（G）的消融研究。性能以五任务一体化基准上的平均PSNR（dB）衡量。结果显示，G = 4 在性能和计算成本之间提供了最佳权衡。

训练稳定性: 实验中的训练曲线也表明，总损失平稳收敛，奖励均值稳定提升并达到高平台，这证明了策略有效地学习了优化奖励目标，整个训练过程是稳定且有效的。

Figure 6. Training curves for our IRPO post-training (mean and std. dev. over 30 epoch). (Left) The Total loss (Ltotal) smoothly converges, demonstrating training stability. (Right) The reward mean steadily increases and converges to a high plateau, proving the policy is effectively learning to optimize our reward objectives.

该图展示了IRPO后训练的训练曲线（30个epoch的平均值和标准差）。左侧的总损失（）平稳收敛，表明训练稳定。右侧的奖励平均值稳步增加并收敛到高平台，证明策略有效地学习了优化奖励目标。

总结与展望

IRPO为低级图像复原任务带来了全新的视角和解决方案。它通过将数据选择与多维度奖励建模相结合，不仅在多种图像退化任务中刷新了SOTA，更重要的是，显著提升了模型在未见真实世界数据上的泛化能力，让复原图像更加真实、自然，也更符合人类的视觉感知。这种将感知对齐引入低级视觉任务的思路，无疑为未来的图像复原研究打开了新的大门。

大家对这个方法怎么看？你觉得这个技术未来会用在哪些场景？欢迎在评论区留下你的看法！

【声明】内容源于网络

我爱计算机视觉

探寻CV新知，发现AI价值

内容 3637

粉丝 0

我爱计算机视觉探寻CV新知，发现AI价值

总阅读612

粉丝0

内容3.6k