在图像生成领域,偏好优化的目标是让模型更好地符合人类的审美标准。传统的偏好优化方法通常依赖视觉-语言模型(VLMs)作为像素级的奖励模型对生成图像进行打分,并通过强化学习或对比学习方式进行微调。然而,像素级奖励模型应用于步骤级(step-aware)的偏好优化时,其对高噪声图像不鲁邦,导致后续强化学习效果差。
论文标题:Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization
论文链接:https://arxiv.org/abs/2502.01051
代码链接:https://github.com/Kwai-Kolors/LPO/tree/main
随着 Stable Diffusion、SDXL 等模型的广泛应用,如何使其生成结果更符合人类审美与语义偏好,成为图像生成研究的关键方向。当前主流方法主要依赖像素级奖励模型(Pixel-level Reward Models, PRMs),如 CLIP、PickScore 等,通过打分机制引导模型优化。
然而,这类方法在步骤级偏好优化(step-level preference optimization)中存在以下问题:
1. 复杂推理链路:每一步都需还原图像,涉及扩散逆过程与 VAE 解码,计算开销大;
2. 高噪声不兼容:在大时间步(timestep)下,图像高度模糊,PRMs 难以准确评估;
3. 缺乏时间感知:PRMs 通常不感知 timestep,难以建模不同阶段的偏好差异。
本文提出一个关键问题:是否存在一种模型,能直接在带噪隐空间中建模人类偏好,同时具备良好的时间感知与噪声鲁棒性?
答案是:扩散模型本身。扩散模型本身就具备建模偏好的潜力,可以使用扩散模型自己评价自己!
本文提出的核心洞见是:扩散模型本身就具备建模偏好的潜力。它们在预训练过程中已经学习到了丰富的文本-图像对齐能力,能够直接处理带噪隐变量,不需要进行VAE的解码。并且扩散模型对不同时间步的噪声强度具有天然敏感性。因此,作者提出将扩散模型“改造”为一个噪声感知的隐式奖励模型(LRM),在隐空间中预测图像对的偏好关系,从而规避传统像素级方法的种种限制。
1. Latent Reward Model(LRM):隐式奖励建模
LRM 利用扩散模型的 U-Net 或 DiT 结构提取视觉特征,结合文本编码器的语义信息,构建图文联合表示。为了增强模型对文本-图像对齐的关注,作者还引入了视觉特征增强模块(VFE),通过无分类器引导机制强化文本相关特征的表达。最终,LRM 在带噪隐空间中直接输出偏好分数,实现对图像对的排序与评估。
2. Multi-Preference Consistent Filtering(MPCF):高质量偏好数据筛选
为了训练出更稳健的奖励模型,本论文提出了一种多偏好一致性筛选策略(MPCF),用于从公开数据集中构建高质量的偏好对。以 Pick-a-Pic 数据集为例,原始数据中存在大量“胜出图像在某一方面优于败者,但在其他方面劣于败者”的情况,这种偏好不一致会严重影响模型训练效果。
MPCF 策略从美学评分、CLIP 分数、VQA 分数等多个维度对图像对进行筛选,确保胜出图像在多个关键指标上均优于败者图像。通过这种方式,LRM 能够在训练中获得更一致、更可靠的偏好信号,从而提升其对齐能力与泛化性能。
3. Latent Preference Optimization(LPO):步骤级偏好优化新方法
基于LRM,本论文提出隐空间的逐步偏好优化方法LPO(Latent Preference Optimization),其在扩散模型的隐空间进行在线采样,并利用LRM对样本进行打分和筛选,然后在隐空间对模型进行偏好优化。LPO 可以在整个去噪过程(t ∈ [0, 950])中进行优化,而传统方法如 SPO 仅能覆盖低中噪声段(t ∈ [0, 750]),这进一步体现了 LRM 在高噪声条件下的鲁棒性与适应性。
LPO方法在整体人类偏好得分、图文对齐能力、图像美学质量等多个维度均大幅提升模型性能,在 PickScore、ImageReward、HPSv2 和 Aesthetic Score 等指标上均显著优于现有方法。
在更具挑战性的 T2I-CompBench++ 基准上,LPO 在颜色、形状、纹理、空间关系等维度均取得领先成绩,尤其在颜色与纹理生成方面,提升超过 10%。
除了性能提升,LPO 在训练效率方面也实现了质的飞跃。以 SDXL 为例,LPO 的总训练时间仅为 92 小时,而传统的 Diffusion-DPO 方法需 2560 小时,SPO 也需 234 小时。LPO 的训练速度分别是两者的28 倍和2.5 倍,极大地降低了模型对齐的计算门槛。
本论文提出了LRM 与 LPO方法,首次系统性地将扩散模型自身转化为奖励模型,并在带噪隐空间中完成偏好优化,突破了传统像素级方法的瓶颈。同时,我们将LRM方法应用于不同的强化学习算法,如step-wise的GRPO,并且将LRM和LPO方法拓展至基于DiT架构和Flow matching策略的SD3模型上,均取得了不错的效果。未来,LRM 与 LPO 有望成为图像/视频生成模型对齐的基础工具,推动生成式 AI 迈向更高质量、更强一致性的新阶段。
-END-
欢迎加入
● 图像基座模型
● 图像编辑模型
● 理解生成统一模型
我们正在寻找具有卓越才能的团队成员加入我们。如果你对图像生成、深度学习和计算机视觉充满热情,欢迎随时与我们联系!
「欢迎加入」



