用户只需输入一句“把天空换成星空”,AI便能自动完成修改。然而,这些模型在理解和执行复杂或新颖指令时仍显吃力,常常会“偷懒”或过度拟合训练数据,导致编辑效果不尽人意,难以真正实现创意的自由挥洒。
现有模型大多采用监督微调(SFT)的方式进行训练。这种方法依赖于海量的“指令-编辑后图片”数据对。其核心弊端在于,模型容易学到数据中的表面模式,而非真正理解指令的深层语义。例如,当面对一个稍微复杂的指令,如“让那个男人看起来更开心一点,但不要笑得太夸张”,模型可能会忽略“不夸张”这个关键细节,甚至直接返回一张与原图几乎无差别的图片。这种“应试教育”般的训练模式,严重限制了模型的泛化能力和可控性。
为了突破SFT的瓶颈,研究人员从强化学习(RL)中汲取灵感,提出了一个名为Edit-R1的全新后期训练框架。其核心理念是:让模型不再仅仅被动地学习标注数据,而是像一个学徒一样主动“探索”多种编辑可能性,并通过一个“智能裁判”的实时反馈来不断优化自己,从而更好地与人类的复杂意图对齐。
Edit-R1采用了一种名为Diffusion Negative-aware Finetuning (DiffusionNFT)的先进策略优化方法。与传统的强化学习算法相比,DiffusionNFT的优势在于它是一种“无可能性估计”的方法,这意味着它在训练过程中更加高效和灵活。它巧妙地将训练和采样过程解耦,允许使用更高级、更快速的采样器,从而在保证生成图片高质量的同时,也给予模型更大的探索空间。
简单来说,DiffusionNFT通过一个对比损失函数来指导模型的学习。它会同时分析“好的”编辑结果(高奖励)和“坏的”编辑结果(低奖励),通过对比学习,驱动模型朝着生成更符合用户期望的方向进化。
强化学习成功的关键在于一个高质量的奖励信号,即需要一个公正且准确的“裁判”来评判模型的编辑效果。传统的做法是专门训练一个奖励模型,但这不仅耗时耗力,而且在图像编辑这种主观性强、任务多样的领域,很难构建一个全面、无偏的训练数据集。
Edit-R1的另一大创新在于,它巧妙地利用了现成的多模态大语言模型(MLLM)(如GPT-4V)来担当这一“智能裁判”的角色。这些强大的MLLM本身就具备出色的图像理解和逻辑推理能力。Edit-R1直接利用MLLM对“编辑前图片、指令、编辑后图片”三元组的理解,分析其输出的logits(模型对下一个词的预测概率分布),从而计算出一个连续、细粒度的分数作为奖励信号。这种方法有三大优点:
- 无需训练直接利用预训练MLLM的先验知识,成本极低。
- 高效稳定避免了复杂的思维链(CoT)推理,减少了AI产生幻觉的风险,奖励信号更可靠。
- 细粒度反馈基于logits的连续分数比简单的“好/坏”二元判断提供了更丰富的信息。
此外,Edit-R1还设计了一种低方差组过滤机制,能有效剔除MLLM评分中的异常值和噪声,让整个优化过程更加平稳、高效。
Edit-R1框架的有效性在多个主流开源图像编辑模型上得到了验证,包括Qwen-Image-Edit和FLUX-Kontext等。实验结果表明,应用了Edit-R1进行后期对齐后,这些基础模型的性能均获得了显著提升。
在ImgEdit和GEdit-Bench这两个权威的图像编辑基准测试中,搭载了Edit-R1的模型取得了顶尖成绩(State-of-the-Art),其表现甚至超越了一些知名的闭源商业模型。这充分证明了Edit-R1作为一个模型无关的“增强插件”,具有强大的通用性和潜力,能够有效解锁现有模型的内在能力,将它们的性能推向新的高度。
Edit-R1通过有机结合高效的DiffusionNFT策略优化和创新的MLLM隐式反馈机制,为指令式图像编辑的后期对齐问题提供了一个强大而通用的解决方案。它不仅显著提升了模型的指令遵循能力和泛化性,也为未来AI生成模型如何更好地与人类意图对齐开辟了新的道路。随着技术的不断演进,我们有理由相信,未来的AI图像编辑将变得更加智能、可控,真正成为释放人类创造力的得力助手。

