ProEdit团队 投稿
量子位 | 公众号 QbitAI
想给照片里的猫换个颜色,结果总是编辑失败?想让视频里的人换件衣服,人脸却糊成一片或完全变形?
在AI视觉编辑领域,如何在修改目标属性的同时,精准保留背景和非编辑属性的一致性,长期是难以兼顾的难题。
近日,中山大学iSEE实验室、香港中文大学MM Lab、新加坡南洋理工大学与香港大学联合发布全新图像与视频编辑方法ProEdit。
该方法通过对注意力机制与初始噪声潜在分布实施“精准手术”,实现超高精度编辑,全程无需训练、即插即用。

△ 图1. ProEdit在图像和视频编辑上与现有方法的对比
为什么AI编辑总是“改不动”?
当前主流的基于反演(Inversion-based)编辑方法(如RF-Solver、FireFlow)普遍采用全局注入策略:为维持背景一致,将原图大量信息强行注入生成过程。
但研究团队通过文本与图像注意力可视化发现,该策略存在严重问题:
- 注意力过度注入:
现有方法全局注入过多源图像注意力特征,导致模型更倾向服从原图,而弱化对用户编辑指令(Prompt)的响应。 - 潜在空间锁死:
反演所得初始噪声中残留过强的源图像分布信息,使模型优先“重建”而非“编辑”。
结果表现为:想将“橙色猫”改为“黑色猫”,AI仍输出橙色猫;若直接移除注意力注入,则背景与非编辑属性一致性严重受损。

△ 图2. 现有方法与去除注意力注入下的注意力可视化与编辑效果
ProEdit两把精准的“手术刀”
为破解上述瓶颈,ProEdit提出两个核心模块,从注意力与潜变量空间双路径削弱源图像干扰:

△ 图3. ProEdit方法概览(含KV-Mix与Latents-Shift两大模块及整体流程)
1. KV-Mix:注意力层面的“混合注入机制”
注意力注入对保持背景一致性至关重要。ProEdit摒弃粗放式全局注入,转而利用注意力图(Attention Map)生成掩码(Mask),自动区分“编辑区”与“非编辑区”:
- 非编辑区:全量注入原图的K(Key)和V(Value)注意力特征,确保背景高度一致;
- 编辑区:按比例混合原图与目标图像的K/V特征,在遵循编辑指令的同时保留结构参考,实现自然过渡。
2. Latents-Shift:潜变量空间的“分布偏移”
受AdaIN风格迁移启发,ProEdit引入Latents-Shift模块:在编辑区域对反演所得初始噪声(Inverted Noise)施加高斯噪声,对其统计分布进行可控偏移,从而解除源图像分布对初始噪声的过度绑定。
效果:显著松动颜色、姿态、数量等目标属性的编辑限制,提升可控性与自由度。
精准编辑,背景一致
通过上述协同设计,ProEdit可严格遵循编辑指令,实现属性精准变更与背景/非编辑属性的高度一致性。

△ 图4. ProEdit图像编辑效果对比
性能优势:全线SOTA,即插即用
研究团队在PIE-Bench图像编辑基准与真实互联网视频数据集上完成系统评估,结果表明:
- 背景一致性:
依托精确掩码分离非编辑区域,有效保障编辑过程中背景稳定性。 - 非编辑属性一致性:
编辑特定属性(如颜色)时,其他属性(如姿态、纹理)保持高度稳定。 - 编辑精准度与指令遵循度:
在图像与视频任务中均实现更彻底、更符合Prompt的属性转换。

△ 图5. ProEdit视频编辑效果展示
战绩斐然:全线SOTA,即插即用
实验验证显示:
- 全线领先:
ProEdit在PIE-Bench与视频编辑任务中各项指标均达最优,尤其在颜色更改等细粒度编辑任务上显著超越基线方法。 - 双向适配:
统一支持图像与视频编辑,在保证跨帧一致性的同时,实现内容级精准操控。 - 即插即用:
无缝兼容FLUX、HunyuanVideo等Rectified Flow架构模型,并可快速集成至RF-Solver、FireFlow、UniEdit等主流Solver,即时提升编辑质量。
总结与讨论
ProEdit直面基于反演编辑中长期存在的“源图像信息过度注入”问题,提出一种免训练(Training-Free)、即插即用(Plug-and-Play)的通用解决方案。
通过精细化调控注意力机制与初始噪声潜分布,ProEdit突破编辑精度与背景一致性的固有平衡瓶颈,为生成式编辑提供高效、低成本、强兼容的新范式。
随着底层图像与视频生成模型持续演进,无需重训练、部署便捷的ProEdit框架,应用前景广阔。
论文链接:https://arxiv.org/abs/2512.22118v1

