AI精准编辑门槛大降：开源框架提升编辑一致性，即插即用- 大数跨境

量子位

2026-01-08

导读：多项SOTA！多高校联合研究让AI修图「指哪改哪」

想给照片里的猫换个颜色，结果总是编辑失败？想让视频里的人换件衣服，人脸却糊成一片或完全变形？

在AI视觉编辑领域，如何在修改目标属性的同时，精准保留背景和非编辑属性的一致性，长期是难以兼顾的难题。

近日，中山大学iSEE实验室、香港中文大学MM Lab、新加坡南洋理工大学与香港大学联合发布全新图像与视频编辑方法ProEdit。

该方法通过对注意力机制与初始噪声潜在分布实施“精准手术”，实现超高精度编辑，全程无需训练、即插即用。

为什么AI编辑总是“改不动”？

当前主流的基于反演（Inversion-based）编辑方法（如RF-Solver、FireFlow）普遍采用全局注入策略：为维持背景一致，将原图大量信息强行注入生成过程。

但研究团队通过文本与图像注意力可视化发现，该策略存在严重问题：

结果表现为：想将“橙色猫”改为“黑色猫”，AI仍输出橙色猫；若直接移除注意力注入，则背景与非编辑属性一致性严重受损。

为破解上述瓶颈，ProEdit提出两个核心模块，从注意力与潜变量空间双路径削弱源图像干扰：

注意力注入对保持背景一致性至关重要。ProEdit摒弃粗放式全局注入，转而利用注意力图（Attention Map）生成掩码（Mask），自动区分“编辑区”与“非编辑区”：

受AdaIN风格迁移启发，ProEdit引入Latents-Shift模块：在编辑区域对反演所得初始噪声（Inverted Noise）施加高斯噪声，对其统计分布进行可控偏移，从而解除源图像分布对初始噪声的过度绑定。

效果：显著松动颜色、姿态、数量等目标属性的编辑限制，提升可控性与自由度。

通过上述协同设计，ProEdit可严格遵循编辑指令，实现属性精准变更与背景/非编辑属性的高度一致性。

研究团队在PIE-Bench图像编辑基准与真实互联网视频数据集上完成系统评估，结果表明：

实验验证显示：

全线领先：
ProEdit在PIE-Bench与视频编辑任务中各项指标均达最优，尤其在颜色更改等细粒度编辑任务上显著超越基线方法。
双向适配：
统一支持图像与视频编辑，在保证跨帧一致性的同时，实现内容级精准操控。
即插即用：
无缝兼容FLUX、HunyuanVideo等Rectified Flow架构模型，并可快速集成至RF-Solver、FireFlow、UniEdit等主流Solver，即时提升编辑质量。