大数跨境
0
0

AI精准编辑门槛大降:开源框架提升编辑一致性,即插即用

AI精准编辑门槛大降:开源框架提升编辑一致性,即插即用 量子位
2026-01-08
6
导读:多项SOTA!多高校联合研究让AI修图「指哪改哪」
ProEdit团队 投稿
量子位 | 公众号 QbitAI

想给照片里的猫换个颜色,结果总是编辑失败?想让视频里的人换件衣服,人脸却糊成一片或完全变形?

在AI视觉编辑领域,如何在修改目标属性的同时,精准保留背景和非编辑属性的一致性,长期是难以兼顾的难题。

近日,中山大学iSEE实验室、香港中文大学MM Lab、新加坡南洋理工大学与香港大学联合发布全新图像与视频编辑方法ProEdit

该方法通过对注意力机制与初始噪声潜在分布实施“精准手术”,实现超高精度编辑,全程无需训练、即插即用。

 图1. ProEdit在图像和视频编辑上与现有方法的对比

为什么AI编辑总是“改不动”?

当前主流的基于反演(Inversion-based)编辑方法(如RF-Solver、FireFlow)普遍采用全局注入策略:为维持背景一致,将原图大量信息强行注入生成过程。

但研究团队通过文本与图像注意力可视化发现,该策略存在严重问题:

  • 注意力过度注入:
    现有方法全局注入过多源图像注意力特征,导致模型更倾向服从原图,而弱化对用户编辑指令(Prompt)的响应。
  • 潜在空间锁死:
    反演所得初始噪声中残留过强的源图像分布信息,使模型优先“重建”而非“编辑”。

结果表现为:想将“橙色猫”改为“黑色猫”,AI仍输出橙色猫;若直接移除注意力注入,则背景与非编辑属性一致性严重受损。

 图2. 现有方法与去除注意力注入下的注意力可视化与编辑效果

ProEdit两把精准的“手术刀”

为破解上述瓶颈,ProEdit提出两个核心模块,从注意力与潜变量空间双路径削弱源图像干扰:

 图3. ProEdit方法概览(含KV-Mix与Latents-Shift两大模块及整体流程)

1. KV-Mix:注意力层面的“混合注入机制”

注意力注入对保持背景一致性至关重要。ProEdit摒弃粗放式全局注入,转而利用注意力图(Attention Map)生成掩码(Mask),自动区分“编辑区”与“非编辑区”:

  • 非编辑区:全量注入原图的K(Key)和V(Value)注意力特征,确保背景高度一致;
  • 编辑区:按比例混合原图与目标图像的K/V特征,在遵循编辑指令的同时保留结构参考,实现自然过渡。

2. Latents-Shift:潜变量空间的“分布偏移”

受AdaIN风格迁移启发,ProEdit引入Latents-Shift模块:在编辑区域对反演所得初始噪声(Inverted Noise)施加高斯噪声,对其统计分布进行可控偏移,从而解除源图像分布对初始噪声的过度绑定。

效果:显著松动颜色、姿态、数量等目标属性的编辑限制,提升可控性与自由度。

精准编辑,背景一致

通过上述协同设计,ProEdit可严格遵循编辑指令,实现属性精准变更与背景/非编辑属性的高度一致性。

 图4. ProEdit图像编辑效果对比

性能优势:全线SOTA,即插即用

研究团队在PIE-Bench图像编辑基准与真实互联网视频数据集上完成系统评估,结果表明:

  • 背景一致性:
    依托精确掩码分离非编辑区域,有效保障编辑过程中背景稳定性。
  • 非编辑属性一致性:
    编辑特定属性(如颜色)时,其他属性(如姿态、纹理)保持高度稳定。
  • 编辑精准度与指令遵循度:
    在图像与视频任务中均实现更彻底、更符合Prompt的属性转换。

 图5. ProEdit视频编辑效果展示

战绩斐然:全线SOTA,即插即用

实验验证显示:

  • 全线领先:
    ProEdit在PIE-Bench与视频编辑任务中各项指标均达最优,尤其在颜色更改等细粒度编辑任务上显著超越基线方法。
  • 双向适配:
    统一支持图像与视频编辑,在保证跨帧一致性的同时,实现内容级精准操控。
  • 即插即用:
    无缝兼容FLUX、HunyuanVideo等Rectified Flow架构模型,并可快速集成至RF-Solver、FireFlow、UniEdit等主流Solver,即时提升编辑质量

总结与讨论

ProEdit直面基于反演编辑中长期存在的“源图像信息过度注入”问题,提出一种免训练(Training-Free)、即插即用(Plug-and-Play)的通用解决方案。

通过精细化调控注意力机制与初始噪声潜分布,ProEdit突破编辑精度与背景一致性的固有平衡瓶颈,为生成式编辑提供高效、低成本、强兼容的新范式。

随着底层图像与视频生成模型持续演进,无需重训练、部署便捷的ProEdit框架,应用前景广阔。

论文链接:https://arxiv.org/abs/2512.22118v1

项目主页:https://isee-laboratory.github.io/ProEdit/

代码仓库:https://github.com/iSEE-Laboratory/ProEdit

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14593
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读105.9k
粉丝0
内容14.6k