大数跨境
0
0

SIGGRAPH Asia 2025 | 港科大&清华提出ConsistEdit,多轮多区域一致性编辑,覆盖MM-DiT全模型。

SIGGRAPH Asia 2025 | 港科大&清华提出ConsistEdit,多轮多区域一致性编辑,覆盖MM-DiT全模型。 AIGC Studio
2025-12-31
3
导读:添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

港科大与清华相关研究揭示了 MM-DiT 模型注意力机制的关键特征,在此基础上提出新型注意力控制方法 ConsistEdit。该方法融合纯视觉注意力控制等多种操作,生成一致且与提示对齐的编辑结果。其优势显著,可实现多轮编辑,在编辑区域执行结构保持与形状改变且保持身份不变,能一次性处理多区域编辑并保留相关结构与内容,还能平滑控制编辑区域一致性强度。此外,它不仅适用于图像编辑和校正流模型,还能推广到所有 MM-DiT 变体。ConsistEdit 代表生成模型编辑领域重大进步,释放了 MM-DiT 架构编辑潜力。

unsetunset相关链接unsetunset

  • 论文: https://arxiv.org/abs/2510.17803
  • 主页: https://zxyin.github.io/ConsistEdit
  • 代码: https://github.com/zxYin/ConsistEdit_Code

unsetunset介绍unsetunset

近年来,无需训练的注意力控制方法取得了显著进展,使得现有的图像和视频生成模型能够实现灵活高效的文本引导编辑。然而,现有方法难以在保持与源文件一致性的同时,提供强大的编辑能力。在多轮编辑和视频编辑中,由于视觉误差会随时间累积,这一局限性尤为突出。此外,大多数现有方法都强制执行全局一致性,这限制了它们在保持其他属性不变的情况下修改纹理等特定属性的能力。

通过对 MM-DiT 模型的深入分析,论文揭示了其注意力机制的三个关键特征。基于这些特征提出了ConsistEdit,一种专为 MM-DiT 量身定制的新型注意力控制方法。ConsistEdit 融合了纯视觉注意力控制、掩码引导的预注意力融合以及对查询、键和值标记的差异化操作,从而生成一致且与提示对齐的编辑结果。

大量实验表明,ConsistEdit 在各种图像和视频编辑任务中均取得了最先进的性能,包括结构一致和结构不一致的场景。与以往方法不同,ConsistEdit 首次实现了无需人工干预即可在所有推理步骤和注意力层进行编辑,显著提高了可靠性和一致性,从而实现了稳健的多轮和多区域编辑。此外,它还支持结构一致性的渐进式调整,从而实现更精细的控制。ConsistEdit 代表了生成模型编辑领域的一项重大进步,并充分释放了 MM-DiT 架构的编辑潜力。

unsetunset方法概述unsetunset

MM-DiT注意力控制的三个关键见解 通过对 MM-DiT 的注意力架构进行深入分析,得出了三个关键见解,这些见解能够实现有效的无需训练的注意力控制:

  1. 编辑效果取决于只修改视觉部分,因为干预文本标记通常会导致生成不稳定。

  2. 与 U-Net 不同,MM-DiT 的每一层都保留了丰富的语义内容。因此,注意力控制可以应用于所有层。

  3. 仅对 Q、K 的视觉部分施加注意力控制,可实现强大的可控结构保持。

MM-DiT 模块注意力层中经 PCA 分解后的 Q、K、V 视觉标记投影可视化。与 U-Net 不同,MM-DiT 的每一层都保留了丰富的语义内容,这印证了我们关于注意力控制必须应用于所有层的观点。

V 标记交换策略在内容一致性方面的比较。在高一致性强度设置下,仅交换视觉 V 标记可显著提高内容一致性;而在低一致性强度下,则可保持与原始方法相当的编辑能力。

ConsistEdit 的流程如下:给定真实图像或视频 I_s 和源文本标记 P_s,我们首先反转源图像或视频以获得视觉标记 z^T,然后将 z^T 与目标提示标记 P_tg 连接起来,并传递给生成过程以生成编辑后的图像或视频 I_tg。在推理过程中,由我们的提取方法生成的掩码 M 会划分编辑区域和非编辑区域。我们应用结构和内容融合来实现提示对齐的编辑,同时保持编辑区域内的结构一致性,并在其他区域保持内容完整性。

unsetunset结果展示unsetunset

unsetunset使用教程unsetunset

项目结构

ConsistEdit_Code/
├── run_synthesis_sd3.py      # SD3 synthesis editing
├── run_synthesis_flux.py     # FLUX synthesis editing
├── run_synthesis_cog.py      # CogVideo editing
├── run_real_sd3.py          # Real image editing
├── run_metric.py            # PIE-Bench evaluation script
├── evaluate_sd3.py          # Metric calculation script
├── demo_sd3_masking.ipynb   # Interactive demonstration
├── script/
│   ├── sd3_consist_edit.sh   # Consistent editing demo
│   └── sd3_inconsist_edit.sh # Inconsistent editing demo
├── consistEdit/
│   ├── attention_control.py  # Cross-attention mechanisms
│   ├── solver.py            # Diffusion solvers
│   ├── utils.py             # Utility functions
│   └── global_var.py        # Global variables
├── evaluation/
│   └── matric_calculator.py  # Evaluation metrics
└── assets/                   # Sample images
  1. Consistent Editing (Change Color/Material)bash script/sd3_consist_edit.sh
  2. Inconsistent Editing (Change Style/Object)bash script/sd3_inconsist_edit.sh

Stable Diffusion 3

python run_synthesis_sd3.py \
    --src_prompt "a portrait of a woman in a red dress in a forest, best quality" \
    --tgt_prompt "a portrait of a woman in a yellow dress in a forest, best quality" \
    --edit_object "dress" \
    --out_dir "output" \
    --alpha 1.0 \
    --model_path "/path/to/stable-diffusion-3-medium-diffusers"
python run_synthesis_sd3.py \
    --src_prompt "a portrait of a woman in a red dress, realistic style, best quality" \
    --tgt_prompt "a portrait of a woman in a yellow dress, cartoon style, best quality" \
    --edit_object "dress" \
    --out_dir "output" \
    --alpha 0.3 \
    --model_path "/path/to/stable-diffusion-3-medium-diffusers"

FLUX

python run_synthesis_flux.py \
    --src_prompt "a portrait of a woman in a red dress in a forest, best quality" \
    --tgt_prompt "a portrait of a woman in a yellow dress in a forest, best quality" \
    --edit_object "dress" \
    --out_dir "output" \
    --alpha 1.0 \
    --model_path "/path/to/FLUX.1-dev"

CogVideo

python run_synthesis_cog.py \
    --src_prompt "a portrait of a woman in a red dress in a forest, best quality" \
    --tgt_prompt "a portrait of a woman in a yellow dress in a forest, best quality" \
    --edit_object "dress" \
    --out_dir "output" \
    --alpha 1.0 \
    --model_path "/path/to/CogVideoX-2b"

Real Image Editing

python run_real_sd3.py \
    --src_prompt "a girl with a red hat and red t-shirt is sitting in a park, best quality" \
    --tgt_prompt "a girl with a yellow hat and red t-shirt is sitting in a park, best quality" \
    --edit_object "hat" \
    --source_image_path "assets/red_hat_girl.png" \
    --out_dir "output" \
    --alpha 0.1 \
    --model_path "/path/to/stable-diffusion-3-medium-diffusers"

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 913
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读4.5k
粉丝0
内容913