

Qwen-Image-Edit : 阿里开源最佳图像编辑模型

AI算法之道

2025-08-24

导读：阿里Qwen Image Edit 开源

点击蓝字

关注我们

引言

通义千问发布了一款名为Qwen-Image-Edit的图像编辑模型。

该模型基于其20B参数量的Qwen-Image基础模型开发，并非从零构建的独立工具，而是对原有图像理解与生成系统（包括文字渲染等功能）的延伸拓展。

其核心功能涵盖两大维度：

语义编辑：改变图像内涵（如将人像转为动漫风格、旋转物体展示新角度、切换艺术风格）
外观编辑：局部精准修改（例如移除路灯但保持阴影自然、更改衬衫颜色而不影响面部区域）

最突出的是双模式同步处理能力——当前市面上多数工具仅能实现单一功能，或需要反复调试提示词才能达成效果。

工作原理

Qwen-Image-Edit并非简单地将图像"投喂"给单一模型进行处理，而是采用双通路架构：

语义理解通路：通过Qwen2.5-VL模型解析图像语义信息（如"这是条狗""当前为正面视角"等）
外观编码通路：使用VAE编码器提取像素级特征（边缘、色彩、光影等视觉细节）

这种双路径并行机制使模型能同时理解"内容意图"与"视觉形态"。例如要求将汽车180度旋转时，系统既能识别物体本体，也会自动生成符合透视的后部结构；当添加广告牌时，不仅能生成图形，还会自动补全对应的反射效果——这种智能表现着实令人惊叹。

图像文字编辑

绝大多数图像模型在编辑文字时表现糟糕——要么字体失真，要么排版错乱，甚至把内容糊成一团。但Qwen-Image-Edit却能完美实现以下操作：

添加文字
删除文字
修改特定字符

且全程保持原字体、字号和风格，中英文皆可处理。这对海报设计、文档修订、标签修改等工作堪称革命性突破。

更惊艳的是，你只需框选图像中的某个局部（比如单词里的单个字母），下达"把这个变蓝"的指令，它就能精准修改目标区域而丝毫不波及周边内容。

实际用例

让我们用例子来具体说明它的实际用途：

1. 角色形象编辑
测试团队以其水豚吉祥物为例，针对16种MBTI人格类型生成不同版本。在保留角色核心特征（如辨识度）的前提下，实现情绪、姿态与画风的多样化呈现——虽多数像素被修改，但角色身份始终连贯，这正是"语义一致性"的体现。

2. 视角控制
可对图像物体进行90度/180度等旋转操作。不同于简单像素翻转，它能基于物体结构逻辑重建背面视图。这为产品可视化、AR/VR设计等领域开启新可能。

3. 风格迁移
将普通照片转换为特定艺术风格（如吉卜力动画风），Qwen能确保画面无畸变、无异常边界，同时保持面部表情与光影在新风格中的自然过渡。

4. 瑕疵清除
精准去除照片中的细小发丝或杂乱背景，且不破坏原有阴影与边缘结构。除非明确指令，否则绝不误触周边元素。

5. 背景/服饰替换
支持隔离编辑：更换人物衬衫颜色或背景时，面部肤色与环境光线不受影响，避免常见"染色溢出"问题。

6. 多步骤修正（书法纠错范例）
有个典型案例：系统首先生成存在错字的书法作品，随后通过链式编辑——先调整整体字形结构，再细化到偏旁笔画层面进行修正。用户甚至可框选特定区域指令"仅修改此处"，模型便能精准响应。

这种颗粒度控制极为罕见：多数AI工具要么模糊处理要么过度矫正，而Qwen允许阶梯式精细调整。

如何访问？

目前权重已在HuggingFace上开源，大家可以直接下载：

地址：https://huggingface.co/Qwen/Qwen-Image-Edit

推理样例代码如下：

import osfrom PIL import Imageimport torch
from diffusers import QwenImageEditPipeline
pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")print("pipeline loaded")pipeline.to(torch.bfloat16)pipeline.to("cuda")pipeline.set_progress_bar_config(disable=None)image = Image.open("./input.png").convert("RGB")prompt = "Change the rabbit's color to purple, with a flash light background."inputs = {    "image": image,    "prompt": prompt,    "generator": torch.manual_seed(0),    "true_cfg_scale": 4.0,    "negative_prompt": " ",    "num_inference_steps": 50,}
with torch.inference_mode():    output = pipeline(**inputs)    output_image = output.images[0]    output_image.save("output_image_edit.png")    print("image saved at", os.path.abspath("output_image_edit.png"))