01
引言
通义千问发布了一款名为Qwen-Image-Edit的图像编辑模型。

该模型基于其20B参数量的Qwen-Image基础模型开发,并非从零构建的独立工具,而是对原有图像理解与生成系统(包括文字渲染等功能)的延伸拓展。


其核心功能涵盖两大维度:
语义编辑:改变图像内涵(如将人像转为动漫风格、旋转物体展示新角度、切换艺术风格)
外观编辑:局部精准修改(例如移除路灯但保持阴影自然、更改衬衫颜色而不影响面部区域)

最突出的是双模式同步处理能力——当前市面上多数工具仅能实现单一功能,或需要反复调试提示词才能达成效果。
02
Qwen-Image-Edit并非简单地将图像"投喂"给单一模型进行处理,而是采用双通路架构:
语义理解通路:通过Qwen2.5-VL模型解析图像语义信息(如"这是条狗""当前为正面视角"等)
外观编码通路:使用VAE编码器提取像素级特征(边缘、色彩、光影等视觉细节)
这种双路径并行机制使模型能同时理解"内容意图"与"视觉形态"。例如要求将汽车180度旋转时,系统既能识别物体本体,也会自动生成符合透视的后部结构;当添加广告牌时,不仅能生成图形,还会自动补全对应的反射效果——这种智能表现着实令人惊叹。
03
绝大多数图像模型在编辑文字时表现糟糕——要么字体失真,要么排版错乱,甚至把内容糊成一团。但Qwen-Image-Edit却能完美实现以下操作:
添加文字
删除文字
修改特定字符
且全程保持原字体、字号和风格,中英文皆可处理。这对海报设计、文档修订、标签修改等工作堪称革命性突破。
更惊艳的是,你只需框选图像中的某个局部(比如单词里的单个字母),下达"把这个变蓝"的指令,它就能精准修改目标区域而丝毫不波及周边内容。
04
让我们用例子来具体说明它的实际用途:

1. 角色形象编辑
测试团队以其水豚吉祥物为例,针对16种MBTI人格类型生成不同版本。在保留角色核心特征(如辨识度)的前提下,实现情绪、姿态与画风的多样化呈现——虽多数像素被修改,但角色身份始终连贯,这正是"语义一致性"的体现。
2. 视角控制
可对图像物体进行90度/180度等旋转操作。不同于简单像素翻转,它能基于物体结构逻辑重建背面视图。这为产品可视化、AR/VR设计等领域开启新可能。
3. 风格迁移
将普通照片转换为特定艺术风格(如吉卜力动画风),Qwen能确保画面无畸变、无异常边界,同时保持面部表情与光影在新风格中的自然过渡。
4. 瑕疵清除
精准去除照片中的细小发丝或杂乱背景,且不破坏原有阴影与边缘结构。除非明确指令,否则绝不误触周边元素。
5. 背景/服饰替换
支持隔离编辑:更换人物衬衫颜色或背景时,面部肤色与环境光线不受影响,避免常见"染色溢出"问题。
6. 多步骤修正(书法纠错范例)
有个典型案例:系统首先生成存在错字的书法作品,随后通过链式编辑——先调整整体字形结构,再细化到偏旁笔画层面进行修正。用户甚至可框选特定区域指令"仅修改此处",模型便能精准响应。
这种颗粒度控制极为罕见:多数AI工具要么模糊处理要么过度矫正,而Qwen允许阶梯式精细调整。
05
目前权重已在HuggingFace上开源,大家可以直接下载:
地址:https://huggingface.co/Qwen/Qwen-Image-Edit
推理样例代码如下:
import osfrom PIL import Imageimport torchfrom diffusers import QwenImageEditPipelinepipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")print("pipeline loaded")pipeline.to(torch.bfloat16)pipeline.to("cuda")pipeline.set_progress_bar_config(disable=None)image = Image.open("./input.png").convert("RGB")prompt = "Change the rabbit's color to purple, with a flash light background."inputs = {"image": image,"prompt": prompt,"generator": torch.manual_seed(0),"true_cfg_scale": 4.0,"negative_prompt": " ","num_inference_steps": 50,}with torch.inference_mode():output = pipeline(**inputs)output_image = output.images[0]output_image.save("output_image_edit.png")print("image saved at", os.path.abspath("output_image_edit.png"))
觉得麻烦的可以直接使用HuggingFace Space进行试验,地址如下:
https://huggingface.co/Qwen/Qwen-Image-Edit
也可以访问Qwen Chat官网,地址如下:
https://chat.qwen.ai/
点击图像编辑即可,我们来看个例子:
人物一致性还是很赞的。
06
该团队在公开图像编辑数据集上进行了基准测试,结果表明其性能超越了其他基础模型。这里没有营销话术,他们只是用实际案例证明其更优表现——它不追求"创意",而是专注可靠性。
市面上虽有数十种"图像编辑"AI,但多数仅适用于社交媒体娱乐。当需要进行真实、可控、可撤销的局部编辑时,这些工具往往漏洞百出。
Qwen-Image-Edit却能做到:
严格执行指令
精准识别修改区域与保留区域
正确处理文字内容
支持连续修正操作
同时理解用户意图与成品效果要求
目前该功能已在通义千问"图像编辑"模块上线。若您曾受困于AI生成的杂乱效果,不妨亲自体验——或许会感受到久违的清爽体验。
点击上方小卡片关注我
添加个人微信,进专属粉丝群!

