大数跨境
0
0

Qwen-Image-Edit : 阿里开源最佳图像编辑模型

Qwen-Image-Edit : 阿里开源最佳图像编辑模型 AI算法之道
2025-08-24
0
导读:阿里Qwen Image Edit 开源
点击蓝字
关注我们










01


引言


通义千问发布了一款名为Qwen-Image-Edit的图像编辑模型。

该模型基于其20B参数量的Qwen-Image基础模型开发,并非从零构建的独立工具,而是对原有图像理解与生成系统(包括文字渲染等功能)的延伸拓展。

其核心功能涵盖两大维度:

  • 语义编辑:改变图像内涵(如将人像转为动漫风格、旋转物体展示新角度、切换艺术风格)

  • 外观编辑:局部精准修改(例如移除路灯但保持阴影自然、更改衬衫颜色而不影响面部区域)

最突出的是双模式同步处理能力——当前市面上多数工具仅能实现单一功能,或需要反复调试提示词才能达成效果





02

  工作原理

Qwen-Image-Edit并非简单地将图像"投喂"给单一模型进行处理,而是采用双通路架构:

  • 语义理解通路:通过Qwen2.5-VL模型解析图像语义信息(如"这是条狗""当前为正面视角"等)

  • 外观编码通路:使用VAE编码器提取像素级特征(边缘、色彩、光影等视觉细节)

这种双路径并行机制使模型能同时理解"内容意图"与"视觉形态"。例如要求将汽车180度旋转时,系统既能识别物体本体,也会自动生成符合透视的后部结构;当添加广告牌时,不仅能生成图形,还会自动补全对应的反射效果——这种智能表现着实令人惊叹。






03

图像文字编辑

绝大多数图像模型在编辑文字时表现糟糕——要么字体失真,要么排版错乱,甚至把内容糊成一团。但Qwen-Image-Edit却能完美实现以下操作:

  • 添加文字

  • 删除文字

  • 修改特定字符

且全程保持原字体、字号和风格,中英文皆可处理。这对海报设计、文档修订、标签修改等工作堪称革命性突破。

更惊艳的是,你只需框选图像中的某个局部(比如单词里的单个字母),下达"把这个变蓝"的指令,它就能精准修改目标区域而丝毫不波及周边内容。







04

实际用例

让我们用例子来具体说明它的实际用途:

1. 角色形象编辑
测试团队以其水豚吉祥物为例,针对16种MBTI人格类型生成不同版本。在保留角色核心特征(如辨识度)的前提下,实现情绪、姿态与画风的多样化呈现——虽多数像素被修改,但角色身份始终连贯,这正是"语义一致性"的体现。

2. 视角控制
可对图像物体进行90度/180度等旋转操作。不同于简单像素翻转,它能基于物体结构逻辑重建背面视图。这为产品可视化、AR/VR设计等领域开启新可能。

3. 风格迁移
将普通照片转换为特定艺术风格(如吉卜力动画风),Qwen能确保画面无畸变、无异常边界,同时保持面部表情与光影在新风格中的自然过渡。

4. 瑕疵清除
精准去除照片中的细小发丝或杂乱背景,且不破坏原有阴影与边缘结构。除非明确指令,否则绝不误触周边元素。

5. 背景/服饰替换
支持隔离编辑:更换人物衬衫颜色或背景时,面部肤色与环境光线不受影响,避免常见"染色溢出"问题。

6. 多步骤修正(书法纠错范例)
有个典型案例:系统首先生成存在错字的书法作品,随后通过链式编辑——先调整整体字形结构,再细化到偏旁笔画层面进行修正。用户甚至可框选特定区域指令"仅修改此处",模型便能精准响应。

这种颗粒度控制极为罕见:多数AI工具要么模糊处理要么过度矫正,而Qwen允许阶梯式精细调整。







05

如何访问?

目前权重已在HuggingFace上开源,大家可以直接下载:

地址:https://huggingface.co/Qwen/Qwen-Image-Edit

推理样例代码如下:

import osfrom PIL import Imageimport torch
from diffusers import QwenImageEditPipeline
pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")print("pipeline loaded")pipeline.to(torch.bfloat16)pipeline.to("cuda")pipeline.set_progress_bar_config(disable=None)image = Image.open("./input.png").convert("RGB")prompt = "Change the rabbit's color to purple, with a flash light background."inputs = {    "image": image,    "prompt": prompt,    "generator": torch.manual_seed(0),    "true_cfg_scale"4.0,    "negative_prompt"" ",    "num_inference_steps"50,}
with torch.inference_mode():    output = pipeline(**inputs)    output_image = output.images[0]    output_image.save("output_image_edit.png")    print("image saved at", os.path.abspath("output_image_edit.png"))

觉得麻烦的可以直接使用HuggingFace Space进行试验,地址如下:

https://huggingface.co/Qwen/Qwen-Image-Edit

也可以访问Qwen Chat官网,地址如下:

https://chat.qwen.ai/

点击图像编辑即可,我们来看个例子:

人物一致性还是很赞的。






06

总结

该团队在公开图像编辑数据集上进行了基准测试,结果表明其性能超越了其他基础模型。这里没有营销话术,他们只是用实际案例证明其更优表现——它不追求"创意",而是专注可靠性。

市面上虽有数十种"图像编辑"AI,但多数仅适用于社交媒体娱乐。当需要进行真实、可控、可撤销的局部编辑时,这些工具往往漏洞百出。

Qwen-Image-Edit却能做到:

  •  严格执行指令

  • 精准识别修改区域与保留区域

  • 正确处理文字内容

  • 支持连续修正操作

  • 同时理解用户意图与成品效果要求

目前该功能已在通义千问"图像编辑"模块上线。若您曾受困于AI生成的杂乱效果,不妨亲自体验——或许会感受到久违的清爽体验。






点击上方小卡片关注我




添加个人微信,进专属粉丝群!







【声明】内容源于网络
0
0
AI算法之道
一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号,涵盖视觉CV、神经网络、模式识别等方面,包括相应的硬件和软件配置,以及开源项目等。
内容 573
粉丝 0
AI算法之道 一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号,涵盖视觉CV、神经网络、模式识别等方面,包括相应的硬件和软件配置,以及开源项目等。
总阅读23
粉丝0
内容573