阿里 Qwen-Image-Edit:
200 亿参数构建
双重建模赋能
双语精编,SOTA 性能
颠覆图像编辑,引全民创作变革
2025 年 8 月 19 日凌晨,阿里巴巴通义千问团队正式发布了新一代图像编辑模型 Qwen-Image-Edit。这一基于 200 亿参数 Qwen-Image 架构的创新产品,以其颠覆性的语义与外观双重编辑能力、精准的双语文字处理技术,以及在多个权威基准测试中刷新 SOTA(State-of-the-Art)的表现,迅速引发全球 AI 领域震动。正如网友所言:"有了这个图像编辑大杀器,几乎没有什么理由再使用 Photoshop 了。"
Qwen-Image-Edit 的核心竞争力源于其独特的双重编码机制。该模型将输入图像同时输入到两个并行处理通道:Qwen2.5-VL 多模态大模型负责提取图像的语义特征,包括物体关系、场景理解和抽象概念,实现对编辑指令的高层语义控制,例如在 IP 创作中,模型能准确识别卡皮巴拉角色的核心特征,即使像素级修改后仍保持角色一致性;Wan-2.1-VAE 编码器通过变分自编码器提取图像的底层视觉特征,保留纹理、色彩等细节信息,确保局部修改时不破坏未编辑区域的视觉一致性,例如在添加指示牌时,模型能自动生成符合物理规律的倒影。这种语义 - 外观双路径控制,使得 Qwen-Image-Edit 在处理复杂编辑任务时展现出惊人的稳定性。例如在视角转换任务中,模型不仅能实现物体 90 度、180 度旋转,还能通过调整光影和透视关系,生成符合真实物理规律的背面视图。技术报告显示,该架构在 GEdit、ImgEdit 等基准测试中综合评分达到 7.56(英文)和 7.52(中文),较前代模型提升超过 10%。
Qwen-Image-Edit 重新定义了 AI 图像编辑的边界,其核心能力覆盖多个维度。在语义与外观的融合方面,既支持低层次外观编辑,能进行像素级精准操作,如移除发丝、修改字母颜色等,且其他区域完全保持不变,例如在修改海报中的字母 "n" 时,模型能精确匹配原有字体的笔触和光影;也支持高层次语义编辑,允许整体像素变化但保持语义一致性,以风格迁移为例,输入人物头像后,模型可一键生成吉卜力、赛博朋克等多种艺术风格,同时保留人物身份特征,在 IP 创作中,基于卡皮巴拉吉祥物生成的 MBTI 表情包系列,通过调整表情、服饰等元素,实现了角色形象的多样化拓展。
得益于 Qwen-Image 在文本渲染领域的深厚积累,Qwen-Image-Edit 实现了中英文双语文字的精准编辑。在字形级控制上,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增删改,例如将英文海报中的 "Hope" 替换为 "Qwen" 时,连金属质感的渐变效果都能完美复刻;在复杂排版支持方面,能处理多行布局、段落级文本,甚至书法对联等特殊场景,在中文海报编辑中,模型不仅能修改主标题,还能精准调整细小的说明文字,单字渲染准确率高达 96.7%,远超 Seedream3.0(53.48%)和 GPT Image1(68.37%)。同时,Qwen-Image-Edit 首创的链式编辑功能,允许用户通过多轮迭代逐步优化作品,以书法纠错为例,用户可先框选需要修改的区域,再用红框圈出具体笔画,模型会自动调整笔触细节,最终生成无瑕疵的书法作品,这种 "渐进式修正" 模式,将专业级图像编辑的门槛降低了 70% 以上。
在多个权威测试中,Qwen-Image-Edit 展现出碾压级表现。在图像编辑基准上,GEdit 测试中得分 87.9,较 GPT Image1 提升 10.8%;ImgEdit 测试得分 91.2,领先 FLUX.1 Kontext 9.0%。文本渲染专项中,中文场景下,ChineseWord 基准得分 96.7,较 Stable Diffusion 3 提升超过 100%;在包含诗词、古籍等复杂场景的 TextCraft 测试中,得分 93.4,远超行业平均水平。综合能力评估方面,在涵盖生成、编辑、理解的 OneIG-Bench 测试中,Qwen-Image-Edit 以 94.1 的高分,领先 Midjourney V6 达 15.9%。
这种卓越性能源于阿里团队的数据工程与训练策略创新。他们构建了包含采集、过滤、标注、合成、均衡的全流程数据处理体系,尤其针对中文文本进行了专项优化,训练数据涵盖海报、PPT、古籍等结构化视觉内容,以及绘画、雕塑等艺术形式,确保模型对复杂场景的适应性。同时采用渐进式训练范式,从非文本渲染起步,逐步过渡到段落级描述,通过课程式学习提升模型对多语言、多模态输入的理解能力,例如在处理中文书法时,模型能精确还原毛笔的提按转折,笔触细节媲美专业书法家。
Qwen-Image-Edit 的出现,正在引发图像创作领域的范式革命。在专业设计领域,广告行业中传统需要数小时的海报修改任务,现在通过语义编辑 + 文字处理的组合操作,10 分钟内即可完成,某 4A 广告公司测试显示,使用 Qwen-Image-Edit 后,平面设计效率提升 400%,人力成本降低 60%;出版行业的古籍数字化项目中,模型能自动修复破损文字,同时保留纸张泛黄、虫蛀等历史痕迹,某出版社案例显示,修复《永乐大典》残页的准确率达到 92%,远超人工修复的 75%。
对于非专业用户而言,Qwen-Image-Edit 也实现了创作解放。通过 Qwen Chat 的 "图像编辑" 功能,普通用户能实现专业级效果,自媒体运营中,博主可轻松修改视频封面文字,调整人物背景,甚至生成系列表情包,某美妆博主反馈,使用后内容产出效率提升 3 倍;教育领域里,教师能快速生成包含互动元素的教学插图,例如将静态的历史场景图转换为可旋转、可放大的 3D 视图,显著提升课堂参与度。
在产业生态方面,阿里已将 Qwen-Image-Edit 集成到阿里云视觉智能平台,开放 API 接口供企业调用。目前,已有电商平台利用其文字编辑功能,实现商品详情页的实时更新;游戏公司则通过语义编辑快速生成角色不同姿态的素材,开发周期缩短 30%。随着多模态能力的扩展,Qwen-Image-Edit 未来还将支持视频编辑、虚拟场景构建等更复杂应用,成为数字内容产业的基础设施。
尽管 Qwen-Image-Edit 已展现出惊人实力,但其技术演进仍在持续。针对当前存在的 9% 肢体异常率,团队正在引入人体姿态预测模型,计划在 2025 年底将异常率降至 3% 以下;基于单编码器 - 双解码器架构,未来将支持长视频的时序编辑,例如在保持人物身份的同时,调整其在不同帧中的动作;通过模型轻量化技术,阿里正开发面向消费级 GPU 的精简版本,预计 2026 年推出支持 RTX 4060 显卡的实时编辑方案。
Qwen-Image-Edit 的诞生,标志着 AI 图像编辑从 "辅助工具" 向 "创意引擎" 的质变。其双重控制体系、双语文字处理和全流程编辑能力,不仅重新定义了技术标准,更开启了全民创作的新纪元。正如阿里 AI 负责人所言:"我们的目标不是替代设计师,而是让每个人都能成为创意大师。" 随着 Qwen 系列技术的持续迭代,这场由 AI 驱动的视觉革命,必将深刻改变人类表达与沟通的方式。
END

