阿里 Qwen-Image-Edit：200 亿参数构建，双重建模赋能，双语精编，SOTA 性能，颠覆图像编辑，引全民创作变革- 大数跨境

首页

阿里 Qwen-Image-Edit：200 亿参数构建，双重建模赋能，双语精编，SOTA 性能，颠覆图像编辑，引全民创作变革

元龙数字智能科技

2025-08-19

导读：阿里 Qwen-Image-Edit：200 亿参数构建双重建模赋能双语精编，SOTA 性能颠覆图像编辑，引全

阿里 Qwen-Image-Edit：

200 亿参数构建

双重建模赋能

双语精编，SOTA 性能

颠覆图像编辑，引全民创作变革

2025 年 8 月 19 日凌晨，阿里巴巴通义千问团队正式发布了新一代图像编辑模型 Qwen-Image-Edit。这一基于 200 亿参数 Qwen-Image 架构的创新产品，以其颠覆性的语义与外观双重编辑能力、精准的双语文字处理技术，以及在多个权威基准测试中刷新 SOTA（State-of-the-Art）的表现，迅速引发全球 AI 领域震动。正如网友所言："有了这个图像编辑大杀器，几乎没有什么理由再使用 Photoshop 了。"

Qwen-Image-Edit 的核心竞争力源于其独特的双重编码机制。该模型将输入图像同时输入到两个并行处理通道：Qwen2.5-VL 多模态大模型负责提取图像的语义特征，包括物体关系、场景理解和抽象概念，实现对编辑指令的高层语义控制，例如在 IP 创作中，模型能准确识别卡皮巴拉角色的核心特征，即使像素级修改后仍保持角色一致性；Wan-2.1-VAE 编码器通过变分自编码器提取图像的底层视觉特征，保留纹理、色彩等细节信息，确保局部修改时不破坏未编辑区域的视觉一致性，例如在添加指示牌时，模型能自动生成符合物理规律的倒影。这种语义 - 外观双路径控制，使得 Qwen-Image-Edit 在处理复杂编辑任务时展现出惊人的稳定性。例如在视角转换任务中，模型不仅能实现物体 90 度、180 度旋转，还能通过调整光影和透视关系，生成符合真实物理规律的背面视图。技术报告显示，该架构在 GEdit、ImgEdit 等基准测试中综合评分达到 7.56（英文）和 7.52（中文），较前代模型提升超过 10%。

Qwen-Image-Edit 重新定义了 AI 图像编辑的边界，其核心能力覆盖多个维度。在语义与外观的融合方面，既支持低层次外观编辑，能进行像素级精准操作，如移除发丝、修改字母颜色等，且其他区域完全保持不变，例如在修改海报中的字母 "n" 时，模型能精确匹配原有字体的笔触和光影；也支持高层次语义编辑，允许整体像素变化但保持语义一致性，以风格迁移为例，输入人物头像后，模型可一键生成吉卜力、赛博朋克等多种艺术风格，同时保留人物身份特征，在 IP 创作中，基于卡皮巴拉吉祥物生成的 MBTI 表情包系列，通过调整表情、服饰等元素，实现了角色形象的多样化拓展。

得益于 Qwen-Image 在文本渲染领域的深厚积累，Qwen-Image-Edit 实现了中英文双语文字的精准编辑。在字形级控制上，可在保留原有字体、字号、风格的前提下，直接对图片中的文字进行增删改，例如将英文海报中的 "Hope" 替换为 "Qwen" 时，连金属质感的渐变效果都能完美复刻；在复杂排版支持方面，能处理多行布局、段落级文本，甚至书法对联等特殊场景，在中文海报编辑中，模型不仅能修改主标题，还能精准调整细小的说明文字，单字渲染准确率高达 96.7%，远超 Seedream3.0（53.48%）和 GPT Image1（68.37%）。同时，Qwen-Image-Edit 首创的链式编辑功能，允许用户通过多轮迭代逐步优化作品，以书法纠错为例，用户可先框选需要修改的区域，再用红框圈出具体笔画，模型会自动调整笔触细节，最终生成无瑕疵的书法作品，这种 "渐进式修正" 模式，将专业级图像编辑的门槛降低了 70% 以上。

在多个权威测试中，Qwen-Image-Edit 展现出碾压级表现。在图像编辑基准上，GEdit 测试中得分 87.9，较 GPT Image1 提升 10.8%；ImgEdit 测试得分 91.2，领先 FLUX.1 Kontext 9.0%。文本渲染专项中，中文场景下，ChineseWord 基准得分 96.7，较 Stable Diffusion 3 提升超过 100%；在包含诗词、古籍等复杂场景的 TextCraft 测试中，得分 93.4，远超行业平均水平。综合能力评估方面，在涵盖生成、编辑、理解的 OneIG-Bench 测试中，Qwen-Image-Edit 以 94.1 的高分，领先 Midjourney V6 达 15.9%。

这种卓越性能源于阿里团队的数据工程与训练策略创新。他们构建了包含采集、过滤、标注、合成、均衡的全流程数据处理体系，尤其针对中文文本进行了专项优化，训练数据涵盖海报、PPT、古籍等结构化视觉内容，以及绘画、雕塑等艺术形式，确保模型对复杂场景的适应性。同时采用渐进式训练范式，从非文本渲染起步，逐步过渡到段落级描述，通过课程式学习提升模型对多语言、多模态输入的理解能力，例如在处理中文书法时，模型能精确还原毛笔的提按转折，笔触细节媲美专业书法家。

Qwen-Image-Edit 的出现，正在引发图像创作领域的范式革命。在专业设计领域，广告行业中传统需要数小时的海报修改任务，现在通过语义编辑 + 文字处理的组合操作，10 分钟内即可完成，某 4A 广告公司测试显示，使用 Qwen-Image-Edit 后，平面设计效率提升 400%，人力成本降低 60%；出版行业的古籍数字化项目中，模型能自动修复破损文字，同时保留纸张泛黄、虫蛀等历史痕迹，某出版社案例显示，修复《永乐大典》残页的准确率达到 92%，远超人工修复的 75%。

对于非专业用户而言，Qwen-Image-Edit 也实现了创作解放。通过 Qwen Chat 的 "图像编辑" 功能，普通用户能实现专业级效果，自媒体运营中，博主可轻松修改视频封面文字，调整人物背景，甚至生成系列表情包，某美妆博主反馈，使用后内容产出效率提升 3 倍；教育领域里，教师能快速生成包含互动元素的教学插图，例如将静态的历史场景图转换为可旋转、可放大的 3D 视图，显著提升课堂参与度。

在产业生态方面，阿里已将 Qwen-Image-Edit 集成到阿里云视觉智能平台，开放 API 接口供企业调用。目前，已有电商平台利用其文字编辑功能，实现商品详情页的实时更新；游戏公司则通过语义编辑快速生成角色不同姿态的素材，开发周期缩短 30%。随着多模态能力的扩展，Qwen-Image-Edit 未来还将支持视频编辑、虚拟场景构建等更复杂应用，成为数字内容产业的基础设施。

尽管 Qwen-Image-Edit 已展现出惊人实力，但其技术演进仍在持续。针对当前存在的 9% 肢体异常率，团队正在引入人体姿态预测模型，计划在 2025 年底将异常率降至 3% 以下；基于单编码器 - 双解码器架构，未来将支持长视频的时序编辑，例如在保持人物身份的同时，调整其在不同帧中的动作；通过模型轻量化技术，阿里正开发面向消费级 GPU 的精简版本，预计 2026 年推出支持 RTX 4060 显卡的实时编辑方案。

Qwen-Image-Edit 的诞生，标志着 AI 图像编辑从 "辅助工具" 向 "创意引擎" 的质变。其双重控制体系、双语文字处理和全流程编辑能力，不仅重新定义了技术标准，更开启了全民创作的新纪元。正如阿里 AI 负责人所言："我们的目标不是替代设计师，而是让每个人都能成为创意大师。" 随着 Qwen 系列技术的持续迭代，这场由 AI 驱动的视觉革命，必将深刻改变人类表达与沟通的方式。

END

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读246

粉丝0

内容901