通义万相于新年前一天正式发布Qwen-Image-2512版本。
作为当前开源领域最强的文生图模型,Qwen-Image-2512在AI竞技场(AI Arena)超万次盲测中表现领先。其核心突破在于显著削弱AI生成图像常见的“塑料感”,并系统性攻克复杂汉字排版与长文本渲染等长期技术瓶颈。
还原真实世界
文生图模型长期面临“一眼假”的挑战:早期输出常呈现瓷器般过度光滑的皮肤、块状涂抹感的头发等失真特征。
Qwen-Image-2512通过建模真实物理世界的光影反射与材质纹理,实现对不完美美学的精准表达,使人像与自然景物具备呼吸感与生命感。
该能力在东亚人像生成中尤为突出——不再泛化为“网红脸”,而是能刻画细腻微表情与个性化面部特征。
例如,在生成“宿舍自拍的中国女大学生”时,模型准确理解“短发”“清冷文艺”与“假小子气质”的语义平衡,人物皮肤质感、室内光效、书桌文具散落状态等细节协同构建出强烈的生活真实感;背景中的白色床品、木质收纳柜清晰可辨,整体效果近似智能手机抓拍。
在漫展场景中,模型展现出对高频细节的强掌控力:相比八月版本易将头发渲染为模糊色块,新版本已可精确还原每根发丝的走向与光泽,结合自然布光,人物立体分明、生动鲜活。
肢体语言的真实表达亦取得关键进展。模型能准确解析“身体微微前倾”等动态指令,在操场少年场景中,精准呈现社交姿态,并通过虚化的教学楼与红绿操场构建完整叙事空间。
年龄特征刻画更趋严谨:七旬夫妇案例中,模型主动保留皮肤松弛感与皱纹深度,配合广角厨房环境,传递温情与故事性,彻底告别“年轻老人”的违和现象。
自然景观与生物纹理同样实现质的提升。水流形态、林间光斑、岩石苔藓等细节,均需模型深入理解物理规律。峡谷河流图中,正午波光、瀑布水雾与绿色层次变化,共同呈现原始森林的生命力。
海浪拍打岩石的流体动力学难题亦被攻克:黎明灯塔场景中,黑色岩石、白色浪花与冷调薄雾形成强烈质感对比,凸显水与光、水与岩的相互作用。
动物毛发渲染能力跃升。金毛寻回犬图像中,毛发呈现暖金至浅奶油的自然渐变,毛尖光泽与微风体积感清晰可见;湿润鼻头与通透眼眸进一步强化可触碰的真实质感。
面对盘羊等粗犷野生动物,模型仍能精准区分皮毛质感与角质结构。贫瘠岩石山坡与强光衬托下,强健肌肉与螺旋巨角的视觉张力,印证其跨物种材质表现的通用性。
重构视觉元素的语义逻辑与排版秩序
长期以来,AI生成图像存在文字乱码、布局违背设计常识等问题。Qwen-Image-2512不仅支持清晰可读的汉字生成,更能理解复杂版式逻辑,实现文字、图标与背景的专业级融合。
在“Qwen-Image发展历程”幻灯片中,模型深刻把握时间轴概念:准确书写关键节点日期与事件,通过深蓝渐变背景、发光连接线及圆角矩形标签,实现图文一体化生成,直抵生产力工具标准。
模型还具备抽象设计语言的理解能力。升级前后对比图中,左侧刻意生成低质人像,右侧呈现高写实肖像,并以绿色流线箭头与文字标注建立逻辑关联,体现对画面层级与说明功能的深度认知。
在工业技术信息图表中,模型展现出罕见的因果判断转化能力:能准确区分“实际发生”与“不会发生”的现象,并分别配以绿色对钩与红色叉号,将技术文本高效转化为直观、可信的视觉表达。
多格叙事海报进一步验证其全局统筹能力。“健康的一天”采用3×4网格布局,覆盖晨跑、早餐、工作、阅读、运动、冥想到睡眠共12个时段,光线由朝阳过渡至柔夜光,色调统一于暖白与米灰基调,人物形象与风格高度一致,完成单一图像内的时间流叙事。
Qwen-Image-2512已在AI竞技场(AI Arena)完成超10,000轮盲测评估。该机制隐去模型身份,仅依据用户直观喜好投票,是业内公认最公正的评测方式。
测试结果显示,Qwen-Image-2512稳居开源模型榜首,且在与部分闭源商业模型的横向比拼中亦具强劲竞争力。开源社区的技术迭代速度,已足以追平甚至超越传统封闭研发模式——高质量图像生成能力正加速走向普惠化与实用化。
Qwen-Image-2512,是面向开发者的2026新年技术礼物。

