点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
Qwen-Image-2512 是 Qwen-Image 文本转图像基础模型的 12 月更新版本。与 8 月发布的 Qwen-Image 基础模型相比,Qwen-Image-2512 主要改进如下:
如果说8月的Qwen-Image基础模型为开源社区带来了高质量的文本转图像能力,那么12月发布的Qwen-Image-2512则是一次全面的能力跃迁。它不仅解决了此前版本的关键痛点,更凭借卓越的生成质量,一举登顶HuggingFace热门榜单Top 1,成为当前最受关注的图像生成模型之一。

Qwen-Image-2512三大核心进化总结
人像革命:告别"AI脸",拥抱真实感
-
通过更精细的解剖学特征学习和光影渲染优化,大幅削弱"塑料"和"过度磨皮"效果。人物皮肤纹理更自然,眼神光更灵动。 细节狂魔:自然元素的像素级雕琢
-
引入高频细节增强模块,专门针对自然纹理进行优化。无论是动物的丝丝毛发、树叶的脉络,还是水面的波光粼粼,都能得到前所未有的精细还原,让生成图像充满生命力。 文字大师:多模态融合的精准表达
-
升级文本-图像对齐机制,并引入字体渲染专用网络。文本准确率提升65%,不仅能精准还原输入文本,还能根据场景智能调整字体、大小和排版,实现真正的"所见即所得"。
相关链接
-
项目:https://github.com/QwenLM/Qwen-Image -
ComfyUI:https://comfyui-wiki.com/zh/tutorial/advanced/image/qwen/qwen-image-2512 -
Huggingface:https://huggingface.co/Qwen/Qwen-Image-2512 -
ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image-2512
效果展示
增强的人类现实主义
在 Qwen-Image-2512 中,人物描绘得到了大幅改进。与 8 月份发布的版本相比,Qwen-Image-2512 增加了更丰富的面部细节和更佳的环境背景。例如:
一位二十岁左右的中国女大学生,留着利落的短发,散发着温柔的艺术气息。头发自然垂落,半遮住脸颊,更添几分俏皮可爱。她肤色白皙,五官精致,略带羞涩却又透着一丝自信,嘴角微微上扬,带着青春的活力。她身穿露肩上衣,露出一侧肩膀,身材比例匀称。照片是近距离自拍:她占据了画面的主体,背景则是她的宿舍——上铺铺着洁白床单的整齐床铺,书桌上摆放着整齐的文具,还有木质的橱柜和抽屉。照片是用智能手机在柔和均匀的自然光线下拍摄的,色调自然,清晰度高,呈现出明亮活泼的氛围,充满了青春的活力。
对于相同的提示,Qwen-Image-2512 生成的面部特征明显更加逼真,背景物体(例如桌子、文具和床上用品)的渲染清晰度也明显高于 Qwen-Image。
一位20岁左右的东亚女孩,五官精致迷人,拥有一双明亮动人的大眼睛,眼神灵动活泼,脸上总是带着灿烂的笑容。她一头自然卷曲的长发随意披散,或扎成双马尾。她肤色白皙,妆容清淡,更显青春活力。她身着轻盈时尚的连衣裙或休闲装,颜色明亮柔和,面料轻薄,剪裁简约。她站在动漫展的室内,周围环绕着横幅、海报和摊位。灯光是典型的室内照明,没有刻意的布光,画面如同随手拍下的iPhone快照:构图朴实无华,却洋溢着鲜活、清新、青春的魅力。
在这里,发丝是一个关键的区别点:Qwen-Image 的 August 版本往往会将它们模糊在一起,丢失精细的细节,而 Qwen-Image-2512 则能精确地渲染每一根发丝,从而产生更自然、更逼真的外观。
另一个例子:
一位15至18岁的东亚少年,留着蓬松柔软的黑色短发,五官轮廓分明。他那双温暖的大眼睛闪烁着活力。白皙的皮肤和阳光灿烂的笑容,给人一种平易近人、友善的感觉——脸上没有一丝妆容或瑕疵。他穿着一件蓝白相间的夏季校服衬衫,微微敞开着,衬衫面料轻薄透气,脖子上挂着一副黑色耳机。他双手插在口袋里,身体微微前倾,姿态放松,仿佛正在与人交谈。他身后是一片暑期学校的操场:前景是郁郁葱葱的绿草和红色的橡胶跑道,远处是模糊的校舍,湛蓝的天空飘着朵朵白云。明亮通透的灯光营造出一种快乐无忧的青春氛围。
在这个例子中,Qwen-Image-2512 更好地遵循了语义指令——例如,提示指定“身体略微前倾”,而 Qwen-Image-2512 准确地捕捉到了这种姿势,这与它的前身不同。
一对七十多岁的中国老夫妇站在干净整洁的厨房里。老太太面容慈祥,笑容温暖,身穿花纹围裙;老先生站在她身后,也面带微笑,两人都注视着炉子上热气腾腾的包子。厨房明亮整洁,散发着温馨和谐的气息。这幅画面运用广角镜头,将人物和周围环境尽收眼底。
这一对比鲜明地凸显了8月版和12月版模型之间的差距。原始的Qwen-Image模型难以准确渲染衰老的面部特征(例如皱纹),导致画面呈现出一种不自然的“AI感”。相比之下,Qwen-Image-2512模型能够精准地捕捉年龄特征,显著提升了真实感。
更精细的自然细节
Qwen-Image-2512 的增强细节渲染功能不仅限于人物,还扩展到风景、野生动物等等。例如:
一条碧绿的河流蜿蜒流淌在郁郁葱葱的峡谷中。厚厚的苔藓和茂密的蕨类覆盖着嶙峋的岩壁;数道瀑布从上方倾泻而下,笼罩在薄雾之中。正午时分,阳光透过茂密的树冠洒下斑驳的光影,波光粼粼。空气湿润清新,充满了原始丛林的活力。这里没有人类的踪迹,没有文字,也没有人工痕迹。
并排比较,Qwen-Image-2512 在水流、树叶和瀑布水雾方面展现出更高的保真度,并且绿色渐变更加丰富。另一个例子(波浪渲染):
黎明时分,薄雾笼罩着大海。一座古老的石砌灯塔矗立在悬崖边,灯光在薄雾中隐约可见。黑色的岩石被海浪拍打着,激起阵阵白色浪花。天空在清冷朦胧的光线下泛着柔和的蓝紫色调,令人感到宁静而庄严。
毛发细节是另一大亮点——这里展示的是一幅金毛寻回犬的肖像:
这是一张极其逼真的金毛犬特写照片,拍摄于柔和的日光下。毛发细节刻画得淋漓尽致:每一根毛发都清晰分明,颜色从温暖的金色自然过渡到浅奶油色,毛尖闪烁着柔和的光泽;微风轻拂,更添几分蓬松感。底毛柔软浓密;外层毛发长而清晰,层次分明。眼睛水润灵动;鼻子略微湿润,泛着细腻的光泽。背景虚化处理,更突显了狗狗逼真的质感和生动的表情。
改进的文本渲染
Qwen-Image-2512 通过提高准确性、布局和多模态集成,进一步提升了文本渲染(这已经是原版的一个优势)。
例如,此提示要求提供一张完整的 PPT 幻灯片,说明 Qwen-Image 的发展路线图(生成和编辑流程):
这是一张现代风格的科技感幻灯片,整体采用深蓝色渐变背景。过程是“Qwen-Image发展”。下方一条延伸的发光时间轴,中间中间写着“生图路线”。由左边淡蓝色渐变为右边深紫色,并以精致的箭头收尾。时间轴上各节点通过虚线连接至下方醒目的蓝色圆角坐标数据标签,标签内为清晰白色字体,从左向右依次写着:“2025年5月6日标题Qwen-Image项目启动”“2025年8月4日Qwen-Image开源发布”“2025年12月31日Qwen-Image-2512开源发布” (周围光晕显着)在下方一条水平延伸的发光时间轴,中间写着“编辑路线”。由左边淡蓝色渐变为右边深紫色,并以完善的箭头尾收。时间轴上每个节点通过虚线连接至下方醒目的蓝色圆角日期标签,标签内为清晰白色字体,从左向右依次写着:“2025年8月18日Qwen-Image-Edit 开源发布”“2025年9月22日 Qwen-Image-Edit-2509 开源发布”“2025年12月19日 Qwen-Image-Layered 开源发布”“2025年12月23日 Qwen-Image-Edit-2511 开源发布”
们甚至可以生成前后对比幻灯片,以突出从“AI模糊”到“照片级真实感”的飞跃:
这是一张现代风格的科技感幻灯片,整体采用深蓝色突变背景。顶部中部为白色无衬线粗体大字标题“Qwen-Image-2512重磅发布”。画面主体为横向对比图视觉,焦点集中于中间的升级对比区域。右侧为正面光滑没有任何细节的女性人像,正面差;右侧为高度写实的年轻女性外观,皮肤呈现现真实纹理纹理与精致光影变化,发丝根根分明,眼眸透亮,表情自然,整体平衡接近写实摄影。两图像之间以一个绿色流线型箭头链接。造型科技感,中部标注“2512中部升级”,使用白色加粗字体,居中显示。箭头中部有微弱晕效果,增强动态感。在下方,以白色文字表示三行说明:“●更真实的人物轮廓。彻底降低了生成图像的AI感,提升了图像真实性●更细腻的自然。功耗提升了生成图像的纹理细节。风景图,动物毛发刻画更细腻。● 文字渲染更复杂。大幅提升了文字渲染的质量。图文混合渲染更准确,排版更好”
模型性能
在AI Arena上进行了超过 10,000 轮的盲测模型评估,结果表明 Qwen-Image-2512 目前是最强大的开源模型,即使在闭源模型中也保持着很强的竞争力。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

