梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI
阿里通义推出全新图像生成模型Z-Image,一款6B参数的小型模型,上线首日下载量达50万次,不到两天即登顶HuggingFace双榜第一。
Z-Image虽为轻量级模型,但出图质量媲美同期发布的FLUX.2,在画质、文本渲染和语义理解等方面达到SOTA水平。
该模型在语义知识方面表现出色,能准确生成各国名胜古迹图像,展现丰富的世界文化认知能力。
在文本渲染方面同样表现优异,可稳定输出包含公式与中英文混排的复杂黑板内容,具备较强的排版还原能力。
网友评价称其“能跑在普通电脑上,不烧显卡”,凸显其低硬件门槛的优势。
6B小模型的出图水平到底如何?
Z-Image是通义实验室推出的高效图像生成基础模型,目前包含三个版本:Z-Image-Turbo(已开源)、Z-Image-Edit(未开源)和Z-Image-Base(未开源)。其中Turbo版参数约6B,在写实图像生成与中英文文本渲染方面表现突出,性能接近甚至超越主流开源模型。
在美学与真实感测试中,Z-Image成功生成《怪奇物语》风格的“颠倒世界”街景,红蓝光点覆盖藤蔓,雾气弥漫街道,整体具有电影级氛围感。

在特写肖像生成任务中,模型展现出自然的皮肤纹理、均匀的光线分布以及清晰不失真的五官细节,接近专业影棚水准。


文字处理方面,Z-Image可生成老北京旅游攻略海报,一级标题排版准确、色彩协调,但小字号文字仍存在轻微变形问题,说明文本能力尚有优化空间。
在语义理解测试中,模型能以科普漫画形式解释“为何上下文过长会导致AI表现下降”,理解任务要求并准确表达核心原理,尽管图文解释略显浅显且存在部分文字变形。
社区创作案例显示,用户已用Z-Image生成复古电影质感大片、微观迷你世界场景及显微镜级别的昆虫特写图像,细节丰富,具备出版级潜力。
Z-Image为何如此高效?
Z-Image的高性能得益于架构优化与模型蒸馏技术的结合,在保证图像质量的同时显著降低计算开销。
其采用可扩展单流DiT(S3-DiT)架构,将文本token、视觉语义token与VAE token统一为单一序列,避免传统双流模型中的跨注意力融合冗余,实现更高效的端到端前向推理。
在加速机制上,Z-Image通过Decoupled-DMD蒸馏方法,分离CFG Augmentation(用于加速)与Distribution Matching(用于保质),从而实现高质量下的极快生成速度。
最终仅需8次函数评估即可生成高清图像,大幅压缩扩散步数,突破速度与质量难以兼顾的传统瓶颈。
这一“聪明少干活”的设计理念使Z-Image在开源图像模型中实现SOTA级的速度与稳定性平衡。
目前Z-Image已在魔搭平台上线,开源地址为:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo,生成体验入口:https://modelscope.cn/aigc/imageGeneration。

