>

6B文生图模型，上线即登顶抱抱脸

>

6B文生图模型，上线即登顶抱抱脸

6B文生图模型，上线即登顶抱抱脸

量子位

2025-12-01

9

导读：语义理解、文字渲染、画面美学都挺上道

梦瑶发自凹非寺
量子位 | 公众号 QbitAI

阿里通义推出全新图像生成模型Z-Image，一款6B参数的小型模型，上线首日下载量达50万次，不到两天即登顶HuggingFace双榜第一。

Z-Image虽为轻量级模型，但出图质量媲美同期发布的FLUX.2，在画质、文本渲染和语义理解等方面达到SOTA水平。

该模型在语义知识方面表现出色，能准确生成各国名胜古迹图像，展现丰富的世界文化认知能力。

在文本渲染方面同样表现优异，可稳定输出包含公式与中英文混排的复杂黑板内容，具备较强的排版还原能力。

网友评价称其“能跑在普通电脑上，不烧显卡”，凸显其低硬件门槛的优势。

6B小模型的出图水平到底如何？

Z-Image是通义实验室推出的高效图像生成基础模型，目前包含三个版本：Z-Image-Turbo（已开源）、Z-Image-Edit（未开源）和Z-Image-Base（未开源）。其中Turbo版参数约6B，在写实图像生成与中英文文本渲染方面表现突出，性能接近甚至超越主流开源模型。

在美学与真实感测试中，Z-Image成功生成《怪奇物语》风格的“颠倒世界”街景，红蓝光点覆盖藤蔓，雾气弥漫街道，整体具有电影级氛围感。

在特写肖像生成任务中，模型展现出自然的皮肤纹理、均匀的光线分布以及清晰不失真的五官细节，接近专业影棚水准。

文字处理方面，Z-Image可生成老北京旅游攻略海报，一级标题排版准确、色彩协调，但小字号文字仍存在轻微变形问题，说明文本能力尚有优化空间。

在语义理解测试中，模型能以科普漫画形式解释“为何上下文过长会导致AI表现下降”，理解任务要求并准确表达核心原理，尽管图文解释略显浅显且存在部分文字变形。

社区创作案例显示，用户已用Z-Image生成复古电影质感大片、微观迷你世界场景及显微镜级别的昆虫特写图像，细节丰富，具备出版级潜力。

Z-Image为何如此高效？

Z-Image的高性能得益于架构优化与模型蒸馏技术的结合，在保证图像质量的同时显著降低计算开销。

其采用可扩展单流DiT（S3-DiT）架构，将文本token、视觉语义token与VAE token统一为单一序列，避免传统双流模型中的跨注意力融合冗余，实现更高效的端到端前向推理。

在加速机制上，Z-Image通过Decoupled-DMD蒸馏方法，分离CFG Augmentation（用于加速）与Distribution Matching（用于保质），从而实现高质量下的极快生成速度。

最终仅需8次函数评估即可生成高清图像，大幅压缩扩散步数，突破速度与质量难以兼顾的传统瓶颈。

这一“聪明少干活”的设计理念使Z-Image在开源图像模型中实现SOTA级的速度与稳定性平衡。

目前Z-Image已在魔搭平台上线，开源地址为：https://huggingface.co/Tongyi-MAI/Z-Image-Turbo，生成体验入口：https://modelscope.cn/aigc/imageGeneration。

【声明】内容源于网络

0

0

量子位

各类跨境出海行业相关资讯

内容 14889

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读154.4k

粉丝0

内容14.9k