(文/陈济深 编辑/张广凯)
在美国宣布对英伟达H200出口由“推定拒绝”调整为“逐案审查”、试图重拾中国市场之际,上市仅一周的智谱发布重磅消息:联合华为开源全新图像生成模型GLM-Image。
这是业内首个在国产芯片上完成全流程训练的SOTA多模态大模型,标志着高端算力已不再是依赖进口的“卡脖子”环节,国产全栈AI基础设施正式迈入可规模训练、可持续迭代、支撑前沿能力演进的新阶段。
GLM-Image采用自主创新的「自回归+扩散解码器」混合架构,实现语言理解与图像生成的深度融合,并基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架,完成从数据预处理、预训练、监督微调(SFT)到强化学习(RL)的全链条训练,验证了国产算力底座支撑顶级多模态模型研发的可行性。
该模型是智谱面向新一代“认知型生成”技术范式的关键实践,聚焦中文语境优化与复杂视觉文字生成,在多项权威评测中达到开源SOTA水平,实测表现覆盖画风多样性、尺寸灵活性与文本准确性等多维度需求。


受消息提振,智谱股价当日大涨18%,报收216港元;上市一周内较116.2港元发行价接近翻倍,市值一度突破千亿港元。
对标顶级模型
GLM-Image重点突破长文本理解与复杂视觉文字生成任务,在多项开源基准测试中领跑:
在CVTG-2K(复杂视觉文字生成)榜单中,模型多区域文字生成准确率(Word Accuracy)达0.9116,开源模型第一;字符级差异指标NED为0.9557,显著优于同类模型,错字、漏字问题大幅减少。
在更贴近真实场景的LongText-Bench(长文本渲染)榜单中,模型覆盖招牌、海报、PPT、对话框等8类文字密集场景,支持中英文双语测试:中文得分为0.979,英文得分为0.952,双语成绩均居开源模型首位。
国产芯片如何训练
华为昇腾团队介绍,GLM-Image的自回归主干训练全程运行于昇腾Atlas 800T A2设备之上,依托昇思MindSpore AI框架,智谱深度定制整套训练系统,覆盖数据预处理、预训练、SFT及RL全流程。
关键技术包括:动态图多级流水下发,消除Host侧算子下发瓶颈;多流并行策略掩蔽通信与计算,显著降低梯度同步与特征广播开销;广泛采用AdamW EMA、COC、RMS Norm等昇腾亲和高性能融合算子,提升吞吐效率与训练稳定性。
这一软硬协同体系,为GLM-Image的规模化训练与复杂能力落地提供了坚实工程基础,确立其作为首个国产芯片全流程训练SOTA多模态模型的地位。

1毛钱生成商业级图片
GLM-Image采用9B自回归主干(负责语义理解与全局构图)+7B扩散解码器(基于DiT结构与Glyph Encoder,专精文字渲染)的分治架构,将图像生成解耦为“理解”与“绘制”两大阶段,定义为“认知型生成”范式。
该设计借鉴Nano Banana Pro核心思路,但创新引入自适应Tokenizer策略,支持一次性生成1024×1024至2048×2048范围内任意长宽比图像,适配横幅、竖屏、社媒封面、电影海报等多种商用场景。
实测显示,超宽横幅图像可一次成型。API调用成本低至0.1元/张,打破行业价格底线,印证国产算力在经济性与性能层面均已具备国际竞争力。
国产替代悄然崛起
GLM-Image发布恰逢美国对H200出口政策松动。但市场反应清晰表明:高端算力正从“生存必需”转向“成本选项”,国产替代逻辑未被削弱,反而因技术实绩进一步强化。
该模型在昇腾平台全栈跑通,证明即便完全脱离美系生态,中国头部大模型仍可对标甚至超越Nano Banana Pro等国际标杆。对资本市场而言,智谱作为被列入美国实体清单的企业,此次与华为合作实现全国产链路闭环,意味着国产大模型已获得国产算力托底与全球供应链改善的双重保障。
2026年开年这一周,或将标记中国AI发展的重要分水岭——过去两年强调“可用”,如今GLM-Image与昇腾的联合成果宣告国产技术已进入“好用”且“敢用”的新阶段。
当国产芯片能支撑万亿参数训练与极低成本推理的全生命周期,当国产模型在中文语境与复杂视觉生成中持续领先,中国AI产业正加速告别模仿与追赶,迈向以自主创新定义技术范式的新纪元。

