GLM-4.6V 复刻 B 站首页:3 分钟生成 364 行 HTML + Tailwind 代码
使用 GLM-4.6V 视觉大模型,仅需上传一张 B 站首页截图,输入简洁提示词,30 秒内即可输出可运行的前端页面代码。
导航栏、分类标签、轮播图、视频卡片等核心模块均实现布局对齐与样式还原;按钮交互、图片填充(非占位符)、弹幕数与播放量等细节亦完整呈现。
智谱开源周:5 天发布 8 个 AI 项目
2025 年 12 月第二周,智谱密集开源多项 AI 技术:
周一发布视觉大模型 GLM-4.6V;
周二推出手机端智能体 AutoGLM;
周三开源语音识别模型 GLM-ASR,并同步上线智谱 AI 输入法;
周四发布语音合成模型 GLM-TTS,支持 3 秒声音克隆;
周五集中开源 SCALL、RealVideo、Kaleido 和 SSVAE 四项视频生成核心技术。
本次复刻实践聚焦 GLM-4.6V——国产首个支持「原生多模态工具调用」的视觉大模型。
突破传统:从「理解图像」到「执行任务」
当前主流视觉大模型(如 Qwen3-VL-235B、Kimi-VL)已具备强图像理解能力,但其输出通常为文字描述,后续开发仍需人工编码实现功能。
GLM-4.6V 的核心定位是「一边看图,一边执行」:直接将图像作为参数输入外部工具(如搜索、代码生成),跳过图文转换环节,显著降低信息损耗,提升端到端任务完成效率。
原生多模态工具调用:图片进,图片出
图像即参数,结果即上下文。
以「搜同款」为例:传统方案需先将图片识别为文字描述,再交由搜索引擎;GLM-4.6V 可直接将原始图片传入图像搜索工具,返回商品图后继续解析并输出结构化结果,全程无文本中转。
参数减半,性能持平:轻量化与强性能兼顾
GLM-4.6V 提供两个版本:
• 满血版 GLM-4.6V(106B 参数,激活 12B),对标 Qwen3-VL-235B,在 OCR、图表理解等传统视觉任务中表现接近,而在 Multimodal Agentic 场景(如 Flame-React-Eval「看图写 React 代码」测试)中得分达 86.3,显著高于 Qwen3-VL-235B 的 73.8;
• 轻量版 GLM-4.6V-Flash(9B 参数),对标 Qwen3-VL-8B,在多项指标中实现领先。
实战复刻:三轮迭代达成高保真原型
在 z.ai 平台选择 GLM-4.6V 模型,上传 B 站首页截图并输入提示词:
“复刻这个页面,使用 HTML + Tailwind CSS,尽可能还原布局和样式。图片不要用占位符,根据内容搜索合适的图片素材填充。”
第一版输出即覆盖整体布局、视频卡片、UP 主信息及真实图片填充;
第二版通过单独提交导航栏截图并明确指令,优化 Banner 背景图与单行菜单布局;
第三版聚焦分类区域,完成最终高保真效果——轮播图切换按钮具备可点击逻辑,各模块像素级对齐。
接入方式与开发者支持
用户可通过在线平台 z.ai 直接调用 GLM-4.6V,或使用其 API 接口:
• 满血版定价为输入 1 元/百万 tokens,输出 3 元/百万 tokens;
• 轻量版 GLM-4.6V-Flash API 免费开放。
智谱同步推出 GLM Coding Plan 套餐(Lite 版首月 20 元人民币),提供远超同类服务的 token 额度;更重要的是,其 MCP Server 已集成 GLM-4.6V 视觉能力,全面支持联网、网页爬取与多模态交互,适配 Claude Code、Cline、Roo Code、Kilo 等主流编码助手。
结语
GLM-4.6V 的开源标志着国产视觉大模型正式迈入「可执行」阶段——不再停留于理解,而是深度参与开发闭环。5 天 8 项全栈开源,展现出智谱在多模态 AI 领域的技术纵深与落地决心。

