

绝了！3 分钟，我用 GLM-4.6V 复刻了一个 B站首页！

AI信息Gap

2025-12-15

导读：卧槽！3 分钟，364 行代码，我用 GLM-4.6V 复刻了一个 B站首页！

GLM-4.6V 复刻 B 站首页：3 分钟生成 364 行 HTML + Tailwind 代码

使用 GLM-4.6V 视觉大模型，仅需上传一张 B 站首页截图，输入简洁提示词，30 秒内即可输出可运行的前端页面代码。

导航栏、分类标签、轮播图、视频卡片等核心模块均实现布局对齐与样式还原；按钮交互、图片填充（非占位符）、弹幕数与播放量等细节亦完整呈现。

智谱开源周：5 天发布 8 个 AI 项目

2025 年 12 月第二周，智谱密集开源多项 AI 技术：
周一发布视觉大模型 GLM-4.6V；
周二推出手机端智能体 AutoGLM；
周三开源语音识别模型 GLM-ASR，并同步上线智谱 AI 输入法；
周四发布语音合成模型 GLM-TTS，支持 3 秒声音克隆；
周五集中开源 SCALL、RealVideo、Kaleido 和 SSVAE 四项视频生成核心技术。

本次复刻实践聚焦 GLM-4.6V——国产首个支持「原生多模态工具调用」的视觉大模型。

突破传统：从「理解图像」到「执行任务」

当前主流视觉大模型（如 Qwen3-VL-235B、Kimi-VL）已具备强图像理解能力，但其输出通常为文字描述，后续开发仍需人工编码实现功能。

GLM-4.6V 的核心定位是「一边看图，一边执行」：直接将图像作为参数输入外部工具（如搜索、代码生成），跳过图文转换环节，显著降低信息损耗，提升端到端任务完成效率。

原生多模态工具调用：图片进，图片出

图像即参数，结果即上下文。

以「搜同款」为例：传统方案需先将图片识别为文字描述，再交由搜索引擎；GLM-4.6V 可直接将原始图片传入图像搜索工具，返回商品图后继续解析并输出结构化结果，全程无文本中转。

参数减半，性能持平：轻量化与强性能兼顾

GLM-4.6V 提供两个版本：
• 满血版 GLM-4.6V（106B 参数，激活 12B），对标 Qwen3-VL-235B，在 OCR、图表理解等传统视觉任务中表现接近，而在 Multimodal Agentic 场景（如 Flame-React-Eval「看图写 React 代码」测试）中得分达 86.3，显著高于 Qwen3-VL-235B 的 73.8；
• 轻量版 GLM-4.6V-Flash（9B 参数），对标 Qwen3-VL-8B，在多项指标中实现领先。

GLM-4.6V 基准测试成绩，Multimodal Agentic 能力突出。

实战复刻：三轮迭代达成高保真原型

在 z.ai 平台选择 GLM-4.6V 模型，上传 B 站首页截图并输入提示词：
“复刻这个页面，使用 HTML + Tailwind CSS，尽可能还原布局和样式。图片不要用占位符，根据内容搜索合适的图片素材填充。”

第一版输出即覆盖整体布局、视频卡片、UP 主信息及真实图片填充；
第二版通过单独提交导航栏截图并明确指令，优化 Banner 背景图与单行菜单布局；
第三版聚焦分类区域，完成最终高保真效果——轮播图切换按钮具备可点击逻辑，各模块像素级对齐。

接入方式与开发者支持

用户可通过在线平台 z.ai 直接调用 GLM-4.6V，或使用其 API 接口：
• 满血版定价为输入 1 元/百万 tokens，输出 3 元/百万 tokens；
• 轻量版 GLM-4.6V-Flash API 免费开放。

智谱同步推出 GLM Coding Plan 套餐（Lite 版首月 20 元人民币），提供远超同类服务的 token 额度；更重要的是，其 MCP Server 已集成 GLM-4.6V 视觉能力，全面支持联网、网页爬取与多模态交互，适配 Claude Code、Cline、Roo Code、Kilo 等主流编码助手。

结语

GLM-4.6V 的开源标志着国产视觉大模型正式迈入「可执行」阶段——不再停留于理解，而是深度参与开发闭环。5 天 8 项全栈开源，展现出智谱在多模态 AI 领域的技术纵深与落地决心。

【声明】内容源于网络

AI信息Gap

各类跨境出海行业相关资讯

内容 666

粉丝 0

AI信息Gap 各类跨境出海行业相关资讯

总阅读25.1k

粉丝0

内容666