

PPIO上线GLM-4.6V多模态大模型

PPIO派欧云

2025-12-09

导读：今天，PPIO 上线智谱 GLM-4.6V 多模态大模型。GLM-4.6V 将训练时上下文窗口提升到 128

今天，PPIO 上线智谱 GLM-4.6V 多模态大模型。

GLM-4.6V 将训练时上下文窗口提升到 128k tokens，在视觉理解精度上达到同参数规模 SOTA，并首次在模型架构中将 Function Call（工具调用）能力原生融入视觉模型，打通从「视觉感知」到「可执行行动（Action）」的链路，为真实业务场景中的多模态 Agent 提供统一的技术底座。

在性能优化之外，GLM-4.6V 系列相较于 GLM-4.5V 降价 50%，API 调用价格低至输入 1 元/百万 tokens，输出 3 元/百万 tokens。

现在，你可以到 PPIO 官网（或点击文末阅读原文）在线体验 GLM-4.6V，或将模型 API 接入 Cherry Studio、Trae 等 AI 应用中。新用户填写邀请码【24CGOJ】注册可得 15 元代金券。

在线体验入口：https://ppio.com/llm/zai-org-glm-4.6v

# 01 从看懂图片到自动完成任务

在同等模型规模下，GLM-4.6V 在主要多模态基准测试中均达到了最先进的性能。

GLM-4.6V 引入了以下几个关键特性：

原生多模态函数调用，支持原生视觉驱动工具的使用。图像、截图、文档页面等可以直接作为工具参数，无需先转为文字描述再解析，减少链路损耗；对于工具返回的统计图表、渲染后网页截图、检索到的商品图片等结果，模型能够再次进行视觉理解，将其纳入后续推理链路。
智能图文混排与内容创作。在内容创作与知识分发场景中，GLM-4.6V 可以从多模态输入中，自动构建高质量图文输出：无论是直接输入图文混杂的论文、研报、PPT，还是只给出一个主题，模型都能生成结构清晰、图文并茂的社交媒体内容。
多模态文档理解。GLM-4.6V 可以处理多达 128K 个词元的多文档或长文档输入，直接将格式丰富的页面解释为图像。它能够同时理解文本、布局、图表、表格和图形，从而无需预先转换为纯文本即可准确理解复杂的、包含大量图像的文档。
前端复现与可视化编辑功能。可根据用户界面截图重建像素级精确的 HTML/CSS 代码，并支持自然语言驱动的编辑。它能直观地检测布局、组件和样式，生成简洁的代码，并通过简单的用户指令实现迭代式的视觉修改。

# 02 PPIO 已上线 GLM 最新一代系列模型

目前，GLM 最新一代系列模型已经全部上线PPIO，包括 GLM-4.5、GLM-4.5-Air、GLM-4.5V、GLM-4.6、GLM-4.6V。

你可以在 PPIO 网站在线体验，也可以将模型 API 配置到 Cherry Studio、Trae 等第三方应用中。

模型广场：https://ppio.com/ai-computing/llm-api

【声明】内容源于网络

PPIO派欧云

汇聚全球计算资源，服务全球客户

内容 288

粉丝 0

PPIO派欧云汇聚全球计算资源，服务全球客户

总阅读2

粉丝0

内容288