大数跨境
0
0

PPIO上线GLM-4.6V多模态大模型

PPIO上线GLM-4.6V多模态大模型 PPIO派欧云
2025-12-09
2
导读:今天,PPIO 上线智谱 GLM-4.6V 多模态大模型。GLM-4.6V 将训练时上下文窗口提升到 128


今天,PPIO 上线智谱 GLM-4.6V 多模态大模型。


GLM-4.6V 将训练时上下文窗口提升到 128k tokens,在视觉理解精度上达到同参数规模 SOTA,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。


在性能优化之外,GLM-4.6V 系列相较于 GLM-4.5V 降价 50%,API 调用价格低至输入 1 元/百万 tokens输出 3 元/百万 tokens



现在,你可以到 PPIO 官网(或点击文末阅读原文)在线体验 GLM-4.6V,或将模型 API 接入 Cherry Studio、Trae 等 AI 应用中。新用户填写邀请码【24CGOJ】注册可得 15 元代金券。


在线体验入口:https://ppio.com/llm/zai-org-glm-4.6v



# 01 从看懂图片到自动完成任务


在同等模型规模下,GLM-4.6V 在主要多模态基准测试中均达到了最先进的性能。


GLM-4.6V 引入了以下几个关键特性:


  • 原生多模态函数调用,支持原生视觉驱动工具的使用。图像、截图、文档页面等可以直接作为工具参数,无需先转为文字描述再解析,减少链路损耗;对于工具返回的统计图表、渲染后网页截图、检索到的商品图片等结果,模型能够再次进行视觉理解,将其纳入后续推理链路。


  • 智能图文混排与内容创作。在内容创作与知识分发场景中,GLM-4.6V 可以从多模态输入中,自动构建高质量图文输出:无论是直接输入图文混杂的论文、研报、PPT,还是只给出一个主题,模型都能生成结构清晰、图文并茂的社交媒体内容。


  • 多模态文档理解。GLM-4.6V 可以处理多达 128K 个词元的多文档或长文档输入,直接将格式丰富的页面解释为图像。它能够同时理解文本、布局、图表、表格和图形,从而无需预先转换为纯文本即可准确理解复杂的、包含大量图像的文档。


  • 前端复现与可视化编辑功能。可根据用户界面截图重建像素级精确的 HTML/CSS 代码,并支持自然语言驱动的编辑。它能直观地检测布局、组件和样式,生成简洁的代码,并通过简单的用户指令实现迭代式的视觉修改。



# 02 PPIO 已上线 GLM 最新一代系列模型


目前,GLM 最新一代系列模型已经全部上线PPIO,包括 GLM-4.5GLM-4.5-AirGLM-4.5VGLM-4.6、GLM-4.6V。


你可以在 PPIO 网站在线体验,也可以将模型 API 配置到 Cherry Studio、Trae 等第三方应用中。


模型广场:https://ppio.com/ai-computing/llm-api



    【声明】内容源于网络
    0
    0
    PPIO派欧云
    汇聚全球计算资源,服务全球客户
    内容 288
    粉丝 0
    PPIO派欧云 汇聚全球计算资源,服务全球客户
    总阅读2
    粉丝0
    内容288