

中文多模态视觉语言模型12月测评报告，12月29日发布！

CLUE中文语言理解测评基准

2025-12-11

导读：中文场景视觉模型测评！涵盖基础能力、视觉推理与视觉应用三大维度。

中文多模态视觉语言模型在快速发展，SuperCLUE团队计划于12月29日发布一份全新的评测报告——《中文多模态视觉语言模型基准测评2025年12月报告》。这次评测将延用10月份推出的SuperCLUE-VLM评测体系，从基础认知、视觉推理到视觉应用等多维度对模型的表现进行全面评价，为行业选择、技术优化提供精准且公正的参考依据。

10月多模态视觉语言模型基准测评结果参考：10月多模态视觉测评榜单出炉：国产头部模型超越GPT-5，紧追Gemini-2.5-pro

排行榜地址：www.SuperCLUEai.com

# SuperCLUE-VLM测评体系

注：具体的测评体系以正式发布的测评报告为准。

1. 特点

（1）全维度深度评测，不留能力盲区

聚焦基础认知、视觉推理、视觉应用三大核心维度，构建系统化评测体系。不止考察模型的基础理解与推理功底，更深入评估其在复杂实际任务中的落地执行表现，全方位检验多模态能力成色。

（2）评测场景全面升级，更贴真实生活

本次评测数据集完成重大迭代！新增海量贴近日常场景的样本，打破传统评测的场景局限，让模型能力评测更具现实参考价值，精准匹配真实应用需求。

2. 测评任务

基础认知能力

常识问答：考察模型理解和回答与日常生活相关的问题（社会常识、品牌标志、人物角色、地标建筑等）的能力。
物体描述：考察模型对不同类别物体（动植物、电器、车辆、日常用品等）的识别能力，以及对物体特征（形状、颜色、材质等）的描述能力。
文本识别：考察模型识别和处理文字信息（中英日等不同语言、各类字体形式）的能力。
数量判断：考察模型判断物体数量（整体计数、分组计数）的能力。
表情识别：考察模型判断图像中人物表情（如开心、沮丧、愤怒）的能力。
特征定位：考察模型定位物体的位置及区域的能力。
场景辨识：考察模型识别图像中场景类别（如餐厅、公园、办公室）的能力。
3D物体识别：考察模型识别三维物体类别的能力。

视觉推理能力

科学推理：考察模型对科学知识（如物理、化学、生物、地理等）的推理能力。
数学推理：考察模型对数学知识的推理能力。
逻辑推理：考察模型基于线索和因果关系进行推理和判断的能力。
图表推理：考察模型对图表信息的理解、分析和推理能力。
空间推理：考察模型对空间关系、三维对象、路径规划等空间概念的理解和推理能力。
代码设计：考察模型根据视觉信息生成对应功能代码的能力。

视觉应用能力

自动驾驶领域：考察模型理解道路场景并做出符合交通规则的驾驶决策的能力。
工业应用能力：考察模型对工业视觉信息（如零件瑕疵、机械结构）的理解。
医疗影像分析：考察模型对医学影像进行处理和分析，支持疾病诊断的能力。
图形界面理解：考察模型理解图形界面功能与用途，并识别其交互方式的能力。
安全防控：考察模型对监控画面中异常行为或事件的识别与预警能力。
内容审核：考察模型分析图像内容并进行合规性审核的能力。

3.测评方法

测评方法

参考SuperCLUE细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。

1.测评集构建

多模态视觉语言模型测评中文题库的构建流程如下：

1.根据任务类型，搜集、整理并制作相关图片--->

2.中文prompt撰写--->

3.开展样例测试，收集反馈数据--->

4.基于测试结果优化完善中文prompt--->

5.系统化构建各维度专属评测集，形成完整测评题库。

2.评分方法

本次测评以回答准确性作为唯一评判标准。每道题目都配有标准参考答案。

为了确保评估的科学性和公正性，我们采用评价模型，将模型的回答与参考答案进行对比，从而判断其正确性。应用这种方式，尽量减少人为因素的干预，确保评分结果的客观性和一致性。

3.人类一致性分析

对自动化测评结果进行评估，与人类评价的一致性对比，并报告一致性表现。

# 测评邀请

时间规划

1.报名时间开始：12月11日

2.测评结果发布：12月29日

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供测评API接口或大模型

5.获得测评报告

# 申请评测地址

邮件标题：SuperCLUE-VLM中文多模态视觉语言模型测评申请，发送contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式

【声明】内容源于网络

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

内容 241

粉丝 0

CLUE中文语言理解测评基准精准量化AGI进展，定义人类迈向AGI的路线图

总阅读32

粉丝0

内容241