大数跨境
0
0

中文多模态视觉语言模型12月测评报告,12月29日发布!

中文多模态视觉语言模型12月测评报告,12月29日发布! CLUE中文语言理解测评基准
2025-12-11
5
导读:中文场景视觉模型测评!涵盖基础能力、视觉推理与视觉应用三大维度。
中文多模态视觉语言模型在快速发展,SuperCLUE团队计划于12月29日发布一份全新的评测报告——《中文多模态视觉语言模型基准测评2025年12月报告》。这次评测将延用10月份推出的SuperCLUE-VLM评测体系,从基础认知、视觉推理到视觉应用等多维度对模型的表现进行全面评价,为行业选择、技术优化提供精准且公正的参考依据。
10月多模态视觉语言模型基准测评结果参考:10月多模态视觉测评榜单出炉:国产头部模型超越GPT-5,紧追Gemini-2.5-pro

排行榜地址:www.SuperCLUEai.com

SuperCLUE-VLM测评体系

注:具体的测评体系以正式发布的测评报告为准。

1. 特点

(1)全维度深度评测,不留能力盲区

聚焦基础认知、视觉推理、视觉应用三大核心维度,构建系统化评测体系。不止考察模型的基础理解与推理功底,更深入评估其在复杂实际任务中的落地执行表现,全方位检验多模态能力成色。

(2)评测场景全面升级,更贴真实生活

本次评测数据集完成重大迭代!新增海量贴近日常场景的样本,打破传统评测的场景局限,让模型能力评测更具现实参考价值,精准匹配真实应用需求。
2. 测评任务
基础认知能力
  • 常识问答:考察模型理解和回答与日常生活相关的问题(社会常识、品牌标志、人物角色、地标建筑等)的能力。
  • 物体描述:考察模型对不同类别物体(动植物、电器、车辆、日常用品等)的识别能力,以及对物体特征(形状、颜色、材质等)的描述能力。
  • 文本识别:考察模型识别和处理文字信息(中英日等不同语言、各类字体形式)的能力。
  • 数量判断:考察模型判断物体数量(整体计数、分组计数)的能力。
  • 表情识别:考察模型判断图像中人物表情(如开心、沮丧、愤怒)的能力。
  • 特征定位:考察模型定位物体的位置及区域的能力。
  • 场景辨识:考察模型识别图像中场景类别(如餐厅、公园、办公室)的能力。
  • 3D物体识别:考察模型识别三维物体类别的能力。

视觉推理能力

  • 科学推理:考察模型对科学知识(如物理、化学、生物、地理等)的推理能力。
  • 数学推理:考察模型对数学知识的推理能力。
  • 逻辑推理:考察模型基于线索和因果关系进行推理和判断的能力。
  • 图表推理:考察模型对图表信息的理解、分析和推理能力。
  • 空间推理:考察模型对空间关系、三维对象、路径规划等空间概念的理解和推理能力。
  • 代码设计:考察模型根据视觉信息生成对应功能代码的能力。

视觉应用能力

    • 自动驾驶领域:考察模型理解道路场景并做出符合交通规则的驾驶决策的能力。
    • 工业应用能力:考察模型对工业视觉信息(如零件瑕疵、机械结构)的理解。
    • 医疗影像分析考察模型对医学影像进行处理和分析,支持疾病诊断的能力。
    • 图形界面理解考察模型理解图形界面功能与用途,并识别其交互方式的能力。
    • 安全防控考察模型对监控画面中异常行为或事件的识别与预警能力。
    • 内容审核考察模型分析图像内容并进行合规性审核的能力。
    3.测评方法
    测评方法
    参考SuperCLUE细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。
    1.测评集构建
    多模态视觉语言模型测评中文题库的构建流程如下:
     1.根据任务类型,搜集、整理并制作相关图片--->
     2.中文prompt撰写--->
     3.开展样例测试,收集反馈数据--->
     4.基于测试结果优化完善中文prompt--->

     5.系统化构建各维度专属评测集,形成完整测评题库。

    2.评分方法
    本次测评以回答准确性作为唯一评判标准。每道题目都配有标准参考答案。
    为了确保评估的科学性和公正性,我们采用评价模型,将模型的回答与参考答案进行对比,从而判断其正确性。应用这种方式,尽量减少人为因素的干预,确保评分结果的客观性和一致性。
    3.人类一致性分析

    对自动化测评结果进行评估,与人类评价的一致性对比,并报告一致性表现。

    测评邀请
    时间规划

    1.报名时间开始:12月11日

    2.测评结果发布:12月29日
    测评流程

    1.邮件申请

    2.意向沟通

    3.参测确认与协议流程

    4.提供测评API接口或大模型

    5.获得测评报告
    申请评测地址
    邮件标题:SuperCLUE-VLM中文多模态视觉语言模型测评申请,发送contact@superclue.ai
    请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式

    【声明】内容源于网络
    0
    0
    CLUE中文语言理解测评基准
    精准量化AGI进展,定义人类迈向AGI的路线图
    内容 241
    粉丝 0
    CLUE中文语言理解测评基准 精准量化AGI进展,定义人类迈向AGI的路线图
    总阅读32
    粉丝0
    内容241