排行榜地址:www.SuperCLUEai.com
注:具体的测评体系以正式发布的测评报告为准。
(1)全维度深度评测,不留能力盲区
(2)评测场景全面升级,更贴真实生活
-
常识问答:考察模型理解和回答与日常生活相关的问题(社会常识、品牌标志、人物角色、地标建筑等)的能力。 -
物体描述:考察模型对不同类别物体(动植物、电器、车辆、日常用品等)的识别能力,以及对物体特征(形状、颜色、材质等)的描述能力。 -
文本识别:考察模型识别和处理文字信息(中英日等不同语言、各类字体形式)的能力。 -
数量判断:考察模型判断物体数量(整体计数、分组计数)的能力。 -
表情识别:考察模型判断图像中人物表情(如开心、沮丧、愤怒)的能力。 -
特征定位:考察模型定位物体的位置及区域的能力。 -
场景辨识:考察模型识别图像中场景类别(如餐厅、公园、办公室)的能力。 -
3D物体识别:考察模型识别三维物体类别的能力。
视觉推理能力
-
科学推理:考察模型对科学知识(如物理、化学、生物、地理等)的推理能力。 -
数学推理:考察模型对数学知识的推理能力。 -
逻辑推理:考察模型基于线索和因果关系进行推理和判断的能力。 -
图表推理:考察模型对图表信息的理解、分析和推理能力。 -
空间推理:考察模型对空间关系、三维对象、路径规划等空间概念的理解和推理能力。 代码设计:考察模型根据视觉信息生成对应功能代码的能力。
视觉应用能力
-
自动驾驶领域:考察模型理解道路场景并做出符合交通规则的驾驶决策的能力。 -
工业应用能力:考察模型对工业视觉信息(如零件瑕疵、机械结构)的理解。 -
医疗影像分析:考察模型对医学影像进行处理和分析,支持疾病诊断的能力。 -
图形界面理解:考察模型理解图形界面功能与用途,并识别其交互方式的能力。 -
安全防控:考察模型对监控画面中异常行为或事件的识别与预警能力。 -
内容审核:考察模型分析图像内容并进行合规性审核的能力。
5.系统化构建各维度专属评测集,形成完整测评题库。
对自动化测评结果进行评估,与人类评价的一致性对比,并报告一致性表现。
1.报名时间开始:12月11日
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供测评API接口或大模型

