大数跨境
0
0

Computer Use Agent(离线)测评方案发布

Computer Use Agent(离线)测评方案发布 CLUE中文语言理解测评基准
2025-10-09
0
导读:Computer Use Agent(离线)测评方案发布
AgentCLUE-CUA基准方案要点
1.中文原生场景适配
本次测评任务均基于国内用户日常计算机使用的典型场景开发,涵盖办公软件操作、操作系统操作、日常工具使用、专业工具应用四大场景,既贴合中文用户操作习惯与实际需求,也确保测评结果对国内用户及企业具备切实参考价值。
2.核心任务聚焦
聚焦 Computer Use Agent 的三大核心能力 ——Grounding 能力、信息处理能力、智能体综合能力(真实 Windows 环境下多步骤目标完成能力),直击其计算机端交互关键性能维度,精准评估核心竞争力。

3.分级指令难度设计

针对智能体任务,按实现步骤数将指令划分为三级:简单指令(≤4 步)、一般指令(4 <步≤8)、困难指令(>8 步),并通过差异化权重,精准区分产品处理不同复杂度任务的表现。


  4.科学量化评价体系

建立明确可落地的量化评分标准:Grounding 任务按输出坐标是否在标准坐标框内判定得分,信息处理任务按输出结果与标准答案是否匹配判定得分,智能体任务则结合任务完成度(10%)、平均动作类型准确率(50%)、平均动作细节准确匹配率(40%)计算得分,确保评价结果客观可对比。


# 测评体系

# 测评背景

计算机端智能交互技术快速发展背景下,可在 Windows 等系统独立执行用户指令的 Computer Use Agent,其 GUI 元素操作、信息处理及多步骤任务执行能力愈发关键。当前该类产品虽层出不穷,但行业缺乏统一规范的测评标准,既难以客观公正衡量不同产品性能,也让用户无法精准识别适配需求的优质产品,一定程度上制约了其技术健康发展与应用落地。

本方案 Computer Use Agent(离线)测评作为 AgentCLUE-CUA 的首期专项方案,旨在构建科学全面的测评体系,精准评估 Computer Use Agent 核心能力,填补行业统一测评标准空白,明确技术发展方向并为用户选品提供可靠依据;需说明的是,本期暂不涉及智能体任务多路径问题,相关内容将在后续测评中逐步完善纳入。

# 测评任务

AgentCLUE-CUA 第一期测评方案共包括三大任务,具体介绍如下:

(1)Grounding任务:评估 Agent 将文本指令转化为具体 GUI 元素操作的能力。

(2)信息处理任务:评估 Agent 对信息的 “汇总 - 提炼” 能力。(如 “总结新闻网页核心内容”、“获取日历中的会议时间”)。

(3)智能体任务:评测 Agent 在真实的windows环境中,完成一个需要多个步骤才能实现的用户目标的能力。


说明:本次测评智能体任务不涉及多路径的情况。

# 报告榜单

AgentCLUE-CUA报告的成绩将会包含四个榜单:总榜、智能体任务下的应用场景得分榜单、智能体任务下的不同难度任务得分榜单以及智能体任务下的指令执行质量榜单。
(一)总榜:
(二)智能体任务:
1.按应用场景划分:

本次测评将涵盖四大应用场景:办公软件、操作系统操作、日常工具和专业工具。

办公软件:首先打开data.xlsx,然后新建一个sheet,并重命名为'cu'。

操作系统操作:首先使用快捷键win+R打开'运行'对话框,然后输入cmd进入'命令提示符'窗口,最后安装git。

日常工具:首先打开Edge,然后搜索腾讯视频网页版,最后登陆账号。

专业工具:打开PyCharm,然后点击运行按钮来实现运行当前程序。

2.按任务难度划分:

该任务难度说明:

  • 简单指令实现步骤数(<=4)。

    • 例:打开Microsoft Edge,并搜索抖音。

  • 一般指令:实现步骤数(4<and<=8)。

    • 例:首先使用快捷键win+R打开'运行'对话框,然后输入cmd进入'命令提示符'窗口,最后跳转到D盘。

  • 困难指令:实现步骤数(>8)。

    • 例:在本地部署一个豆包电脑版。

3.按指令执行质量划分:

说明:

  • 任务完成度:完成一项任务涉及的每一个步骤是否都按照标准执行。

  • 平均动作类型准确率:完成一项任务可能需要多个步骤,每一个步骤有不同的动作类型。此指标衡量的是动作类型匹配成功步骤数与任务中总步骤数的比率。

  • 平均动作细节准确匹配率:此指标衡量的是完全正确执行步骤数与任务中总步骤数的比率。

  • 动作空间:

    • 【鼠标操作】

      click(x,y,clicks)表示使用鼠标点击指定坐标[x,y],clicks表示点击的次数;drag(from_x, from_y, to_x, to_y)表示从坐标(from_x,from_y)拖拽至(to_x,to_y);scroll(200)表示按指定单位滚动鼠标滚轮(正数向上,负数向下)。
    • 【键盘操作】

      type('text')表示在当前光标位置输入文本;press('key_name')表示按下并释放单个键;keyDown('key_name')表示按住键;keyUp('key_name')表示释放键;hotkey('key_name1', 'key_name2')表示同时按下多个键(自动处理 “按下 - 释放” 顺序)。

    • 【当前状态】

      wait表示Agent 判断当前需等待,暂停下一步动作;fail表示Agent 判断任务不可完成,主动终止任务;complete表示 Agent 判断任务已完成,提交任务结果。

注:基于上述榜单,考虑到云端模型与端侧模型的应用场景及技术特性差异,将为两类模型分别提供对应的专属榜单,以实现更精准的性能对比。

# 评价标准

本次Computer Use Agent(离线)测评方案中每个任务的评价标准如下:

Grouding任务(1分制):

  • 输出点坐标是否在 GroundTruth 坐标框内。在则得1分,不在则得0分。

信息处理任务(1分制):

  • 模型输出的结果是否和标准答案匹配。匹配则得1分,否则得0分。

智能体任务(1分制):

  • 对于每条指令,计算其任务完成度得分,平均动作类型准确率以及平均动作细节准确匹配率,该指令执行得分=任务是否完成度*0.1+平均动作类型准确率*0.5+平均动作细节准确匹配率*0.4。

权重说明:因为动作类型的准确性是指令执行的核心基础,动作细节的准确匹配直接影响执行质量,二者对指令落地效果的影响显著高于仅判断任务是否完成的任务完成度。

# 测评方法

(1)评估流程:

1. 获得问题、模型回复和参考答案-->2.依据评分标准评价每一题的分数-->3.计算模型最终得分。


(2)总分计算:

总任务分为 Grounding 任务、信息处理任务和指令执行任务。


总任务得分计算:

  • 总任务得分 =  Grounding 任务得分*0.2+信息处理任务得分*0.2+智能体任务得分*0.6


说明:相较于智能体任务,Grounding 任务与信息处理任务复杂度较低,故为二者设置更低权重。


智能体任务有不同的难度等级,对不同难度的题目赋予不同的重要性程度。Level 1的题目权重为w1;Level 2的权重为w2;Level 3的权重为w3,这个应用场景下的总分通过加权计算得到。

定义以下变量:

  • Level 1题目得分:S1;

  • Level 2题目得分:S2;

  • Level 3题目得分:S3;


智能体任务得分:

  • 智能体任务得分 = (w1*S1+w2*S2+w3*S3)/(w1+w2+w3)

# 示例展示
示例1: Grounding 任务
【任务类型】: Grounding 任务
【题目】:在这个屏幕上,我在哪里能找到执行"打开Xmind"操作的功能?请按照 <point>[x,y]</point>的格式回答。输出的坐标要求是1000*1000的相对坐标
【结果可视化展示】:
Gemini_2.5_Pro

Doubao_Seed_1.6_thinking_250715

【参考答案】:<point>[1, 316, 39, 414]</point>
Gemini_2.5_Pro答案】:<point>[49, 253]</point>
【评价】:得0分,输出点坐标不在 GroundTruth 坐标框内。
【Doubao_Seed_1.6_thinking_250715答案】:<point>[21, 346]</point>
【评价】:得1分,输出点坐标在 GroundTruth 坐标框内。
示例2: 信息处理任务
【任务类型】:信息处理任务
【题目】:在这个屏幕上,明天将要上映的电影是什么名字?
【问题图片展示】:
【参考答案】:长安的荔枝
Gemini_2.5_Pro答案】长安的荔枝、和离后她高攀不起
【评价】:模型回离后她高攀不起》属于微剧,不属于电影。得0分,模型输出的结果和参考答案不一致。
【Doubao_Seed_1.6_thinking_250715答案】:长安的荔枝
【评价】:得1分,模型输出的结果和参考答案一致。
示例3 智能体任务
每一步模型输入说明
输入操作指令、当前屏幕截图宽、高度像素值、当前的屏幕截图和历史的步骤信息(已完成步骤均按"标准答案"执行)。输出的坐标格式要求:输出1000*1000像素的相对坐标。

【任务类型】:智能体任务---简单指令

【操作指令】:打开PyCharm,然后点击运行按钮来实现运行当前程序
Doubao_Seed_1.6_thinking_250715结果可视化展示】:
第一步结果
第二步结果
第三步结果
由于篇幅有限,下面模型输出仅展示关键字段。每一步上传的屏幕截图请参考可视化展示的图片。
【第一步输入给Doubao_Seed_1.6_thinking_250715的内容】:
输入操作指令、当前屏幕截图宽、高度像素值、第一步屏幕截图和历史的步骤信息(第一步为空)。
【第一步参考答案】:

  {

    "action_type": "click",

    "action_info": "",

    "action_position":  "",

    "ground_truth":  "[29, 228, 88, 350]",

  }

【第一步Doubao_Seed_1.6_thinking_250715输出】:

  {

    "action_type": "click",

    "action_info": "1",

    "action_position": [28,259],

  }

说明:

  • action_type表示动作类型、action_info表示动作输入的文本、action_position表示动作的坐标以及ground_truth表示点击动作的正确区域。

【第一评价】:
标准答案和模型输出都是"click"操作,第一步动作类型匹配,"click"操作的坐标不在ground_truth中,第一步动作未能精确匹配。
【第二步输入给Doubao_Seed_1.6_thinking_250715的内容】:
输入操作指令、当前屏幕截图宽、高度像素值、第二步屏幕截图和历史的步骤信息
("step_id : 0 ,action : 点击元素{PyCharm}")。
【第二步参考答案】:

  {

    "action_type": "click",

    "action_info": "",

    "action_position":  "",

    "ground_truth":  "[716, 0, 741, 39]",

  }

【第二步Doubao_Seed_1.6_thinking_250715输出】:

  {

    "action_type": "click",

    "action_info": "1",

    "action_position": [725,18],

  }    

【第二评价】:
标准答案和模型输出都是"click"操作,第二步动作类型匹配,"click"操作的坐标在ground_truth中,第二步动作精确匹配。
【第三步输入给Doubao_Seed_1.6_thinking_250715的内容】:
输入操作指令、当前屏幕截图宽、高度像素值、第三步屏幕截图和历史的步骤信息("step_id : 0 ,action : 点击元素{PyCharm}","step_id : 1 ,action : 点击元素{运行}")。
【第三步参考答案】:

  {

    "action_type": "complete",

    "action_info": "",

    "action_position": "",

    "ground_truth":  "",

  }

【第三步Doubao_Seed_1.6_thinking_250715输出】:

  {

    "action_type": "complete",

    "action_info": "",

    "action_position": "",

  }

【第三步评价】:
模型输出和参考答案都是"complete"操作第三步动作类型和动作细节都精确匹配。
【总评】:

第一、二、三步动作类型匹配,第二、三步动作精确匹配,所以平均动作类型准确率为1分,平均动作细节匹配率为0.667分,任务是否完成得分为0分。

任务得分=0*0.1+1*0.5+0.667*0.4=0.7668

测评邀请

时间规划

1. 报名开始时间:2025年10月09日
2. 测评结果发布:2025年11月06日

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供测评智能体使用方式

5.获得测评报告

申请评测地址
邮件标题:AgentCLUE-CUA「Computer Use Agent(离线)基准」测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、智能体简介、联系人和所属部门、联系方式
# 交流合作

【声明】内容源于网络
0
0
CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
内容 241
粉丝 0
CLUE中文语言理解测评基准 精准量化AGI进展,定义人类迈向AGI的路线图
总阅读19
粉丝0
内容241