针对智能体任务,按实现步骤数将指令划分为三级:简单指令(≤4 步)、一般指令(4 <步≤8)、困难指令(>8 步),并通过差异化权重,精准区分产品处理不同复杂度任务的表现。
建立明确可落地的量化评分标准:Grounding 任务按输出坐标是否在标准坐标框内判定得分,信息处理任务按输出结果与标准答案是否匹配判定得分,智能体任务则结合任务完成度(10%)、平均动作类型准确率(50%)、平均动作细节准确匹配率(40%)计算得分,确保评价结果客观可对比。
# 测评体系
计算机端智能交互技术快速发展背景下,可在 Windows 等系统独立执行用户指令的 Computer Use Agent,其 GUI 元素操作、信息处理及多步骤任务执行能力愈发关键。当前该类产品虽层出不穷,但行业缺乏统一规范的测评标准,既难以客观公正衡量不同产品性能,也让用户无法精准识别适配需求的优质产品,一定程度上制约了其技术健康发展与应用落地。
# 测评任务
(1)Grounding任务:评估 Agent 将文本指令转化为具体 GUI 元素操作的能力。
(2)信息处理任务:评估 Agent 对信息的 “汇总 - 提炼” 能力。(如 “总结新闻网页核心内容”、“获取日历中的会议时间”)。
(3)智能体任务:评测 Agent 在真实的windows环境中,完成一个需要多个步骤才能实现的用户目标的能力。
说明:本次测评智能体任务不涉及多路径的情况。
# 报告榜单
本次测评将涵盖四大应用场景:办公软件、操作系统操作、日常工具和专业工具。
办公软件:首先打开data.xlsx,然后新建一个sheet,并重命名为'cu'。
操作系统操作:首先使用快捷键win+R打开'运行'对话框,然后输入cmd进入'命令提示符'窗口,最后安装git。
日常工具:首先打开Edge,然后搜索腾讯视频网页版,最后登陆账号。
专业工具:打开PyCharm,然后点击运行按钮来实现运行当前程序。
2.按任务难度划分:
该任务难度说明:
简单指令:实现步骤数(<=4)。
例:打开Microsoft Edge,并搜索抖音。
一般指令:实现步骤数(4<and<=8)。
例:首先使用快捷键win+R打开'运行'对话框,然后输入cmd进入'命令提示符'窗口,最后跳转到D盘。
困难指令:实现步骤数(>8)。
例:在本地部署一个豆包电脑版。
3.按指令执行质量划分:
说明:
任务完成度:完成一项任务涉及的每一个步骤是否都按照标准执行。
平均动作类型准确率:完成一项任务可能需要多个步骤,每一个步骤有不同的动作类型。此指标衡量的是动作类型匹配成功步骤数与任务中总步骤数的比率。
平均动作细节准确匹配率:此指标衡量的是完全正确执行步骤数与任务中总步骤数的比率。
动作空间:
【鼠标操作】
click(x,y,clicks)表示使用鼠标点击指定坐标[x,y],clicks表示点击的次数;drag(from_x, from_y, to_x, to_y)表示从坐标(from_x,from_y)拖拽至(to_x,to_y);scroll(200)表示按指定单位滚动鼠标滚轮(正数向上,负数向下)。
【键盘操作】
type('text')表示在当前光标位置输入文本;press('key_name')表示按下并释放单个键;keyDown('key_name')表示按住键;keyUp('key_name')表示释放键;hotkey('key_name1', 'key_name2')表示同时按下多个键(自动处理 “按下 - 释放” 顺序)。
【当前状态】
wait表示Agent 判断当前需等待,暂停下一步动作;fail表示Agent 判断任务不可完成,主动终止任务;complete表示 Agent 判断任务已完成,提交任务结果。
# 评价标准
本次Computer Use Agent(离线)测评方案中每个任务的评价标准如下:
Grouding任务(1分制):
输出点坐标是否在 GroundTruth 坐标框内。在则得1分,不在则得0分。
信息处理任务(1分制):
模型输出的结果是否和标准答案匹配。匹配则得1分,否则得0分。
智能体任务(1分制):
对于每条指令,计算其任务完成度得分,平均动作类型准确率以及平均动作细节准确匹配率,该指令执行得分=任务是否完成度*0.1+平均动作类型准确率*0.5+平均动作细节准确匹配率*0.4。
权重说明:因为动作类型的准确性是指令执行的核心基础,动作细节的准确匹配直接影响执行质量,二者对指令落地效果的影响显著高于仅判断任务是否完成的任务完成度。
# 测评方法
1. 获得问题、模型回复和参考答案-->2.依据评分标准评价每一题的分数-->3.计算模型最终得分。
总任务分为 Grounding 任务、信息处理任务和指令执行任务。
总任务得分计算:
总任务得分 = Grounding 任务得分*0.2+信息处理任务得分*0.2+智能体任务得分*0.6
说明:相较于智能体任务,Grounding 任务与信息处理任务复杂度较低,故为二者设置更低权重。
智能体任务有不同的难度等级,对不同难度的题目赋予不同的重要性程度。Level 1的题目权重为w1;Level 2的权重为w2;Level 3的权重为w3,这个应用场景下的总分通过加权计算得到。
定义以下变量:
Level 1题目得分:S1;
Level 2题目得分:S2;
Level 3题目得分:S3;
智能体任务得分:
智能体任务得分 = (w1*S1+w2*S2+w3*S3)/(w1+w2+w3)
|
|
Doubao_Seed_1.6_thinking_250715 |
|
|
|
【任务类型】:智能体任务---简单指令
|
|
|
|
|
|
|
{
"action_type": "click",
"action_info": "",
"action_position": "",
"ground_truth": "[29, 228, 88, 350]",
}
{
"action_type": "click",
"action_info": "1",
"action_position": [28,259],
}
说明:
action_type表示动作类型、action_info表示动作输入的文本、action_position表示动作的坐标以及ground_truth表示点击动作的正确区域。
{
"action_type": "click",
"action_info": "",
"action_position": "",
"ground_truth": "[716, 0, 741, 39]",
}
{
"action_type": "click",
"action_info": "1",
"action_position": [725,18],
}
{
"action_type": "complete",
"action_info": "",
"action_position": "",
"ground_truth": "",
}
{
"action_type": "complete",
"action_info": "",
"action_position": "",
}
第一、二、三步动作类型匹配,第二、三步动作精确匹配,所以平均动作类型准确率为1分,平均动作细节匹配率为0.667分,任务是否完成得分为0分。
任务得分=0*0.1+1*0.5+0.667*0.4=0.7668
时间规划
测评流程
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供测评智能体使用方式
5.获得测评报告







