AgentCLUE-CUA 是 Computer Use Agent (离线)测评的专项方案,旨在构建科学、全面的测评体系,精准评估 CUA 的核心能力,填补行业内统一测评标准的空白,明确技术发展方向,为用户选择产品提供可靠依据,同时推动该领域技术的规范化、高质量发展。需要说明的是,本期测评暂不涉及智能体任务多路径问题的考察,相关内容将在后续测评中逐步完善纳入。
Computer Use Agent(离线)测评基准方案参考:Computer Use Agent(离线)测评方案发布
本次我们测评了国内外 8 个代表性模型的表现,以下为详细测评报告。
AgentCLUE-CUA测评摘要
在本次 AgentCLUE-CUA 测评中,得分最高的模型 qwen3-vl-235b-a22b-thinking 总分达 87.37 分,而尾部如 ui-tars-1.5-7b 等模型,总分仅 27.18 分。这清晰表明部分头部模型已具备较强的智能交互能力,但仍有大量尾部模型需在相关核心能力上进一步优化。
通常情况下 Grounding 得分越高,智能体任务得分也越高,但也有例外。比如阿里巴巴 GUI-Owl-7B,虽 Grounding 任务表现非常亮眼,却在多步骤任务执行中,不能很好的判断出当前步骤应该执行什么动作类型,导致智能体任务仅 17.06 分。小模型仍需在任务理解能力上进行针对性提升。
头部模型如 qwen3-vl-235b-a22b-thinking、 GLM-4.5v 等,任务完成度、平均动作类型准确率和平均动作细节准确匹配率均较高;而尾部模型像 GUI-Owl-7B、 ui-tars-1.5-7b 等,任务完成度均为 0,整体综合指令执行质量亟待提升。
在办公软件、操作系统操作、日常工具、专业工具这四大应用场景中,办公软件场景平均分最高,为 54.51 分,大部分 CUA 离实现自动化办公仍有较大差距;而在专业工具这种复杂场景平均分最低,为 43.50 分,反映 CUA 的专业能力相对薄弱。
AgentCLUE-CUA 测评围绕办公软件、操作系统操作、日常工具、专业工具四大场景,聚焦Computer Use Agent 的 GUI 元素操作、信息处理、多步骤任务执行三大核心能力展开。通过四大场景与三大核心能力测评,AgentCLUE-CUA 为Computer Use Agent 性能评估提供精准全面的参考,助力该技术优化发展。
现在,我们正式发布「AgentCLUE-CUA」基准测评结果报告。
排行榜地址:www.SuperCLUEai.com
# 测评任务
(1)Grouding任务(百分制):
输出点坐标是否在 GroundTruth 坐标框内。在则得100分,不在则得0分。
(2)信息处理任务(百分制):
模型输出的结果是否和标准答案匹配。匹配则得100分,否则得0分。
(3)智能体任务(百分制):
对于每条指令,计算其任务完成度得分,平均动作类型准确率以及平均动作细节准确匹配率,该指令执行得分=任务是否完成度得分*0.1+平均动作类型准确率得分*0.1+平均动作细节准确匹配率得分*0.8。
权重调整说明:考虑到原标准中平均动作类型准确率权重过高,而实际场景中,若模型仅判断出动作类型(如点击)却未精准执行(如未点中目标元素),该步骤仍属失败,动作细节精准度对任务完成更关键。故调整权重分配,更贴合 “动作类型为基础、细节精准为核心” 的执行逻辑,确保评分能精准反映单条指令的实际执行效果。
1.定义应用场景;-->
2.根据应用场景,人工撰写题目;-->
3.对题库进行多轮的验证和修改,最终确认测试集。
(1)评估流程
1. 获得问题、模型回复和标准参考答案-->
2.依据标准答案评价每一题的分数-->
3.计算模型最终得分
(3)总分计算
本次测评任务分为 Grounding 任务、信息处理任务和智能体任务。
总分的计算
说明:相较于智能体任务,Grounding 任务与信息处理任务复杂度较低,故为二者设置更低权重。本次测评中,智能体任务分了三种不同的难度等级,智能体任务总得分为不同难度题目的平均值。
为综合衡量当前国内外 CUA 能力的发展水平,本次测评选取了2个海外模型和6个国内模型。具体如下所示:
# 测评结果
总榜单
总分 = Grounding 任务得分*0.2 + 信息处理任务得分*0.2 + 智能体任务得分*0.6
应用场景榜单
不同指令类型得分榜单
注:指令执行任务总得分为三种不同难度任务的平均分。
综合指令执行质量评分榜单
注:单条指令执行任务得分=任务完成度得分*0.1+平均动作类型准确率得分*0.1+平均动作细节准确匹配率得分*0.8。
# 优秀测评案例
【prompt】:你是一名精通 Windows 桌面操作系统图形用户界面(GUI)的智能体,将根据用户的问题,分析当前界面的GUI元素和布局,生成相应的操作。请严格按照 <point>[x,y]</point> 的格式返回答案,只包含坐标信息,不要添加额外解释。题目为:在这个屏幕上,我在哪里能找到执行‘点击并查看《葫芦娃》’操作的功能?请按照 <point>[x,y]</point>的格式回答。输出的坐标要求是1000*1000的相对坐标。
【图片数据】:
【模型名称】:qwen3-vl-235b-a22b-thinking
【模型回复】:<point>[847, 828]</point>
【标准答案】:<point>[696, 701, 979, 965]</point>或者
<point>[1338, 758, 1881, 1043]</point>
【评价】:模型回复在GT中,得1分
说明:实际测评的过程中,部分模型输出的只能是绝对坐标。为了真实的测评出模型的Grounding能力,我们团队在答案上做了兼容,如果模型回复的是绝对坐标,并且在GT中,也判对。
【结果可视化】:
【prompt】:你是一名精通 Windows 桌面操作系统图形用户界面(GUI)的智能体,将根据用户的问题,分析当前界面的GUI元素和布局,对页面中的信息进行汇总和提炼,生成相应的操作。要求只包含最终的结果信息,不要添加额外解释。题目为:在这个屏幕上,'高碑店'站和'双桥'站中间的站叫什么名字
【图片数据】:
说明:受公众号图片压缩算法影响,文中配图的清晰度有所损失。但实际用于模型分析的原始图片质量完好,题目所涉地铁站名称等细节均可清晰识别。
【模型名称】:Gemini-2.5-pro
【模型回复】:传媒大学
【标准答案】:传媒大学
【评价】:模型回复与标准答案一致,得1分
1.{{"action_type": "click", "action_position": [x,y], "action_info": "clicks"}} - 使用鼠标点击指定坐标[x,y] , action_info字段的clicks表示使用鼠标点击的次数。
2.{{"action_type": "drag", "action_position": [[from_x, from_y],[to_x, to_y]]}} - 从坐标(from_x,from_y)拖拽至(to_x,to_y)。
3.{{"action_type": "type", "action_info": "<text_input>"}} - 在当前光标位置输入文本。当需要在输入框中输入内容时使用,action_info填写要输入的文本。
4.{{"action_type": "press", "action_info": "<key_name>"}} - 按下并释放单个键。action_info填写单个键的名称。
5.{{"action_type": "keyDown", "action_info": "<key_name>"}} - 按住单个键。action_info填写单个键的名称。
6.{{"action_type": "keyUp", "action_info": "<key_name>"}} - 释放单个键。action_info填写单个键的名称。
7.{{"action_type": "hotkey", "action_info": "<key_names>"}} - 同时按下多个键(自动处理 “按下 - 释放” 顺序)。action_info填写按下的多个个键的名称,要求每个键的名称用单引号包裹,不同的键名用逗号分隔。
8.{{"action_type": "scroll", "action_info": "<scroll_length>"}} - 按指定单位滚动鼠标滚轮(正数向上,负数向下)。action_info填写滚动的距离。
9.{{"action_type": "wait"}} - Agent 判断当前需等待,暂停下一步动作。
10.{{"action_type": "complete"}} - Agent 判断任务已完成,提交任务结果。
11.{{"action_type": "fail"}} - Agent 判断任务不可完成,主动终止任务。
1.x、from_x、 to_x表示图像的水平坐标,y 、from_y、to_y表示图像的垂直坐标。输出的所有坐标必须是1000*1000的相对指标值。
2.一次只能执行一项操作。最后,请使用上述 JSON 格式完成回答。
3.你需要严格在<action></action>标签中输出需要执行的动作,请严格按照该格式输出内容。
当前任务指令:首先收藏当前视频,然后点击评论,接着给从上往下数第二条评论点赞,最终查看点赞后的页面。
该任务已完成的历史动作步骤如下所示:[]
说明:由于篇幅有限,后面统一省略提示词的公共部分。
【模型名称】:GLM-4.5v
【第一步模型回复】:
"action_type": "click",
"action_info": "clicks",
"action_position": [957,703],
【第一步标准答案】:
"action_type": "click",
"ground_truth": "[941,666,986,756]",
【第一步评价】:第一步动作类型和动作细节完全匹配(本次测评中,如果"action_type"为 "click",并且"action_position"在的"ground_truth"中,则"click"动作细节算完全匹配)
【第一步结果可视化】:
【图片数据】:
【模型名称】:GLM-4.5v
【第二步模型回复】:
"action_type": "click",
"action_info": "clicks",
"action_position": [957,618],
【第二步标准答案】:
"action_type": "click",
"ground_truth": "[940,590,982,679]",
【第二步评价】:第二步动作类型和动作细节完全匹配
【第二步结果可视化】:
【第三步模型回复】:
"action_type": "click",
"action_info": "clicks",
"action_position": [804,414],
【第三步标准答案】:
"action_type": "click",
"ground_truth": "[786,398,822,435]",
【第三步评价】:第三步动作类型和动作细节完全匹配
【第三步结果可视化】:
【第四步模型回复】:
"action_type": "complete",
【第四步标准答案】:
【总评】:GLM-4.5v完成这道题时,所有动作类型和动作细节都完全匹配,所以该任务完成度得100分,平均动作类型准确率得100分, 平均动作细节精确匹配率得100分,这道题得分=100*0.1+100*0.1+100*0.8=100分。
1. 现阶段 CUA 整体能力分化明显,头部与尾部差距显著
从 AgentCLUE-CUA 测评总榜可见,参与评估的模型在办公软件、操作系统操作等四大核心场景表现分化显著:头部模型中,阿里巴巴的 qwen3-vl-235b-a22b-thinking(87.37 分)、智谱 AI 的 GLM-4.5v(84.49 分)居前,三大核心能力均衡且强势;尾部模型如字节跳动的 ui-tars-1.5-7b(27.18 分),核心任务执行能力薄弱。头部与尾部差距超 60 分,反映该技术发展不均衡 —— 部分模型已具备高精度 GUI 操作、信息处理以及多步骤任务执行能力,仍有大量产品需重点优化核心能力。
2. Grounding 是 CUA 基础能力,通常与智能体任务得分正相关
Grounding 是 CUA 的核心基础能力,通常情况下 Grounding 得分越高,智能体任务得分往往越高,但该规律存在例外情况。比如阿里巴巴 GUI-Owl-7B:其 Grounding 任务表现优异,得分为 91.01 分,但在多步骤任务执行中,无法准确判断当前步骤需执行的动作类型,最终智能体任务得分仅 17.06 分。而Google Gemini-2.5-pro:该模型 UI 元素定位表现一般,但其在指令执行过程中,平均动作类型准确率得分高达93.15分,能精准判断当前应执行的动作,平均动作细节匹配准确率得分为50.93,能较好的完成动作,智能体任务得分因此达到 50.42 分。
3. 不同模型在综合指令执行质量上分化显著,头部与尾部差距巨大
在 AgentCLUE-CUA 各模型综合指令执行质量测评中,任务完成度得分方面,qwen3-vl-235b-a22b-thinking 以 57.14 领先,而 GUI-Owl-7B、claude-sonnet-4.5、ui-tars-1.5-7b 等部分模型任务完成度为 0;平均动作类型准确率得分上,GLM-4.5v 达 97.62,表现极为出色,但 ui-tars-1.5-7b 仅 19.53;平均动作细节准确匹配率得分里,qwen3-vl-235b-a22b-thinking 获 87.58,部分模型如 ui-tars-1.5-7b 仅 9.36。这说明头部模型在综合指令执行的各维度已具备较强能力,尾部模型则需在这些核心维度大力优化。
4. 不同应用场景下模型平均分存在差异:办公软件场景得分最高,专业工具场景得分最低
四大应用场景(办公软件、操作系统操作、日常工具、专业工具)中,办公软件场景平均分最高(54.51 分),大部分 CUA 离实现自动化办公仍有较大差距;专业工具这类复杂场景平均分最低(43.50 分),反映出 CUA 的专业能力仍需提升。
# 参与测评
参测流程
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供模型使用文档
5.获得测评报告


