首批 Computer Use Agent（离线）基准测评结果发布！（AgentCLUE-CUA）



首批 Computer Use Agent（离线）基准测评结果发布！（AgentCLUE-CUA）

CLUE中文语言理解测评基准

2025-10-30

导读：qwen3强势领跑，GLM-4.5v紧随其后；智能体任务能力亟待提升

AgentCLUE-CUA 是 Computer Use Agent （离线）测评的专项方案，旨在构建科学、全面的测评体系，精准评估 CUA 的核心能力，填补行业内统一测评标准的空白，明确技术发展方向，为用户选择产品提供可靠依据，同时推动该领域技术的规范化、高质量发展。需要说明的是，本期测评暂不涉及智能体任务多路径问题的考察，相关内容将在后续测评中逐步完善纳入。

Computer Use Agent（离线）测评基准方案参考：Computer Use Agent（离线）测评方案发布

本次我们测评了国内外 8 个代表性模型的表现，以下为详细测评报告。

# 榜单概览

AgentCLUE-CUA测评摘要

测评要点1：能力分层现象清晰，头部模型表现突出

在本次 AgentCLUE-CUA 测评中，得分最高的模型 qwen3-vl-235b-a22b-thinking 总分达 87.37 分，而尾部如 ui-tars-1.5-7b 等模型，总分仅 27.18 分。这清晰表明部分头部模型已具备较强的智能交互能力，但仍有大量尾部模型需在相关核心能力上进一步优化。

测评要点2：Grounding 是 CUA 基础能力，通常与智能体任务得分正相关，但也有例外

通常情况下 Grounding 得分越高，智能体任务得分也越高，但也有例外。比如阿里巴巴 GUI-Owl-7B，虽 Grounding 任务表现非常亮眼，却在多步骤任务执行中，不能很好的判断出当前步骤应该执行什么动作类型，导致智能体任务仅 17.06 分。小模型仍需在任务理解能力上进行针对性提升。

测评要点3：不同模型在综合指令执行质量上分化显著，头部与尾部差距巨大

头部模型如 qwen3-vl-235b-a22b-thinking、 GLM-4.5v 等，任务完成度、平均动作类型准确率和平均动作细节准确匹配率均较高；而尾部模型像 GUI-Owl-7B、 ui-tars-1.5-7b 等，任务完成度均为 0，整体综合指令执行质量亟待提升。

测评要点4：不同应用场景下模型平均分存在差异：办公软件场景得分最高，专业工具场景得分最低

在办公软件、操作系统操作、日常工具、专业工具这四大应用场景中，办公软件场景平均分最高，为 54.51 分，大部分 CUA 离实现自动化办公仍有较大差距；而在专业工具这种复杂场景平均分最低，为 43.50 分，反映 CUA 的专业能力相对薄弱。

# AgentCLUE-CUA介绍

AgentCLUE-CUA 测评围绕办公软件、操作系统操作、日常工具、专业工具四大场景，聚焦Computer Use Agent 的 GUI 元素操作、信息处理、多步骤任务执行三大核心能力展开。通过四大场景与三大核心能力测评，AgentCLUE-CUA 为Computer Use Agent 性能评估提供精准全面的参考，助力该技术优化发展。

现在，我们正式发布「AgentCLUE-CUA」基准测评结果报告。

排行榜地址：www.SuperCLUEai.com

# 测评体系

# 测评任务

按照常用的应用场景来划分任务，对应用场景的定义如下：

说明：本次测评智能体任务暂不涉及多路径的情况。

# 测评标准

（1）Grouding任务（百分制）：

输出点坐标是否在 GroundTruth 坐标框内。在则得100分，不在则得0分。

（2）信息处理任务（百分制）：

模型输出的结果是否和标准答案匹配。匹配则得100分，否则得0分。

（3）智能体任务（百分制）：

对于每条指令，计算其任务完成度得分，平均动作类型准确率以及平均动作细节准确匹配率，该指令执行得分=任务是否完成度得分*0.1+平均动作类型准确率得分*0.1+平均动作细节准确匹配率得分*0.8。

权重调整说明：考虑到原标准中平均动作类型准确率权重过高，而实际场景中，若模型仅判断出动作类型（如点击）却未精准执行（如未点中目标元素），该步骤仍属失败，动作细节精准度对任务完成更关键。故调整权重分配，更贴合 “动作类型为基础、细节精准为核心” 的执行逻辑，确保评分能精准反映单条指令的实际执行效果。

# 测评方法

1. 测评集构建

AgentCLUE-CUA测评题库构建流程：

1.定义应用场景；-->

2.根据应用场景，人工撰写题目；-->

3.对题库进行多轮的验证和修改，最终确认测试集。

2. 测评流程

（1）评估流程

1. 获得问题、模型回复和标准参考答案-->

2.依据标准答案评价每一题的分数-->

3.计算模型最终得分

（2）评分方法：本次测试我们全程采用自动化代码进行测试。

（3）总分计算

本次测评任务分为 Grounding 任务、信息处理任务和智能体任务。

总分的计算

总分= Grounding 任务得分*0.2 + 信息处理任务得分*0.2 + 智能体任务得分*0.6

说明：相较于智能体任务，Grounding 任务与信息处理任务复杂度较低，故为二者设置更低权重。本次测评中，智能体任务分了三种不同的难度等级，智能体任务总得分为不同难度题目的平均值。

# 参评模型

为综合衡量当前国内外 CUA 能力的发展水平，本次测评选取了2个海外模型和6个国内模型。具体如下所示：

# 测评结果

总榜单

总分 = Grounding 任务得分0.2 + 信息处理任务得分0.2 + 智能体任务得分*0.6
应用场景榜单

不同指令类型得分榜单

注：指令执行任务总得分为三种不同难度任务的平均分。

综合指令执行质量评分榜单

**注：单条指令执行任务得分=任务完成度得分0.1+平均动作类型准确率得分0.1+平均动作细节准确匹配率得分*0.8。**

# 优秀测评案例

# 示例1 Grounding任务

【问题】：在这个屏幕上，我在哪里能找到执行‘点击并查看《葫芦娃》’操作的功能?请按照 <point>[x,y]</point>的格式回答

【prompt】：你是一名精通 Windows 桌面操作系统图形用户界面（GUI）的智能体，将根据用户的问题，分析当前界面的GUI元素和布局，生成相应的操作。请严格按照 <point>[x,y]</point> 的格式返回答案，只包含坐标信息，不要添加额外解释。题目为：在这个屏幕上，我在哪里能找到执行‘点击并查看《葫芦娃》’操作的功能?请按照 <point>[x,y]</point>的格式回答。输出的坐标要求是1000*1000的相对坐标。

【图片数据】：

【模型名称】：qwen3-vl-235b-a22b-thinking

【模型回复】：<point>[847, 828]</point>

【标准答案】：<point>[696, 701, 979, 965]</point>或者

【评价】：模型回复在GT中，得1分

说明：实际测评的过程中，部分模型输出的只能是绝对坐标。为了真实的测评出模型的Grounding能力，我们团队在答案上做了兼容，如果模型回复的是绝对坐标，并且在GT中，也判对。

【结果可视化】：

# 示例2 信息处理任务

【问题】：在这个屏幕上，'高碑店'站和'双桥'站中间的站叫什么名字

【prompt】：你是一名精通 Windows 桌面操作系统图形用户界面（GUI）的智能体，将根据用户的问题，分析当前界面的GUI元素和布局，对页面中的信息进行汇总和提炼，生成相应的操作。要求只包含最终的结果信息，不要添加额外解释。题目为：在这个屏幕上，'高碑店'站和'双桥'站中间的站叫什么名字

【图片数据】：

说明：受公众号图片压缩算法影响，文中配图的清晰度有所损失。但实际用于模型分析的原始图片质量完好，题目所涉地铁站名称等细节均可清晰识别。

【模型名称】：Gemini-2.5-pro

【模型回复】：传媒大学

【标准答案】：传媒大学

【评价】：模型回复与标准答案一致，得1分

# 示例3 智能体任务

【问题】：首先收藏当前视频，然后点击评论，接着给从上往下数第二条评论点赞，最终查看点赞后的页面

【图片数据】：

【第一步prompt】：你是一名精通 Windows 桌面操作系统图形用户界面（GUI）的智能体。你需要帮我操作windows桌面操作系统来完成我的指令。每条指令都需要一个或多个步骤。在每一步中，输入包括当前截图、指令、历史步骤。你需要从候选动作选择中选择一个动作作为回答。候选动作如下：

1.{{"action_type": "click", "action_position": [x,y], "action_info": "clicks"}} - 使用鼠标点击指定坐标[x,y] , action_info字段的clicks表示使用鼠标点击的次数。

2.{{"action_type": "drag", "action_position": [[from_x, from_y],[to_x, to_y]]}} - 从坐标（from_x,from_y）拖拽至（to_x,to_y）。

3.{{"action_type": "type", "action_info": "<text_input>"}} - 在当前光标位置输入文本。当需要在输入框中输入内容时使用，action_info填写要输入的文本。

4.{{"action_type": "press", "action_info": "<key_name>"}} - 按下并释放单个键。action_info填写单个键的名称。

5.{{"action_type": "keyDown", "action_info": "<key_name>"}} - 按住单个键。action_info填写单个键的名称。

6.{{"action_type": "keyUp", "action_info": "<key_name>"}} - 释放单个键。action_info填写单个键的名称。

7.{{"action_type": "hotkey", "action_info": "<key_names>"}} - 同时按下多个键（自动处理 “按下 - 释放” 顺序）。action_info填写按下的多个个键的名称，要求每个键的名称用单引号包裹，不同的键名用逗号分隔。

8.{{"action_type": "scroll", "action_info": "<scroll_length>"}} - 按指定单位滚动鼠标滚轮（正数向上，负数向下）。action_info填写滚动的距离。

9.{{"action_type": "wait"}} - Agent 判断当前需等待，暂停下一步动作。

10.{{"action_type": "complete"}} - Agent 判断任务已完成，提交任务结果。

11.{{"action_type": "fail"}} - Agent 判断任务不可完成，主动终止任务。

#注意事项

1.x、from_x、 to_x表示图像的水平坐标，y 、from_y、to_y表示图像的垂直坐标。输出的所有坐标必须是1000*1000的相对指标值。

2.一次只能执行一项操作。最后，请使用上述 JSON 格式完成回答。

3.你需要严格在<action></action>标签中输出需要执行的动作，请严格按照该格式输出内容。

当前任务指令：首先收藏当前视频，然后点击评论，接着给从上往下数第二条评论点赞，最终查看点赞后的页面。

该任务已完成的历史动作步骤如下所示：[]

说明：由于篇幅有限，后面统一省略提示词的公共部分。

【模型名称】：GLM-4.5v

【第一步模型回复】：

"action_type": "click",

"action_info": "clicks",

"action_position": [957,703],

【第一步标准答案】：

"action_type": "click",

"ground_truth": "[941,666,986,756]",

【第一步评价】：第一步动作类型和动作细节完全匹配（本次测评中，如果"action_type"为 "click",并且"action_position"在的"ground_truth"中，则"click"动作细节算完全匹配）

【第一步结果可视化】：

【第二步prompt】：提示词的最后一句修改为：该任务已完成的历史动作步骤如下所示：["step_id : 0 ,action : 点击元素{收藏}"]

【图片数据】：

【模型名称】：GLM-4.5v

【第二步模型回复】：

"action_type": "click",

"action_info": "clicks",

"action_position": [957,618],

【第二步标准答案】：

"action_type": "click",

"ground_truth": "[940,590,982,679]",

【第二步评价】：第二步动作类型和动作细节完全匹配

【第二步结果可视化】：

【第三步prompt】：提示词的最后一句修改为：该任务已完成的历史动作步骤如下所示：["step_id : 0 ,action : 点击元素{收藏}"，"step_id : 1 ,action : 点击元素{评论}"]

【图片数据】：

【模型名称】：GLM-4.5v

【第三步模型回复】：

"action_type": "click",

"action_info": "clicks",

"action_position": [804,414],

【第三步标准答案】：

"action_type": "click",

"ground_truth": "[786,398,822,435]",

【第三步评价】：第三步动作类型和动作细节完全匹配

【第三步结果可视化】：

【第四步prompt】：提示词的最后一句修改为：该任务已完成的历史动作步骤如下所示：["step_id : 0 ,action : 点击元素{收藏}"，"step_id : 1 ,action : 点击元素{评论}"，"step_id : 2 ,action : 点击元素{给从上往下数第二条评论点赞}"]

【图片数据】：

【模型名称】：GLM-4.5v

【第四步模型回复】：

"action_type": "complete",

【第四步标准答案】：

"action_type": "complete",

【第四步评价】：第四步动作类型和动作细节完全匹配

【第四步结果可视化】：

【总评】：GLM-4.5v完成这道题时，所有动作类型和动作细节都完全匹配，所以该任务完成度得100分，平均动作类型准确率得100分, 平均动作细节精确匹配率得100分，这道题得分=100*0.1+100*0.1+100*0.8=100分。

# 测评分析及结论

1. 现阶段 CUA 整体能力分化明显，头部与尾部差距显著

从 AgentCLUE-CUA 测评总榜可见，参与评估的模型在办公软件、操作系统操作等四大核心场景表现分化显著：头部模型中，阿里巴巴的 qwen3-vl-235b-a22b-thinking（87.37 分）、智谱 AI 的 GLM-4.5v（84.49 分）居前，三大核心能力均衡且强势；尾部模型如字节跳动的 ui-tars-1.5-7b（27.18 分），核心任务执行能力薄弱。头部与尾部差距超 60 分，反映该技术发展不均衡 —— 部分模型已具备高精度 GUI 操作、信息处理以及多步骤任务执行能力，仍有大量产品需重点优化核心能力。

2. Grounding 是 CUA 基础能力，通常与智能体任务得分正相关

Grounding 是 CUA 的核心基础能力，通常情况下 Grounding 得分越高，智能体任务得分往往越高，但该规律存在例外情况。比如阿里巴巴 GUI-Owl-7B：其 Grounding 任务表现优异，得分为 91.01 分，但在多步骤任务执行中，无法准确判断当前步骤需执行的动作类型，最终智能体任务得分仅 17.06 分。而Google Gemini-2.5-pro：该模型 UI 元素定位表现一般，但其在指令执行过程中，平均动作类型准确率得分高达93.15分，能精准判断当前应执行的动作，平均动作细节匹配准确率得分为50.93，能较好的完成动作，智能体任务得分因此达到 50.42 分。

3. 不同模型在综合指令执行质量上分化显著，头部与尾部差距巨大

在 AgentCLUE-CUA 各模型综合指令执行质量测评中，任务完成度得分方面，qwen3-vl-235b-a22b-thinking 以 57.14 领先，而 GUI-Owl-7B、claude-sonnet-4.5、ui-tars-1.5-7b 等部分模型任务完成度为 0；平均动作类型准确率得分上，GLM-4.5v 达 97.62，表现极为出色，但 ui-tars-1.5-7b 仅 19.53；平均动作细节准确匹配率得分里，qwen3-vl-235b-a22b-thinking 获 87.58，部分模型如 ui-tars-1.5-7b 仅 9.36。这说明头部模型在综合指令执行的各维度已具备较强能力，尾部模型则需在这些核心维度大力优化。