大数跨境
0
0

首批 Computer Use Agent(离线)基准测评结果发布!(AgentCLUE-CUA)

首批 Computer Use Agent(离线)基准测评结果发布!(AgentCLUE-CUA) CLUE中文语言理解测评基准
2025-10-30
1
导读:qwen3强势领跑,GLM-4.5v紧随其后;智能体任务能力亟待提升

AgentCLUE-CUA 是 Computer Use Agent (离线)测评的专项方案,旨在构建科学、全面的测评体系,精准评估 CUA 的核心能力,填补行业内统一测评标准的空白,明确技术发展方向,为用户选择产品提供可靠依据,同时推动该领域技术的规范化、高质量发展。需要说明的是,本期测评暂不涉及智能体任务多路径问题的考察,相关内容将在后续测评中逐步完善纳入。

Computer Use Agent(离线)测评基准方案参考:Computer Use Agent(离线)测评方案发布

本次我们测评了国内外 个代表性模型的表现,以下为详细测评报告。

# 榜单概览

AgentCLUE-CUA测评摘要


测评要点1:能力分层现象清晰,头部模型表现突出

在本次 AgentCLUE-CUA 测评中,得分最高的模型 qwen3-vl-235b-a22b-thinking 总分达 87.37 分,而尾部如 ui-tars-1.5-7b 等模型,总分仅 27.18 分。这清晰表明部分头部模型已具备较强的智能交互能力,但仍有大量尾部模型需在相关核心能力上进一步优化。

测评要点2:Grounding 是 CUA 基础能力,通常与智能体任务得分正相关,但也有例外

通常情况下 Grounding 得分越高,智能体任务得分也越高,但也有例外。比如阿里巴巴 GUI-Owl-7B,虽 Grounding 任务表现非常亮眼,却在多步骤任务执行中,不能很好的判断出当前步骤应该执行什么动作类型,导致智能体任务仅 17.06 分。小模型仍需在任务理解能力上进行针对性提升。

评要点3:不同模型在综合指令执行质量上分化显著,头部与尾部差距巨大

头部模型如 qwen3-vl-235b-a22b-thinking、 GLM-4.5v 等,任务完成度、平均动作类型准确率和平均动作细节准确匹配率均较高;而尾部模型像 GUI-Owl-7B、 ui-tars-1.5-7b 等,任务完成度均为 0,整体综合指令执行质量亟待提升。


评要点4:不同应用场景下模型平均分存在差异:办公软件场景得分最高,专业工具场景得分最低

在办公软件、操作系统操作、日常工具、专业工具这四大应用场景中,办公软件场景平均分最高,为 54.51 分,大部分 CUA 离实现自动化办公仍有较大差距;而在专业工具这种复杂场景平均分最低,为 43.50 分,反映 CUA 的专业能力相对薄弱。

# AgentCLUE-CUA介绍

AgentCLUE-CUA 测评围绕办公软件、操作系统操作、日常工具、专业工具四大场景,聚焦Computer Use Agent 的 GUI 元素操作、信息处理、多步骤任务执行三大核心能力展开。通过四大场景与三大核心能力测评,AgentCLUE-CUA 为Computer Use Agent 性能评估提供精准全面的参考,助力该技术优化发展。

现在,我们正式发布「AgentCLUE-CUA」基准测评结果报告。

排行榜地址:www.SuperCLUEai.com

# 测评体系

# 测评任务

按照常用的应用场景来划分任务,对应用场景的定义如下:
说明:本次测评智能体任务暂不涉及多路径的情况。
# 测评标准

(1)Grouding任务(百分制):

输出点坐标是否在 GroundTruth 坐标框内。在则得100分,不在则得0分。

(2)信息处理任务(百分制):

模型输出的结果是否和标准答案匹配。匹配则得100分,否则得0分。

(3)智能体任务(百分制):

对于每条指令,计算其任务完成度得分,平均动作类型准确率以及平均动作细节准确匹配率,该指令执行得分=任务是否完成度得分*0.1+平均动作类型准确率得分*0.1+平均动作细节准确匹配率得分*0.8。

权重调整说明:考虑到原标准中平均动作类型准确率权重过高,而实际场景中,若模型仅判断出动作类型(如点击)却未精准执行(如未点中目标元素),该步骤仍属失败,动作细节精准度对任务完成更关键。故调整权重分配,更贴合 “动作类型为基础、细节精准为核心” 的执行逻辑,确保评分能精准反映单条指令的实际执行效果。

# 测评方法
1. 测评集构建
AgentCLUE-CUA测评题库构建流程:

1.定义应用场景;-->

2.根据应用场景,人工撰写题目;-->

3.对题库进行多轮的验证和修改,最终确认测试集。

2. 测评流程

(1)评估流程

1. 获得问题、模型回复和标准参考答案-->

2.依据标准答案评价每一题的分数-->

3.计算模型最终得分

(2)评分方 本次测试我们全程采用自动化代码进行测试。

(3)总分计算

本次测评任务分为 Grounding 任务信息处理任务智能体任务


总分的计算


总分= Grounding 任务得分*0.2 + 信息处理任务得分*0.2 + 智能体任务得分*0.6

说明:相较于智能体任务,Grounding 任务与信息处理任务复杂度较低,故为二者设置更低权重。本次测评中,智能体任务分了三种不同的难度等级,智能体任务总得分为不同难度题目的平均值

# 参评模型

为综合衡量当前国内外 CUA 能力的发展水平,本次测评选取了2个海外模型和6个国内模型。具体如下所示:

# 测评结果

总榜单

总分 = Grounding 任务得分*0.2 + 信息处理任务得分*0.2 + 智能体任务得分*0.6

应用场景榜单


不同指令类型得分榜单

注:指令执行任务总得分为三种不同难度任务的平均分。

综合指令执行质量评分榜单

注:单条指令执行任务得分=任务完成度得分*0.1+平均动作类型准确率得分*0.1+平均动作细节准确匹配率得分*0.8。

# 优秀测评案例

# 示例1 Grounding任务
【问题】:在这个屏幕上,我在哪里能找到执行‘点击并查看《葫芦娃》’操作的功能?请按照 <point>[x,y]</point>的格式回答

【prompt】:你是一名精通 Windows 桌面操作系统图形用户界面(GUI)的智能体,将根据用户的问题,分析当前界面的GUI元素和布局,生成相应的操作。请严格按照 <point>[x,y]</point> 的格式返回答案,只包含坐标信息,不要添加额外解释。题目为:在这个屏幕上,我在哪里能找到执行‘点击并查看《葫芦娃》’操作的功能?请按照 <point>[x,y]</point>的格式回答。输出的坐标要求是1000*1000的相对坐标。

图片数据】:

模型名称】:qwen3-vl-235b-a22b-thinking

模型回复】:<point>[847, 828]</point>

标准答案】:<point>[696, 701, 979, 965]</point>或者

<point>[133875818811043]</point>

评价】:模型回复在GT中,得1分

说明:实际测评的过程中,部分模型输出的只能是绝对坐标。为了真实的测评出模型的Grounding能力,我们团队在答案上做了兼容,如果模型回复的是绝对坐标,并且在GT中,也判对。

结果可视化】:

# 示例2 信息处理任务
【问题】:在这个屏幕上,'高碑店'站和'双桥'站中间的站叫什么名字

【prompt】:你是一名精通 Windows 桌面操作系统图形用户界面(GUI)的智能体,将根据用户的问题,分析当前界面的GUI元素和布局,对页面中的信息进行汇总和提炼,生成相应的操作。要求只包含最终的结果信息,不要添加额外解释。题目为:在这个屏幕上,'高碑店'站和'双桥'站中间的站叫什么名字

图片数据】:

说明:受公众号图片压缩算法影响,文中配图的清晰度有所损失。但实际用于模型分析的原始图片质量完好,题目所涉地铁站名称等细节均可清晰识别。

模型名称】:Gemini-2.5-pro

模型回复】:传媒大学

标准答案】:传媒大学

评价】:模型回复与标准答案一致,得1分

# 示例3 智能体任务
【问题】:首先收藏当前视频,然后点击评论,接着给从上往下数第二条评论点赞,最终查看点赞后的页面
图片数据】:
【第一步prompt】:你是一名精通 Windows 桌面操作系统图形用户界面(GUI)的智能体。你需要帮我操作windows桌面操作系统来完成我的指令。每条指令都需要一个或多个步骤。在每一步中,输入包括当前截图、指令、历史步骤。你需要从候选动作选择中选择一个动作作为回答。候选动作如下:

1.{{"action_type": "click", "action_position": [x,y], "action_info": "clicks"}} - 使用鼠标点击指定坐标[x,y] , action_info字段的clicks表示使用鼠标点击的次数。

2.{{"action_type": "drag", "action_position": [[from_x, from_y],[to_x, to_y]]}} - 从坐标(from_x,from_y)拖拽至(to_x,to_y)。

3.{{"action_type": "type", "action_info": "<text_input>"}} - 在当前光标位置输入文本。当需要在输入框中输入内容时使用,action_info填写要输入的文本。

4.{{"action_type": "press", "action_info": "<key_name>"}} - 按下并释放单个键。action_info填写单个键的名称。

5.{{"action_type": "keyDown", "action_info": "<key_name>"}} - 按住单个键。action_info填写单个键的名称。

6.{{"action_type": "keyUp", "action_info": "<key_name>"}} - 释放单个键。action_info填写单个键的名称。

7.{{"action_type": "hotkey", "action_info": "<key_names>"}} - 同时按下多个键(自动处理 “按下 - 释放” 顺序)。action_info填写按下的多个个键的名称,要求每个键的名称用单引号包裹,不同的键名用逗号分隔。

8.{{"action_type": "scroll", "action_info": "<scroll_length>"}}  - 按指定单位滚动鼠标滚轮(正数向上,负数向下)。action_info填写滚动的距离。

9.{{"action_type": "wait"}} - Agent 判断当前需等待,暂停下一步动作。

10.{{"action_type": "complete"}} - Agent 判断任务已完成,提交任务结果。

11.{{"action_type": "fail"}} - Agent 判断任务不可完成,主动终止任务。

#注意事项

1.x、from_x、 to_x表示图像的水平坐标,y 、from_y、to_y表示图像的垂直坐标。输出的所有坐标必须是1000*1000的相对指标值。

2.一次只能执行一项操作。最后,请使用上述 JSON 格式完成回答。

3.你需要严格在<action></action>标签中输出需要执行的动作,请严格按照该格式输出内容。

当前任务指令:首先收藏当前视频,然后点击评论,接着给从上往下数第二条评论点赞,最终查看点赞后的页面。

该任务已完成的历史动作步骤如下所示:[]

说明:由于篇幅有限,后面统一省略提示词的公共部分。

模型名称】:GLM-4.5v

第一步模型回复】:

"action_type": "click",

"action_info": "clicks",

"action_position": [957,703],

第一步标准答案】:

"action_type": "click",

"ground_truth": "[941,666,986,756]",

第一步评价】:第一步动作类型和动作细节完全匹配(本次测评中,如果"action_type"为 "click",并且"action_position"在的"ground_truth"中,则"click"动作细节算完全匹配

第一步结果可视化】:

【第二步prompt】:提示词的最后一句修改为:该任务已完成的历史动作步骤如下所示:["step_id : 0 ,action : 点击元素{收藏}"]

图片数据】:

【模型名称】:GLM-4.5v

第二步模型回复】:

"action_type": "click",

"action_info": "clicks",

"action_position": [957,618],

第二步标准答案】:

"action_type": "click",

"ground_truth": "[940,590,982,679]",

第二步评价】:第二步动作类型和动作细节完全匹配

第二步结果可视化】:

【第三步prompt】:提示词的最后一句修改为:该任务已完成的历史动作步骤如下所示:["step_id : 0 ,action : 点击元素{收藏}","step_id : 1 ,action : 点击元素{评论}"]
图片数据】:
模型名称】:GLM-4.5v

第三步模型回复】:

"action_type": "click",

"action_info": "clicks",

"action_position": [804,414],

第三步标准答案】:

"action_type": "click",

"ground_truth": "[786,398,822,435]",

第三步评价】:第三步动作类型和动作细节完全匹配

第三步结果可视化】:

【第四步prompt】:提示词的最后一句修改为:该任务已完成的历史动作步骤如下所示:["step_id : 0 ,action : 点击元素{收藏}","step_id : 1 ,action : 点击元素{评论}","step_id : 2 ,action : 点击元素{给从上往下数第二条评论点赞}"]
图片数据】:
模型名称】:GLM-4.5v

第四步模型回复】:

"action_type": "complete",

第四步标准答案】:

"action_type": "complete",
第四步评价】:第四步动作类型和动作细节完全匹配
第四步结果可视化】:

【总】:GLM-4.5v完成这道题时,所有动作类型和动作细节都完全匹配,所以该任务完成度得100分,平均动作类型准确率得100分, 平均动作细节精确匹配率得100分,这道题得分=100*0.1+100*0.1+100*0.8=100分。

# 测评分析及结论

1. 现阶段 CUA 整体能力分化明显,头部与尾部差距显著

从 AgentCLUE-CUA 测评总榜可见,参与评估的模型在办公软件、操作系统操作等四大核心场景表现分化显著:头部模型中,阿里巴巴的 qwen3-vl-235b-a22b-thinking(87.37 分)、智谱 AI 的 GLM-4.5v(84.49 分)居前,三大核心能力均衡且强势;尾部模型如字节跳动的 ui-tars-1.5-7b(27.18 分),核心任务执行能力薄弱。头部与尾部差距超 60 分,反映该技术发展不均衡 —— 部分模型已具备高精度 GUI 操作、信息处理以及多步骤任务执行能力,仍有大量产品需重点优化核心能力。

2. Grounding 是 CUA 基础能力,通常与智能体任务得分正相关

Grounding 是 CUA 的核心基础能力,通常情况下 Grounding 得分越高,智能体任务得分往往越高,但该规律存在例外情况。比如阿里巴巴 GUI-Owl-7B:其 Grounding 任务表现优异,得分为 91.01 分,但在多步骤任务执行中,无法准确判断当前步骤需执行的动作类型,最终智能体任务得分仅 17.06 分。而Google Gemini-2.5-pro:该模型 UI 元素定位表现一般,但其在指令执行过程中,平均动作类型准确率得分高达93.15分,能精准判断当前应执行的动作,平均动作细节匹配准确率得分为50.93,能较好的完成动作,智能体任务得分因此达到 50.42 分。

3. 不同模型在综合指令执行质量上分化显著,头部与尾部差距巨大

在 AgentCLUE-CUA 各模型综合指令执行质量测评中,任务完成度得分方面,qwen3-vl-235b-a22b-thinking 以 57.14 领先,而 GUI-Owl-7B、claude-sonnet-4.5、ui-tars-1.5-7b 等部分模型任务完成度为 0;平均动作类型准确率得分上,GLM-4.5v 达 97.62,表现极为出色,但 ui-tars-1.5-7b 仅 19.53;平均动作细节准确匹配率得分里,qwen3-vl-235b-a22b-thinking 获 87.58,部分模型如 ui-tars-1.5-7b 仅 9.36。这说明头部模型在综合指令执行的各维度已具备较强能力,尾部模型则需在这些核心维度大力优化。

4. 不同应用场景下模型平均分存在差异:办公软件场景得分最高,专业工具场景得分最低

四大应用场景(办公软件、操作系统操作、日常工具、专业工具)中,办公软件场景平均分最高(54.51 分),大部分 CUA 离实现自动化办公仍有较大差距;专业工具这类复杂场景平均分最低(43.50 分),反映出 CUA 的专业能力仍需提升。

    # 参与测评

    参测流程

    1.邮件申请

    2.意向沟通

    3.参测确认与协议流程

    4.提供模型使用文档

    5.获得测评报告

    申请评测地址
    邮件标题:AgentCLUE-CUA基准测评申请,发送到contact@superclue.ai
    请使用单位邮箱,邮件内容包括:单位信息、送测模型简介、联系人和所属部门、联系方式。

    【声明】内容源于网络
    0
    0
    CLUE中文语言理解测评基准
    精准量化AGI进展,定义人类迈向AGI的路线图
    内容 241
    粉丝 0
    CLUE中文语言理解测评基准 精准量化AGI进展,定义人类迈向AGI的路线图
    总阅读19
    粉丝0
    内容241