大数跨境
0
0

智能体「卷王」诞生!干活自动配结项报告,1.5张截图就把事说清了

智能体「卷王」诞生!干活自动配结项报告,1.5张截图就把事说清了 量子位
2026-01-10
14
导读:让智能体成为自己的质检员
Youtu-Agent团队 投稿量子位 | 公众号 QbitAI

学生做完实验后提交报告,老师据此评估完成质量;同理,AI智能体执行任务后,也需要提供可验证的完成证据。

当前LLM/VLM驱动的GUI智能体在强化学习(RL)训练中面临一个核心瓶颈:任务执行完毕,但完成度难以准确判定

为确认结果,通常需构建高成本的“监督系统”进行被动验证,依赖两类方式:

  1. 手工设计的严格校验规则(如输出完全匹配);
  2. 轨迹级LLM/VLM-as-a-Judge众投判别。

上述“先执行、后验证”范式存在三大缺陷:

  1. 泛化性差:人工评估脚本难以适配新APP或新任务;
  2. 干扰性强:冗长轨迹易被无关环境信息干扰,影响评分可靠性;
  3. 可观测性弱:页面刷新、操作过期等环境变化常导致验证失败。

针对该问题,研究团队提出新型RL训练方法——让智能体自主担任“质检员”,在执行过程中主动分解子目标、留痕存证,显著降低外部验证负担。

什么是SmartSnap?

SmartSnap将GUI智能体从“被动执行者”升级为“主动自证者”。其核心是:智能体在完成任务的同时,同步生成并提交一组精炼、可信的“证据快照集”,作为任务闭环的直观证明。

三大核心突破:从“执行”到“自证”

1. 角色升级:双重使命的“自证代理”

传统智能体仅聚焦执行(Execute);SmartSnap引入自证智能体(Self-Verifying Agent),赋予其第二使命——自我验证(Verify)。例如:“为证明设置已更改,我需截图开关状态并提交。”

2. “3C原则”:高效率的证据策展标准

为避免信息过载,SmartSnap定义证据生成的3C原则

  • 完整性(Completeness):证据足以闭环验证任务结果;
  • 简洁性(Conciseness):拒绝冗余视频,仅保留关键“定格”画面;
  • 创造性(Creativity):必要时主动执行辅助操作获取证据,如订票后跳回订单页截图。

3. 强化学习驱动:GRPO + 内在奖励反馈

采用GRPO算法训练,通过精细化的内在奖励塑形(Intrinsic Reward Shaping),兼顾任务成功率与证据质量,有效抑制奖励作弊(reward hacking)。

实战表现:小模型亦可达成高可信自证

SmartSnap在AndroidLab等复杂GUI任务中表现突出:

  • 性能飞跃:全量模型规模下均实现显著提升,最高达26.08%;
  • 以小博大:经SmartSnap训练的Qwen3-32B等中等参数模型,自证能力可比肩DeepSeek-V3、Qwen3-235B等开源大模型。

进一步分析发现:

  • 举证效率高:平均每任务仅需提交1.5张快照,大幅降低后端验证开销;
  • 交互轮次少:因高效拟合训练集,智能体交互轮数持续收敛;
  • 领域知识局限:在地图类APP等强路径规划场景中,因缺乏领域知识导致探索失效,提示需注入专业知识指导。

为何能简化RL训练准备?

手机/操作系统等时效性强的GUI环境,使外部验证器难以捕捉瞬时成功信号。SmartSnap相当于为智能体配备一台“取证相机”——无需预设全部状态变化来编写校验脚本,也无需裁判模型全程追踪轨迹,而是由智能体边执行、边采集最小必要证据。

该机制支持基于合成任务快速拓展训练场景,并依托轻量证据链高效判定成败,显著提升RL训练的可扩展性与工程落地效率。

面向未来:从“能干”到“可信”

SmartSnap标志着GUI智能体正迈向“认知协同”新阶段。其主动举证能力不仅增强AI行为的可解释性与可靠性,也为大规模、低成本AI部署提供关键技术支撑。

未来的AI,不仅要“能干”,更要“可信”。

论文标题:
SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
论文地址:https://arxiv.org/abs/2512.22322
代码地址:https://github.com/TencentYoutuResearch/SmartSnap

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14606
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读107.5k
粉丝0
内容14.6k