Youtu-Agent团队 投稿量子位 | 公众号 QbitAI
学生做完实验后提交报告,老师据此评估完成质量;同理,AI智能体执行任务后,也需要提供可验证的完成证据。
当前LLM/VLM驱动的GUI智能体在强化学习(RL)训练中面临一个核心瓶颈:任务执行完毕,但完成度难以准确判定。

为确认结果,通常需构建高成本的“监督系统”进行被动验证,依赖两类方式:
- 手工设计的严格校验规则(如输出完全匹配);
- 轨迹级LLM/VLM-as-a-Judge众投判别。
上述“先执行、后验证”范式存在三大缺陷:
- 泛化性差:人工评估脚本难以适配新APP或新任务;
- 干扰性强:冗长轨迹易被无关环境信息干扰,影响评分可靠性;
- 可观测性弱:页面刷新、操作过期等环境变化常导致验证失败。
针对该问题,研究团队提出新型RL训练方法——让智能体自主担任“质检员”,在执行过程中主动分解子目标、留痕存证,显著降低外部验证负担。
什么是SmartSnap?
SmartSnap将GUI智能体从“被动执行者”升级为“主动自证者”。其核心是:智能体在完成任务的同时,同步生成并提交一组精炼、可信的“证据快照集”,作为任务闭环的直观证明。
三大核心突破:从“执行”到“自证”
1. 角色升级:双重使命的“自证代理”
传统智能体仅聚焦执行(Execute);SmartSnap引入自证智能体(Self-Verifying Agent),赋予其第二使命——自我验证(Verify)。例如:“为证明设置已更改,我需截图开关状态并提交。”
2. “3C原则”:高效率的证据策展标准
为避免信息过载,SmartSnap定义证据生成的3C原则:
- 完整性(Completeness):证据足以闭环验证任务结果;
- 简洁性(Conciseness):拒绝冗余视频,仅保留关键“定格”画面;
- 创造性(Creativity):必要时主动执行辅助操作获取证据,如订票后跳回订单页截图。
3. 强化学习驱动:GRPO + 内在奖励反馈
采用GRPO算法训练,通过精细化的内在奖励塑形(Intrinsic Reward Shaping),兼顾任务成功率与证据质量,有效抑制奖励作弊(reward hacking)。
实战表现:小模型亦可达成高可信自证
SmartSnap在AndroidLab等复杂GUI任务中表现突出:
- 性能飞跃:全量模型规模下均实现显著提升,最高达26.08%;
- 以小博大:经SmartSnap训练的Qwen3-32B等中等参数模型,自证能力可比肩DeepSeek-V3、Qwen3-235B等开源大模型。
进一步分析发现:
- 举证效率高:平均每任务仅需提交1.5张快照,大幅降低后端验证开销;
- 交互轮次少:因高效拟合训练集,智能体交互轮数持续收敛;
- 领域知识局限:在地图类APP等强路径规划场景中,因缺乏领域知识导致探索失效,提示需注入专业知识指导。
为何能简化RL训练准备?
手机/操作系统等时效性强的GUI环境,使外部验证器难以捕捉瞬时成功信号。SmartSnap相当于为智能体配备一台“取证相机”——无需预设全部状态变化来编写校验脚本,也无需裁判模型全程追踪轨迹,而是由智能体边执行、边采集最小必要证据。
该机制支持基于合成任务快速拓展训练场景,并依托轻量证据链高效判定成败,显著提升RL训练的可扩展性与工程落地效率。
面向未来:从“能干”到“可信”
SmartSnap标志着GUI智能体正迈向“认知协同”新阶段。其主动举证能力不仅增强AI行为的可解释性与可靠性,也为大规模、低成本AI部署提供关键技术支撑。
未来的AI,不仅要“能干”,更要“可信”。
论文标题:
SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
论文地址:https://arxiv.org/abs/2512.22322
代码地址:https://github.com/TencentYoutuResearch/SmartSnap

