智能体「卷王」诞生！干活自动配结项报告，1.5张截图就把事说清了- 大数跨境

首页

智能体「卷王」诞生！干活自动配结项报告，1.5张截图就把事说清了

量子位

2026-01-10

导读：让智能体成为自己的质检员

Youtu-Agent团队投稿量子位 | 公众号 QbitAI

学生做完实验后提交报告，老师据此评估完成质量；同理，AI智能体执行任务后，也需要提供可验证的完成证据。

当前LLM/VLM驱动的GUI智能体在强化学习（RL）训练中面临一个核心瓶颈：任务执行完毕，但完成度难以准确判定。

为确认结果，通常需构建高成本的“监督系统”进行被动验证，依赖两类方式：

手工设计的严格校验规则（如输出完全匹配）；
轨迹级LLM/VLM-as-a-Judge众投判别。

上述“先执行、后验证”范式存在三大缺陷：

泛化性差：人工评估脚本难以适配新APP或新任务；
干扰性强：冗长轨迹易被无关环境信息干扰，影响评分可靠性；
可观测性弱：页面刷新、操作过期等环境变化常导致验证失败。

针对该问题，研究团队提出新型RL训练方法——让智能体自主担任“质检员”，在执行过程中主动分解子目标、留痕存证，显著降低外部验证负担。

什么是SmartSnap？

SmartSnap将GUI智能体从“被动执行者”升级为“主动自证者”。其核心是：智能体在完成任务的同时，同步生成并提交一组精炼、可信的“证据快照集”，作为任务闭环的直观证明。

三大核心突破：从“执行”到“自证”

1. 角色升级：双重使命的“自证代理”

传统智能体仅聚焦执行（Execute）；SmartSnap引入自证智能体（Self-Verifying Agent），赋予其第二使命——自我验证（Verify）。例如：“为证明设置已更改，我需截图开关状态并提交。”

2. “3C原则”：高效率的证据策展标准

为避免信息过载，SmartSnap定义证据生成的3C原则：

完整性（Completeness）：证据足以闭环验证任务结果；
简洁性（Conciseness）：拒绝冗余视频，仅保留关键“定格”画面；
创造性（Creativity）：必要时主动执行辅助操作获取证据，如订票后跳回订单页截图。

3. 强化学习驱动：GRPO + 内在奖励反馈

采用GRPO算法训练，通过精细化的内在奖励塑形（Intrinsic Reward Shaping），兼顾任务成功率与证据质量，有效抑制奖励作弊（reward hacking）。

实战表现：小模型亦可达成高可信自证

SmartSnap在AndroidLab等复杂GUI任务中表现突出：

性能飞跃：全量模型规模下均实现显著提升，最高达26.08%；
以小博大：经SmartSnap训练的Qwen3-32B等中等参数模型，自证能力可比肩DeepSeek-V3、Qwen3-235B等开源大模型。

进一步分析发现：

举证效率高：平均每任务仅需提交1.5张快照，大幅降低后端验证开销；
交互轮次少：因高效拟合训练集，智能体交互轮数持续收敛；
领域知识局限：在地图类APP等强路径规划场景中，因缺乏领域知识导致探索失效，提示需注入专业知识指导。

为何能简化RL训练准备？

手机/操作系统等时效性强的GUI环境，使外部验证器难以捕捉瞬时成功信号。SmartSnap相当于为智能体配备一台“取证相机”——无需预设全部状态变化来编写校验脚本，也无需裁判模型全程追踪轨迹，而是由智能体边执行、边采集最小必要证据。

该机制支持基于合成任务快速拓展训练场景，并依托轻量证据链高效判定成败，显著提升RL训练的可扩展性与工程落地效率。

面向未来：从“能干”到“可信”

SmartSnap标志着GUI智能体正迈向“认知协同”新阶段。其主动举证能力不仅增强AI行为的可解释性与可靠性，也为大规模、低成本AI部署提供关键技术支撑。

未来的AI，不仅要“能干”，更要“可信”。

论文标题：
SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
论文地址：https://arxiv.org/abs/2512.22322
代码地址：https://github.com/TencentYoutuResearch/SmartSnap

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14606

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读107.5k

粉丝0

内容14.6k