大数跨境

在失败中学习,准确率飙升12%:EvoSkill让智能体自主进化

在失败中学习,准确率飙升12%:EvoSkill让智能体自主进化 AIGC开放社区
2026-04-02
3
导读:EvoSkill智能体框架。
本社区专注AIGC领域,追踪微软OpenAI、百度文心一言、讯飞星火等大模型技术发展与应用落地,聚焦市场研究及开发者生态。

AI通过失败经验自动提炼可复用技能,任务处理准确率提升12.1%,并能跨领域应用新能力。

Sentient与弗吉尼亚理工大学联合开发EvoSkill技能发现框架。该框架通过文本反馈机制协调三类智能体,在不调整模型参数的前提下,自主分析失败原因并构建结构化技能模块。

现有技能机制的局限

Claude Code、OpenHands等AI编程助手虽能通过代码中间层处理复杂任务,但缺乏高度专业化能力。当前普遍采用人工编写技能模块的方式强化系统,导致开发成本高、扩展性差。

学术界尝试的AlphaEvolve等进化算法仅优化提示词或零散代码,产出结果与特定任务强绑定,无法形成跨场景复用组件。EvoSkill选择在更高抽象维度突破:聚焦结构化技能模块的自动发现,通过隔离验证持续筛选有效技能。

失败驱动的进化机制

框架采用文本反馈机制,针对智能体处理失败的案例深度剖析:

· 执行者智能体在空白状态下尝试任务

· 提议者智能体比对预测与真实答案,定位失败根源并生成文字版技能提案

· 技能构建者智能体基于行业规范将提案转化为标准化模块,包含操作指南及辅助脚本

新模块经独立验证集考核后,仅当提升系统表现才会纳入精英技能池,通过多轮迭代实现持续进化。

验证效果与跨领域迁移

在OfficeQA文档推理测试中,基础准确率60.6%。引入EvoSkill后:

· 仅用10%数据训练提升至65.8%

· 通过技能合并策略达67.9%,提升7.3个百分点

系统自主生成"数据提取验证""定量分析方法论"等专业技能,有效规避表格解析错误和计算逻辑漏洞。

在SealQA开放环境测试中,准确率从26.6%跃升至38.7%。其中"搜索坚持协议"强制多源验证,显著提升抗干扰能力。

跨任务迁移实验中,SealQA生成的搜索协议直接应用于BrowseComp网页问答测试,准确率提升5.3个百分点。证明EvoSkill提炼的是普适性问题解决能力,而非单一任务经验。

该框架通过模块化技能持续进化,为AI能力建设开辟新路径。当智能体具备从失败中积累结构化经验的能力时,AI进化飞轮即正式启动。

参考资料

https://arxiv.org/pdf/2603.02766

https://github.com/sentient-agi/EvoSkill

【声明】内容源于网络
0
0
AIGC开放社区
1234
内容 1677
粉丝 0
AIGC开放社区 1234
总阅读16.8k
粉丝0
内容1.7k