在失败中学习，准确率飙升12%：EvoSkill让智能体自主进化- 大数跨境

AIGC开放社区

2026-04-02

导读：EvoSkill智能体框架。

本社区专注AIGC领域，追踪微软OpenAI、百度文心一言、讯飞星火等大模型技术发展与应用落地，聚焦市场研究及开发者生态。

AI通过失败经验自动提炼可复用技能，任务处理准确率提升12.1%，并能跨领域应用新能力。

Sentient与弗吉尼亚理工大学联合开发EvoSkill技能发现框架。该框架通过文本反馈机制协调三类智能体，在不调整模型参数的前提下，自主分析失败原因并构建结构化技能模块。

现有技能机制的局限

Claude Code、OpenHands等AI编程助手虽能通过代码中间层处理复杂任务，但缺乏高度专业化能力。当前普遍采用人工编写技能模块的方式强化系统，导致开发成本高、扩展性差。

学术界尝试的AlphaEvolve等进化算法仅优化提示词或零散代码，产出结果与特定任务强绑定，无法形成跨场景复用组件。EvoSkill选择在更高抽象维度突破：聚焦结构化技能模块的自动发现，通过隔离验证持续筛选有效技能。

框架采用文本反馈机制，针对智能体处理失败的案例深度剖析：

· 执行者智能体在空白状态下尝试任务

· 提议者智能体比对预测与真实答案，定位失败根源并生成文字版技能提案

· 技能构建者智能体基于行业规范将提案转化为标准化模块，包含操作指南及辅助脚本

新模块经独立验证集考核后，仅当提升系统表现才会纳入精英技能池，通过多轮迭代实现持续进化。

在OfficeQA文档推理测试中，基础准确率60.6%。引入EvoSkill后：

· 仅用10%数据训练提升至65.8%

· 通过技能合并策略达67.9%，提升7.3个百分点

系统自主生成"数据提取验证""定量分析方法论"等专业技能，有效规避表格解析错误和计算逻辑漏洞。

在SealQA开放环境测试中，准确率从26.6%跃升至38.7%。其中"搜索坚持协议"强制多源验证，显著提升抗干扰能力。

跨任务迁移实验中，SealQA生成的搜索协议直接应用于BrowseComp网页问答测试，准确率提升5.3个百分点。证明EvoSkill提炼的是普适性问题解决能力，而非单一任务经验。

该框架通过模块化技能持续进化，为AI能力建设开辟新路径。当智能体具备从失败中积累结构化经验的能力时，AI进化飞轮即正式启动。

参考资料：

https://arxiv.org/pdf/2603.02766

https://github.com/sentient-agi/EvoSkill

【声明】内容源于网络

AIGC开放社区

1234

内容 1677

粉丝 0

AIGC开放社区 1234

总阅读16.8k

粉丝0

内容1.7k