AI已能熟练调用工具,但真正挑战才刚刚开始。
近年来,大模型Agent在工具使用上取得显著进展,可串联搜索、信息查询和API调用等操作,完成复杂多步任务。然而在真实工作流中,问题逐渐凸显:多数任务底层流程高度相似——先搜索、筛选、整理,最后汇总分析。更换任务对象,这套流程又需重复执行。
现有Agent虽能完成任务,却难以固化已验证成功的流程。每次遇到相同任务,仍需重新规划、传递参数、完整运行工具链,导致token消耗增加、上下文膨胀,成本与不稳定性随之攀升。
为解决此问题,近期由NIPS时间检验奖得主参与的SkillCraft研究引起业内关注。该研究聚焦核心问题:Agent能否将已验证的工具链转化为可持续复用的技能?
SkillCraft让Agent工具“越用越熟”
SkillCraft的核心思路是使Agent在任务执行中自动提炼可复用技能。其过程分为四步:
- 优先调用现有技能库中的适配技能
- 若无匹配项,通过原子工具完成任务
- 将成功路径抽象为参数化技能
- 经验证后存入技能库
该方法超越简单记忆答案或增加提示词,而是将经验转化为可执行、可复用的高层操作单元,使Agent在重复任务中快速复用成熟路径。
固化成功流程,收益立竿见影
实验表明,引入技能复用机制后,模型表现显著提升:
- Token消耗减少
- 工具调用次数下降
- 成本有效降低
- 成功率稳定提升
以GPT-4.2为例,启用Skill Mode后,任务成功率从87%提升至90%,平均token消耗由1.23M降至0.26M,单次任务成本从1.77美元降至0.43美元。这证明技能复用是影响Agent效能的关键能力,而非辅助技巧。
技能树不能只追求深度
研究显示,过度深化技能层级存在风险:
- 层级加深反而降低稳定性
- 底层错误会向上级联传导
- 边界条件失误可能破坏整条技能链
现阶段更优策略是构建高质量、浅层级、可验证的技能库,而非盲目扩展复杂技能树。
不只当前任务,还有“技能迁移”
SkillCraft进一步验证了技能的泛化能力,高质量技能可实现:
- 跨任务复用
- 跨难度复用
- 跨模型复用
关键发现包括:
由强模型创建的技能(如Claude),在不同执行器上成功率普遍达100%。证实高质量技能具备强迁移性,不依赖创建模型。
真正高质量的技能具有普适可用性,而非模型私有资产。
技能跨模型复用还能带来显著token节省。例如Claude创建的技能,对各执行模型均实现高效成本优化;而低质技能的节省效果波动大,甚至产生负收益。
高质量技能不仅能保证稳定成功率,更能实现持续的资源优化。
SkillCraft的核心价值在于,它推动Agent从“临时调用工具”转向“沉淀可复用技能”。真正实用的AI系统不应重复试错,而需积累可靠技能,实现可迁移、可复用的高效任务处理。
论文标题:SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?论文地址:https://arxiv.org/abs/2603.00718
项目主页:https://skillcraft-website.github.io/page/
源码:https://github.com/shiqichen17/SkillCraft

