小模型用不好Skill？新范式让模型学会Skill的底层逻辑，3B模型推理token省5倍，性能反超- 大数跨境

首页

小模型用不好Skill？新范式让模型学会Skill的底层逻辑，3B模型推理token省5倍，性能反超

量子位

2026-04-11

导读：上下文强化学习实现「技能内化」

ZJU REAL Lab团队投稿 | 量子位

3B、7B小模型如何成为智能体专家？

浙大、美团龙猫团队与清华大学推出SKILL0，提出技能内化（Skill Internalization）理念：小模型应将技能内化为参数本能，而非依赖推理时外部调用。

这一思路源自人类学习过程：从参照说明书操作过渡到凭肌肉记忆自主执行。

SKILL0通过上下文强化学习和课程学习机制，逐步撤除技能参考，使模型参数掌握过程性知识，实现零样本直接上手。

技能增强的局限性

Skills作为结构化知识和可执行资源集合，增强了大模型推理时调用外部技能的能力。但研究指出此范式不适用于小模型，原因如下：

检索噪声致命：可能引入无关信息污染有限上下文，极度依赖外部检索质量。
Token开销爆炸：技能增多导致多轮对话中token急剧累积。
缺乏深度理解：模型仅照本宣科，撤除技能后能力显著退化。

△ 技能增强（左）vs技能内化（右）。传统方案需实时检索技能文档；SKILL0训练时用技能，推理时完全自主。

从技能增强到技能内化

SKILL0复刻人类学技能过程：从参照说明书到自主执行。核心创新分为三步：

图2：SKILL0框架全景。（a）相关性驱动技能分组；（b）带技能的Agent训练循环；（c）训练动态课程。

建立技能脚手架

训练前构建层级SkillBank：

通用技能：跨任务策略，如"先探索再行动"
任务特定技能：领域专门知识，如"搜索任务的实体属性查询"

按相关性分类的Markdown文件作为训练参考，支持后续课程学习筛选。

上下文强化学习：让模型真学会

SKILL0在训练时提供技能上下文，但推理评估时完全撤除。为降低Token开销，技能信息经视觉编码器压缩为图片格式，保留结构语义的同时大幅减少文本冗余。

模型同步优化环境奖励和自压缩奖励，推动参数高效更新：

动态课程学习

训练分阶段线性衰减技能预算。以ALFWorld为例（6个技能文件、3个阶段），预算序列[6,3,0]。每阶段执行在线筛选：

评估帮助度：间隔10步对比有无技能的准确率差
过滤排序：仅保留帮助度>0的技能，按值降序排列
按预算选取：选择高排序技能文件

训练现象表明：早期模型未有效利用技能（帮助度低），中期学会利用（帮助度上升），后期完全内化（帮助度回落）。

实验数据

ALFWorld任务：3B模型SKILL0平均成功率87.9%，较基线高9.7%，优于带技能SkillRL（82.4%）

Search-QA任务：3B模型平均分40.8%，比基准高6.6%，与SkillRL持平

7B模型优势显著：ALFWorld成功率89.8%，大幅领先GPT-4o（48.0%）和Gemini-2.5-Pro（60.3%）

Token效率提升明显：ALFWorld每步仅0.38k token，Search-QA仅0.18k，成本降低超5倍。

训练曲线证实技能内化：初期带技能模型占优，但SKILL0随训练推进持续反超，最终稳定领先。

消融实验关键发现：训练全程满技能[6,6,6]会导致推理撤技能后性能暴跌12.3点；而渐进课程[6,3,0]反使性能提升1.6点。动态课程机制至关重要——移除过滤性能降2.7%，随机选技能则大跌13.7%。

总结

当前Agent研究多聚焦技能检索优化，SKILL0另辟路径：通过内化将技能转化为模型参数。这使小模型无需实时调用即可胜任复杂任务。

该方法不替代需实时更新的知识（如API变更），但对稳定行为模式，"外部工具"到"内在能力"的转变是智能体自主化的核心突破。

论文标题：
SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization
论文地址：
https://arxiv.org/abs/2604.02268
项目代码：
https://github.com/ZJU-REAL/SkillZero

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 15000

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读176.1k

粉丝0

内容15.0k