从Skill Insight到Agent Insight：一次以Harness为中心的演进

从数小时到 15 分钟：openEuler智能诊断Agent 如何重构 OS 故障诊断

AgentTrace：给LLM智能体装上行车记录仪

看得见，才进化得了：AHE的可观测驱动自进化路线

MetaEvo：比起记住经验，更该学会怎么从经验里学

Agent评测

Skills Radar^[1] 的更新节奏越来越快了。

上一波技术洪峰还没消化完，这一波又砸下来 30 项新技术。加上两篇旧条目的深度重写，总量从 75 项直接拉到 108 项。这批新面孔有个特别的地方：它们不是重复上一波的已知范式，而是在生成、执行、检索、优化、安全、评测六条线上同时开出新的分岔。

生成不再只是"摘要一条轨迹"了。有人在做编译，有人在做蒸馏，有人在把多模态教程转成可执行技能。检索冒出了"技能内检索"这个全新子方向。优化开始追问"一套技能库到底有没有普适性"和"每次要不要调技能"，两个之前被默认跳过去的问题。安全终于从"抽检几条指令"进化到了基准、权限模型、运行时审计的完整体系。

翻了这 30 篇论文好几遍，拉出六条线。

生成在裂变：从摘要到编译，从轨迹到外部知识

Skill 生成大概是最卷的一条线，但这次比的不是"谁提的点更高"，而是切入角度本身的裂变。

SkillComposer（浙大 + 通义实验室）把技能生成的第一步就改了。不搞一次性提取，换成三个可学习操作：Create 从轨迹抽技能，Merge 发现重复技能合并出泛化版本，Improve 注入遗漏的边界条件。整套流程用 Delta Pass Rate 拒绝采样做质控，不需要人工标注。技能不再是抽出来就不管了，它在持续演化。

ANYTHING2SKILL（华东师大 + 上海 AI Lab）更激进：凭什么只从自己的轨迹里学？网上那些手册、文档、日志里沉了多少隐性过程性知识？它的做法是提前编译成结构化技能，推理时跟 RAG 组成双通道。RAG 提供事实证据，SkillBank 提供已验证的操作路径。实验结果不绕弯子：SkillBank 单独已经超过了 RAG 单独。qsv 成功率 98.85%，GitHub-CLI 94.10%。

COLLEAGUE.SKILL（上海人工智能实验室）把这个思路推向了一个很动人的场景：资深同事离职了，她散落在 PR 评论、事故复盘、聊天决策里的隐性经验怎么办？答案是蒸馏成可安装、可修正、可版本管理的技能包。双轨制设计，能力轨管"做什么怎么做"，行为轨管"怎么表达怎么交互"。GitHub 18.5k star，公开画廊 215 个技能。这个冷启动数据说明有人真的很需要这个。

MMG2Skill（南大 + 快手）看到了另一个知识金矿：网上到处都是多模态人类教程，HTML 页面配截图，Wiki 文档带步骤图，以前没法喂给 Agent。MMG2Skill 用 VLM 把这些东西转成 SKILL.md，然后闭环精炼。跑一遍看哪不对，改，再跑，直到真正跑通。六个 VLM 底座、三类环境、18 组模型-环境组合全部正向，跨底座宏平均增益 +12.8 到 +25.3 个百分点。

OpenClaw-Skill（港理工 + NTU + 清华 + RMIT + 北航）想了一个更社会化的路径：一个模型的判断不靠谱，多个异构模型一起投票呢？它的 CSTS（集体技能树搜索）让不同模型对同一子任务各自产出候选技能，交叉验证后只保留多数派同意的节点。CSRL（集体技能强化学习）更进一步，比较同一个子任务在不同技能条件下的轨迹质量，让策略自己偏好更优的技能。9B 开源模型在 QwenClawBench 上从 34.5 拉到 44.9，PinchBench 123 任务上 68.2%。小模型靠群体智慧逼近闭源大模型，这个信号值得盯。

SAPO（宾州州立 + NTU + UCSD + 犹他 + 哈佛）和W2S（武汉大学 + 南昌大学）从两个角度戳破了同一个泡沫。SAPO 的诊断简单到残酷：GPT-5.4 生成的技能，边际效用平均接近零，大部分"水技能"淹没了少数真的好技能。W2S 的批判更根本：技能生成的本质不是文本摘要，而是工作流规范重构。它定义了 Skill-IR，含路由头、工作流骨架、节点级语义和运行时附件四个正交组件，行为重放一致性比 Anthropic Skill Creator 高出 10.5%。

EvoDS（港科大广州）同时解决了一个伴生问题：技能越积越多，上下文会爆炸。它的答案是自适应上下文压缩（ACC），把"保留什么、丢弃什么"做成可学习的 RL 动作。四个基准超最强开源方案 28.9%，完全消除了超 token 上限导致的运行中断。

SkillChain（阿里巴巴）是这波生成线里唯一一张"生产部署"牌。首个真正上线跑过的电商 AI 助手技能自进化框架。三阶段闭环设计得很干净：Skill Creator 从任务规范和生产轨迹里引导出初始技能，Route Optimizer 修路由问题，Body Refiner 迭代内容质量。每一步只改技能的一个组件，互不干扰，而且只接受改进才写入，质量不回退。线上 A/B 数据比任何实验室 benchmark 都有说服力：交互 UV +1.92pp，全文阅读率 +4.98pp，七日回访率 +1.15pp。阿里的团队在论文里没有喊什么宏大口号，只是把每个阶段的递增加成列了出来：62.5→67.2→72.2。这种实在数据比任何 SOTA 声明都硬。

九篇论文，九种切入方式。生成这条线已经裂变成了多个独立的方法论支流。

执行在结构化：从散文到图，从经验到事实

Skill 执行以前像是在读散文。Agent 拿到 SKILL.md，逐行解读，碰到歧义靠猜。这次两个工作同时指了一个方向：可执行性靠的是结构，不是更详细的文字描述。

AIP（Neo4j 团队）把技能从 Markdown 重构为有向执行图。节点是离散的操作步骤，边是带类型的输入输出数据流，整套由 Schema 校验的 YAML 规范约束。技能按图执行、按节点调试、按类型审计。出错时可以精确回溯到哪个节点出的问题，不用在整篇文档里大海捞针。

Notes2Skills（南方科大 + 港科大广州）抓住了一个更微妙的问题。实验记录里混杂着事实、判断和建议，Agent 读的时候分不清。它插入了三层确定性标签：FACT 驱动强操作，JUDGMENT 默认退回人工复核，SUGGESTION 保持建议态。只有完整的三标签方案能同时避免"不确定性漂白"（把判断当事实执行）和"指令丢失"（把确定指令当建议忽略）。两种致命错误，一个方案同时堵住。

检索在分层：技能间检索之后，技能内检索来了

技能检索过去一年都在搞一件事：怎么从几百个技能里挑出对的那几个。SkillPager（上海交大 + 上海创新研究院）换了个完全不同的问法：已知该用哪个技能了，需要读完整个技能文档吗？

它定义了"技能内检索"这个新概念。离线阶段把技能文档按六种语义类型拆成节点（step、condition、recovery 等），在线阶段用全局 MMR 挑出刚好够用、尽可能不重叠的上下文子集。充分性接近全文注入（78.89% vs 82.23%），同时省下 47% 的 prompt token。如果这个方向成立，技能文档可以写得很厚很详细，Agent 每次只取那几段真正相关的。

SkillJuror（同济 + 上交 + 中山 + 上海创新研究院）做了一个不太像 AI 论文的实验：82 个任务，1,230 次控制试验，只研究一个变量——技能的文件组织方式。扁平单文件 vs 渐进式多文件展开，知识内容完全相同，只有结构不同。结果很反直觉：结构让资源触达从 1.18 飙到 3.85，有效吸收从 1.33 涨到 3.92，但通过率只涨了 +4.1%。行为的系统性变化在 pass/fail 指标中几乎是不可见的。这篇论文的潜在影响可能比那些刷榜的更大。

优化在反思："一套技能能适配所有人"是个幻觉吧？

优化线这次贡献了九个新作。有三篇在挑战同一个深层假设。

MASA（华东师大）直接摊牌：同一份技能文档给不同规模的模型，效果天差地别。有些模型甚至被技能拖到低于无技能基线。它搞了模型条件化的分层进化搜索，把搜索过程压缩为一次前向推理的轻量改写器。问题不是"怎么写出最好的技能"，而是"怎么写出对这个模型最有效的技能"。

SelSkill（美团 + 复旦 + 交大 + 南大 + 北大）挑战了另一个默认：Agent 被给定技能就该用它。反事实分析揭示，技能只在约 14% 的配对轨迹中提升了最终结果。78% 无明显变化，8% 甚至更差。它把"技能该不该调"做成了独立优化目标，双粒度偏好学习同时考虑轨迹级整体效用和决策点级 invoke/skip 因果对比，让 Agent 学会在不确定性低时跳过技能依赖自身推理。

SKILLAXE（微软）绕开了一个死结：技能改进通常需要人工标注、测试套件或环境奖励。它的方案是只用 Agent 带技能和不带技能的两次输出做差分，从质量影响、触发精度、指令合规、解法覆盖四个维度自动诊断缺陷。完全无监督，SkillsBench 相对提升 28%，与人类技能的差距缩小 47-67%。

SKILLAUDIT（中科院计算所 + 阿里通义）往前走了一步：连"带技能vs不带技能"这个对比本身，也被做成了自动化审计基础设施。它的 PACE（配对轨迹审计）方案包含 12 个评估器，分布在过程遵循、工具使用、恢复行为和结果质量四个维度上。同一任务分别在有技能和无技能条件下各跑一次，12 个评估器盯着两次执行的行为差异，把差异翻译成具体的技能编辑指令。最关键的一个数据：92% 的已正常工作技能在审计后保持或提升了效果。这意味着这个框架可以放心地开着，不用怕修坏已经好的东西。SkillsBench 89 个容器化任务，平均奖励从 40.9% 拉到了 73.9%，+33 个百分点。

SkillCAT（武大 + NTU）在技能提取这件事上打了一个很精准的补丁。现有方法的问题是从一条轨迹里提取技能，容易把偶然噪声当宝贝。SkillCAT 的 CCE（对比因果提取）给同一个任务采样多条轨迹，在成功和失败的分叉点上提取技能证据——不概括整条轨迹，只盯那个"命运从这里开始分岔"的时刻。后面再接 AAE 回放验证，把每个候选 patch 当假设在源任务上重新跑一遍，校准分数做阈值过滤。最后一环 TTE 则是把进化后的技能编译成可路由图，砍掉 41.6% 的上下文，性能不掉。消融实验很实诚：去掉 CCE 后 SpreadsheetBench 从 55.50 跌到 32.50，差了一半多。

SkillAdaptor（浙大 + 蚂蚁）把反思单元从整条轨迹压缩到具体步骤，定位第一个可操作的故障步骤，归因到具体技能，只改该改的那一点。FederatedSkill（UCSB + MIT-IBM + Cisco）把联邦学习的隐私保护搬到技能进化，轨迹不出门，只出语义 patch，服务器端通过 POMDP 推断每个用户的能力边界。OpenSkill（Lehigh + UIC + UBC + Salesforce + 哈佛）在开放世界里不靠参考答案自己搜知识、建验证锚点、生成虚拟测试打磨技能，比封闭世界基线高 8.9 个百分点。SkillHone（微信 AI）引入了持久化决策历史，让后续 Agent 继承完整的决策链：过去试过什么、什么被否决了、上次为什么改这行。

安全在体系化：从抽检到生态

上一波 SkillsSafetyBench 敲响了第一声警钟。这一波五篇密集出现，安全总算从一个被顺便提一嘴的话题，变成了一个有体系化建设的领域。

SkillReact（CMU + 佐治亚理工 + 格拉斯哥 + Corespeed）发现了之前所有人漏掉的盲区：单个技能逐个扫描通过后，两两配对。21 万对组合，22.25% 触发禁止模式候选，经人类审计确认约 18.2% 是真实组合风险。现有的逐个扫描安全实践，在设计前提上就漏掉了所有这些组合风险。

SCR（华东师大 + A*STAR + 上海创新研究院）把组合风险这件事往前推了一步：不再只是统计现象，而是做了一套形式化框架。它把技能生态建成了有向图，节点是技能，边是输出到输入的依赖关系。风险不出在节点上，出在路径上：上游技能产出的上下文、信任判断或授权声明沿着边流向下游，下游技能无条件接受了这些信号，危害就发生了。三种风险机制——能力流、信任传递、授权混淆——涵盖了从代码层到语言层的完整攻击面。最触目惊心的数字在信任传递：安装攻击率从 1.10% 飙到 83.89%。一个上游技能说一句"这个软件包是安全的"，下游技能就不再检查，照单全收。组合风险不是边缘案例，它是系统性的结构缺陷。

SkillGuard（CSIRO + 澳国立 + UNSW）从移动端借了个思路：把 Android 权限模型搬到技能上。每个技能通过 JSON DSL 声明所需能力，运行时每次敏感操作经策略引擎检查，默认拒绝、按需授权，关键操作引入用户交互式确认。315 个真实技能实现 99.76% 权限覆盖率，上下文注入攻击成功率从 32.37% 降至 23.02%。正常任务完成率无显著下降，这一点是前提，安全不能以功能为代价。

MalSkillBench（南大 + NTU + 川大 + DIGIDATIONS）给出了一个让人不安的数据集：3,944 个恶意技能，每个经 Docker 沙箱双重验证，108 个攻击单元覆盖代码注入和提示注入的交叉攻击面。实测 12 个检测工具：代码注入召回最高 98.4%，但提示注入检测全线崩塌。没有任何单一工具能同时覆盖两条攻击向量。

RSA（约翰霍普金斯大学）走的是最务实的一条路：别读代码猜意图了。造一个有敏感资产的环境让技能真的执行一遍，看它到底调了哪些系统调用、读了哪些文件、往哪儿发了网络请求。准确率 90.0%，比最优静态基线高 13 个百分点。更惊人的是自进化攻击实验：静态检测器全面失效，RSA 持续检出 19-20 个（共 20 个）。

评测在工具化：从打分表到可复用技能

评测是最容易陷入"把老基准改个名再跑一遍"的领域。这一波三个工作都没有掉进这个陷阱。

Skill-RM（阿里 Qwen 团队 + 中山 + 港中文 + 北大 + ETH）把奖励建模重新定义了一遍。不是"给这个回答打几分"，而是"按这个流程、查这些标准、用这些工具、逐条收集证据、汇总成有据可查的判决"。评估本身变成了一套可复用、可审计的技能，每个维度的分数背后都有具体的被调用资源和结构化证据记录。

Eval-Skill（浙大 + 小红书）先做了一个叫人脸红的诊断：自生成 rubric 让 Judge 模型表现反而跌了 6.4 个百分点。让 Judge 从一条 query 反推标准，它推不准。它的方案是把评估知识离线固化为 Workflow + Principles 双组件技能，每个领域进化一次，跨查询复用。RewardBench 2 上三底座最多涨 18.51 个百分点，技能可跨底座迁移。

SkillVetBench（SUPREME Lab，德州大学埃尔帕索分校）做了一件安全社区早就该做的事：把技能安全审查挂到一个活的公共排行榜上。它的 SARS 评分框架定义了五个维度的 Agentic 风险评分，每个维度 0-3 分，由 LLM 来当裁判逐条审查。这个设计捕获了代码级扫描器系统性遗漏的东西——指令层和多智能体风险。在 100 个技能的受控测试里，零假阴性、零假阳性。而做静态分析的 SkillSieve 还漏检了 15%，VirusTotal 漏检 67%，ClawScan 漏检 52%。排行榜当前挂了 1,299 个来自 ClawHub 的技能快照，39.2% 有漏洞标记，3 个标记 Critical。公开的、持续更新的、人人可提交的排行榜，比任何一篇论文的 benchmark 都更有生命力。