新智元报道 编辑:倾倾
【新智元导读】如果未来AI智能体能够自主调整参数、修复漏洞,将带来怎样的变革?斯坦福IRIS Lab联合MIT、威斯康星大学的最新研究揭示了这一可能性。
近期,斯坦福IRIS Lab博士生Yoonho Lee联合多家机构发布突破性论文,重新定义AI智能体优化逻辑。该研究由机器人学习专家Chelsea Finn指导,含DSPy框架作者Omar Khattab等核心成员。研究指出,除模型参数与训练数据外,支撑模型运行的"脚手架"(Harness)同样决定性能上限,且传统依赖人工调优的方式正被AI自动化替代。
实验表明,Claude Haiku 4.5成功率提升至37.6%,登顶同类智能体榜首;Claude Opus 4.6达76.4%,仅次于顶尖方案ForgeCode。
模型性能的关键:Harness的作用
Harness指完整的运行基础设施,包含系统提示词、工具定义、重试逻辑及上下文管理等。模型是智能核心,而Harness决定智能的实际效能。2026年业界发现:同一模型更换Harness,性能差距可达数倍。
案例显示,仅调整编辑格式,15个LLM编码性能提升5-14个百分点;GPT-4 Turbo准确率从26%跃升至59%。这验证了"Agent = Model + Harness"的核心规律——模型提供智能,Harness释放价值。然而人工调优过程耗时费力,需反复调试参数与诊断问题。
突破性进展:400倍信息量优化
Meta-Harness的核心突破在于将优化器观察量提升至1000万token,较主流方法提高400倍。传统方案如Self-Refine仅处理约1000 token上下文,而harness工程的失败模式往往深藏于执行轨迹细节中。
优化机制:基于全轨迹诊断
该方案赋予优化器完整的"文件系统"权限,可访问历史harness代码、执行日志及错误信息。Claude Code驱动的Proposer采用标准工具自主检索分析,形成闭环迭代:
- 读取历史失败记录与执行轨迹
- 分析根本原因
- 针对性重写harness代码
- 测试新方案并存储结果
- 持续优化循环
在19任务测试中,成功率从基准28.5%升至46.5%,关键改进如注入环境依赖信息,显著减少无效试错。
实证效果:小模型性能超越预期
在89任务TerminalBench-2基准测试中(覆盖代码翻译、分布式计算等领域),Meta-Harness优化结果显著:
Claude Haiku 4.5成功率37.6%(超过Goose的35.5%),登顶轻量模型榜首;Claude Opus 4.6达76.4%,仅次于ForgeCode。证实小模型通过harness优化可突破传统性能天花板。
跨场景有效性验证
在文本分类任务(LawBench等三数据集)中,GPT-OSS-120B搭配优化harness达到48.6%准确率,超越SOTA方法ACE 7.7个百分点,且上下文消耗降低77%。
数学推理场景下,检索增强策略使5类模型平均正确率提升4.7个百分点,验证了方案的迁移能力。对比实验显示,Meta-Harness仅用十分之一评估次数即超越现有方案。
当前大模型性能差距逐渐收窄,Harness工程成为新竞争焦点。Meta-Harness证明:优化智能体运行"脚手架"可释放模型潜能,标志LLM应用开发进入新阶段。

