Meta-Harness让Haiku性能狂飙，甚至追平Opus！- 大数跨境

新智元

2026-04-04

新智元报道 编辑：倾倾

【新智元导读】如果未来AI智能体能够自主调整参数、修复漏洞，将带来怎样的变革？斯坦福IRIS Lab联合MIT、威斯康星大学的最新研究揭示了这一可能性。

近期，斯坦福IRIS Lab博士生Yoonho Lee联合多家机构发布突破性论文，重新定义AI智能体优化逻辑。该研究由机器人学习专家Chelsea Finn指导，含DSPy框架作者Omar Khattab等核心成员。研究指出，除模型参数与训练数据外，支撑模型运行的"脚手架"（Harness）同样决定性能上限，且传统依赖人工调优的方式正被AI自动化替代。

实验表明，Claude Haiku 4.5成功率提升至37.6%，登顶同类智能体榜首；Claude Opus 4.6达76.4%，仅次于顶尖方案ForgeCode。

模型性能的关键：Harness的作用

Harness指完整的运行基础设施，包含系统提示词、工具定义、重试逻辑及上下文管理等。模型是智能核心，而Harness决定智能的实际效能。2026年业界发现：同一模型更换Harness，性能差距可达数倍。

案例显示，仅调整编辑格式，15个LLM编码性能提升5-14个百分点；GPT-4 Turbo准确率从26%跃升至59%。这验证了"Agent = Model + Harness"的核心规律——模型提供智能，Harness释放价值。然而人工调优过程耗时费力，需反复调试参数与诊断问题。

突破性进展：400倍信息量优化

Meta-Harness的核心突破在于将优化器观察量提升至1000万token，较主流方法提高400倍。传统方案如Self-Refine仅处理约1000 token上下文，而harness工程的失败模式往往深藏于执行轨迹细节中。

优化机制：基于全轨迹诊断

该方案赋予优化器完整的"文件系统"权限，可访问历史harness代码、执行日志及错误信息。Claude Code驱动的Proposer采用标准工具自主检索分析，形成闭环迭代：

读取历史失败记录与执行轨迹
分析根本原因
针对性重写harness代码
测试新方案并存储结果
持续优化循环

在19任务测试中，成功率从基准28.5%升至46.5%，关键改进如注入环境依赖信息，显著减少无效试错。

实证效果：小模型性能超越预期

在89任务TerminalBench-2基准测试中（覆盖代码翻译、分布式计算等领域），Meta-Harness优化结果显著：

Claude Haiku 4.5成功率37.6%（超过Goose的35.5%），登顶轻量模型榜首；Claude Opus 4.6达76.4%，仅次于ForgeCode。证实小模型通过harness优化可突破传统性能天花板。

跨场景有效性验证

在文本分类任务（LawBench等三数据集）中，GPT-OSS-120B搭配优化harness达到48.6%准确率，超越SOTA方法ACE 7.7个百分点，且上下文消耗降低77%。

数学推理场景下，检索增强策略使5类模型平均正确率提升4.7个百分点，验证了方案的迁移能力。对比实验显示，Meta-Harness仅用十分之一评估次数即超越现有方案。

当前大模型性能差距逐渐收窄，Harness工程成为新竞争焦点。Meta-Harness证明：优化智能体运行"脚手架"可释放模型潜能，标志LLM应用开发进入新阶段。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 0

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读0

粉丝0

内容0