大数跨境

Harness 是个过渡,Environment Engineering 才是未来

Harness 是个过渡,Environment Engineering 才是未来 渔夫 AIDaily
2026-04-05
229
导读:hi,我是渔夫。最近,只要关注 AI 工程领域的都知道,有个词 Harness Engineering 火爆了。

hi,我是渔夫。

最近,只要关注 AI 工程领域的都知道,有个词 Harness Engineering 火爆了。它是什么,解决什么痛点。

我研读了 OpenAI,Anthropic 官方博客后得出的结论,都指向同一个问题,就是 AI Agent 在执行长任务时,会悄悄崩掉,会慢慢跑偏漂移。

Anthropic 的工程师发现,哪怕给 Agent 配了 context 压缩机制,它还是会在某个节点突然"认为项目完成了",或者重复造轮子,或者把之前做对的东西改错,自己评价太过于自信。

OpenAI 的团队用 Codex 跑了五个月零人工写代码的实验,得出的结论是:工程师的工作重心,已经从写代码转移到设计环境、构建反馈回路、搭建脚手架。

大家遇到的问题,并非是模型能力不够,而是环境定义不清,Agent 缺少所需的工具、抽象层和内部结构来推进高层目标,这是环境欠规格问题。

harness 要解决的问题,在模型外部搭一个执行框架,管状态、管边界、管重试、管跨 Session 的记忆传递,Hooks 等,让 Agent 不只是能跑,而是跑完了还对。

harness 其实在 2025 年底在硅谷就已经收到高度关注了。

我也在一直在密切关注 AI Agents 工程化领域,但我会遇到一些问题,就是很多开源项目庞大复杂。于是,确定自己手搓一个 harness 项目,已经完整端到端测试了。

Github 地址:https://github.com/anxiong2025/harness-cowork

AI agent 写代码容易,持续可靠地写代码难,harness-cowork 采用三层对抗架构来解决此问题。 设计哲学来自 OpenAI,Anthropic 及社区讨论的观点,我把它复刻出来,是一个极简,轻量尝试。

harness-cowork 采用三层对抗架构

第一层:Generator vs Evaluator(对抗式分离)

借鉴 GAN(生成对抗网络) 的思想:

关键设计:

  • Evaluator 运行在独立的 Claude 会话中 — 没有沉没成本压力
  • 默认立场是"大概率有问题,除非证明没问题"
  • 6 个维度打分,任何一项 FAIL = 整体 FAIL
  • FAIL 后反馈回 Generator 重试,形成对抗式闭环

第二层:概率层 + 确定层(双保险

Prompt/Skill 是概率性的 — 你说"提交前跑 lint",agent 90% 会听,10% 会漂移。那 10% 就是 bug 的来源。

概率层(Skill/Prompt)"应该做什么,会" 90% 有效。这层主要是 SKILL.md 定义工作流(intake → triage → investigate → plan → execute → evaluate)

确定层(Hook/规则引擎)"不能不做什么"确保100% 有效,使用Hook 脚本 + config.json 声明式规则,机械拦截危险操作。

第三层:上下文隔离 + 状态外置

解决 agent 的"上下文焦虑",窗口快满时就提前收工的问题。

架构设计讲完了,harness-cowork 如何使用呢,注意它不是一个软件包,只是一组你放入项目的文件。

从这个项目,可以学到很多东西,如果你也和我一样正在学习 claude code,那真建议完成这样一个实验,会让你熟悉整个框架,也更好理解从 prompt,context 到 harness 都为了你做什么。

项目还处于早期,非常轻量级,没有那么复杂,这样在日常中遇有需要在慢慢新增吧。

如果有人感兴趣,欢迎去使用,甚至二次改造。

harness 已死,Environment 才是未来

学完了 harness,如果你密切关注 OpenAI 和 Anthropic 他们新动态,其实这种“框架”早已经过时了。

为什么?因为 Claude 这类基础模型正在把开发者以前手写的编排逻辑直接内化进去。后面,你那些简单的包装器和执行循环的价值就基本归零了。

他们的结论很直接:停止构建复杂的中间件。把精力放到环境工程上,把软件和数据整理成 Agent 能看懂、能用好的结构,比如 MCP 这类标准。

Anthropic 的实验也证明了,环境定义清楚,Agent 表现会好很多。

为什么"Harness已死"有它的道理

说实话,这个论点并非空穴来风,趋势很明显。

一年前要写几百行代码才能搞定的重试逻辑、JSON 校验、上下文管理,现在 GPT-5 一个 API 参数就解决了。那些核心价值只是"把 Prompt 串起来"的框架,护城河基本没了。

另一边,环境工程的价值确实在放大。Anthropic 的研究发现,Agent 失败大多不是模型太笨,而是环境太乱。就像 F1 赛车开进沼泽地,不是车的问题。但给它一条干净的赛道、清晰的 API 文档,它能跑出完全不同的结果。

结论看起来很清晰:别再造更复杂的卡车了,去修路。

回头看 AI Agent 的工程的演进,从2023年的 Prompt 加速发展到 Context ,再到2025年末的Harness Engineering。

但如今,Environment Engineering 正在硅谷的工程话语中占据主导地位了

以上,是今天的分享。

参考文献:

  1. Effective Harnesses for Long-Running Agents:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents
  2. Harness Design for Long-Running Application Development:https://www.anthropic.com/engineering/harness-design-long-running-apps
  3. Harness Engineering: Leveraging Codex in an Agent-First World:https://openai.com/index/harness-engineering

【声明】内容源于网络
0
0
渔夫 AIDaily
一名不务正业的渔夫,是 ai 科技疯狂爱好者,我正在出海了,保持对世界的思考与好奇。
内容 361
粉丝 0
渔夫 AIDaily 一名不务正业的渔夫,是 ai 科技疯狂爱好者,我正在出海了,保持对世界的思考与好奇。
总阅读2.7k
粉丝0
内容361