首页

Harness 是个过渡，Environment Engineering 才是未来

渔夫 AIDaily

2026-04-05

229

导读：hi，我是渔夫。最近，只要关注 AI 工程领域的都知道，有个词 Harness Engineering 火爆了。

hi，我是渔夫。

最近，只要关注 AI 工程领域的都知道，有个词 Harness Engineering 火爆了。它是什么，解决什么痛点。

我研读了 OpenAI，Anthropic 官方博客后得出的结论，都指向同一个问题，就是 AI Agent 在执行长任务时，会悄悄崩掉，会慢慢跑偏漂移。

Anthropic 的工程师发现，哪怕给 Agent 配了 context 压缩机制，它还是会在某个节点突然"认为项目完成了"，或者重复造轮子，或者把之前做对的东西改错，自己评价太过于自信。

OpenAI 的团队用 Codex 跑了五个月零人工写代码的实验，得出的结论是：工程师的工作重心，已经从写代码转移到设计环境、构建反馈回路、搭建脚手架。

大家遇到的问题，并非是模型能力不够，而是环境定义不清，Agent 缺少所需的工具、抽象层和内部结构来推进高层目标，这是环境欠规格问题。

harness 要解决的问题，在模型外部搭一个执行框架，管状态、管边界、管重试、管跨 Session 的记忆传递，Hooks 等，让 Agent 不只是能跑，而是跑完了还对。

harness 其实在 2025 年底在硅谷就已经收到高度关注了。

我也在一直在密切关注 AI Agents 工程化领域，但我会遇到一些问题，就是很多开源项目庞大复杂。于是，确定自己手搓一个 harness 项目，已经完整端到端测试了。

Github 地址：https://github.com/anxiong2025/harness-cowork

AI agent 写代码容易，持续可靠地写代码难，harness-cowork 采用三层对抗架构来解决此问题。设计哲学来自 OpenAI，Anthropic 及社区讨论的观点，我把它复刻出来，是一个极简，轻量尝试。

harness-cowork 采用三层对抗架构

第一层：Generator vs Evaluator（对抗式分离）

借鉴 GAN（生成对抗网络）的思想：

关键设计：

Evaluator 运行在独立的 Claude 会话中 — 没有沉没成本压力
默认立场是"大概率有问题，除非证明没问题"
6 个维度打分，任何一项 FAIL = 整体 FAIL
FAIL 后反馈回 Generator 重试，形成对抗式闭环

第二层：概率层 + 确定层（双保险）

Prompt/Skill 是概率性的 — 你说"提交前跑 lint"，agent 90% 会听，10% 会漂移。那 10% 就是 bug 的来源。

概率层（Skill/Prompt）"应该做什么，会" 90% 有效。这层主要是 SKILL.md 定义工作流（intake → triage → investigate → plan → execute → evaluate）

确定层（Hook/规则引擎）"不能不做什么"确保100% 有效，使用Hook 脚本 + config.json 声明式规则，机械拦截危险操作。

第三层：上下文隔离 + 状态外置

解决 agent 的"上下文焦虑"，窗口快满时就提前收工的问题。

架构设计讲完了，harness-cowork 如何使用呢，注意它不是一个软件包，只是一组你放入项目的文件。

从这个项目，可以学到很多东西，如果你也和我一样正在学习 claude code，那真建议完成这样一个实验，会让你熟悉整个框架，也更好理解从 prompt，context 到 harness 都为了你做什么。

项目还处于早期，非常轻量级，没有那么复杂，这样在日常中遇有需要在慢慢新增吧。

如果有人感兴趣，欢迎去使用，甚至二次改造。

harness 已死，Environment 才是未来

学完了 harness，如果你密切关注 OpenAI 和 Anthropic 他们新动态，其实这种“框架”早已经过时了。

为什么？因为 Claude 这类基础模型正在把开发者以前手写的编排逻辑直接内化进去。后面，你那些简单的包装器和执行循环的价值就基本归零了。

他们的结论很直接：停止构建复杂的中间件。把精力放到环境工程上，把软件和数据整理成 Agent 能看懂、能用好的结构，比如 MCP 这类标准。

Anthropic 的实验也证明了，环境定义清楚，Agent 表现会好很多。

为什么"Harness已死"有它的道理

说实话，这个论点并非空穴来风，趋势很明显。

一年前要写几百行代码才能搞定的重试逻辑、JSON 校验、上下文管理，现在 GPT-5 一个 API 参数就解决了。那些核心价值只是"把 Prompt 串起来"的框架，护城河基本没了。

另一边，环境工程的价值确实在放大。Anthropic 的研究发现，Agent 失败大多不是模型太笨，而是环境太乱。就像 F1 赛车开进沼泽地，不是车的问题。但给它一条干净的赛道、清晰的 API 文档，它能跑出完全不同的结果。

结论看起来很清晰：别再造更复杂的卡车了，去修路。

回头看 AI Agent 的工程的演进，从2023年的 Prompt 加速发展到 Context ，再到2025年末的Harness Engineering。

但如今，Environment Engineering 正在硅谷的工程话语中占据主导地位了

以上，是今天的分享。

参考文献：

Effective Harnesses for Long-Running Agents：https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents
Harness Design for Long-Running Application Development：https://www.anthropic.com/engineering/harness-design-long-running-apps
Harness Engineering: Leveraging Codex in an Agent-First World：https://openai.com/index/harness-engineering

【声明】内容源于网络

渔夫 AIDaily

一名不务正业的渔夫，是 ai 科技疯狂爱好者，我正在出海了，保持对世界的思考与好奇。

内容 361

粉丝 0

渔夫 AIDaily 一名不务正业的渔夫，是 ai 科技疯狂爱好者，我正在出海了，保持对世界的思考与好奇。

总阅读2.7k

粉丝0

内容361