当 Vibe Coding 遇上真正的工程问题：Anthropic 在悄悄做一件更重要的事- 大数跨境

首页

当 Vibe Coding 遇上真正的工程问题：Anthropic 在悄悄做一件更重要的事

硅基生命AIGC

2026-04-10

Anthropic 悄悄发了一篇工程博客，主题是他们刚上线的 Managed Agents 服务。这可能是 Agentic 时代真正难解的问题。

我想借这篇文章讲清楚：为什么 Agent 的瓶颈是 harness；以及 Anthropic 试图用什么方式解决这个问题。

01. Harness 到底是什么？

Harness 来自马术，是控制马方向的那套皮具。在 AI Agent 的语境里，它是围绕模型运行的所有工程层：工具路由、上下文管理、错误的重试、会话维护。模型是马，harness 是让马去你想去的地方的那套装置。

这解释了为什么换个更好的模型不能解决大部分 Agent 失败的问题。

Anthropic 发现 Claude Sonnet 4.5 在感知到上下文快满的时候，会提前结束任务——业内称之为上下文焦虑。为了解决这个问题，他们在 harness 里加了上下文重置机制。但当他们把同一套 harness 换到 Claude Opus 4.5 上时，发现这个问题消失了。上下文重置代码其实没有解决任何实际问题，只是在消耗资源、增加延迟，却因为没人及时清理而继续运行。

这说明 harness 最棘手的地方在于它编码的是关于模型能力的假设，但这些假设会随着模型的迭代过时。

The New Stack 在采访 Caylent 的工程师 Hunt 时，他说了这样一段话："The differentiator isn't which LLM you picked, it's the agentic harness.（差异不在你选了哪个模型，而在你的 harness 怎么设计。）...If you don't engineer the harness, you don't get compounding leverage; you get compounding cognitive debt."（如果 harness 设计不好，你得到的不是复利，而是认知债务的复利。）

02. 把所有东西塞进一个容器

Managed Agents 上线之前，Anthropic 内部有过把东西全塞进一个容器的阶段。

这个阶段的设计逻辑：会话日志、agent harness、代码执行沙箱，三个东西在同一个容器里，省去了服务间通信的设计。文件编辑是直接的系统调用，快，简单，初期工作良好。

问题是：这使得容器变成了一个不能丢弃，还必须精心照料的宠物服务器（云计算界 pets vs. cattle 的经典隐喻：宠物是有名字的、要呵护的个体；牛是可互换的、坏了换一头的资源）。

容器一旦出问题，整个会话就丢失了。更糟是，调试时唯一的窗口 WebSocket 事件流，它无法区分是 harness 的 bug、网络丢包、还是容器本身崩了。工程师要排查，就得开一个 shell 进入容器，但这个容器里还存着用户数据。

安全问题更为严重。Claude 生成的所有代码，都在存着凭证的同一个环境里执行。一次成功的提示词注入攻击，就能让攻击者读取环境变量、拿到 token、用这个 token 去开新的会话，干任何事情。

03. 虚拟化、解耦、接口稳定

博客里提到他们要解决的是计算机科学里一个古老的问题：如何设计一套系统，让它足够通用，以至于能承载那些尚未被想到的程序。

几十年前，OS 也面临过同样的问题：如何设计出能承载未来程序的系统？答案是把硬件虚拟化——process、file——然后让具体实现在这些接口下自由替换。read() 这个命令从未变过，无论底下访问的是 1970 年代的磁盘阵列还是 2026 年的 NVMe SSD。

Managed Agents 用了同一套思路。把 Agent 拆成三个独立的组件，每个组件对外只暴露接口，内部实现可以随时替换：

会话（session），是整个 agent 活动的 append-only 日志，存在容器和 harness 之外，任何组件崩了都不影响它。getEvents() 这个接口可以让 harness 按需拉取日志，任意切片——从上次停的地方继续读，或者往前几条看上下文。这解决了上下文窗口的跨越问题：会话不是 Claude 的上下文窗口，而是一个存在外部、可以被 Claude 按需访问的记忆对象。

控制层（Harness），从容器里移了出去。它调用沙箱的方式和调用任何工具一样：execute(name, input) → string。沙箱崩了，harness 收到的是一个工具调用错误，可以传给 Claude 判断是否重试。Harness 自己崩了，新的 harness 实例用 wake(sessionId) 唤醒，getSession(id) 拿回日志，从最后一个事件继续跑。

沙箱（Sandbox），成了 cattle。配置方法是标准的 provision({resources})，坏了就换，不用护理。凭证和沙箱完全隔离——Git token 在沙箱初始化时就已经 wire 进 git remote 了，Claude 产生的代码在沙箱里跑，从来接触不到 token 本身。OAuth 类的凭证存在于 vault 里，通过 MCP proxy 调用，harness 全程不知道凭证的存在。

之前，因为 harness 和沙箱在同一个容器里，唯一的方法是把网络打通，对很多企业来说这在安全策略上根本过不了审。解耦之后，harness 在 Anthropic 的云上跑，沙箱可以在客户自己的 VPC 里跑，两者通过接口通信，不需要打通网络。

04. Harness 会过时，但接口不会

Vibe coding 描述的是人和 AI 的交互方式，不是 AI 和基础设施的交互方式。

我们说 Agent 写代码快了 3-5 倍，测量的是 token 输出速度和任务完成率。但没有人告诉你：Agent 跑了一段时间后，会话丢失了，你需要从头再来；或者 Agent 拿到了它不应该拿到的 token；或者 Agent 因为上下文窗口满了，悄悄地把任务标记成完成，其实并没有做完。

这些不是 vibe coding 的问题，这是 harness 工程的问题。

"Harnesses encode assumptions that go stale as models improve."（Harness 编码的是会随模型进化而过时的假设。）

这是一个难以摆脱的困境：你越努力优化 harness，积累的过时假设就越多。

Managed Agents 试图解决的是 harness 会持续迭代的系统性问题。他们赌的是接口稳定，实现可替换。getEvents()、emitEvent()、wake(sessionId) 这些接口，今天在 Claude 4 上工作，明天在 Claude 5 上也能工作，不需要客户改任何代码。

05. 从 Vibe Coding 到 Agentic Engineering

Karpathy 在 No Priors 播客里说了一句话，后来被到处引用："Code's not even the right verb anymore."

这句话应该有一个没说出来的点：当功能模块委托给 Agent 的时候，谁负责 Agent 的可靠性？

在 vibe coding 的早期叙事里，答案是模型变好了自然就解决了，只不过现在这个答案越来越站不住脚了。之前 OpenAI 有三个工程师用 Agent 在五个月内写了一百万行代码，速度是传统方式的十倍，这基于他们在 validation、harness、基础设施上的工程决策。

Notion、Rakuten、Sentry 现在也已经在用 Managed Agents 跑生产环境任务。Sentry 用它做自动化 debug，Agent 直接在生产环境里分析和修复错误。

06. 结论

如果 Managed Agents 解决的是 harness 和 session 的稳定性问题，那下一个被解决的问题是什么？

我认为是跨 Agent 的协调。

目前 Managed Agents 的 many brains 模式允许多个 harness 并发运行，访问同一个沙箱和不同的会话。但这些 brain 之间如何协调、如何避免冲突、如何分配任务——这层逻辑现在是由开发者自己写。

下个阶段，这层协调逻辑可能也会被虚拟化。就像操作系统从单进程到多进程、再到线程调度，Agent 基础设施也会走这条路：从单个 Agent 的可靠性，到多 Agent 协作的可靠性，再到某种我们现在还没有好名字的东西。

Reference：

Scaling Managed Agents: Decoupling the brain from the hands | Anthropic Engineering Bloghttps://www.anthropic.com/engineering/managed-agents

From vibe coding to agentic engineering | The New Stackhttps://thenewstack.io/vibe-coding-agentic-engineering/

The Coding Agent Harness: Why Context Engineering Beats Model Shopping | Vibe Sparking AIhttps://www.vibesparking.com/en/blog/ai/claude-code/2026-03-04-coding-agent-harness-context-engineering-at-scale/

Decoupling the Brain and the Hands | Epsilla Bloghttps://www.epsilla.com/blogs/anthropic-managed-agents-decoupling-brain-hands-enterprise-orchestration

Claude Managed Agents: how Anthropic's AI agents work | Anthem Creationhttps://anthemcreation.com/en/artificial-intelligence/claude-managed-agents-anthropic-ai/

【声明】内容源于网络

硅基生命AIGC

专注于为企业打造AI数字应用，致力于将前沿AIGC人工智能技术转化为可落地、高价值的商业应用

内容 140

粉丝 0

硅基生命AIGC 专注于为企业打造AI数字应用，致力于将前沿AIGC人工智能技术转化为可落地、高价值的商业应用

总阅读2.7k

粉丝0

内容140