搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
首页
>
当 Vibe Coding 遇上真正的工程问题:Anthropic 在悄悄做一件更重要的事
>
当 Vibe Coding 遇上真正的工程问题:Anthropic 在悄悄做一件更重要的事
硅基生命AIGC
2026-04-10
3
Anthropic 悄悄发了一篇工程博客,主题是他们刚上线的 Managed Agents
服务
。这可能是 Agentic 时代真正难解的问题。
我想借这篇文章讲清楚:为什么 Agent 的瓶颈是 harness;以及 Anthropic 试图用什么方式解决这个问题。
01. Harness 到底是什么?
Harness 来自马术,是控制马方向的那套皮具。在 AI Agent 的语境里,它是围绕模型运行的所有工程层:
工具
路由、上下文管理、错误的重试、会话维护。模型是马,harness 是让马去你想去的地方的那套装置。
这解释了为什么
换个更好的模型
不能解决大部分 Agent 失败的问题。
Anthropic 发现 Claude Sonnet 4.5 在感知到上下文快满的时候,会提前结束任务——业内称之为上下文焦虑。为了解决这个问题,他们在 harness 里加了上下文重置机制。但当他们把同一套 harness 换到 Claude Opus 4.5 上时,发现这个问题消失了。上下文重置代码其实没有解决任何实际问题,只是在消耗资源、增加延迟,却因为没人及时清理而继续运行。
这说明 harness 最棘手的地方在于它编码的是关于模型能力的假设,但这些假设会随着模型的迭代过时。
The New Stack 在采访 Caylent 的工程师 Hunt 时,他说了这样一段话:"The differentiator isn't which LLM you picked, it's the agentic harness.(差异不在你选了哪个模型,而在你的 harness 怎么设计。)...If you don't engineer the harness, you don't get compounding leverage; you get compounding cognitive debt."(如果 harness 设计不好,你得到的不是复利,而是认知债务的复利。)
02. 把所有东西塞进一个容器
Managed Agents 上线之前,Anthropic 内部有过把东西全塞进一个容器的阶段。
这个阶段的设计逻辑:会话日志、agent harness、代码执行沙箱,三个东西在同一个容器里,省去了服务间通信的设计。文件编辑是直接的系统调用,快,简单,初期工作良好。
问题是:这使得容器变成了一个不能丢弃,还必须精心照料的宠物服务器(云计算界
pets vs. cattle
的经典隐喻:宠物是有名字的、要呵护的个体;牛是可互换的、坏了换一头的资源)。
容器一旦出问题,整个会话就丢失了。更糟是,调试时唯一的窗口 WebSocket 事件流,它无法区分是 harness 的 bug、网络丢包、还是容器本身崩了。工程师要排查,就得开一个 shell 进入容器,但这个容器里还存着用户数据。
安全问题更为严重。Claude 生成的所有代码,都在存着凭证的同一个环境里执行。一次成功的提示词注入攻击,就能让攻击者读取环境变量、拿到 token、用这个 token 去开新的会话,干任何事情。
03. 虚拟化、解耦、接口稳定
博客里提到他们要解决的是计算机科学里一个古老的问题:如何设计一套系统,让它足够通用,以至于能承载那些尚未被想到的程序。
几十年前,OS 也面临过同样的问题:如何设计出能承载未来程序的系统?答案是把硬件虚拟化——process、file——然后让具体实现在这些接口下自由替换。read() 这个命令
从未变过
,无论底下访问的是 1970 年代的磁盘阵列还是 2026 年的 NVMe SSD。
Managed Agents 用了同一套思路。把 Agent 拆成三个独立的组件,每个组件对外只暴露接口,内部实现可以随时替换:
会话(session),是整个 agent
活动
的 append-only 日志,存在容器和 harness 之外,任何组件崩了都不影响它。getEvents() 这个接口可以让 harness 按需拉取日志,任意切片——从上次停的地方继续读,或者往前几条看上下文。这解决了上下文窗口的跨越问题:会话不是 Claude 的上下文窗口,而是一个存在外部、可以被 Claude 按需访问的记忆对象。
控制层
(
Harness
),从容器里移了出去。它调用沙箱的方式和调用任何工具一样:execute(name, input) → string。沙箱崩了,harness 收到的是一个工具调用错误,可以传给 Claude 判断是否重试。Harness 自己崩了,新的 harness 实例用 wake(sessionId) 唤醒,getSession(id) 拿回日志,从最后一个事件继续跑。
沙箱(
Sandbox
),成了 cattle。配置方法是标准的 provision({resources}),坏了就换,不用护理。凭证和沙箱完全隔离——Git token 在沙箱初始化时就已经 wire 进 git remote 了,Claude 产生的代码在沙箱里跑,从来接触不到 token 本身。OAuth 类的凭证存在于 vault 里,通过 MCP proxy 调用,harness 全程不知道凭证的存在。
之前,因为 harness 和沙箱在同一个容器里,唯一的方法是把网络打通,对很多企业来说这在安全策略上根本过不了审。解耦之后,harness 在 Anthropic 的云上跑,沙箱可以在客户自己的 VPC 里跑,两者通过接口通信,不需要打通网络。
04. Harness 会过时,但接口不会
Vibe coding 描述的是人和 AI 的交互方式,不是 AI 和基础设施的交互方式。
我们说 Agent 写代码快了 3-5 倍,测量的是 token 输出
速度
和任务完成率。但没有人告诉你:Agent 跑了一段
时间
后,会话丢失了,你需要从头再来;或者 Agent 拿到了它不应该拿到的 token;或者 Agent 因为上下文窗口满了,悄悄地把任务标记成完成,其实并没有做完。
这些不是 vibe coding 的问题,这是 harness 工程的问题。
"Harnesses encode assumptions that go stale as models improve."(Harness 编码的是会随模型进化而过时的假设。)
这是一个难以摆脱的困境:你越努力优化 harness,积累的过时假设就越多。
Managed Agents 试图解决的是 harness 会持续迭代的系统性问题。他们赌的是接口稳定,实现可替换。getEvents()、emitEvent()、wake(sessionId) 这些接口,今天在 Claude 4 上工作,明天在 Claude 5 上也能工作,不需要客户改任何代码。
05. 从 Vibe Coding 到 Agentic Engineering
Karpathy 在 No Priors 播客里说了一句话,后来被到处引用:"Code's not even the right verb anymore."
这句话应该有一个没说出来的点:当功能模块委托给 Agent 的时候,谁负责 Agent 的可靠性?
在 vibe coding 的早期叙事里,答案是
模型变好了自然就解决了
,只不过现在这个答案越来越站不住脚了。之前
OpenAI
有三个工程师用 Agent 在五个月内写了一百万行代码,速度是传统方式的十倍,这基于他们在 validation、harness、基础设施上的工程决策。
Notion、
Rakuten
、Sentry 现在也已经在用 Managed Agents 跑生产环境任务。Sentry 用它做自动化 debug,Agent 直接在生产环境里分析和修复错误。
06. 结论
如果 Managed Agents 解决的是 harness 和 session 的稳定性问题,那下一个被解决的问题是什么?
我认为是
跨 Agent 的协调
。
目前 Managed Agents 的 many brains 模式允许多个 harness 并发运行,访问同一个沙箱和不同的会话。但这些 brain 之间如何协调、如何避免冲突、如何分配任务——这层逻辑现在是由开发者自己写。
下个阶段,这层协调逻辑可能也会被虚拟化。就像操作系统从单进程到多进程、再到线程调度,Agent 基础设施也会走这条路:从单个 Agent 的可靠性,到多 Agent 协作的可靠性,再到某种我们现在还没有好名字的东西。
Reference:
Scaling Managed Agents: Decoupling the brain from the hands | Anthropic Engineering Bloghttps://www.anthropic.com/engineering/managed-agents
From vibe coding to agentic engineering | The New Stackhttps://thenewstack.io/vibe-coding-agentic-engineering/
The Coding Agent Harness: Why Context Engineering Beats Model Shopping | Vibe Sparking AIhttps://www.vibesparking.com/en/blog/ai/claude-code/2026-03-04-coding-agent-harness-context-engineering-at-scale/
Decoupling the Brain and the Hands | Epsilla Bloghttps://www.epsilla.com/blogs/anthropic-managed-agents-decoupling-brain-hands-ent
erp
rise-orchestration
Claude Managed Agents: how Anthropic's AI agents work | Anthem Creationhttps://anthemcreation.com/en/artificial-intelligence/claude-managed-agents-anthropic-ai/
【声明】内容源于网络
0
0
硅基生命AIGC
专注于为企业打造AI数字应用,致力于将前沿AIGC人工智能技术转化为可落地、高价值的商业应用
内容
140
粉丝
0
关注
在线咨询
硅基生命AIGC
专注于为企业打造AI数字应用,致力于将前沿AIGC人工智能技术转化为可落地、高价值的商业应用
总阅读
2.7k
粉丝
0
内容
140