

别再把 AI Agent 当成一个 Python 程序了

数翼

2025-12-14

导读：这两年，我在很多团队里都看到过这个现象（当然我自己也经历过不止一次这样的情况）：“这个 Agent 已经差不多

这两年，我在很多团队里都看到过这个现象（当然我自己也经历过不止一次这样的情况）：

“这个 Agent 已经差不多可以上线了。”

但是，伴随着上线，紧接着就会发现：

“这个 Agent 上线后，会出现各种问题。”

本文就来讨论这些问题：

• 为什么“现在看起来能用”的 Agent，后面一定会出问题
• 容器化、架构这些“看不见的东西”，为什么直接影响交付、成本和风险
• 产品和业务人员应该在什么时候介入、问什么问题

面向架构师的现实提醒

大多数程序都是从零到一，智能体服务也是一样。在大多团队里，AI Agent 的第一个版本往往长这样：

• 一个 Python 服务
• 一个调用大模型的函数
• 再加几个 Tool 方法
• 本地跑通，效果不错

于是，一个危险的错觉出现了：

“这个 Agent 已经差不多可以上线了。”

潜在问题

如果你站在架构的位置，这正是你需要最警惕的时刻。

当正式把 Agent 推出的时候，用户的期望和开发人员的期望是不一样的：

• 它能在我的环境里正常工作
• 它能满足我的业务需求

上面两个我的，通常是是一些企业智能体应用上线即失败的罪魁祸首。

为什么“Python 程序式 Agent”一定会失败

从架构视角看，把 AI Agent 当成一个传统的 Python 程序加上大模型调用，本质上犯了三个错误。

错误一：把“智能”当成了“功能”

传统系统中：

• 功能是确定的
• 调用路径是固定的
• 错误边界是可预期的

而 AI Agent 的核心特征恰恰相反：

• 决策路径是动态生成的
• Tool 调用是不确定组合
• 行为空间是开放的

这意味着：

Agent 的风险不来自“写错代码”，而来自“模型做出了你没预期的决定”。

把这种系统塞进一个 Python 进程里，本身就是架构失职。

错误二：忽视了 Tool 调用的系统级风险

对架构师来说，Tool 并不是“函数”，而是：

• 外部系统入口
• 数据访问通道
• 成本放大器
• 安全边界破坏点

但在脚本式 Agent 中，Tool 往往只是一个普通方法调用：

result = tool.execute(query)

问题在于：

• 谁限制它访问哪些网络？
• 谁控制它的资源消耗？
• 谁在它异常时兜底？

没有答案，就不应该上线。

错误三：没有“失败设计”

成熟系统的架构，从来不是围绕“成功路径”设计的，而是围绕：

• 失败如何被隔离
• 异常如何被吸收
• 系统如何自我修复

Python 程序式 Agent 的典型特征是：

• 任一 Tool 出错 → 整个 Agent 出错
• 内存泄漏 → 服务整体不可用
• 并发上升 → 不可预测崩溃

这在 Agent 这种高不确定性系统中是不可接受的。

从架构角度重新定义 AI Agent

站在架构层面，AI Agent 应该被理解为：

一个“会自主调用外部能力的分布式控制系统”。

这一定义背后，有三个关键变化。

1. Agent 是“控制平面”，不是执行平面

这个概念也很好理解，拿传统的技术对比，我们最好的参照就是 Kubernetes，它的架构设计已经非常成熟。而且几乎所有技术人员都对它有一定的理解。

Agent 最核心要关注的是什么时候让谁执行什么内容，而不是执行本身，这就是控制平面的含义。

其核心职责是：

• 规划
• 决策
• 调度

而不是：

• 执行代码
• 访问数据库
• 操作外部系统

这些执行行为，必须被下放到隔离的执行单元中。

目前的各种开源框架，都对 Agent 的控制能力进行了一定的抽象，但是作为一个生产级的 Agent 系统，我们需要考虑的因素还有很多。

2. Tool 是“受限执行单元”，不是函数

在合理架构中，一个 Tool 至少应该具备：

• 独立运行环境
• 明确权限边界
• 可限流、可熔断
• 可审计、可回放

这已经非常清楚地指向了一个结论：

Tool 天然是一个服务，而不是一个方法。

很多人都把 Tool 理解为一个函数，在 Python 主进程中执行，然后记录日志、返回结果。对于简单场景，这样已经够了，但是想让你的智能体向着「自主智能体」更进一步，那就要考虑 Tool 的架构问题。

3. Agent 的失败必须是“可局部化的”

Agent 上线之后的问题，往往都是有一两个简单的、局部的小问题引起的。比如发生以下情况：

• 搜索 Tool 崩溃
• 代码执行 Tool 超时
• 某个外部 API 不可用

Agent 正确的系统反应是：

• Agent 感知失败
• 调整策略
• 继续推进或安全退出

而不是系统整体崩溃。这也是我们上面一点谈及的，工具作为服务，必须是高度可用的，而智能体作为控制平面，要有能力感知和调整工具的使用。

一个更“正确”的 Agent 架构直觉

从架构直觉出发，一个可上线的 Agent 系统，通常具备以下特征：

• Agent Core：

• 轻逻辑
• 无状态
• 不直接接触外部世界

• Skills / Tools：

• 独立部署
• 强隔离
• 明确输入输出

• 模型服务：

• 与 Agent 解耦
• 可独立扩缩
• 资源单独管理

• 状态与记忆：

• 外置
• 可回放
• 可重建

如果你发现某个 Agent：

• 能直接 os.system()
• 能随意连内网
• 能读写本地文件

那不是“智能”，而是架构漏洞。

架构应尽早介入 Agent 项目

本文内容，可能对大多数人小题大作了，或者说组织内永远不会考虑到开源项目 Readme 之外的 Agent 架构的问题。

在很多组织里，AI Agent 项目初期往往由：

• 算法工程师
• 应用开发者
• 创新团队

快速推进，这是好事，因为对于复杂系统，在没有完整的架构能力去看清这个系统的里里外外之前，去设计宏大的架构是非常危险的，大概率会导致项目无法迈出第二步。

但如果架构师介入过晚，往往会出现：

• Demo 跑得很好
• 架构完全不可控
• 安全审计无法通过
• 推倒重来的成本极高

在 AI 编程能给我们提供很大帮助的时代下，当项目负责人发现项目和产品已经变得不可控的时候。越早的推倒重来其实是一个非常好的选择。

Agent 架构不是后期优化问题，而是项目走向正规之后就必须正确的问题。

一个给架构师的判断标准

在评估一个 AI Agent 项目时，你可以只问三个问题：

1. Tool 的执行边界在哪里？
2. 失败是否能被局部吸收？
3. Agent 是否能在不可信环境下生存？

如果这三个问题没有清晰答案，那它仍然只是一个“实验性脚本”。

这几个问题没有标准答案，你甚至可以回答他没有边界，只要你能说服自己和团队成员。

我们有很好的参考，比如 Claude Agent，他就是通用自主智能体架构设计就是非常好的例子。如果你觉得 Claude Agent 太复杂了，我们也可以参考类似阿里云百炼这样的智能体平台。

写在最后

AI Agent 并不是对传统系统架构的否定，而是一次对架构能力的放大考验。

它放大了：

• 不确定性
• 风险传播速度
• 架构设计的重要性

这也导致了我们去实现 Demo 的时候非常轻松，然而在项目走向正规之后，其扩展却相比传统程序有更大的难度。

--- END ---

【声明】内容源于网络

数翼

专注 AIGC 人工智能知识传播和实践

内容 228

粉丝 0

数翼专注 AIGC 人工智能知识传播和实践

总阅读357

粉丝0

内容228