

通用Agent是操作系统，垂直Agent是应用软件

ADaM应用数据挖掘和机器学习

2025-05-29

导读：智能计算架构下的大模型、通用Agent和垂直Agent，大致对应了传统计算架构下的CPU、操作系统和应用软件。

智能计算架构 vs 传统计算架构

如果将基于大模型的智能计算架构粗略映射到基于CPU的传统计算架构上，可以为理解大模型、通用Agent和垂直Agent之间的关系提供一个简易的框架。

大模型类似传统计算架构中的CPU，提供基础的计算资源和推断能力。

通用Agent对应操作系统层，负责资源管理、任务调度和安全权限管理，并为上层的应用提供统一接口。

垂直Agent类比为应用软件，实现各类业务逻辑和具体功能，满足特定场景需求。

工具是为Agent设计的，作为可复用、可组合、可按需加载的最小功能单元，由通用Agent或垂直Agent调用。

传统计算经历了从CPU基础能力提升，到操作系统负责抽象管理和资源调度，再到应用软件和云主导的软件发展。智能计算看起来也在沿着类似的路线发展。

通用Agent vs 操作系统

如果把通用Agent看作是大模型和垂直Agent的中间层，它需要提供大模型之外的、Agent应用所必须的记忆管理、基础工具使用、权限管理、用户接口等功能。

传统计算架构中，CPU硬件和操作系统软件之间的物理边界是固定的。智能计算架构中的大模型正逐步融合通用Agent层的很多能力，从任务调度、GUI操作，到记忆和权限等。比如ChatGPT就在向通用Agent发展。

Agent OS与模型层的边界可能会阶段性模糊，但这个分层结构，有助于理解大模型和Agent的不同定位和可能的发展方向。

当前适合构建通用Agent的几类公司: （1）大模型公司，如ChatGPT；（2）有前端用户和后端工具生态，如微信元宝；（3）有操作系统/硬件入口，如苹果和微软。

资源管理：通用Agent可以调度使用不同的大模型，管理记忆，并需要具备解决任务需要的共性基础工具的使用能力。MCP、A2A等Agent协议属于这一层。比如ChatGPT可以使用code interpreter、DALL-E、搜索等基础工具，Manus可以连接PDF解析、shell、爬虫API等数十个外部工具并动态加载。

任务调度：通用Agent需规划任务执行步骤并调度子任务处理，这与传统OS中的进程调度类似。ChatGPT基于模型（如o3）进行任务规划和调度，Manus通过使用工作流+提示词框架进行任务分解，并将子任务分派到不同的子Agent并行执行。

内存管理：通用Agent需要维护短期上下文缓存和长期记忆，实现任务连续性和知识复用。ChatGPT依靠模型的上下文窗口缓存当前任务信息，通过“Saved Memories”实现长期记忆。Manus在模型上下文的基础上增加实时步骤日志的存取，通过自动归纳和用户编辑知识库（“Knowledge”）实现支撑更长程的记忆和检索。

设备驱动：实现Agent与外部环境的交互，比如对浏览器、文件系统等进行UI和I/O操作。ChatGPT还没有集成Operator，目前主要支持代码解释器内的有限文件I/O操作。Manus通过接入Browser Use，可以自动点击、滚动和表单填写，实现更接近人类用户的交互操作。

用户接口: 通用Agent提供自然语言、语音和可视化界面的用户交互接口。ChatGPT提供ChatUI和可编辑的Canvas面板。Manus提供了“Manus’s Computer”可视化界面，供用户实时观察任务执行情况并获得交互式输出。

权限管理：包括运行时安全沙箱、数据安全分级、隐私合规管理等。ChatGPT的Enterprise版提供了数据域管理功能。Manus使用云端虚拟机实现任务级的隔离。

通用Agent在连接大模型和垂直Agent时，有两种方式。一种是ChatGPT和Manus这种，以通用Agent为入口，调用垂直Agent(或直接调用工具)。

Pokee.ai提供了另一种思路：用户直接和垂直Agent交互，通用Agent只提供背后的基础设施，这更像传统计算架构中的操作系统。

Pokee.ai的任务调度基于一个非LLM的RL模型，直接以工具集作为行为空间，可以支撑上千个工具的使用。它不需要面向终端用户的接口，只提供供上层垂直Agent调用的API。

垂直Agent vs 应用软件

通用Agent层的部分能力可能逐步被大模型集成，但垂直Agent层将长期独立存在。

大模型公司可能会直接实现一些通用场景的应用，如Deep Research之于ChatGPT，如同Office之于Windows。但更专业、任务复杂或高度行业化的垂直Agent，仍需要在大模型与通用Agent层之外独立发展。

这是由Agent的任务特点决定的。与Chatbot和Reasoner关注语言、逻辑推理等通用能力不同，Agent关注具体任务的执行。不同任务目标和专业性要求决定了Agent天然的垂直属性。

此外，Agent通过工具使用涉及大量环境交互，Agent模型无法像Chatbot和Reasoner那样实现对整个环境的建模。

从实现方式看，基于工作流触发的Agent需要结合具体任务特点设计执行逻辑。比如Lovart 需要为设计流程中的生成与迭代建立固定节点，ICON 则需围绕营销活动构建素材投放与数据回流的闭环。

基于学习驱动的Agent，以RL训练为例，需要根据对任务目标的理解设定环境奖励。比如网络安全Agent XBOW的奖励函数聚焦了漏洞发现效率与安全性平衡。

进一步，对垂域资源的需求也决定了垂直Agent单独存在的必要。一个是场景化数据，比如生活服务类Agent点点可以接入小红书的海量UGC数据。另一个是工具，垂直Agent会绑定行业和垂直领域的专业工具集。像Harvey AI整合了法律检索/证据披露系统，ABRIDGE通过集成电子病历系统实现医疗文书自动化。

当然，这里传统计算与智能计算架构的对照，只是一种方便理解的粗略类比。传统计算是“面向操作”的逻辑程序执行：CPU 按指令逐条计算、操作系统按规则分配资源。而智能计算转向“面向意图”的高层指令理解：大模型解析自然语言或多模态意图， Agent 自主规划、调用工具、协同其他 Agent，直接交付任务结果。

这几个月AI Agent的发展让智能计算架构的形态初步显现。随着模型能力的进一步提升和Agent应用生态的成熟，这一架构仍会不断变化，让未来的人机协作更好地融合模型、工具和环境。

【声明】内容源于网络

ADaM应用数据挖掘和机器学习

关注数据挖掘和机器学习的共性基础问题, 并应用于解决计算机视觉和自然语言处理中的具体任务。

内容 170

粉丝 0

ADaM应用数据挖掘和机器学习关注数据挖掘和机器学习的共性基础问题, 并应用于解决计算机视觉和自然语言处理中的具体任务。

总阅读20

粉丝0

内容170