大数跨境
0
0

通用Agent是操作系统,垂直Agent是应用软件

通用Agent是操作系统,垂直Agent是应用软件 ADaM应用数据挖掘和机器学习
2025-05-29
0
导读:智能计算架构下的大模型、通用Agent和垂直Agent,大致对应了传统计算架构下的CPU、操作系统和应用软件。

智能计算架构 vs 传统计算架构

如果将基于大模型的智能计算架构粗略映射到基于CPU的传统计算架构上,可以为理解大模型、通用Agent和垂直Agent之间的关系提供一个简易的框架。

大模型类似传统计算架构中的CPU,提供基础的计算资源和推断能力。

通用Agent对应操作系统层,负责资源管理、任务调度和安全权限管理,并为上层的应用提供统一接口。

垂直Agent类比为应用软件,实现各类业务逻辑和具体功能,满足特定场景需求。

工具是为Agent设计的,作为可复用、可组合、可按需加载的最小功能单元,由通用Agent或垂直Agent调用。

传统计算经历了从CPU基础能力提升,到操作系统负责抽象管理和资源调度,再到应用软件和云主导的软件发展。智能计算看起来也在沿着类似的路线发展。


通用Agent vs 操作系统

如果把通用Agent看作是大模型和垂直Agent的中间层,它需要提供大模型之外的、Agent应用所必须的记忆管理、基础工具使用、权限管理、用户接口等功能。

传统计算架构中,CPU硬件和操作系统软件之间的物理边界是固定的。智能计算架构中的大模型正逐步融合通用Agent层的很多能力,从任务调度、GUI操作,到记忆和权限等。比如ChatGPT就在向通用Agent发展。

Agent OS与模型层的边界可能会阶段性模糊,但这个分层结构,有助于理解大模型和Agent的不同定位和可能的发展方向。

当前适合构建通用Agent的几类公司1)大模型公司,如ChatGPT;(2)有前端用户和后端工具生态,如微信元宝;(3)有操作系统/硬件入口,如苹果和微软。

资源管理通用Agent可以调度使用不同的大模型,管理记忆,并需要具备解决任务需要的共性基础工具的使用能力。MCPA2AAgent协议属于这一层。比如ChatGPT可以使用code interpreterDALL-E、搜索等基础工具,Manus可以连接PDF解析、shell、爬虫API等数十个外部工具并动态加载。

任务调度:通用Agent需规划任务执行步骤并调度子任务处理,这与传统OS中的进程调度类似。ChatGPT基于模型(如o3)进行任务规划和调度,Manus通过使用工作流+提示词框架进行任务分解,并将子任务分派到不同的子Agent并行执行。

内存管理:通用Agent需要维护短期上下文缓存和长期记忆,实现任务连续性和知识复用。ChatGPT依靠模型的上下文窗口缓存当前任务信息,通过“Saved Memories”实现长期记忆。Manus在模型上下文的基础上增加实时步骤日志的存取,通过自动归纳和用户编辑知识库(“Knowledge”)实现支撑更长程的记忆和检索。

设备驱动:实现Agent与外部环境的交互,比如对浏览器、文件系统等进行UII/O操作。ChatGPT还没有集成Operator,目前主要支持代码解释器内的有限文件I/O操作。Manus通过接入Browser Use,可以自动点击、滚动和表单填写,实现更接近人类用户的交互操作。

用户接口通用Agent提供自然语言、语音和可视化界面的用户交互接口。ChatGPT提供ChatUI和可编辑的Canvas面板。Manus提供了“Manus’s Computer”可视化界面,供用户实时观察任务执行情况并获得交互式输出。

权限管理:包括运行时安全沙箱、数据安全分级、隐私合规管理等。ChatGPTEnterprise版提供了数据域管理功能。Manus使用云端虚拟机实现任务级的隔离。

通用Agent在连接大模型和垂直Agent时,有两种方式。一种是ChatGPTManus这种,以通用Agent为入口,调用垂直Agent(或直接调用工具)

Pokee.ai提供了另一种思路:用户直接和垂直Agent交互,通用Agent只提供背后的基础设施,这更像传统计算架构中的操作系统。

Pokee.ai的任务调度基于一个非LLMRL模型,直接以工具集作为行为空间,可以支撑上千个工具的使用。它不需要面向终端用户的接口,只提供供上层垂直Agent调用的API


垂直Agent vs 应用软件

通用Agent层的部分能力可能逐步被大模型集成,但垂直Agent层将长期独立存在。

大模型公司可能会直接实现一些通用场景的应用,如Deep Research之于ChatGPT,如同Office之于Windows但更专业、任务复杂或高度行业化的垂直Agent,仍需要在大模型与通用Agent层之外独立发展。

这是由Agent任务特点决定的。与ChatbotReasoner关注语言、逻辑推理等通用能力不同,Agent关注具体任务的执行。不同任务目标和专业性要求决定了Agent天然的垂直属性。

此外,Agent通过工具使用涉及大量环境交互,Agent模型无法像ChatbotReasoner那样实现对整个环境的建模。

实现方式看,基于工作流触发的Agent需要结合具体任务特点设计执行逻辑。比如Lovart 需要为设计流程中的生成与迭代建立固定节点,ICON 则需围绕营销活动构建素材投放与数据回流的闭环。

基于学习驱动的Agent,以RL训练为例,需要根据对任务目标的理解设定环境奖励。比如网络安全Agent XBOW的奖励函数聚焦漏洞发现效率与安全性平衡。

进一步,对垂域资源的需求也决定了垂直Agent单独存在的必要。一个是场景化数据,比如生活服务类Agent点点可以接入小红书的海量UGC数据。另一个是工具,垂直Agent会绑定行业和垂直领域的专业工具集。像Harvey AI整合了法律检索/证据披露系统,ABRIDGE通过集成电子病历系统实现医疗文书自动化。


当然,这里传统计算与智能计算架构的对照,只是一种方便理解的粗略类比。传统计算是“面向操作”的逻辑程序执行:CPU 按指令逐条计算、操作系统按规则分配资源。而智能计算转向“面向意图”的高层指令理解:大模型解析自然语言或多模态意图, Agent 自主规划、调用工具、协同其他 Agent,直接交付任务结果。

这几个月AI Agent的发展让智能计算架构的形态初步显现。随着模型能力的进一步提升和Agent应用生态的成熟,这一架构仍会不断变化,让未来的人机协作更好地融合模型、工具和环境。

【声明】内容源于网络
0
0
ADaM应用数据挖掘和机器学习
关注数据挖掘和机器学习的共性基础问题, 并应用于解决计算机视觉和自然语言处理中的具体任务。
内容 170
粉丝 0
ADaM应用数据挖掘和机器学习 关注数据挖掘和机器学习的共性基础问题, 并应用于解决计算机视觉和自然语言处理中的具体任务。
总阅读20
粉丝0
内容170