在《Agentic Web》“5 Systematic Transitions of the Agentic Web”章节中,作者聚焦传统Web基础设施与Agentic Web需求的核心矛盾,从系统层面拆解了支撑智能体自主运作的关键变革。不同于算法层面的能力升级,这一章更关注“如何搭建让AI智能体稳定、高效运行的底层架构”,以下是四大核心跃迁的深度解析。
论文地址:https://arxiv.org/pdf/2507.21206(如果想看原文的话,可以查看这个链接)
一、先破后立:Agentic Web系统的四大核心痛点
传统Web基于“无状态协议、用户发起交互、静态内容模型”构建,完全无法满足Agentic Web的需求。要实现智能体自主完成复杂任务,必须先解决四大系统级痛点:
1. 智能体发现难:找不到“能帮忙的伙伴”
传统Web用IP地址、域名定位静态资源,但Agentic Web中,AI智能体是“动态、无固定位置”的——当一个智能体(如旅行规划智能体)需要完成超出自身能力的任务(如查询实时天气),它无法像人类一样“主动找到”合适的协作智能体(如天气服务智能体)。这需要一套“实时匹配机制”,能评估潜在协作智能体的技能、可靠性和任务适配度,类似“为任务实时招聘伙伴”。
2. 跨智能体通信难:“说不到一起去”
当前API多为人类开发者设计,只保证“格式正确”(语法互通),不保证“意思一致”(语义互通)。例如,A智能体调用“用户ID”参数,B智能体接口定义为“UID”,就会出现理解偏差;更关键的是,智能体无法自主解读API的“用途”(如“这个接口是否用于支付”),必须依赖人类提前配置。Agentic Web需要“智能体友好型API”,内置机器可读的语义说明(如接口用途、参数含义、权限范围),让智能体能自主理解和调用。
3. 计费与追溯难:“花了钱不知道谁买单”
智能体协作时,可能会自发调用第三方服务(如调用地图API、学术数据库),但传统计费体系无法跟踪“哪个智能体、为哪个主任务、消耗了哪些资源”。例如,一个科研智能体为完成“撰写报告”任务,调用了3个数据库API,费用需归因到发起任务的用户,但现有系统无法实现“跨智能体、跨服务”的精准计费与审计,可能导致成本混乱或纠纷。
4. 服务质量难保障:“无法满足个性化需求”
传统网络(如5G)优化“通用指标”(如峰值速率、延迟),但Agentic Web中不同任务的需求差异极大:例如“深度科研智能体”需要高可靠性、低延迟和海量知识库,“票务预订智能体”则更关注支付安全性和数据加载速度。这需要网络从“通用优化”转向“任务定制化服务”,能识别每个任务的“服务需求域(SRZ)”,并匹配对应的资源(如算力、安全等级)。
文中图9(Service Requirement Zone)清晰展示了这种差异:左侧“深度科研智能体”的SRZ区域狭窄(需求严苛),右侧“票务预订智能体”的SRZ区域宽广(需求灵活),直观体现了Agentic Web对“个性化服务质量”的需求。
二、系统架构跃迁:构建“用户-智能体-后端”三位一体的Agentic Web系统
为解决上述痛点,提出了Agentic Web的核心架构——由“用户客户端(User Client)”“智能体(Intelligent Agent)”“后端服务(Backend Services)”三部分协同,彻底重构Web的运作逻辑:
1. 用户客户端:从“操作入口”到“意图交互通道”
传统客户端(如浏览器、APP)的核心是“让用户操作界面”,而Agentic Web的用户客户端聚焦“高效传递人类意图”:
输入端:支持多模态交互(语音、文本、手势),例如用户说“规划3天北京旅行”,客户端能精准提取关键信息(目的地、时长);
输出端:将智能体的复杂结果(如行程表、数据报告)转化为人类易理解的形式(如可视化 itinerary、简洁摘要);
特殊场景:支持“直接交互”,例如涉及敏感操作(如支付)时,客户端可跳过智能体,让用户直接与后端服务对接,兼顾效率与安全。
2. 智能体:从“功能工具”到“认知与调度核心”
智能体是整个架构的“大脑”,承担三大核心职责:
意图解析:用NLP(自然语言处理)理解用户目标,例如将“帮我准备周末家庭聚餐”拆解为“订食材、查菜谱、安排时间”;
任务规划与调度:自主选择后端服务(如调用生鲜APP API订食材、调用食谱数据库查做法),并协调步骤(如食材送达后提醒开始烹饪);
动态调整:遇到意外时自主修正(如食材缺货时推荐替代品),无需人类干预。
其技术演进路径也很清晰:从早期“规则驱动”(如固定流程的聊天机器人),到现在“学习驱动”(如用LLM实现复杂推理),未来将进一步具备“自主进化”能力(如从任务反馈中优化策略)。
3. 后端服务:从“单体应用”到“模块化能力生态”
传统后端多为“单体应用”(如一个APP包含所有功能),而Agentic Web的后端服务是“可调用的模块化能力集合”:
覆盖范围广:从通用工具(翻译、计算)到领域服务(学术数据库、旅行预订API);
架构灵活:采用微服务和插件化设计,第三方开发者可随时新增服务(如新增“小众景点推荐”插件,丰富旅行规划能力);
标准化接口:通过MCP(Model Context Protocol)等协议,让智能体能自主识别和调用服务,无需重复适配。
案例实操:当用户发起“规划3天北京旅行”需求时,架构运作流程如下图11(Interaction Process Example)):
用户客户端将需求传递给智能体;
智能体分解任务为“查天气、找景点、订酒店、生成路线”;
通过MCP协议调用后端服务(天气服务、旅行指南服务、酒店服务、地图服务);
结果合成智能体整合数据,生成完整行程;
地图服务直接将路线数据传给客户端(减少延迟),最终客户端呈现“行程表+地图”的综合结果。
三、通信协议跃迁:MCP与A2A,解决智能体“沟通”与“协作”的核心难题
传统Web依赖HTTP/RPC协议,但这些协议无法满足智能体“语义互通、状态持久、异步协作”的需求。重点介绍两种Agentic Web原生协议,构成智能体通信的“基础设施”:
1. MCP(Model Context Protocol):智能体与“非智能体资源”的沟通标准
MCP由Anthropic提出,聚焦“智能体与工具、数据等非智能体资源的交互”,核心解决“调用标准化”问题:
能力协商:智能体通过MCP查询资源的“元数据”(如工具参数、使用限制),例如调用图像生成工具时,先获取“分辨率范围”“格式要求”;
标准化调用:智能体按MCP定义的格式发起请求,避免“格式错误”(如参数缺失、类型不匹配);
实时通知:资源状态变化时(如数据更新),MCP会主动通知智能体,确保信息同步(如航班动态更新后,实时告知旅行规划智能体)。
MCP的价值在于:减少智能体与资源的适配成本,让不同平台的工具(如A平台的图像生成、B平台的文本分析)都能被智能体统一调用。
2. A2A(Agent-to-Agent):智能体与“智能体”的协作标准
A2A由Google提出,专门解决“跨智能体协作”问题,核心设计包括:
Agent Card(智能体名片):每个智能体将自身能力(如“擅长学术文献分析”)、接口地址、认证方式等信息,以JSON格式存于公开URL,其他智能体可随时查询;
任务与消息绑定:为每个任务分配唯一ID,消息中包含“当前任务ID”和“关联任务ID”,确保跨智能体的上下文连贯(如A智能体传递“文献摘要”给B智能体时,B能知道这是“科研报告任务”的一部分);
异步协作与安全认证:支持长周期任务的异步通信(如A智能体发起协作后,可先处理其他任务,待B反馈后再继续),并通过DID(去中心化身份)实现安全认证,避免恶意智能体介入。
文中图12(AgentWeb系统示意图)直观展示了两种协议的协同:用户客户端的智能体通过A2A发现远程协作智能体,再通过MCP调用外部工具,形成“智能体协作+资源调用”的完整流程。
四、前沿探索:Agentic Web系统的三大新兴方向
论文中还提及了当前Agentic Web系统的前沿研究,这些方向将决定其未来落地潜力:
1. 让智能体“边推理边行动”:ReAct框架的突破
ReAct框架通过“交替推理与行动”,让智能体在完成任务时更可靠:例如回答“某历史事件的影响”时,智能体先推理“需要查该事件的经济数据”(推理),再调用数据库API获取数据(行动),接着推理“数据是否足够”(推理),最后生成答案(行动)。这种“推理-行动-再推理”的循环,既避免“空想”(无行动的纯推理),也避免“盲动”(无推理的纯行动),大幅提升任务完成质量。
2. 让长周期任务“动态规划”:PLAN-AND-ACT的角色分离
长周期任务(如“撰写月度销售报告”)的核心难点是“计划易过时”(如中途新增数据)。PLAN-AND-ACT框架将“规划”与“执行”分离:
规划器(Planner):负责生成抽象策略(如“第1天收集数据、第2天分析、第3天撰写”);
执行器(Executor):负责具体操作(如调用销售系统API取数、用Excel工具分析);
动态更新:执行器每完成一步,就将结果反馈给规划器,规划器根据新信息(如数据延迟)调整后续步骤,确保计划始终有效。
3. 让智能体评估“更真实”:Online-Mind2Web与WebJudge的出现
传统智能体评估基准(如WebVoyager)存在“任务单一、结果虚高”的问题,无法反映真实能力。章节提出两个解决方案:
Online-Mind2Web:包含300个真实任务(覆盖136个网站),模拟现实中“复杂、多变”的Web环境;
WebJudge:自动提取任务完成的关键节点(如“是否成功订到机票”),并截取智能体操作截图作为证据,评估结果与人类判断的一致性高达85.7%,既可靠又高效。
总结:Agentic Web系统跃迁的核心价值
从“传统Web”到“Agentic Web”的系统变革,本质是一场“从人类主导操作”到“智能体自主执行”的范式转移:
对用户:无需学习复杂工具,只需“提出目标”,大幅降低数字服务的使用门槛;
对技术:推动Web从“静态信息网络”升级为“动态行动网络”,让AI真正融入互联网的运作底层;
对生态:催生“智能体协作”“模块化服务”等新商业模式,为开发者提供全新的创新空间。
当然,这一跃迁仍面临挑战——例如多智能体协作的信任机制、复杂任务的安全防护,但论文中提出的架构、协议与技术方向,已为Agentic Web的落地搭建了清晰的“骨架”。未来,随着这些技术的进一步成熟,我们或将迎来“人类只需思考目标,智能体负责实现”的全新互联网时代。

