洞见畏来

2025-08-18

导读：Agentic Web系列6: 四大系统跃迁｜从技术框架到落地关键

在《Agentic Web》“5 Systematic Transitions of the Agentic Web”章节中，作者聚焦传统Web基础设施与Agentic Web需求的核心矛盾，从系统层面拆解了支撑智能体自主运作的关键变革。不同于算法层面的能力升级，这一章更关注“如何搭建让AI智能体稳定、高效运行的底层架构”，以下是四大核心跃迁的深度解析。

论文地址：https://arxiv.org/pdf/2507.21206（如果想看原文的话，可以查看这个链接）

一、先破后立：Agentic Web系统的四大核心痛点

传统Web基于“无状态协议、用户发起交互、静态内容模型”构建，完全无法满足Agentic Web的需求。要实现智能体自主完成复杂任务，必须先解决四大系统级痛点：

1. 智能体发现难：找不到“能帮忙的伙伴”

传统Web用IP地址、域名定位静态资源，但Agentic Web中，AI智能体是“动态、无固定位置”的——当一个智能体（如旅行规划智能体）需要完成超出自身能力的任务（如查询实时天气），它无法像人类一样“主动找到”合适的协作智能体（如天气服务智能体）。这需要一套“实时匹配机制”，能评估潜在协作智能体的技能、可靠性和任务适配度，类似“为任务实时招聘伙伴”。

2. 跨智能体通信难：“说不到一起去”

当前API多为人类开发者设计，只保证“格式正确”（语法互通），不保证“意思一致”（语义互通）。例如，A智能体调用“用户ID”参数，B智能体接口定义为“UID”，就会出现理解偏差；更关键的是，智能体无法自主解读API的“用途”（如“这个接口是否用于支付”），必须依赖人类提前配置。Agentic Web需要“智能体友好型API”，内置机器可读的语义说明（如接口用途、参数含义、权限范围），让智能体能自主理解和调用。

3. 计费与追溯难：“花了钱不知道谁买单”

智能体协作时，可能会自发调用第三方服务（如调用地图API、学术数据库），但传统计费体系无法跟踪“哪个智能体、为哪个主任务、消耗了哪些资源”。例如，一个科研智能体为完成“撰写报告”任务，调用了3个数据库API，费用需归因到发起任务的用户，但现有系统无法实现“跨智能体、跨服务”的精准计费与审计，可能导致成本混乱或纠纷。

4. 服务质量难保障：“无法满足个性化需求”

传统网络（如5G）优化“通用指标”（如峰值速率、延迟），但Agentic Web中不同任务的需求差异极大：例如“深度科研智能体”需要高可靠性、低延迟和海量知识库，“票务预订智能体”则更关注支付安全性和数据加载速度。这需要网络从“通用优化”转向“任务定制化服务”，能识别每个任务的“服务需求域（SRZ）”，并匹配对应的资源（如算力、安全等级）。

文中图9（Service Requirement Zone）清晰展示了这种差异：左侧“深度科研智能体”的SRZ区域狭窄（需求严苛），右侧“票务预订智能体”的SRZ区域宽广（需求灵活），直观体现了Agentic Web对“个性化服务质量”的需求。

二、系统架构跃迁：构建“用户-智能体-后端”三位一体的Agentic Web系统

为解决上述痛点，提出了Agentic Web的核心架构——由“用户客户端（User Client）”“智能体（Intelligent Agent）”“后端服务（Backend Services）”三部分协同，彻底重构Web的运作逻辑：

1. 用户客户端：从“操作入口”到“意图交互通道”

传统客户端（如浏览器、APP）的核心是“让用户操作界面”，而Agentic Web的用户客户端聚焦“高效传递人类意图”：

输入端：支持多模态交互（语音、文本、手势），例如用户说“规划3天北京旅行”，客户端能精准提取关键信息（目的地、时长）；
输出端：将智能体的复杂结果（如行程表、数据报告）转化为人类易理解的形式（如可视化 itinerary、简洁摘要）；
特殊场景：支持“直接交互”，例如涉及敏感操作（如支付）时，客户端可跳过智能体，让用户直接与后端服务对接，兼顾效率与安全。

2. 智能体：从“功能工具”到“认知与调度核心”

智能体是整个架构的“大脑”，承担三大核心职责：

意图解析：用NLP（自然语言处理）理解用户目标，例如将“帮我准备周末家庭聚餐”拆解为“订食材、查菜谱、安排时间”；
任务规划与调度：自主选择后端服务（如调用生鲜APP API订食材、调用食谱数据库查做法），并协调步骤（如食材送达后提醒开始烹饪）；
动态调整：遇到意外时自主修正（如食材缺货时推荐替代品），无需人类干预。

其技术演进路径也很清晰：从早期“规则驱动”（如固定流程的聊天机器人），到现在“学习驱动”（如用LLM实现复杂推理），未来将进一步具备“自主进化”能力（如从任务反馈中优化策略）。

3. 后端服务：从“单体应用”到“模块化能力生态”

传统后端多为“单体应用”（如一个APP包含所有功能），而Agentic Web的后端服务是“可调用的模块化能力集合”：

覆盖范围广：从通用工具（翻译、计算）到领域服务（学术数据库、旅行预订API）；
架构灵活：采用微服务和插件化设计，第三方开发者可随时新增服务（如新增“小众景点推荐”插件，丰富旅行规划能力）；
标准化接口：通过MCP（Model Context Protocol）等协议，让智能体能自主识别和调用服务，无需重复适配。

案例实操：当用户发起“规划3天北京旅行”需求时，架构运作流程如下图11（Interaction Process Example））：

用户客户端将需求传递给智能体；
智能体分解任务为“查天气、找景点、订酒店、生成路线”；
通过MCP协议调用后端服务（天气服务、旅行指南服务、酒店服务、地图服务）；
结果合成智能体整合数据，生成完整行程；
地图服务直接将路线数据传给客户端（减少延迟），最终客户端呈现“行程表+地图”的综合结果。

三、通信协议跃迁：MCP与A2A，解决智能体“沟通”与“协作”的核心难题

传统Web依赖HTTP/RPC协议，但这些协议无法满足智能体“语义互通、状态持久、异步协作”的需求。重点介绍两种Agentic Web原生协议，构成智能体通信的“基础设施”：

1. MCP（Model Context Protocol）：智能体与“非智能体资源”的沟通标准

MCP由Anthropic提出，聚焦“智能体与工具、数据等非智能体资源的交互”，核心解决“调用标准化”问题：

能力协商：智能体通过MCP查询资源的“元数据”（如工具参数、使用限制），例如调用图像生成工具时，先获取“分辨率范围”“格式要求”；
标准化调用：智能体按MCP定义的格式发起请求，避免“格式错误”（如参数缺失、类型不匹配）；
实时通知：资源状态变化时（如数据更新），MCP会主动通知智能体，确保信息同步（如航班动态更新后，实时告知旅行规划智能体）。

MCP的价值在于：减少智能体与资源的适配成本，让不同平台的工具（如A平台的图像生成、B平台的文本分析）都能被智能体统一调用。

2. A2A（Agent-to-Agent）：智能体与“智能体”的协作标准

A2A由Google提出，专门解决“跨智能体协作”问题，核心设计包括：

Agent Card（智能体名片）：每个智能体将自身能力（如“擅长学术文献分析”）、接口地址、认证方式等信息，以JSON格式存于公开URL，其他智能体可随时查询；
任务与消息绑定：为每个任务分配唯一ID，消息中包含“当前任务ID”和“关联任务ID”，确保跨智能体的上下文连贯（如A智能体传递“文献摘要”给B智能体时，B能知道这是“科研报告任务”的一部分）；
异步协作与安全认证：支持长周期任务的异步通信（如A智能体发起协作后，可先处理其他任务，待B反馈后再继续），并通过DID（去中心化身份）实现安全认证，避免恶意智能体介入。

文中图12（AgentWeb系统示意图）直观展示了两种协议的协同：用户客户端的智能体通过A2A发现远程协作智能体，再通过MCP调用外部工具，形成“智能体协作+资源调用”的完整流程。

四、前沿探索：Agentic Web系统的三大新兴方向

论文中还提及了当前Agentic Web系统的前沿研究，这些方向将决定其未来落地潜力：

1. 让智能体“边推理边行动”：ReAct框架的突破

ReAct框架通过“交替推理与行动”，让智能体在完成任务时更可靠：例如回答“某历史事件的影响”时，智能体先推理“需要查该事件的经济数据”（推理），再调用数据库API获取数据（行动），接着推理“数据是否足够”（推理），最后生成答案（行动）。这种“推理-行动-再推理”的循环，既避免“空想”（无行动的纯推理），也避免“盲动”（无推理的纯行动），大幅提升任务完成质量。

2. 让长周期任务“动态规划”：PLAN-AND-ACT的角色分离

长周期任务（如“撰写月度销售报告”）的核心难点是“计划易过时”（如中途新增数据）。PLAN-AND-ACT框架将“规划”与“执行”分离：

规划器（Planner）：负责生成抽象策略（如“第1天收集数据、第2天分析、第3天撰写”）；
执行器（Executor）：负责具体操作（如调用销售系统API取数、用Excel工具分析）；
动态更新：执行器每完成一步，就将结果反馈给规划器，规划器根据新信息（如数据延迟）调整后续步骤，确保计划始终有效。

3. 让智能体评估“更真实”：Online-Mind2Web与WebJudge的出现

传统智能体评估基准（如WebVoyager）存在“任务单一、结果虚高”的问题，无法反映真实能力。章节提出两个解决方案：

Online-Mind2Web：包含300个真实任务（覆盖136个网站），模拟现实中“复杂、多变”的Web环境；
WebJudge：自动提取任务完成的关键节点（如“是否成功订到机票”），并截取智能体操作截图作为证据，评估结果与人类判断的一致性高达85.7%，既可靠又高效。

总结：Agentic Web系统跃迁的核心价值

从“传统Web”到“Agentic Web”的系统变革，本质是一场“从人类主导操作”到“智能体自主执行”的范式转移：

对用户：无需学习复杂工具，只需“提出目标”，大幅降低数字服务的使用门槛；
对技术：推动Web从“静态信息网络”升级为“动态行动网络”，让AI真正融入互联网的运作底层；
对生态：催生“智能体协作”“模块化服务”等新商业模式，为开发者提供全新的创新空间。

当然，这一跃迁仍面临挑战——例如多智能体协作的信任机制、复杂任务的安全防护，但论文中提出的架构、协议与技术方向，已为Agentic Web的落地搭建了清晰的“骨架”。未来，随着这些技术的进一步成熟，我们或将迎来“人类只需思考目标，智能体负责实现”的全新互联网时代。

【声明】内容源于网络

洞见畏来

专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

内容 633

粉丝 0

洞见畏来专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

总阅读228

粉丝0

内容633