洞见畏来

2025-08-18

导读：Agentic Web系列8：风险、安全与治理：AI时代的Web新挑战

在AI大模型驱动的Agentic Web时代，自主智能体虽为互联网带来效率革命，但也催生了前所未有的风险隐患。本文将聚焦《Agentic Web》研究中的“Risks, Security & Governance”章节，拆解智能体生态的安全威胁、防御手段与治理方向，为理解AI时代Web安全提供关键视角。

论文地址：https://arxiv.org/pdf/2507.21206（如果想看原文的话，可以查看这个链接）

一、Agentic Web安全生态：核心构成与风险演进

Agentic Web的安全生态以大语言模型（如OpenAI、Gemini）驱动的智能体为核心，覆盖桌面、笔记本、服务器、手机等多设备，涉及云服务、第三方工具及跨智能体协作（见图13：Agentic Web Safety and Security Ecosystem）。与传统AI相比，Agentic Web的风险呈现三大本质变化：

运营范围：从单领域任务扩展到跨平台协同，例如一个旅行智能体需同时对接机票、酒店、天气等多类服务；
权限与持续性：从只读访问升级为可执行交易，且具备多会话记忆能力，一旦被攻击可能引发连锁反应；
故障影响：从输出错误信息演变为真实世界损失（如未经授权的支付），信任模型也从“人工验证”转向“自主决策”。

这种演进使得安全防护必须突破传统边界，覆盖智能体的认知、交互、经济全流程。

二、三层核心威胁：从认知操纵到经济攻击

Agentic Web的威胁需按“智能层-交互层-经济层”分层拆解，不同层级的风险具有独特攻击路径与实例：

1. 智能层威胁：操纵智能体的“决策大脑”

智能层攻击瞄准智能体的认知与推理能力，通过污染信息或诱导决策实现破坏，典型威胁包括：

目标偏移（Goal Drift）：利用网页UI/UX设计心理操纵智能体目标，例如将“低价机票搜索”诱导为“预订 premium 座位”；
知识库投毒（Knowledge Base Poisoning）：通过SEO优化的虚假研究网站，篡改气候分析智能体的事实认知；
偏好学习污染（Preference Learning Corruption）：通过操纵反馈让购物智能体优先选择赞助商品，而非用户真实需求。

这些威胁的核心是“认知污染”，使得智能体在看似正常的交互中逐渐偏离用户目标。

2. 交互层威胁：突破智能体的“沟通防线”

交互层攻击利用MCP（Model Context Protocol）、A2A（Agent-to-Agent）等通信协议漏洞，破坏智能体间的信息传递，主要包括：

MCP上下文注入：劫持智能体与工具的通信，例如通过伪造MCP注册表窃取旅行智能体的用户凭证；
跨服务认证滥用：利用谷歌登录令牌，从获取云端文档权限升级为访问第三方研究数据库；
协议降级攻击：强制智能体从安全的A2A v2协议降级到存在漏洞的v1版本，制造攻击入口。

传统HTTP/RPC协议的“无语义支持”缺陷，使得这些攻击更易得逞——智能体无法识别恶意请求的语义风险。

3. 经济层威胁：直击智能体的“交易权限”

当智能体具备财务操作能力，经济层威胁直接关联真实财产安全，关键风险有：

交易权限滥用：未经授权执行高价值操作，例如为预算有限的用户预订不可退款的商务舱机票；
跨平台套利：利用多平台定价差异恶意操作，例如频繁预订又取消航班以操纵动态票价；
协同市场操纵：多智能体联合制造供需假象，例如垄断某航线所有座位后抬高价格。

这些威胁不仅导致经济损失，还可能破坏市场秩序，且风险易在多智能体间“跨层传导”（如认知被操纵→协议被突破→经济损失）。

三、风险检测：红队演练的“攻防预演”

红队演练是发现Agentic Web漏洞的关键手段，目前主要分为“人工参与”与“自动执行”两类，各有优劣：

1. 人工参与红队：专家主导的精准测试

依赖领域专家设计对抗场景，适用于高风险、复杂场景，例如：

手动构造对抗性示例，测试智能体在“模糊指令”下的决策边界；
通过人工标注评估智能体在金融、医疗等领域的隐私泄露风险。

但人工方式成本高、效率低，难以覆盖Agentic Web的海量交互场景。

2. 自动红队：LLM驱动的规模化测试

利用大语言模型生成对抗场景，实现高效、动态的漏洞探测，代表性方案包括：

MART框架：通过多轮对抗生成，暴露智能体在“工具调用”“多步推理”中的安全缺陷；
RL-based红队：用强化学习训练对抗智能体，优化攻击输入以突破目标智能体的安全防护；
AgentPoison：通过污染智能体的记忆或知识库，测试其抗干扰能力。

自动红队虽解决了规模化问题，但在复杂伦理判断、多模态场景中仍需人工辅助。

3. 未来方向：人机协同的混合红队

单纯人工或自动红队均有局限，未来需结合两者优势：

利用“安全强化学习（Safe RL）”约束红队智能体的攻击范围，避免过度破坏；
以人类专家的领域知识引导LLM探索高风险场景，平衡“探测深度”与“安全性”。

四、防御策略：从被动防护到主动免疫

针对三层威胁，需构建“推理护栏-可控生成-持续学习”的防御体系，关键技术包括：

1. 推理时护栏（Inference-time Guardrails）：实时过滤风险

护栏系统作为智能体的“安全守门人”，需具备语义理解与动态适应能力：

推理型护栏（Reasoning Guardrails）：如ThinkGuard框架，通过“两步推理”（先预测风险→再解释逻辑），避免智能体被表面信息欺骗；
智能体型护栏（Agentic Guardrails）：如AGrail框架，利用记忆机制存储历史不安全轨迹，动态生成安全检查规则，支持“终身学习”——例如从一次“支付漏洞”中学习，防范后续类似攻击。

这些护栏突破了传统“关键词过滤”的局限，能理解请求的语义风险。

2. 可控生成与规划：引导智能体“安全决策”

通过约束智能体的生成与规划过程，从源头降低风险：

安全解码（SafeDecoding）：在LLM生成令牌时，动态调整概率分布，优先选择无害输出；
权限控制（Access Control）：如Progent框架，通过“最小权限原则”限制工具调用——智能体仅能使用完成任务必需的工具，避免权限滥用；
知识访问管控（SudoLM）：区分“公开知识”与“特权知识”，仅当用户提供SUDO密钥时，才允许智能体访问敏感信息（如医疗记录）。

这些技术让智能体在“自主决策”中仍能遵守安全边界。

3. 防御新挑战：效率、泛化与可验证

当前防御仍面临三大未解决问题：

效率瓶颈：推理型护栏的“两步思考”虽提升安全性，但增加了交互延迟，需优化推理压缩技术；
泛化难题：在新网站、新工具场景中，护栏规则易失效，需增强对未知环境的适应能力；
可验证性：防御效果需与真实Web环境（如DOM结构、API约束）绑定，避免“实验室安全但实际失效”。

五、安全评估：量化Agentic Web的“抗风险能力”

目前Agentic Web的安全评估仍处于起步阶段，已有 benchmark 为评估提供基础：

SafeArena：包含250个安全任务与250个有害任务，测试ChatGPT、Qwen等模型对恶意请求的合规性；
ST-WebAgentBench：基于WebArena环境，从“用户同意”“偏好满足”“错误恢复”等6个维度评估企业级智能体的安全性；
Agent-SafetyBench：覆盖8类安全风险，包含2000个测试用例，结果显示当前智能体的安全得分均未超过60%。

这些评估工具的核心是“模拟真实场景”——例如让智能体完成“预订酒店并保护用户身份证号”，而非简单判断文本是否有害。

六、治理方向：技术与制度的协同

Agentic Web的治理需突破“纯技术思维”，结合制度设计与生态建设：

架构转型：从“边界安全”转向“零信任模型”，所有工具、智能体的交互均需实时验证；
政策创新：制定“智能体行为白皮书”，明确“谁为智能体的错误交易负责”（用户、开发者或平台）；
生态建设：推动MCP、A2A协议的安全标准化，例如要求协议内置“语义风险检测”字段，减少漏洞。

此外，跨领域协作至关重要——AI安全专家需与Web架构师、经济学家合作，避免“防御技术”与“实际需求”脱节。

结语：在创新与安全间找平衡

Agentic Web将互联网从“信息连接”推向“智能行动”，但安全始终是前提。从认知层的“防操纵”，到交互层的“防突破”，再到经济层的“防滥用”，每一步防御都需兼顾“智能体自主性”与“用户控制权”。

未来的研究不仅需要技术突破（如更高效的推理护栏），更需建立“安全-效率-公平”的多目标平衡——让Agentic Web真正成为“服务人类”的工具，而非新的风险源。

【声明】内容源于网络