当前行业探讨AI Agent安全问题时,多数分析仍聚焦于提示词注入、模型越狱、恶意网页诱导、工具滥用等具体攻击场景。这类风险固然需要防范,但本质只是暴露在外的表层问题,并非Agent安全风险的核心根源。
如今的AI Agent早已突破单纯的对话交互定位,发生了根本性的能力迭代。它能够自主读取本地文件、调用外部工具、安装第三方能力插件(Skill),打通邮箱、日历、代码仓库、企业业务系统等各类内外资源,还能构建长期记忆体系,在无需用户逐一步骤确认的前提下,自主完成连续的任务调度与执行。
具备资源调度、权限访问、状态管理、工具执行、外部互联等一系列能力的Agent,已然不再是简单的大模型应用,而是一套轻量化的微型操作系统。
这也是论文《Toward Securing AI Agents Like Operating Systems》提出的核心颠覆性认知:Agent安全防护不能依赖模型拒答、提示词约束、注入检测等浅层手段,必须借鉴操作系统的安全防护逻辑,重构Agent运行时的安全边界与防护体系。
论文链接:https://arxiv.org/pdf/2605.14932
该论文明确指出,AI Agent与传统操作系统的安全诉求高度契合,二者均需要实现资源隔离、权限拆分、通信管控,杜绝数据与权限的越界流转。这一研究的核心价值,并非新增若干Agent攻击案例,而是为行业提供了一套底层、通用的Agent安全分析与防护框架,彻底升级了Agent安全的认知维度。
Agent完成角色迭代:从智能助手升级为系统执行终端
本次研究重点聚焦OpenClaw-style类Agent,这类开放式、可扩展的智能体运行于用户真实环境中,可对接本地文件与各类外部服务,且能通过第三方Skill持续拓展自身能力,也是当前风险最高的Agent类型。其高风险性源于三大核心能力的叠加,形成了全方位的攻击面。
首先是自主执行能力,可自由调用工具、运行指令、读写本地文件;其次是环境联动能力,可触达用户账号、API密钥、消息通道、外部业务服务等核心资源;最后是自主扩展能力,支持第三方插件安装,部分场景下还能自主调整自身能力边界。
基于上述特性,这类Agent的安全攻击面涵盖工具调用、运行时能力扩展、持久化状态存储、第三方代码植入、用户敏感上下文泄露等多个维度,而大众熟知的提示词注入,仅仅是众多风险中的单一表现形式,无法代表Agent安全的全部核心问题。
这一差异彻底划分了两个层级的AI安全风险。仅具备对话能力的大模型,安全风险集中在输出内容合规性、隐私泄露、有害内容生成等层面;而具备全链路执行能力的Agent,安全风险已经上升为系统级安全风险。安全防护的核心问题,从“模型是否会输出错误内容”,转变为“模型被诱导误导后,整个Agent系统是否会触发真实的高危操作”。这也是行业需要以操作系统逻辑重构Agent安全体系的核心原因。
核心架构类比:LLM是不可信用户,运行时是安全内核
该论文最具启发价值的创新,是将Agent系统的核心组件与传统操作系统架构做了精准映射,让抽象的Agent安全逻辑变得清晰可落地。在这套架构体系中,各组件的安全定位截然不同:
大模型(LLM)对应操作系统的不可信用户,仅负责拆解任务、制定执行方案、选择对应工具,不具备安全决策权限,无法作为安全防护的核心屏障;
Agent运行时(Runtime)对应操作系统内核,全权负责任务调度、权限校验、资源隔离、安全策略落地,是唯一可信的安全核心;
各类工具(Tools)等同于系统调用,是Agent访问文件、网络、数据库、外部API等资源的唯一受控接口;
第三方能力插件(Skills)对应系统应用程序,是可安装、可迭代的功能单元;
LLM上下文对应系统内存,混杂可信数据与网页、工具输出、外部消息等不可信内容;
本地文件为持久化存储,网关则承担网络通信边界管控职责。
当前绝大多数Agent的结构性安全缺陷,根源在于信任域混杂。行业普遍将LLM模型、工具、插件、上下文、文件存储、记忆体系全部纳入同一信任范围,所有数据流转、指令执行、内容迭代都混杂在对话流中,没有任何隔离机制。
这种模式与早期无进程隔离的操作系统弊端完全一致:不同功能模块共享同一上下文空间,恶意内容可随意污染全局数据,工具输出、网页恶意文本、插件操作可相互干扰,进而引发跨插件数据泄露、跨用户会话数据篡改、系统配置与日志被恶意改写等一系列安全漏洞。
论文将其定义为核心结构性缺陷:现阶段多数Agent的安全规则仅依托自然语言提示词或简易运行时检查实现,缺乏底层、强制的监控仲裁机制,导致所有安全边界都是“软性约束”,极易被绕过和突破。
单纯依赖模型安全,无法构建稳健防护体系
论文明确提出一个核心论断:Agent安全绝对不能依托大模型的自主合规能力。在Agent系统中,LLM承担任务规划与指令生成工作,但其本身不具备可靠的安全防护能力。模型极易被恶意上下文诱导、误将外部数据识别为执行指令,且会因“优先完成用户任务”的固有特性,主动忽视潜在安全风险。
传统操作系统的安全设计逻辑极具参考价值:系统不会预设用户指令、应用程序永远安全,而是通过内核统一管控所有核心资源的访问权限,无论用户或程序出现何种异常,系统安全边界始终有效。Agent安全设计理应遵循同一逻辑。
稳健的Agent运行时,不能将“禁止泄露隐私”“禁止执行高危指令”“禁止访问无关资源”等规则仅写入系统提示词。必须在工具调用、文件访问、网络请求、上下文写入、日志留存等全流程,设置强制性的运行时校验机制,完成权限核查、路径甄别、来源标注、防篡改保护等硬核管控。
同时论文通过对照实验进一步验证了这一结论:即便更换Gemini-2.5、GPT-5.5等高性能大模型,各类Agent攻击风险依然存在。更强的模型或许能识别部分隐私风险、拒绝输出有害明文,但无法撤销前期已执行的高危操作。这充分证明,模型级别的拒答与合规能力,无法抵御系统性的运行时攻击。
这一结论对企业AI落地至关重要。当企业Agent对接内部知识库、代码仓库、工单、邮件、办公等核心业务系统时,安全目标绝非“模型不输出有害内容”,而是即便模型被恶意诱导,系统也能严格杜绝越权读取、越权修改、越权调用、越权外发数据等所有高危行为。简言之,模型合规不是安全边界,运行时的强制管控才是。
落地落地:六大操作系统安全机制迁移至Agent体系
论文系统性梳理了传统操作系统的成熟安全机制,并给出了完整的Agent适配落地方案,通过六大核心机制构建Agent运行时安全内核:
1. 统一接口管控
操作系统通过系统调用隔离用户程序与底层硬件资源,Agent则需要搭建统一的工具网关(Tool Gateway),将文件读写、网络请求、Shell执行、凭证调用、消息发送等所有资源操作统一收口。禁止第三方插件自主定义调用规则、脚本指令与请求方式,通过不可变工具注册、来源校验、参数审核、动态策略管控,杜绝工具篡改、代理劫持等安全问题。
2. 精细化进程隔离
针对当前Agent多工具共享同一上下文的核心漏洞,需为每一次工具调用配置独立的受限上下文,仅开放任务所需的最小数据权限,通过专属输入输出通道完成数据交互。同时实现不同用户、会话、插件、工具链的缓存与工作空间完全隔离,避免数据交叉污染与跨域泄露。
3. 全维度沙箱防护
Agent沙箱不能仅局限于容器封装,必须实现全链路风险覆盖。针对Shell指令、文件读写、浏览器访问、HTTP请求、工具调用、环境变量、凭证信息、日志配置等所有可能产生副作用的路径,全部纳入安全策略管控,消除防护盲区,避免攻击者绕过沙箱机制发起攻击。
4. 最小权限应用机制
借鉴移动端APP权限管理逻辑,所有Agent插件需主动声明权限范围,实现能力与权限精准匹配。天气插件仅可访问天气资源、文档插件仅可操作文本文件,杜绝默认超权限授权。同时摒弃单一的用户弹窗授权模式,落地默认最小权限、场景化分级授权、高危操作二次确认机制,实现权限可审计、可追溯、可管控。
5. 出站网络过滤
Agent多数数据泄露风险最终均通过网络外发实现,即便模型未输出敏感内容,也可能通过HTTP请求、消息推送、邮件、Webhook等渠道泄露数据。因此需搭建严格的网络出站管控体系,对数据发送主体、接收对象、数据内容、调用工具做全维度记录与拦截,杜绝未授权数据外发。
6. 防篡改审计日志
具备自主执行能力的Agent,日志是安全取证与风险溯源的核心依据。系统需完整记录用户输入、网关管控事件、提示词构造、工具调用、权限校验、插件安装、凭证访问、网络请求、最终输出等全流程行为。同时保障日志不可被Agent自主修改、删除,筑牢审计溯源链条,避免攻击后痕迹销毁。
实证测试结果:主流Agent均存在系统性安全短板
为验证当前Agent安全体系的漏洞,研究团队选取OpenClaw、IronClaw、Nanobot、NemoClaw四类主流Agent开展全覆盖测试,分别对应功能全面型、安全优先型、极简轻量化、封装适配型四大品类。实验通过虚拟机隔离环境,依托eBPF技术监控文件写入、网络请求等系统底层行为,以系统实际状态变化作为攻击成败判定标准,而非单纯参考模型输出结果。
测试场景覆盖全维度风险:包含工具调用注入、分阶段载荷执行等接口攻击;跨用户数据窃取篡改、记忆污染、账号枚举等隔离攻击;核心文件篡改、提示词窃取、凭证收集等沙箱突破攻击;未授权消息发送、任意网址访问的网络攻击;以及日志篡改、审计逃逸等溯源绕过攻击。
测试结果直观暴露了行业共性问题:四类Agent无一能抵御全部攻击。其中OpenClaw对各类攻击均无有效防护;安全属性最优的IronClaw仍存在七类可被突破的风险。更值得警惕的是,跨用户数据外泄、未授权消息发送两大高危漏洞,在所有测试Agent中均未得到有效解决。
这意味着当前行业的Agent防护体系普遍碎片化、片面化:部分产品实现沙箱隔离却缺失网络管控,部分具备文件权限校验却无上下文隔离,部分支持日志记录却无法防篡改,部分依赖模型合规却无运行时强制约束。零散的安全机制无法形成闭环防护,如同操作系统仅开启单一防护功能,始终存在大量攻击突破口。
行业价值:Agent安全正式迈入系统工程时代
该论文的核心行业价值,是将Agent安全从传统的“模型内容安全”升级为“运行时系统安全”。过往大模型安全聚焦输入输出检测、敏感内容拦截、越狱防护等模型层问题,但Agent的能力迭代彻底拓宽了风险边界。
企业级Agent可自主读取知识库、查询数据库、调用内部API、操作代码仓库、发起业务消息、修改系统配置、执行脚本指令,对应的安全核心,已从“模型输出什么”转变为“Agent执行了什么操作、操作依据是什么、调用了哪些数据、数据流向何处、操作能否溯源”。
基于这一变革,新一代Agent安全产品必须具备五大核心能力:统一的工具调用仲裁层,实现全流程管控审计;清晰的分级权限模型,厘清全角色权限关系;独立的上下文隔离与数据流追踪体系,杜绝全局数据污染;严格的网络出站过滤机制,阻断数据违规外发;不可篡改的审计日志体系,保障操作全程可追溯。
由此可见,Agent安全绝非给大模型叠加一层内容防护即可实现,而是需要搭建一套独立的运行时安全控制平面,也就是专属的Agent安全内核。该内核无需复刻操作系统的底层运行机制,但必须承担资源隔离、权限拆分、通信管控、行为审计的核心职责,确保即便LLM模型被诱导出错,整体安全策略依然有效。
整体来看,Agent安全的发展逻辑已经彻底迭代:从早期追求模型交互能力、中期防范提示词注入攻击,到如今聚焦运行时的权限边界与系统级安全管控。Agent的智能化、自主化能力越强,就越不能依赖模型自身的合规性作为安全屏障。
未来可靠的AI Agent,绝非“永远听话的大模型”,而是被完善的系统安全机制刚性约束的智能执行体。LLM负责理解任务、规划流程、生成指令,而所有资源访问、工具调用、权限使用、数据外发、记忆迭代等高危操作,均由运行时安全层统一仲裁、强制管控。
这也是整篇研究的终极核心结论:
Agent安全的本质,不是让模型永不犯错,而是让系统在模型出错时,依然能够牢牢守住安全边界。

