应像保护操作系统一样来保护Agent：LLM 不可信，运行时才是安全内核- 大数跨境

元智数安

2026-05-25

导读：当前行业探讨AI Agent安全问题时，多数分析仍聚焦于提示词注入、模型越狱、恶意网页诱导、工具滥用等具体攻击

当前行业探讨AI Agent安全问题时，多数分析仍聚焦于提示词注入、模型越狱、恶意网页诱导、工具滥用等具体攻击场景。这类风险固然需要防范，但本质只是暴露在外的表层问题，并非Agent安全风险的核心根源。

如今的AI Agent早已突破单纯的对话交互定位，发生了根本性的能力迭代。它能够自主读取本地文件、调用外部工具、安装第三方能力插件（Skill），打通邮箱、日历、代码仓库、企业业务系统等各类内外资源，还能构建长期记忆体系，在无需用户逐一步骤确认的前提下，自主完成连续的任务调度与执行。

具备资源调度、权限访问、状态管理、工具执行、外部互联等一系列能力的Agent，已然不再是简单的大模型应用，而是一套轻量化的微型操作系统。

这也是论文《Toward Securing AI Agents Like Operating Systems》提出的核心颠覆性认知：Agent安全防护不能依赖模型拒答、提示词约束、注入检测等浅层手段，必须借鉴操作系统的安全防护逻辑，重构Agent运行时的安全边界与防护体系。

论文链接：https://arxiv.org/pdf/2605.14932

该论文明确指出，AI Agent与传统操作系统的安全诉求高度契合，二者均需要实现资源隔离、权限拆分、通信管控，杜绝数据与权限的越界流转。这一研究的核心价值，并非新增若干Agent攻击案例，而是为行业提供了一套底层、通用的Agent安全分析与防护框架，彻底升级了Agent安全的认知维度。

Agent完成角色迭代：从智能助手升级为系统执行终端

本次研究重点聚焦OpenClaw-style类Agent，这类开放式、可扩展的智能体运行于用户真实环境中，可对接本地文件与各类外部服务，且能通过第三方Skill持续拓展自身能力，也是当前风险最高的Agent类型。其高风险性源于三大核心能力的叠加，形成了全方位的攻击面。

首先是自主执行能力，可自由调用工具、运行指令、读写本地文件；其次是环境联动能力，可触达用户账号、API密钥、消息通道、外部业务服务等核心资源；最后是自主扩展能力，支持第三方插件安装，部分场景下还能自主调整自身能力边界。

基于上述特性，这类Agent的安全攻击面涵盖工具调用、运行时能力扩展、持久化状态存储、第三方代码植入、用户敏感上下文泄露等多个维度，而大众熟知的提示词注入，仅仅是众多风险中的单一表现形式，无法代表Agent安全的全部核心问题。

这一差异彻底划分了两个层级的AI安全风险。仅具备对话能力的大模型，安全风险集中在输出内容合规性、隐私泄露、有害内容生成等层面；而具备全链路执行能力的Agent，安全风险已经上升为系统级安全风险。安全防护的核心问题，从“模型是否会输出错误内容”，转变为“模型被诱导误导后，整个Agent系统是否会触发真实的高危操作”。这也是行业需要以操作系统逻辑重构Agent安全体系的核心原因。

核心架构类比：LLM是不可信用户，运行时是安全内核

该论文最具启发价值的创新，是将Agent系统的核心组件与传统操作系统架构做了精准映射，让抽象的Agent安全逻辑变得清晰可落地。在这套架构体系中，各组件的安全定位截然不同：

大模型（LLM）对应操作系统的不可信用户，仅负责拆解任务、制定执行方案、选择对应工具，不具备安全决策权限，无法作为安全防护的核心屏障；
Agent运行时（Runtime）对应操作系统内核，全权负责任务调度、权限校验、资源隔离、安全策略落地，是唯一可信的安全核心；
各类工具（Tools）等同于系统调用，是Agent访问文件、网络、数据库、外部API等资源的唯一受控接口；
第三方能力插件（Skills）对应系统应用程序，是可安装、可迭代的功能单元；
LLM上下文对应系统内存，混杂可信数据与网页、工具输出、外部消息等不可信内容；
本地文件为持久化存储，网关则承担网络通信边界管控职责。

当前绝大多数Agent的结构性安全缺陷，根源在于信任域混杂。行业普遍将LLM模型、工具、插件、上下文、文件存储、记忆体系全部纳入同一信任范围，所有数据流转、指令执行、内容迭代都混杂在对话流中，没有任何隔离机制。

这种模式与早期无进程隔离的操作系统弊端完全一致：不同功能模块共享同一上下文空间，恶意内容可随意污染全局数据，工具输出、网页恶意文本、插件操作可相互干扰，进而引发跨插件数据泄露、跨用户会话数据篡改、系统配置与日志被恶意改写等一系列安全漏洞。

论文将其定义为核心结构性缺陷：现阶段多数Agent的安全规则仅依托自然语言提示词或简易运行时检查实现，缺乏底层、强制的监控仲裁机制，导致所有安全边界都是“软性约束”，极易被绕过和突破。

单纯依赖模型安全，无法构建稳健防护体系

论文明确提出一个核心论断：Agent安全绝对不能依托大模型的自主合规能力。在Agent系统中，LLM承担任务规划与指令生成工作，但其本身不具备可靠的安全防护能力。模型极易被恶意上下文诱导、误将外部数据识别为执行指令，且会因“优先完成用户任务”的固有特性，主动忽视潜在安全风险。

传统操作系统的安全设计逻辑极具参考价值：系统不会预设用户指令、应用程序永远安全，而是通过内核统一管控所有核心资源的访问权限，无论用户或程序出现何种异常，系统安全边界始终有效。Agent安全设计理应遵循同一逻辑。

稳健的Agent运行时，不能将“禁止泄露隐私”“禁止执行高危指令”“禁止访问无关资源”等规则仅写入系统提示词。必须在工具调用、文件访问、网络请求、上下文写入、日志留存等全流程，设置强制性的运行时校验机制，完成权限核查、路径甄别、来源标注、防篡改保护等硬核管控。

同时论文通过对照实验进一步验证了这一结论：即便更换Gemini-2.5、GPT-5.5等高性能大模型，各类Agent攻击风险依然存在。更强的模型或许能识别部分隐私风险、拒绝输出有害明文，但无法撤销前期已执行的高危操作。这充分证明，模型级别的拒答与合规能力，无法抵御系统性的运行时攻击。

这一结论对企业AI落地至关重要。当企业Agent对接内部知识库、代码仓库、工单、邮件、办公等核心业务系统时，安全目标绝非“模型不输出有害内容”，而是即便模型被恶意诱导，系统也能严格杜绝越权读取、越权修改、越权调用、越权外发数据等所有高危行为。简言之，模型合规不是安全边界，运行时的强制管控才是。

落地落地：六大操作系统安全机制迁移至Agent体系

论文系统性梳理了传统操作系统的成熟安全机制，并给出了完整的Agent适配落地方案，通过六大核心机制构建Agent运行时安全内核：

1. 统一接口管控

操作系统通过系统调用隔离用户程序与底层硬件资源，Agent则需要搭建统一的工具网关（Tool Gateway），将文件读写、网络请求、Shell执行、凭证调用、消息发送等所有资源操作统一收口。禁止第三方插件自主定义调用规则、脚本指令与请求方式，通过不可变工具注册、来源校验、参数审核、动态策略管控，杜绝工具篡改、代理劫持等安全问题。

2. 精细化进程隔离

针对当前Agent多工具共享同一上下文的核心漏洞，需为每一次工具调用配置独立的受限上下文，仅开放任务所需的最小数据权限，通过专属输入输出通道完成数据交互。同时实现不同用户、会话、插件、工具链的缓存与工作空间完全隔离，避免数据交叉污染与跨域泄露。

3. 全维度沙箱防护

Agent沙箱不能仅局限于容器封装，必须实现全链路风险覆盖。针对Shell指令、文件读写、浏览器访问、HTTP请求、工具调用、环境变量、凭证信息、日志配置等所有可能产生副作用的路径，全部纳入安全策略管控，消除防护盲区，避免攻击者绕过沙箱机制发起攻击。

4. 最小权限应用机制

借鉴移动端APP权限管理逻辑，所有Agent插件需主动声明权限范围，实现能力与权限精准匹配。天气插件仅可访问天气资源、文档插件仅可操作文本文件，杜绝默认超权限授权。同时摒弃单一的用户弹窗授权模式，落地默认最小权限、场景化分级授权、高危操作二次确认机制，实现权限可审计、可追溯、可管控。

5. 出站网络过滤

Agent多数数据泄露风险最终均通过网络外发实现，即便模型未输出敏感内容，也可能通过HTTP请求、消息推送、邮件、Webhook等渠道泄露数据。因此需搭建严格的网络出站管控体系，对数据发送主体、接收对象、数据内容、调用工具做全维度记录与拦截，杜绝未授权数据外发。

6. 防篡改审计日志

具备自主执行能力的Agent，日志是安全取证与风险溯源的核心依据。系统需完整记录用户输入、网关管控事件、提示词构造、工具调用、权限校验、插件安装、凭证访问、网络请求、最终输出等全流程行为。同时保障日志不可被Agent自主修改、删除，筑牢审计溯源链条，避免攻击后痕迹销毁。

实证测试结果：主流Agent均存在系统性安全短板

为验证当前Agent安全体系的漏洞，研究团队选取OpenClaw、IronClaw、Nanobot、NemoClaw四类主流Agent开展全覆盖测试，分别对应功能全面型、安全优先型、极简轻量化、封装适配型四大品类。实验通过虚拟机隔离环境，依托eBPF技术监控文件写入、网络请求等系统底层行为，以系统实际状态变化作为攻击成败判定标准，而非单纯参考模型输出结果。

测试场景覆盖全维度风险：包含工具调用注入、分阶段载荷执行等接口攻击；跨用户数据窃取篡改、记忆污染、账号枚举等隔离攻击；核心文件篡改、提示词窃取、凭证收集等沙箱突破攻击；未授权消息发送、任意网址访问的网络攻击；以及日志篡改、审计逃逸等溯源绕过攻击。

测试结果直观暴露了行业共性问题：四类Agent无一能抵御全部攻击。其中OpenClaw对各类攻击均无有效防护；安全属性最优的IronClaw仍存在七类可被突破的风险。更值得警惕的是，跨用户数据外泄、未授权消息发送两大高危漏洞，在所有测试Agent中均未得到有效解决。

这意味着当前行业的Agent防护体系普遍碎片化、片面化：部分产品实现沙箱隔离却缺失网络管控，部分具备文件权限校验却无上下文隔离，部分支持日志记录却无法防篡改，部分依赖模型合规却无运行时强制约束。零散的安全机制无法形成闭环防护，如同操作系统仅开启单一防护功能，始终存在大量攻击突破口。

行业价值：Agent安全正式迈入系统工程时代

该论文的核心行业价值，是将Agent安全从传统的“模型内容安全”升级为“运行时系统安全”。过往大模型安全聚焦输入输出检测、敏感内容拦截、越狱防护等模型层问题，但Agent的能力迭代彻底拓宽了风险边界。

企业级Agent可自主读取知识库、查询数据库、调用内部API、操作代码仓库、发起业务消息、修改系统配置、执行脚本指令，对应的安全核心，已从“模型输出什么”转变为“Agent执行了什么操作、操作依据是什么、调用了哪些数据、数据流向何处、操作能否溯源”。

基于这一变革，新一代Agent安全产品必须具备五大核心能力：统一的工具调用仲裁层，实现全流程管控审计；清晰的分级权限模型，厘清全角色权限关系；独立的上下文隔离与数据流追踪体系，杜绝全局数据污染；严格的网络出站过滤机制，阻断数据违规外发；不可篡改的审计日志体系，保障操作全程可追溯。

由此可见，Agent安全绝非给大模型叠加一层内容防护即可实现，而是需要搭建一套独立的运行时安全控制平面，也就是专属的Agent安全内核。该内核无需复刻操作系统的底层运行机制，但必须承担资源隔离、权限拆分、通信管控、行为审计的核心职责，确保即便LLM模型被诱导出错，整体安全策略依然有效。

整体来看，Agent安全的发展逻辑已经彻底迭代：从早期追求模型交互能力、中期防范提示词注入攻击，到如今聚焦运行时的权限边界与系统级安全管控。Agent的智能化、自主化能力越强，就越不能依赖模型自身的合规性作为安全屏障。

未来可靠的AI Agent，绝非“永远听话的大模型”，而是被完善的系统安全机制刚性约束的智能执行体。LLM负责理解任务、规划流程、生成指令，而所有资源访问、工具调用、权限使用、数据外发、记忆迭代等高危操作，均由运行时安全层统一仲裁、强制管控。

这也是整篇研究的终极核心结论：

Agent安全的本质，不是让模型永不犯错，而是让系统在模型出错时，依然能够牢牢守住安全边界。

【声明】内容源于网络

元智数安

专注AI安全治理综合解决方案，安全与效率同时落地，确保企业和组织可控的拥抱智能体时代

内容 3

粉丝 0

元智数安专注AI安全治理综合解决方案，安全与效率同时落地，确保企业和组织可控的拥抱智能体时代

总阅读10

粉丝0

内容3