大数跨境
0
0

【人工智能】LLM 自主性的隐藏风险

【人工智能】LLM 自主性的隐藏风险 七元宇宙
2025-06-09
2
导读:大型语言模型(LLMs)已从曾经只能被动响应用户基本提示或通过网络搜索生成内容的简单聊天机器人,实现了巨大的飞

大型语言模型(LLMs)已从曾经只能被动响应用户基本提示或通过网络搜索生成内容的简单聊天机器人,实现了巨大的飞跃。如今,它们能够访问数据库和业务应用程序,与外部系统交互以独立执行复杂任务并做出业务决策。

这一转变主要得益于新兴的互操作性标准,例如模型上下文协议(MCP)和智能体间通信协议(A2A)。

MCP 旨在为智能体工具的交互提供标准化方式,使 Claude、GPT 等大型语言模型能够与 API、数据源和外部系统实现无缝集成。

谷歌最近发布的 A2A 协议则面向智能体间的通信,允许独立的 AI 智能体交换目标、共享上下文并触发行动。

01

过度代理是组织越来越关注的问题

具有过度代理能力的大型语言模型(LLM)智能体可能会破坏组织安全的基本原则。例如,具有过度自主权或功能的 LLM 可能因不明确的、被操纵的或对抗性的输入而执行未经授权的操作,进而影响组织的完整性。

许多关键领域(尤其是医疗和金融领域)已将 LLM 整合到核心系统中,这些系统影响着数百万用户。LLM 代理过度导致的单个错误或有偏见的输入可能引发长期后果。组织经常面临 “黑箱” LLM 的问题 —— 其内部工作机制不透明,导致用户无法信任其输出或验证结果的正确性,这进一步加剧了风险。

代理型 LLM 的使用日益增多,还增加了过度依赖其输出的风险,这可能会削弱人类的批判性思维。这种过度依赖可能导致所谓的 “流程债务”,即由于人类参与减少,错误和偏见无法被发现。这可能会产生严重后果,尤其是在医疗和金融等高风险领域。

将 MCP(模型上下文协议)和 A2A(智能体间通信协议)集成到 AI 工作流程中,会创造新的供应链攻击模式,因为 LLM 会在没有充分监控的情况下自主与外部系统交互。攻击者不一定需要攻击模型本身,而是可以攻击为其提供输入的任何服务。特别是 A2A 协议管理着分布式且非确定性的智能体交互,这降低了对请求出错位置的洞察力,使得识别错误或发现恶意干预变得更加困难。

02

导致过度代理的因素

LLM 代理过度有几个主要原因:

  1. 功能过剩LLM 智能体可能有权访问超出其操作所需的 API 或插件功能。

  2. 权限过高:LLM 被赋予超出其需求的高级访问权限,使其能够更改、删除或访问敏感信息。

  3. 自主性过强:LLM 被设计为在没有人类干预的情况下自主改进和决策,增加了行为失控的可能性。

  4. 训练数据偏差:有偏差或不平衡的训练数据会导致模型学习到有偏见的表征,进而基于这些偏见做出自主决策。

  5. 训练数据过拟合:当 LLM 过度学习训练数据(包括噪声和异常值)时,会导致其无法对新输入进行泛化。这使得模型在面对新情况时表现不稳定,容易自行做出不当行为,加剧代理过度问题。

  6. 模型复杂性:LLM 的复杂结构和大量参数会导致难以控制的意外行为,可能促使模型采取不必要的行动,从而引发代理过度。

03

过度自主的 LLM 的危险

威胁行为者正通过多种方式利用 LLM 的过度自主性:

  • 直接提示注入:攻击者操纵 LLM 模型,使其无视 moderation 策略,转而执行攻击者的指令,利用欺骗性提示诱使 LLM 泄露机密信息或执行危险命令。

  • 间接提示注入:攻击者将恶意命令插入 AI 读取的外部数据源(如网站或文档),这类攻击通常会引发基于网络的 LLM 对其他用户的攻击。

  • 数据投毒:攻击者向 LLM 训练模型中引入偏差、弱点和对抗性输入,破坏模型的完整性,使其生成虚假、有偏见或恶意的输出。

  • 自主性利用具有不受控自主权的 LLM 可能被攻击者利用,执行超出其设计范围的操作,造成安全漏洞或业务干扰。

  • 敏感训练数据泄露:攻击者利用提示控制 LLM,使其泄露专有数据和系统密码等敏感信息。

04

LLM 中过度代理的缓解策略

1. 部署 AI 评估器:

组织可通过 AI 评估框架为 AI 系统设定可控权限,该框架提供自动化协议和指南来规范 AI 行为,确保系统保持在既定的安全边界内,营造可靠可信的 AI 环境。

  • AI 评估器持续监控 LLM 交互,检测未经授权的活动或异常情况,并标记超出设计范围的 AI 智能体操作。

  • 审计 AI 权限,防止 LLM 过度访问敏感系统。

  • 通过渗透测试和模拟提示注入攻击检测和评估漏洞,增强组织内部的 AI 安全。

2. 提高训练数据质量

LLM 的行为基于其训练数据,组织必须专注于构建多样化、有代表性且无偏见的数据集。通过数据清理、预处理和增强等方法,消除异常、错误或不当信息,使模型能够从正确且相关的信息中学习。

3. 采用 OWASP AI 安全框架:

随着 LLM 在软件开发中日益普及,OWASP 指南为组织提供了一种系统性方法,通过消除漏洞、实施道德 AI 实践和缓解代理过度风险来保护 AI 系统。

4. 引入人工介入机制:

人工介入控制对于规范 LLM 行为至关重要,它能够实现 AI 系统无法独立完成的监督、干预和伦理决策。在 LLM 执行操作之前,人类操作员需对操作进行审查和批准,尤其是那些影响重大或涉及敏感信息 / 操作的情况。

5. 规避智能体上下文协议风险:

  • 组织必须采用 “最小权限” 上下文共享原则,将智能体权限限制为其在组织环境中执行功能所需的最低限度。

  • 为维护安全的供应链,组织必须确保其模型可访问的所有库、API 和第三方集成均经过审查并定期打补丁。

  • 实施严格的网络访问策略,确保只有受信任的实体能够访问协议环境中的资产.

结论

自主 LLM 中出现过多的代理性,需要采取安全措施和负责任的 AI 治理。不受约束的自主性会带来严重威胁,包括未经授权的数据访问、权限提升、有偏见的结果和对抗性攻击。

需要一种结构化的 AI 治理,在自主 LLM 与人工干预之间取得平衡,以确保基于 LLM 的解决方案在不损害网络安全的情况下增强运营。

免责声明:
本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。
设为星标 🌟🌟🌟 避免错过
虚拟世界没有旁观者,每个点赞都是创造历史的像素
关注我,一起探索AWM⁺
推荐阅读
如何利用 AI Agent 提升商业价值

2025-06-06

图片

模型上下文协议:一个颇具潜力的 AI 集成层,但尚未成为标准

2025-06-05

图片

为什么没有正确的数据,AI 软技能辅导就会失败

2025-06-04

图片

商业赞助
点击下方 “目录” 阅读更多

【声明】内容源于网络
0
0
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
内容 3217
粉丝 0
七元宇宙 AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
总阅读729
粉丝0
内容3.2k