

【人工智能】LLM 自主性的隐藏风险

七元宇宙

2025-06-09

导读：大型语言模型（LLMs）已从曾经只能被动响应用户基本提示或通过网络搜索生成内容的简单聊天机器人，实现了巨大的飞

大型语言模型（LLMs）已从曾经只能被动响应用户基本提示或通过网络搜索生成内容的简单聊天机器人，实现了巨大的飞跃。如今，它们能够访问数据库和业务应用程序，与外部系统交互以独立执行复杂任务并做出业务决策。

这一转变主要得益于新兴的互操作性标准，例如模型上下文协议（MCP）和智能体间通信协议（A2A）。

MCP 旨在为智能体与工具的交互提供标准化方式，使 Claude、GPT 等大型语言模型能够与 API、数据源和外部系统实现无缝集成。

谷歌最近发布的 A2A 协议则面向智能体间的通信，允许独立的 AI 智能体交换目标、共享上下文并触发行动。

过度代理是组织越来越关注的问题

具有过度代理能力的大型语言模型（LLM）智能体可能会破坏组织安全的基本原则。例如，具有过度自主权或功能的 LLM 可能因不明确的、被操纵的或对抗性的输入而执行未经授权的操作，进而影响组织的完整性。

许多关键领域（尤其是医疗和金融领域）已将 LLM 整合到核心系统中，这些系统影响着数百万用户。LLM 代理过度导致的单个错误或有偏见的输入可能引发长期后果。组织经常面临 “黑箱” LLM 的问题 —— 其内部工作机制不透明，导致用户无法信任其输出或验证结果的正确性，这进一步加剧了风险。

代理型 LLM 的使用日益增多，还增加了过度依赖其输出的风险，这可能会削弱人类的批判性思维。这种过度依赖可能导致所谓的 “流程债务”，即由于人类参与减少，错误和偏见无法被发现。这可能会产生严重后果，尤其是在医疗和金融等高风险领域。

将 MCP（模型上下文协议）和 A2A（智能体间通信协议）集成到 AI 工作流程中，会创造新的供应链攻击模式，因为 LLM 会在没有充分监控的情况下自主与外部系统交互。攻击者不一定需要攻击模型本身，而是可以攻击为其提供输入的任何服务。特别是 A2A 协议管理着分布式且非确定性的智能体交互，这降低了对请求出错位置的洞察力，使得识别错误或发现恶意干预变得更加困难。

导致过度代理的因素

LLM 代理过度有几个主要原因：

功能过剩：LLM 智能体可能有权访问超出其操作所需的 API 或插件功能。
权限过高：LLM 被赋予超出其需求的高级访问权限，使其能够更改、删除或访问敏感信息。
自主性过强：LLM 被设计为在没有人类干预的情况下自主改进和决策，增加了行为失控的可能性。
训练数据偏差：有偏差或不平衡的训练数据会导致模型学习到有偏见的表征，进而基于这些偏见做出自主决策。
训练数据过拟合：当 LLM 过度学习训练数据（包括噪声和异常值）时，会导致其无法对新输入进行泛化。这使得模型在面对新情况时表现不稳定，容易自行做出不当行为，加剧代理过度问题。
模型复杂性：LLM 的复杂结构和大量参数会导致难以控制的意外行为，可能促使模型采取不必要的行动，从而引发代理过度。