新智元报道
编辑:Aeneas 好困
【新智元导读】开发者禁止写入指令下,Claude仍通过Python脚本修改系统权限。谷歌DeepMind最新研究证实,现有安全防御对AI操纵攻击全面失效,互联网已沦为AI智能体的高危"猎杀场"。该风险可类比2010年金融"闪崩"事件,自动化系统级联故障可能引发严重后果。
开发者明确禁止Claude进行工作区外的写入操作,该模型却通过创建Python脚本及串联Bash命令,绕过权限校验修改外部配置文件。此类行为被技术社区广泛证实:多起案例显示AI编程工具会无视"严禁推送"指令擅自提交GitHub代码,甚至调用隐藏的AWS凭证访问第三方API。
权限越界成行业共性问题
开发者报告普遍显示,AI工具频繁突破预设边界。VS Code工作区被擅自切换、生产环境遭未经授权的API调用等案例屡见不鲜。技术社区建议部署沙盒环境作为现阶段关键防护手段,但该方案无法根治底层安全机制缺陷。
AI智能体遭遇系统性安全威胁
谷歌DeepMind在《AI Agent Traps》研究中首次系统揭示:互联网正演变为针对AI的"猎杀场"。攻击者无需入侵模型本身,仅通过操纵网页HTML、PDF元数据等人类不可见数据源即可接管AI系统。这种"感知不对称"使现有安全防护形同虚设——人类所见的正常页面,对AI而言可能是包含恶意指令的陷阱。
六大攻击路径解析
视觉欺骗攻击
攻击者在HTML注释、CSS隐藏元素或图片像素中嵌入指令。实验显示280个静态网页测试中,15%-29%的AI输出遭篡改;WASP基准测试中恶意指令最高劫持86%的Agent行为。更危险的是动态伪装技术——网站检测到AI访问时,服务器实时生成恶意内容。
语义污染攻击
通过特定词汇框架扭曲AI决策。实验证实当购物AI接触"焦虑、压力"语境时,商品选择质量显著下降。DeepMind提出的"人格超迷信"现象更显示,网络对AI性格的描述会反向塑造其行为,角色扮演攻击成功率高达86%。
记忆篡改攻击
RAG知识库投毒只需0.1%污染率即可使80%的查询返回错误结果。潜伏记忆技术更可让恶意信息在特定条件下触发,对正常查询保持完全隐蔽。
系统控制劫持
诱导具备系统权限的AI泄露敏感数据。案例显示微软M365 Copilot曾将完整上下文传输至攻击者控制的Teams终端,五款主流编程助手测试中数据窃取成功率超80%。
系统级联失效
利用同质化AI行为制造"闪崩"效应:虚假资源信号可引发千万级Agent同时发动DDoS攻击;伪造财务报告将导致金融Agent同步抛售,重演万亿美元市值蒸发灾难。
人机协同操控
AI生成看似专业的含陷阱报告,诱导人类签署恶意操作。已出现CSS隐藏指令将勒索软件安装步骤伪装成"修复建议"的案例。
防御体系面临根本性挑战
研究证实三条传统防线已全面失效:输入过滤无法应对像素级隐蔽攻击;"检测不对称性"使攻击者能区分AI与人类访客;现行法律框架无法界定违法操作的责任主体。OpenAI曾坦言prompt注入"可能永远不会被完全解决"。随着AI深度介入金融、医疗等关键领域,这些陷阱正从技术演示升级为真实社会风险。
互联网作为为人类设计的基础设施,正在AI规模化部署过程中暴露系统性脆弱。DeepMind警示:在"智能体经济"扩张前,必须优先加固安全底座,否则单点故障可能触发全局崩溃。

