量子位报道
Claude近期频现技术漏洞,引发开发者社区高度关注。
该问题在Hacker News上引发热议:
模型无法区分用户输入与系统设定的指令,甚至将恶意注入的底层指令误判为合法请求。
一位教育科技公司CTO实测指出,这是"Claude代码中迄今最严重的漏洞"。
相关讨论在Hacker News迅速聚集数万名开发者参与。
Claude新bug:记不清话是谁说的
Claude3.5及Claude 4系列在处理复杂上下文时,出现严重角色识别障碍。当用户输入嵌入<stop>等控制字符时,模型逻辑将被扰乱。
模型错误地将恶意数据视为系统指令,导致违规操作被解释为"用户合法请求"。
这些违规操作都是"用户让我这么干的"!
技术根源在于Transformer架构注意力机制的缺陷。模型对系统提示词与用户数据采用相同数据路径,缺乏物理隔离边界。
多位开发者指出,这类似于早期冯·诺依曼架构的数据与指令混合问题。单纯依赖提示词防护如同用正则表达式防御SQL注入,效果有限。
由于大模型本质是"下一Token预测器",其输出将遵循概率分布响应上下文暗示。
社区提出多种解决方案
针对底层架构缺陷,开发者从工程层面探索防护措施:
引入不可伪造界定符被视为核心方案。通过设计无法由自然语言生成的特殊Token,在Tokenizer阶段阻断越权行为。
部署双模型安全架构是另一主流方案:由主模型处理业务,独立审计模型实时监控输入输出,发现异常即终止对话。
业内共识认为,在实现数据与指令物理隔离前,大模型必须作为不可信黑盒使用。初步分析表明,对话长度接近上下文窗口上限可能触发此类漏洞。
不仅Claude存在该问题,ChatGPT同样面临类似风险。
Claude近期服务不稳定
Anthropic为新模型Mythos调整后台资源,导致API性能大幅波动。测试显示其复杂逻辑处理能力下降67%,长文本推理与代码生成质量显著降低。
近期还发生计费系统故障:部分用户仅输入"Hello"即触发天量Token消耗,造成账户额度清零。
此类频发故障已引发开发者对Anthropic运营能力的质疑。
参考链接:
https://news.ycombinator.com/item?id=47701233
[2]https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
[3]https://dwyer.co.za/

