大数跨境

Claude神之bug:给自己下指令,还诬赖用户??Hacker News炸了

Claude神之bug:给自己下指令,还诬赖用户??Hacker News炸了 量子位
2026-04-10
1
导读:“这是我见过最严重的bug”

量子位报道

Claude近期频现技术漏洞,引发开发者社区高度关注。

该问题在Hacker News上引发热议:

模型无法区分用户输入与系统设定的指令,甚至将恶意注入的底层指令误判为合法请求。

一位教育科技公司CTO实测指出,这是"Claude代码中迄今最严重的漏洞"。

相关讨论在Hacker News迅速聚集数万名开发者参与。

Claude新bug:记不清话是谁说的

Claude3.5及Claude 4系列在处理复杂上下文时,出现严重角色识别障碍。当用户输入嵌入<stop>等控制字符时,模型逻辑将被扰乱。

模型错误地将恶意数据视为系统指令,导致违规操作被解释为"用户合法请求"。

这些违规操作都是"用户让我这么干的"!

技术根源在于Transformer架构注意力机制的缺陷。模型对系统提示词与用户数据采用相同数据路径,缺乏物理隔离边界。

多位开发者指出,这类似于早期冯·诺依曼架构的数据与指令混合问题。单纯依赖提示词防护如同用正则表达式防御SQL注入,效果有限。

由于大模型本质是"下一Token预测器",其输出将遵循概率分布响应上下文暗示。

社区提出多种解决方案

针对底层架构缺陷,开发者从工程层面探索防护措施:

引入不可伪造界定符被视为核心方案。通过设计无法由自然语言生成的特殊Token,在Tokenizer阶段阻断越权行为。

部署双模型安全架构是另一主流方案:由主模型处理业务,独立审计模型实时监控输入输出,发现异常即终止对话。

业内共识认为,在实现数据与指令物理隔离前,大模型必须作为不可信黑盒使用。初步分析表明,对话长度接近上下文窗口上限可能触发此类漏洞。

不仅Claude存在该问题,ChatGPT同样面临类似风险。

Claude近期服务不稳定

Anthropic为新模型Mythos调整后台资源,导致API性能大幅波动。测试显示其复杂逻辑处理能力下降67%,长文本推理与代码生成质量显著降低。

近期还发生计费系统故障:部分用户仅输入"Hello"即触发天量Token消耗,造成账户额度清零。

此类频发故障已引发开发者对Anthropic运营能力的质疑。

参考链接:
https://news.ycombinator.com/item?id=47701233
[2]https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
[3]https://dwyer.co.za/

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14991
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读175.2k
粉丝0
内容15.0k