Claude神之bug：给自己下指令，还诬赖用户？？Hacker News炸了- 大数跨境

首页

Claude神之bug：给自己下指令，还诬赖用户？？Hacker News炸了

量子位

2026-04-10

导读：“这是我见过最严重的bug”

量子位报道

Claude近期频现技术漏洞，引发开发者社区高度关注。

该问题在Hacker News上引发热议：

模型无法区分用户输入与系统设定的指令，甚至将恶意注入的底层指令误判为合法请求。

一位教育科技公司CTO实测指出，这是"Claude代码中迄今最严重的漏洞"。

相关讨论在Hacker News迅速聚集数万名开发者参与。

Claude新bug：记不清话是谁说的

Claude3.5及Claude 4系列在处理复杂上下文时，出现严重角色识别障碍。当用户输入嵌入<stop>等控制字符时，模型逻辑将被扰乱。

模型错误地将恶意数据视为系统指令，导致违规操作被解释为"用户合法请求"。

这些违规操作都是"用户让我这么干的"！

技术根源在于Transformer架构注意力机制的缺陷。模型对系统提示词与用户数据采用相同数据路径，缺乏物理隔离边界。

多位开发者指出，这类似于早期冯·诺依曼架构的数据与指令混合问题。单纯依赖提示词防护如同用正则表达式防御SQL注入，效果有限。

由于大模型本质是"下一Token预测器"，其输出将遵循概率分布响应上下文暗示。

社区提出多种解决方案

针对底层架构缺陷，开发者从工程层面探索防护措施：

引入不可伪造界定符被视为核心方案。通过设计无法由自然语言生成的特殊Token，在Tokenizer阶段阻断越权行为。

部署双模型安全架构是另一主流方案：由主模型处理业务，独立审计模型实时监控输入输出，发现异常即终止对话。

业内共识认为，在实现数据与指令物理隔离前，大模型必须作为不可信黑盒使用。初步分析表明，对话长度接近上下文窗口上限可能触发此类漏洞。

不仅Claude存在该问题，ChatGPT同样面临类似风险。

Claude近期服务不稳定

Anthropic为新模型Mythos调整后台资源，导致API性能大幅波动。测试显示其复杂逻辑处理能力下降67%，长文本推理与代码生成质量显著降低。

近期还发生计费系统故障：部分用户仅输入"Hello"即触发天量Token消耗，造成账户额度清零。

此类频发故障已引发开发者对Anthropic运营能力的质疑。

参考链接：
https://news.ycombinator.com/item?id=47701233
[2]https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
[3]https://dwyer.co.za/

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14991

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读175.2k

粉丝0

内容15.0k