Anthropic的新AI安全到"失控"，连安全专家都炸了- 大数跨境

首页

Anthropic的新AI安全到"失控"，连安全专家都炸了

洞见畏来

2026-06-11

导读：🛡️ Anthropic的新AI安全到"失控"，连安全专家都炸了当安全护栏太紧，它保护的不是用户，而是

当安全护栏太紧，它保护的不是用户，而是开发者自己免于担责——但代价是把真正需要它的人挡在了门外。

1. Fable来了，但带着一副"手铐"

本周二，Anthropic 发布了新模型 Fable。官方说它是 Mythos（Anthropic内部备受瞩目的网络安全模型）的公开、受限版本。

Mythos有多厉害？它是Anthropic专门为网络安全设计的AI模型，能够分析代码漏洞、识别攻击向量、辅助安全审计。4月发布时，Anthropic把它锁在一个叫 Project Glasswing 的封闭项目里，只给少数公司和组织使用。

上周，Anthropic扩大了Mythos的访问范围，覆盖到15个国家的数百家组织。看起来是松绑了。于是大家以为Fable作为公开版本，至少能让普通安全研究者也能用上了。

结果？一用就触发安全护栏。

2. "连读博客都触发护栏"——安全社区怒了

Fable的护栏触发条件有多严格？来看几个真实案例：

Valentina "Chompie" Palmiotti，IBM X-Force的著名安全研究员，在X上抱怨：

"Fable拒绝任何可能与网络安全沾边的请求。连读博客文章这种完全无害的任务都拒绝。"

触发时，Fable会暂停对话，弹出一条提示：

"安全机制将此消息标记为网络安全或生物学主题。"

是的，不仅网络安全，生物学内容也一并拦截——后者是因为Anthropic担心AI被用来开发生物武器。

另一个安全研究员在X上吐槽：

"连请求代码审查（code review）都触发护栏。"

写代码审查是软件开发最日常的工作之一。如果这都能触发"网络安全"护栏，那Fable对开发者来说几乎等于不可用。

3. 关键词匹配触发：粗糙到让人哭笑不得

为什么Fable的护栏如此"过敏"？

网络安全老兵 Matt Suiche（Tolmo公司技术团队成员）向TechCrunch解释了个中原因：

"如果你让它写安全代码（secure code），它假设这是网络安全相关工作，而不是软件工程最佳实践，然后你就被降级了。"

什么意思？Fable的触发机制似乎是基于关键词匹配——只要对话里出现"cybersecurity"、"安全"、"漏洞"、甚至"secure"这样的词，就直接触发护栏。这就像一个安检系统，只要有人带了"刀"字的东西就报警，不管那是一本《刀锋》还是一把真的刀。

触发后，Fable会自动降级到Claude Opus 4.8——也就是普通的Claude模型，失去了Mythos/Fable专门的安全能力。

Suiche补充说：

"这可以理解，毕竟我们还在早期，他们还在调整护栏。我相信护栏会随时间进化，因为Anthropic和其他前沿模型公司会与新一代网络安全公司合作。"

他的态度相对温和，但话里也带着无奈："宁可抓多，不可抓少"——先过度收紧，再慢慢放松。这是大模型公司的常见策略，但用户体验确实很糟糕。

4. 真正的问题：需要申请才能用，安全研究者不干了

除了Fable内置的粗糙护栏，Anthropic还有另一层限制：

网络安全专业人士必须申请加入"Cyber Verification Program"（网络验证计划），通过审核后才能获得较少限制的Claude使用权限。OpenAI也有类似的机制，叫 Trusted Access for Cyber。

这意味着：

普通安全研究者 → 用Fable → 不断触发护栏 → 体验极差
专业安全研究者 → 申请验证计划 → 等审核 → 可能通过也可能不通过

这种模式的问题很明显：

网络安全是一个极其开放、协作的社区。 漏洞研究者、白帽黑客、独立安全分析师，很多人并不隶属于某个大型公司或组织。让他们去"申请"、"验证"、"等待审批"，本质上是在给开源安全文化设门槛。

Palmiotti的不满不是无理取闹。如果一个安全研究者只是想用AI读一篇安全博客、做一份代码审查、甚至学习一个漏洞的原理，都要被AI模型拒绝，那这个工具对安全社区的价值就大打折扣了。

5. Anthropic的两难：安全 vs 可用性

Anthropic的出发点其实不难理解。

Mythos/Fable是能力非常强的网络安全模型。如果完全放开，确实可能被恶意利用来：

开发恶意软件
分析漏洞用于攻击而非防御
生成社会工程攻击脚本

之前的Project Glasswing就是试图在"能力"和"安全"之间找平衡：只给可信的组织用，并且签署严格的协议。

但Fable作为"公开版本"，本应是一个更宽松的中间地带。现在的结果是：

场景	结果	问题
读安全博客	触发护栏	过度拦截
请求代码审查	触发护栏	关键词误杀
写安全代码	触发护栏	混淆"安全编程"和"网络攻击"
申请验证计划	需要审核等待	门槛高、流程慢

Suiche说得对："宁可抓多，不可抓少。" 但问题是，如果抓得太多了，真正需要的人都被抓进去了，这个工具还有什么意义？

6. 更大的图景：AI安全护栏，正在变成一场"军备竞赛"

Fable的争议不是孤立的。它反映了一个整个行业都在纠结的问题：

AI能力越强，护栏越重要；但护栏越紧，可用性越差。

Anthropic、OpenAI、Google、Meta——每家公司都在这个跷跷板上找平衡。但目前的普遍趋势是：

宁可过度保守，避免被媒体和监管机构抓到"AI作恶"的案例
宁可误杀一千，不可放过一个潜在风险
把"责任"推给用户（"你申请了验证计划就能用了"）

这种策略对公司的公关安全是有利的，但对真正推动AI安全研究的人是不利的。

讽刺的是：Anthropic本身一直在强调"AI安全研究"的重要性。但如果连安全研究者都因为护栏太紧而用不上你的工具，那你在"安全"上的投入到底是在保护谁？

7. 可能的出路：更智能的护栏，更开放的验证

Suiche的预测可能是最合理的方向：

"Anthropic和其他前沿模型公司会与新一代网络安全公司更深入合作，护栏会随时间进化。"

具体来说，改进方向可能包括：

从关键词匹配升级到语义理解：区分"写安全代码"和"开发攻击工具"
更精细的权限分层：不是"要么全开要么全关"，而是根据任务类型动态调整
简化验证流程：让独立安全研究者更容易获得工具访问权
透明化规则：让用户清楚知道什么会触发、为什么触发

说到底，Fable的争议揭示了一个核心矛盾：

AI公司想要安全名声，想要媒体不报道"AI被用于恶意攻击"，所以把护栏拧到了最紧。但最紧的护栏，困住的不是坏人——坏人有各种方法绕过护栏——困住的是认真做安全研究的好人。

当一篇安全博客、一次代码审查、一段安全编程教程都被AI拒绝时，这个安全系统已经安全到失去了意义。

Anthropic的下一步会怎么走？是继续收紧，还是在社区压力下放松？全世界安全研究者都在盯着。

毕竟，如果一家以"安全"为名的AI公司，做出来的工具让安全专家都用不顺手，那它的"安全"到底是为了谁？

【声明】内容源于网络

洞见畏来

专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

内容 633

粉丝 0

洞见畏来专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

总阅读228

粉丝0

内容633