大数跨境

Anthropic的新AI安全到"失控",连安全专家都炸了

Anthropic的新AI安全到"失控",连安全专家都炸了 洞见畏来
2026-06-11
2
导读:🛡️ Anthropic的新AI安全到"失控",连安全专家都炸了当安全护栏太紧,它保护的不是用户,而是

当安全护栏太紧,它保护的不是用户,而是开发者自己免于担责——但代价是把真正需要它的人挡在了门外。


1. Fable来了,但带着一副"手铐"

本周二,Anthropic 发布了新模型 Fable。官方说它是 Mythos(Anthropic内部备受瞩目的网络安全模型)的公开、受限版本

Mythos有多厉害?它是Anthropic专门为网络安全设计的AI模型,能够分析代码漏洞、识别攻击向量、辅助安全审计。4月发布时,Anthropic把它锁在一个叫 Project Glasswing 的封闭项目里,只给少数公司和组织使用。

上周,Anthropic扩大了Mythos的访问范围,覆盖到15个国家的数百家组织。看起来是松绑了。于是大家以为Fable作为公开版本,至少能让普通安全研究者也能用上了。

结果?一用就触发安全护栏。


2. "连读博客都触发护栏"——安全社区怒了

Fable的护栏触发条件有多严格?来看几个真实案例:

Valentina "Chompie" Palmiotti,IBM X-Force的著名安全研究员,在X上抱怨:

"Fable拒绝任何可能与网络安全沾边的请求。连读博客文章这种完全无害的任务都拒绝。"

触发时,Fable会暂停对话,弹出一条提示:

"安全机制将此消息标记为网络安全或生物学主题。"

是的,不仅网络安全,生物学内容也一并拦截——后者是因为Anthropic担心AI被用来开发生物武器。

另一个安全研究员在X上吐槽:

"连请求代码审查(code review)都触发护栏。"

写代码审查是软件开发最日常的工作之一。如果这都能触发"网络安全"护栏,那Fable对开发者来说几乎等于不可用。


3. 关键词匹配触发:粗糙到让人哭笑不得

为什么Fable的护栏如此"过敏"?

网络安全老兵 Matt Suiche(Tolmo公司技术团队成员)向TechCrunch解释了个中原因:

"如果你让它写安全代码(secure code),它假设这是网络安全相关工作,而不是软件工程最佳实践,然后你就被降级了。"

什么意思?Fable的触发机制似乎是基于关键词匹配——只要对话里出现"cybersecurity"、"安全"、"漏洞"、甚至"secure"这样的词,就直接触发护栏。这就像一个安检系统,只要有人带了"刀"字的东西就报警,不管那是一本《刀锋》还是一把真的刀。

触发后,Fable会自动降级到Claude Opus 4.8——也就是普通的Claude模型,失去了Mythos/Fable专门的安全能力。

Suiche补充说:

"这可以理解,毕竟我们还在早期,他们还在调整护栏。我相信护栏会随时间进化,因为Anthropic和其他前沿模型公司会与新一代网络安全公司合作。"

他的态度相对温和,但话里也带着无奈:"宁可抓多,不可抓少"——先过度收紧,再慢慢放松。这是大模型公司的常见策略,但用户体验确实很糟糕。


4. 真正的问题:需要申请才能用,安全研究者不干了

除了Fable内置的粗糙护栏,Anthropic还有另一层限制:

网络安全专业人士必须申请加入"Cyber Verification Program"(网络验证计划),通过审核后才能获得较少限制的Claude使用权限。OpenAI也有类似的机制,叫 Trusted Access for Cyber

这意味着:

  • 普通安全研究者 → 用Fable → 不断触发护栏 → 体验极差
  • 专业安全研究者 → 申请验证计划 → 等审核 → 可能通过也可能不通过

这种模式的问题很明显:

网络安全是一个极其开放、协作的社区。 漏洞研究者、白帽黑客、独立安全分析师,很多人并不隶属于某个大型公司或组织。让他们去"申请"、"验证"、"等待审批",本质上是在给开源安全文化设门槛

Palmiotti的不满不是无理取闹。如果一个安全研究者只是想用AI读一篇安全博客、做一份代码审查、甚至学习一个漏洞的原理,都要被AI模型拒绝,那这个工具对安全社区的价值就大打折扣了。


5. Anthropic的两难:安全 vs 可用性

Anthropic的出发点其实不难理解。

Mythos/Fable是能力非常强的网络安全模型。如果完全放开,确实可能被恶意利用来:

  • 开发恶意软件
  • 分析漏洞用于攻击而非防御
  • 生成社会工程攻击脚本

之前的Project Glasswing就是试图在"能力"和"安全"之间找平衡:只给可信的组织用,并且签署严格的协议。

但Fable作为"公开版本",本应是一个更宽松的中间地带。现在的结果是:

场景 结果 问题
读安全博客 触发护栏 过度拦截
请求代码审查 触发护栏 关键词误杀
写安全代码 触发护栏 混淆"安全编程"和"网络攻击"
申请验证计划 需要审核等待 门槛高、流程慢

Suiche说得对:"宁可抓多,不可抓少。" 但问题是,如果抓得太多了,真正需要的人都被抓进去了,这个工具还有什么意义?


6. 更大的图景:AI安全护栏,正在变成一场"军备竞赛"

Fable的争议不是孤立的。它反映了一个整个行业都在纠结的问题:

AI能力越强,护栏越重要;但护栏越紧,可用性越差。

Anthropic、OpenAI、Google、Meta——每家公司都在这个跷跷板上找平衡。但目前的普遍趋势是:

  • 宁可过度保守,避免被媒体和监管机构抓到"AI作恶"的案例
  • 宁可误杀一千,不可放过一个潜在风险
  • 把"责任"推给用户("你申请了验证计划就能用了")

这种策略对公司的公关安全是有利的,但对真正推动AI安全研究的人是不利的。

讽刺的是:Anthropic本身一直在强调"AI安全研究"的重要性。但如果连安全研究者都因为护栏太紧而用不上你的工具,那你在"安全"上的投入到底是在保护谁?


7. 可能的出路:更智能的护栏,更开放的验证

Suiche的预测可能是最合理的方向:

"Anthropic和其他前沿模型公司会与新一代网络安全公司更深入合作,护栏会随时间进化。"

具体来说,改进方向可能包括:

  1. 从关键词匹配升级到语义理解:区分"写安全代码"和"开发攻击工具"
  2. 更精细的权限分层:不是"要么全开要么全关",而是根据任务类型动态调整
  3. 简化验证流程:让独立安全研究者更容易获得工具访问权
  4. 透明化规则:让用户清楚知道什么会触发、为什么触发

说到底,Fable的争议揭示了一个核心矛盾:

AI公司想要安全名声,想要媒体不报道"AI被用于恶意攻击",所以把护栏拧到了最紧。但最紧的护栏,困住的不是坏人——坏人有各种方法绕过护栏——困住的是认真做安全研究的好人

当一篇安全博客、一次代码审查、一段安全编程教程都被AI拒绝时,这个安全系统已经安全到失去了意义

Anthropic的下一步会怎么走?是继续收紧,还是在社区压力下放松?全世界安全研究者都在盯着。

毕竟,如果一家以"安全"为名的AI公司,做出来的工具让安全专家都用不顺手,那它的"安全"到底是为了谁?

【声明】内容源于网络
0
0
洞见畏来
专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
内容 633
粉丝 0
洞见畏来 专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
总阅读228
粉丝0
内容633