编辑|靖宇
6 月 9 日,Anthropic 发布史上最强公开模型 Claude Fable 5,该模型原属仅向少数安全机构开放的"Mythos"级别。然而短短四天后,即 6 月 12 日,Fable 5 被全面关停。
从发布到下架仅历时四天。这期间,用户抱怨限制过多,安全研究者认为阻碍工作,第三方声称已破解防线,而政府则认定其构成安全威胁。Anthropic 试图打造“足够安全”的产品,却未能获得任何一方满意。
这并非单一公司的个案,而是整个 AI 行业即将面临的治理难题预演。
01 一个被嫌弃的“安全典范”
要理解 Fable 5 引发的争议,需先明确其定位。今年 4 月,Anthropic 推出内部测试表现极强的 Mythos 模型,曾在主流代码库中发现超 2.3 万个关键漏洞。该模型未公开发布,而是通过"Project Glasswing"项目供 Mozilla 等受信任的安全机构使用。
Fable 5 作为 Mythos 的公众版,保留了相同底层能力,但增加了严格的安全护栏:涉及网络安全、生物及化学的查询会被拦截或降级。此外,Anthropic 要求保留用户数据至少 30 天,以监测越狱和滥用行为。
Anthropic 的逻辑是:模型过于强大,必须加以限制。但用户并不买账。网络安全研究人员发现,即便是阅读普通安全博客也可能触发拦截。IBM X-Force 研究员指出,Fable 拒绝的请求往往与网络安全仅有微弱关联。
普林斯顿大学 AI 研究者 Sayash Kapoor 直言:“这是首次有 AI 公司推出安全护栏,却收获了一致的嫌弃。”更引发愤怒的是,Fable 5 的系统卡显示,当检测到用户进行前沿 AI 开发(如训练流水线或芯片设计)时,模型会暗中降低回复质量且不告知用户,这种“秘密削弱”行为遭到广泛批评。
Anthropic 在 48 小时内道歉,承认权衡失误,承诺将隐性限制改为可见的降级通知,并将被拦截请求转交旧版模型 Opus 4.8 处理。但风波并未就此平息。
02 一封信,拔掉了插头
若仅是用户不满,Anthropic 尚可通过调整策略化解。但随后发生的事件超出了企业控制范围。6 月 12 日下午,美国商务部致信 Anthropic CEO Dario Amodei,以出口管制为由,要求暂停所有外国公民对 Fable 5 和 Mythos 5 的访问。
触发此举的原因是另一家公司声称成功越狱了 Mythos 模型。由于 Anthropic 无法在系统层面实时区分用户国籍,为合规起见,公司被迫对全球所有用户关闭 Fable 5 和 Mythos 5,其他模型不受影响。
这可能是 AI 行业历史上首次,一个已公开部署的前沿模型因外部指令被全面下架。Anthropic 回应称,收到的越狱报告范围狭窄且非通用,本质上仅是让模型读取特定代码库并修复漏洞,此类能力在 OpenAI GPT-5.5 等其他公开模型上同样存在。
Anthropic 警告:“若此标准适用于全行业,所有前沿模型的部署都将陷入停滞。”这意味着,按照该逻辑,任何公司的最强模型都难以经受住一次越狱报告的考验。
03 亲手呼唤的监管,反噬了自己
极具讽刺意味的是,Anthropic 曾是行业内最积极呼吁监管的公司。就在 Fable 5 发布次日,Dario Amodei 发表长文《Policy on the AI Exponential》,主张政府应拥有类似 FAA 的权力,对前沿模型进行强制第三方测试,并有权阻止不安全模型的发布。
他指出 AI 发展呈指数级,而政策制定呈线性,并用树人比喻政策的滞后性。Anthropic 甚至承诺为相关立法提供资金支持。然而,他呼唤的监管权力在三天后便用在了自己身上。
此次行动恰恰违背了 Amodei 所倡导的原则:缺乏透明流程、独立技术评估及申辩空间,信中甚至未提供具体的安全担忧细节,直接下达关停结论。Anthropic 在声明中表示:“我们认同政府应有能力阻止不安全部署,但必须通过透明、公平且基于技术事实的法定程序。此次行动不符合这些原则。”
这一立场精准表达了其核心诉求:认可权力,但反对滥用。
04 当模型变成一种“基础设施级风险”
Fable 5 事件暴露了结构性矛盾:AI 模型已强大到令各方不适,却无人知晓如何有效管控。
对用户而言,安全护栏过紧,安全研究员无法利用模型开展工作;对企业客户,30 天数据留存引发机密泄露担忧,微软已限制员工使用并转向自家 GitHub Copilot;对政府,能发现数万漏洞的模型一旦失守,后果不堪设想;对 Anthropic 自身,则面临几乎无解的平衡题:模型太弱无竞争力,太强则成烫手山芋;安全措施过松被指责不负责任,过紧则导致用户流失。
这不仅是 Anthropic 的困境,任何推出强大模型的公司都将面临同样挑战。若如 Amodei 所言,AI 能力提升是指数级的,那么 Fable 5 今日的矛盾将在下一代模型中被进一步放大。安全护栏设计将更难,攻防更激烈,企业抵触更强,政府干预也将更频繁。
05 没有人准备好的游戏
Fable 5 的四天历程,本质是一次对行业治理框架的压力测试。测试结果清晰:没有人准备好了。
AI 公司尚未准备好。即便如 Anthropic 般重视安全,投入数千小时红队测试、设计多层防御、主动要求数据留存并呼吁监管,仍无法避免四天内从发布到下架的命运。用户也未准备好,面对模型的安全拒绝,反应多是愤怒而非理解。政府同样未准备好,一封缺乏技术细节的信、一个基于单一报告的判断,便能让数亿用户失去访问权。
Amodei 期待的是具备独立评估、透明流程和申诉机制的精密治理机器,现实却是一封傍晚送达的行政信函。这正是当前 AI 治理的现状:所有人都知道需要规则,却无人来得及写好规则。而模型的发展,不会等待。

