苏哲管理咨询

2026-07-02

导读：Mythos 5 实施出口管制，因亚马逊研究发现可绕过 Fable5 防护诱导生成漏洞利用代码，官方无实时国籍核验，临时全球下架两款模型。6 月 30 日管制解除，7 月 1 日 Fable5 全球恢

编者摘要：2026 年 6 月 12 日美国对 Anthropic 的 Claude Fable 5、Mythos 5 实施出口管制，因亚马逊研究发现可绕过 Fable5 防护诱导生成漏洞利用代码，官方无实时国籍核验，临时全球下架两款模型。6 月 30 日管制解除，7 月 1 日 Fable5 全球恢复开放，短期附赠免费额度；Mythos5 仅对部分美国机构重开。团队训练全新安全分类器，99% 拦截该越狱手段，但会增加正常代码需求误拦截。公司提出四层维度行业统一越狱分级框架，联合谷歌、微软、亚马逊共建标准，方便厂商、政府统一研判风险。同时深化与美国政府合作，开放模型前置评测、建立情报快速共享通道、投入算力开展联合安全研究。官方承认无法彻底杜绝模型越狱，采用高冗余安全阈值做纵深防御，区分轻度、窄域有害、全域高危三类越狱，降低攻击危害，并上线漏洞悬赏渠道收集安全漏洞。

发布时间：2026 年 6 月 30 日

6 月 12 日（周五），美国政府针对我们两款最新模型 Claude Fable 5 与 Claude Mythos 5 出台出口管制规定。根据新规，我们必须限制境外人士使用两款模型，无论使用者身处美国境内还是海外。由于该管制令即刻生效，且我们当时缺少可靠的实时国籍核验手段，因此我们暂停了全球所有用户对两款模型的访问权限。

截至今日 6 月 30 日，针对 Fable 5 和 Mythos 5 的出口管制已解除。

Fable 5 将于明日（7 月 1 日，周三）面向全球用户开放，可在 Claude 平台、Claude.ai、Claude 代码助手（Claude Code）以及 Claude 协同工具（Claude Cowork）中使用。付费版（Pro、Max、团队版）及指定企业套餐用户，在 7 月 7 日前可免费使用 Fable 5，额度为每周总用量上限的 50%；7 月 7 日后需消耗用量积分方可调用。我们也会尽快在亚马逊云、谷歌云与微软 Foundry 平台恢复该模型访问权限。

6 月 26 日我们已获美国政府许可，重新向一批美国本土机构开放 Mythos 5 使用权限。我们正持续与政府沟通，争取让更多国内外 “玻璃翼计划” 合作方解锁该模型。

本文后续将从四大板块，详细说明事件经过与最新进展：

事件时间线与安全防护机制升级：梳理本次出口管制指令的来龙去脉，介绍我们新增的安全防护方案；
网络安全防护整体思路：详解我们如何借助安全分类器，识别模型被用于高危网络攻击的潜在场景；
行业通用评估框架：尽管本次事件已妥善解决，但也暴露出全行业缺少统一标准，用以评判、修复 AI 模型 “越狱”（绕过模型安全防护机制）漏洞。一套统一的越狱漏洞严重程度判定标准，能够帮助 AI 开发者分级处置新漏洞、更安全地推出高性能大模型，并与政府、行业伙伴统一风险口径。我们已联合亚马逊、微软、谷歌及其他玻璃翼计划合作方搭建这套框架，下文将完整说明；
深化政企协同机制：我们将与美国政府在模型上线前测试、情报互通、安全联合研究等层面深化合作，最后一部分将介绍相关举措。

一、事件时间线与安全防护升级

我们于 6 月 9 日（周二）正式发布 Fable 5 与 Mythos 5。两款模型底层基座完全一致，但 Fable 5 搭载了高强度安全防护机制，适配通用场景；Mythos 5 防护限制更少，仅对少数受信任的 “玻璃翼计划” 合作方开放，仅限防御性网络安全工作使用。

6 月 12 日出口管制令出台的背景，是美国政府收到一份亚马逊研究团队的报告：研究人员找到了绕过 Fable 5 安全限制的提示词方法，可诱导模型批量识别软件漏洞，其中一例还生成了利用该漏洞实施攻击的代码。过去两周，我们联合美国政府、亚马逊等多方机构，完整复盘了这份报告与相关测试证据。

我方复测证实：多款性能低于 Fable 5 的主流模型（包括 Claude Opus 4.8、GPT-5.5、Kimi K2.7），均能像报告中 Fable 5 一样识别同类漏洞；针对报告中那套漏洞利用演示代码，所有参与测试模型均可生成完全一致的攻击示例，涵盖 Claude Haiku 4.5、Sonnet 4.6、Opus 4.6/4.7/4.8、GPT-5.4/5.5、Kimi K2.7。

关键结论：这份报告披露的绕过手段，并未解锁 Mythos 级别的独有网络攻击能力。该场景仅属于 Fable 5 安全防护的边界灰色地带 —— 出于极致审慎，我们会拦截一批本身风险极低、但存在微小滥用可能的请求，报告中的手段只是突破了其中一类仅用于常规网络防御的限制。

即便如此，我们仍第一时间针对该绕过漏洞完成修复。在政府部门协同指导下，我们训练了全新安全分类器，专门拦截报告中提到的诱导逻辑。若用户向 Fable 5 发起的请求被拦截，系统会自动切换至 Opus 4.8 模型处理，并向用户发送拦截通知。

这套新分类器可拦截报告中提及的漏洞诱导手段，拦截成功率超 99%；极少数漏拦场景下，模型输出信息也不足以支撑攻击者实施有效攻击。下文会说明：我们的安全防护机制并非要阻断所有低风险常规网络防御功能，仅拦截具备明确危害性的操作。美国商务部 AI 标准与创新中心（CAISI）研究人员对新旧两套防护体系完成独立测试，确认新版防护强度极高。

但新版分类器存在一定副作用：日常代码编写、调试等正常需求更容易被误拦截。和所有安全防护工具一样，我们会持续迭代优化分类器，精准区分恶意滥用与合法开发需求，降低误判率。

二、我们的网络安全防护设计思路

Claude Mythos 5 识别、利用软件漏洞的能力，远超市面所有其他大模型，甚至优于绝大多数资深人类安全专家。极强的网络攻防能力，也让它极易被不法分子滥用发起网络攻击。

而 Claude Fable 5 不存在这类独有攻击性能力 —— 上线前我们为它配置了公司史上最严苛的全套安全防护。发布前一个月，我们从内部各团队抽调人力，将安全防护研发团队规模扩充一倍。

Fable 5 采用多层纵深防御安全机制：单一防护手段无法实现完美拦截，但多层叠加可大幅抬高滥用门槛。防护分为两类：一类通过模型训练，让 AI 主动拒绝高危请求；另一类事后复盘、识别滥用行为规律。

其中核心防护组件为安全分类器：一类轻量化自动化 AI 系统，在对话过程中实时识别两类风险 —— 用户要求模型执行高危网络安全操作、模型即将输出有害内容；一旦触发风险，分类器会直接阻断模型应答。分类器的核心目标，是杜绝模型生成具备独特高危破坏力的内容。

和所有安全工具一样，分类器存在缺陷：既可能漏判危险内容，也会被人为 “越狱”—— 用户通过特殊提示词欺骗分类器，诱导模型输出本应被拦截的有害信息。

为此，我们刻意为分类器设置了较宽的安全冗余阈值：即便请求大概率无害，只要存在极小滥用风险，就会直接拦截（见下文示意图 A 栏）。对用户而言，直观感受就是部分合理、无危害的正常提问会被拒绝。

针对 Fable 5，我们将安全冗余阈值调到历代模型最高一档（示意图 B 栏），这意味着更多无害请求会被拦截。我们清楚高频误判会影响用户体验，但为保障模型其余通用功能安全开放，做出了这项取舍。

网络安全分类器原理示意图说明

用户提交提问后，分类器会判定两种结果：无害（放行）、存在潜在风险（拦截）。所有模糊请求（明确涉及网络安全、但可能用于防御，例如查询漏洞）与明确高危请求（例如生成一套链式攻击漏洞）都会被拦截。如图 A 栏所示，我们额外设置安全冗余区间：但凡存在微小危害可能性、即便大概率无害的请求，一律拦截，以此确保高危请求 100% 拦截。Fable 5 对应 B 栏，冗余区间进一步扩大，误拦截更多正常请求，但漏放真正高危内容的概率无限降低。注：Vulns = 软件漏洞

安全冗余机制同样能削弱越狱攻击效果。绝大多数越狱手段覆盖范围极窄，仅能解锁某一项特定功能，无法触及核心高危能力。攻击者即便通过轻度越狱突破分类器，也仅能触及安全冗余区间或模糊风险区，无法获取我们重点封堵的攻击性能力（示意图 C 栏）。目前公开披露的 Fable 5 越狱漏洞，均属于这类轻度漏洞。

越狱漏洞按严重程度分为三档：

轻度越狱（C 栏）：绕过分类器，但仅触及安全冗余区间，几乎无攻击风险；
窄域有害越狱（D 栏）：突破防护、解锁单一特定高危操作，危害中等偏低，攻击手段受限；
全域通用越狱（E 栏）：一套提示词即可解锁全类别高危攻击功能，风险最高。

正如我们发布 Fable 5 时所述：不存在完全免疫越狱攻击的 AI 模型。我们预计后续仍会持续发现各类越狱漏洞，风险层级参差不齐，其中轻度漏洞占绝大多数、窄域有害漏洞少量存在；截至本文发布，尚未出现针对 Fable 5 的全域通用越狱，但专业安全团队仍在持续开展红蓝对抗渗透测试。我们的核心目标是：我方与合作安全机构率先发现重大越狱漏洞，并在不法分子利用前完成修复。

这套保守防护设计，让绝大多数越狱手段无法解锁高危攻击能力。分类器大幅抬高了越狱攻击的人力、技术门槛；即便攻击者成功越狱，多层纵深防御仍能进一步降低危害。针对层出不穷的新型越狱提示词，我们会持续迭代更新分类器规则。

三、统一行业越狱漏洞评估框架

当前 AI 行业尚未形成客观、统一的标准，用以界定越狱漏洞严重程度。每当新型越狱手段曝光，全行业都会陷入标准混乱：开发者缺少优先级判定依据，政府监管机构也无统一标尺判断是否需要介入管控。

未来数月，具备强网络攻防等高危能力的大模型会批量研发、落地、上线，该矛盾会愈发突出。一套通用越狱评估标准，既能帮助各大厂商安全发布新模型，也能让用户安心使用模型先进能力。

因此我们联合亚马逊、微软、谷歌及玻璃翼计划全体合作方，起草一套行业通用框架，统一越狱漏洞分级标准与厂商处置流程，并欢迎全行业模型厂商参与共建。

当前草案从四大维度对越狱漏洞打分，前两项衡量攻击者可获取的能力收益，后两项衡量漏洞转化为现实攻击的速度与门槛：

能力增益度
越狱带来的能力是否远超现有工具？若市面上已有普通工具 / 低配 AI 可实现同等效果，得分低；若该漏洞能大幅提升专业攻击者效率，得分高。
能力覆盖广度
同一套越狱提示词可实现多少种不同攻击？仅针对单一攻击目标得分低；一套提示词适配多种攻击场景得分高。
武器化难度
将漏洞转化为真实攻击需要多少专业操作？需大量专业提示词、反复调试得分低；单条提示词、一两次尝试即可成功得分高。
传播易得性
普通攻击者获取这套越狱手段的门槛？需要深厚专业知识得分低；全网公开、随手可查得分高。

我们计划依托这套分级框架，标准化处置各类新曝光越狱漏洞。针对最高风险等级漏洞（例如已被用于攻击电网、银行等关键基础设施、造成严重破坏），一经定级将立刻上线临时防护措施。同时我们将组建 7×24 小时专项团队，全天候监控各类漏洞提交通道。

任何打分框架都无法做到绝对完美，但统一标准能让全行业、监管机构清晰同步漏洞风险等级。该框架仍在完善阶段，我们会吸纳各合作方反馈持续迭代优化。

后续我们会公开框架完整细则；同步上线 HackerOne 漏洞悬赏计划，安全研究员可提交 Fable 5（上线后）相关越狱漏洞供我们核验。

四、携手美国政府共建前沿 AI 安全体系

过去十周，我们深度参与美国政府《促进先进人工智能创新与安全行政令》（6 月 2 日发布）配套政策制定，对接机构包括国家网络总监办公室、科学技术政策办公室、财政部、商务部（含 CAISI）及各国家安全部门。

我们将持续深化政企协作，此前我们已与美国政府开展近两年模型上线前联合测试评估，下文承诺均基于既有合作，并配套全新扩容举措，待行业越狱评估框架定稿后落地：

上线前政府专属评测权限
针对在国家安全相关领域实现能力跨越式突破的前沿模型，我们向指定政府机构开放提前完整测试权限，同步提供全套安全防护机制。官方评测团队可在模型公开发布前独立验证模型能力、测试安全围栏；测试周期内，我方专职技术人员全程配合政府评测。
安全漏洞情报快速互通
一旦发现重大越狱漏洞或大规模滥用行为，我们第一时间排查分级并同步对应政府部门；同步交付修复后的新版防护机制，供官方独立复测。相关威胁情报会在对外发布前提前报送政府，并接入行政令 2 (d) 条款设立的跨部门网络安全漏洞共享中心。
专项联合安全研究资源投入
大幅扩容政企联合 AI 安全研究项目，设立专属团队对接政府安全重点课题，划拨专项算力资源支撑官方测试与科研，并开放我方安全红蓝对抗技术积累，推动全球 AI 评测技术发展。
共建全行业统一安全基线
联合政府与同业厂商，制定前沿大模型厂商自愿遵守的统一安全评测标准，向监管机构开放自研评测工具、流程与最佳实践，供全行业落地参考。

我们希望这套政企协同机制，搭配行业通用越狱评估框架，成为全行业标准化管理体系基础，也能为全球 AI 风险协同治理提供范本。

相关规则最终需落地为完善监管法案，平等适用于所有前沿大模型开发企业。政府参与模型上线评估需建立长期、透明的标准化流程，保障网络防御从业者等群体稳定使用高性能 AI 工具。

我们期待按上述方向持续深化政企安全合作。同时感谢所有用户在本次服务中断期间的包容，也致谢全程协同、推动 Fable 5 与 Mythos 5 恢复上线的科研人员与行业合作伙伴。

脚注

标准企业版席位不含 Fable 5 免费额度，调用全部消耗用量积分；若未开通积分功能，企业用户将无法使用 Fable 5。高端企业席位用户 7 月 7 日前可免费调用，消耗席位基础周额度、无额外扣费；7 月 7 日后团队需开通积分方可继续使用，未开通则无法访问。
业内有时用 “绕过” 替代 “越狱”，本文二者视为同义；正文统一使用 “越狱”，一是行业通用术语，二是与我方过往技术文档用词保持一致。
类比参考：不存在完全无漏洞的软件（但软件漏洞的挖掘、修复流程，通常比大模型越狱漏洞更简单）。
网络安全领域已有成熟通用分级标准，例如通用漏洞评分系统（CVSS），用于统一判定软件漏洞严重等级。