当AI强到能掀翻整个安全行业，我们该怎么办？- 大数跨境

首页

当AI强到能掀翻整个安全行业，我们该怎么办？

AIGC产业观澜

2026-05-28

导读：Claude Mythos在编码、推理和网络安全三大领域确实实现了质的飞跃，在漏洞发现与利用能力上达到了前所未有的水平，从纯技术角度完全有资格被称为“最强大模型”。但它的“强大”恰恰也是其“危险”所在

据科技媒体 Testingcatalog 报道，Anthropic 公司似乎正在准备公开其最新模型 Claude Mythos 的预览版。这一消息引起了广泛关注，但问题在于——这个模型可能压根没打算让普通人用。

说实话，我第一反应是：又来？又是“我们太强了所以不能给你们用”这套？硅谷公司玩这种饥饿营销还少吗？

但等我真正看完那份244页的System Card，我发现自己错了。这玩意儿真的不一样。

Mythos被直接塞进了一个叫“玻璃翼计划”（Project Glasswing）的项目里，参与方包括AWS、Apple、Google、Microsoft、CrowdStrike、Palo Alto Networks、Linux Foundation这些大玩家。它没有像以前那样先搞个公测版让大家玩，而是直接进了“封闭环境”——只在约40家关键基础设施合作伙伴那里跑。

为什么？因为它太擅长找漏洞了。不是那种小打小闹的漏洞，而是能让整个安全行业坐不住的漏洞。

/ 这个模型到底干了什么？

先看看数字，虽然数字有时候会说谎，但这次的数据确实有点吓人。

在SWE-Bench Pro上，Mythos拿了77.8%，而前代旗舰Opus 4.6只有53.4%。GPT-5.4是57.7%，Gemini 3.1 Pro是54.2%。这不是小步快跑，这是直接跳了一个台阶。

但真正让人后背发凉的，是它在真实世界的表现。

Mythos在OpenBSD里找到了一个存活了27年的漏洞。OpenBSD是什么？那是号称“默认安全”的操作系统，以代码审计严格出名。一个漏洞能躲过近三十年的专家审查，说明普通方法根本抓不到它。

更离谱的是，它还在FFmpeg里抓到一个藏了16年的漏洞。那行代码被自动化测试工具跑过超过500万次，从来没出过问题。

然后是对Firefox的测试。Mythos发现了271个漏洞，其中3个被列为高危CVE。相比之下，Opus 4.6只找到了大约20个。而且Mythos不只是找漏洞，它还能自己造利用链——串联4个漏洞，用JIT堆喷射技术逃逸了渲染器沙箱和操作系统沙箱。

顺便说一句，Anthropic内部做了一个对比实验：针对Firefox JS引擎同一组漏洞，Opus 4.6在几百次尝试里成功了2次，Mythos成功了181次。90倍的差距，这不是量变，是质变。

英国AI安全研究所（AISI）也做了独立测试。在一个32步的企业网络攻击模拟里，Mythos成为了历史上第一个完整通关的AI模型。10次尝试中成功3次，看起来不高是吧？但这个任务人类专家大概要花20小时才能完成。

/ 能力的根在哪里？

为什么Mythos突然变这么强？

真正与其它大模型拉开差距的，可能是训练数据的构成。

Mythos的训练数据可能包含了大量带历史版本的源代码——不是只看当前仓库快照，而是能看到代码怎么演变、bug怎么被引入又怎么被修复的。这就好比一个人不只是看过菜的成品，还看过整个烹饪过程，自然更懂得食材怎么搭配、火候怎么控制。

还有一个可能被忽视的点：形式化推理数据。网络安全里的很多任务，本质上是“证明问题”——给定一套约束条件，判断是否存在可被利用的执行路径。如果模型在训练时接触过大量数学证明、形式逻辑、程序验证的数据，它在安全任务上自然会更强。

但最关键的部分，可能是合成数据。现实世界里的高质量漏洞样本是有限的，尤其是能系统覆盖各种漏洞类型的样本更少。Anthropic很可能让前代模型或专门工具链，构造了海量的合成脆弱代码样本——人工插入漏洞、自动标注类型、配套生成修复版本。通过这种方式，模型可以系统地学习从缓冲区溢出到类型混淆、从整数溢出到竞态条件等各种漏洞模式。

这就像给一个学生做了海量的、难度逐步升级的练习题，而不是只让他翻有限的真题集。

/ 为什么不敢公开发布？

好了，能力这么强，为什么不直接让大家用？

原因很直接：Mythos的网络安全能力不是专门训练出来的，而是代码、推理和自主性全面提升后的“自然溢出”。一个更会写代码的模型，自然就更会找代码漏洞、利用代码漏洞。

这带来了一个很棘手的问题：能力越强，双刃剑效应越明显。

Anthropic的推理是这样的：短期内，类似能力的模型无节制扩散，攻击者可以极低成本大规模挖掘漏洞；长期看，具备自动化修复能力的模型才更可能成为防御方工具。所以他们选择了“先防御，后扩散”的策略。

但这套逻辑也受到质疑。批评者认为，所谓的“玻璃翼计划”实际上是在打造一个排他性的利益小圈子，压制开源生态繁荣，试图掌握未来AI安全标准制定的话语权。

更有意思的是，在这个节骨眼上，中国也在同步推进AI安全治理。2025年9月，国家发布了《人工智能安全治理框架》2.0版，新增了“人工智能应用衍生安全风险”类别，特别提到模型开源可能被不法分子用于训练“作恶模型”。同时，新框架还提出了“可信应用、防范失控”的核心原则，强调要在人工智能系统的设计、开发、测试、部署、运维等各个环节全面嵌入安全考量。

你看，中美两个方向，思路其实有共通之处：都在担心AI能力太强带来的风险，都在试图建立更严格的治理体系。

/ 这个事件到底意味着什么？

如果Mythos的公开表现大体属实，那它的影响远不只是“又一个更强的模型”。它至少说明了三件事。

第一，网络安全能力有明显的涌现门槛。

以前很多人默认，大模型在安全领域会逐步变强，今天会一点，明天更强一点。但Mythos暗示的不是平滑增长，而是突然从“几乎不会”跳到“明显可用”。这对风险预测是一个警告：我们不能简单用现有模型的能力去线性外推未来模型的危险程度。

第二，传统自动化安全工具的范式可能被改变。

过去自动化漏洞发现主要靠fuzzing、静态分析、符号执行这些方法。它们很强，但各有局限。Mythos这种模型如果真能通过深层语义理解与多步推理发现长期潜伏漏洞，就意味着出现了一种新范式：它不只是靠覆盖率和规则，而是像人类专家那样形成假设、进行推演、解释异常。未来最强的安全工具很可能不是替代传统方法，而是与其深度融合。

第三，高端模型市场可能进一步分层。

从价格来看，Mythos完全不像是人人日常调用的通用助手，更像是“高价值专业任务引擎”。前沿模型市场可能逐渐分成两层：一层是低成本、广覆盖的通用模型；另一层是高成本、强能力、面向特定高风险高收益任务的专业模型。Mythos很可能属于后者。