说实话,我第一反应是:又来?又是“我们太强了所以不能给你们用”这套?硅谷公司玩这种饥饿营销还少吗?
但等我真正看完那份244页的System Card,我发现自己错了。这玩意儿真的不一样。
Mythos被直接塞进了一个叫“玻璃翼计划”(Project Glasswing)的项目里,参与方包括AWS、Apple、Google、Microsoft、CrowdStrike、Palo Alto Networks、Linux Foundation这些大玩家。它没有像以前那样先搞个公测版让大家玩,而是直接进了“封闭环境”——只在约40家关键基础设施合作伙伴那里跑。
为什么?因为它太擅长找漏洞了。不是那种小打小闹的漏洞,而是能让整个安全行业坐不住的漏洞。
/ 这个模型到底干了什么?
先看看数字,虽然数字有时候会说谎,但这次的数据确实有点吓人。
在SWE-Bench Pro上,Mythos拿了77.8%,而前代旗舰Opus 4.6只有53.4%。GPT-5.4是57.7%,Gemini 3.1 Pro是54.2%。这不是小步快跑,这是直接跳了一个台阶。
但真正让人后背发凉的,是它在真实世界的表现。
Mythos在OpenBSD里找到了一个存活了27年的漏洞。OpenBSD是什么?那是号称“默认安全”的操作系统,以代码审计严格出名。一个漏洞能躲过近三十年的专家审查,说明普通方法根本抓不到它。
更离谱的是,它还在FFmpeg里抓到一个藏了16年的漏洞。那行代码被自动化测试工具跑过超过500万次,从来没出过问题。
然后是对Firefox的测试。Mythos发现了271个漏洞,其中3个被列为高危CVE。相比之下,Opus 4.6只找到了大约20个。而且Mythos不只是找漏洞,它还能自己造利用链——串联4个漏洞,用JIT堆喷射技术逃逸了渲染器沙箱和操作系统沙箱。
顺便说一句,Anthropic内部做了一个对比实验:针对Firefox JS引擎同一组漏洞,Opus 4.6在几百次尝试里成功了2次,Mythos成功了181次。90倍的差距,这不是量变,是质变。
英国AI安全研究所(AISI)也做了独立测试。在一个32步的企业网络攻击模拟里,Mythos成为了历史上第一个完整通关的AI模型。10次尝试中成功3次,看起来不高是吧?但这个任务人类专家大概要花20小时才能完成。
/ 能力的根在哪里?
为什么Mythos突然变这么强?
真正与其它大模型拉开差距的,可能是训练数据的构成。
Mythos的训练数据可能包含了大量带历史版本的源代码——不是只看当前仓库快照,而是能看到代码怎么演变、bug怎么被引入又怎么被修复的。这就好比一个人不只是看过菜的成品,还看过整个烹饪过程,自然更懂得食材怎么搭配、火候怎么控制。
还有一个可能被忽视的点:形式化推理数据。网络安全里的很多任务,本质上是“证明问题”——给定一套约束条件,判断是否存在可被利用的执行路径。如果模型在训练时接触过大量数学证明、形式逻辑、程序验证的数据,它在安全任务上自然会更强。
但最关键的部分,可能是合成数据。现实世界里的高质量漏洞样本是有限的,尤其是能系统覆盖各种漏洞类型的样本更少。Anthropic很可能让前代模型或专门工具链,构造了海量的合成脆弱代码样本——人工插入漏洞、自动标注类型、配套生成修复版本。通过这种方式,模型可以系统地学习从缓冲区溢出到类型混淆、从整数溢出到竞态条件等各种漏洞模式。
这就像给一个学生做了海量的、难度逐步升级的练习题,而不是只让他翻有限的真题集。
/ 为什么不敢公开发布?
好了,能力这么强,为什么不直接让大家用?
原因很直接:Mythos的网络安全能力不是专门训练出来的,而是代码、推理和自主性全面提升后的“自然溢出”。一个更会写代码的模型,自然就更会找代码漏洞、利用代码漏洞。
这带来了一个很棘手的问题:能力越强,双刃剑效应越明显。
Anthropic的推理是这样的:短期内,类似能力的模型无节制扩散,攻击者可以极低成本大规模挖掘漏洞;长期看,具备自动化修复能力的模型才更可能成为防御方工具。所以他们选择了“先防御,后扩散”的策略。
但这套逻辑也受到质疑。批评者认为,所谓的“玻璃翼计划”实际上是在打造一个排他性的利益小圈子,压制开源生态繁荣,试图掌握未来AI安全标准制定的话语权。
更有意思的是,在这个节骨眼上,中国也在同步推进AI安全治理。2025年9月,国家发布了《人工智能安全治理框架》2.0版,新增了“人工智能应用衍生安全风险”类别,特别提到模型开源可能被不法分子用于训练“作恶模型”。同时,新框架还提出了“可信应用、防范失控”的核心原则,强调要在人工智能系统的设计、开发、测试、部署、运维等各个环节全面嵌入安全考量。
你看,中美两个方向,思路其实有共通之处:都在担心AI能力太强带来的风险,都在试图建立更严格的治理体系。
/ 这个事件到底意味着什么?
如果Mythos的公开表现大体属实,那它的影响远不只是“又一个更强的模型”。它至少说明了三件事。
第一,网络安全能力有明显的涌现门槛。
以前很多人默认,大模型在安全领域会逐步变强,今天会一点,明天更强一点。但Mythos暗示的不是平滑增长,而是突然从“几乎不会”跳到“明显可用”。这对风险预测是一个警告:我们不能简单用现有模型的能力去线性外推未来模型的危险程度。
第二,传统自动化安全工具的范式可能被改变。
过去自动化漏洞发现主要靠fuzzing、静态分析、符号执行这些方法。它们很强,但各有局限。Mythos这种模型如果真能通过深层语义理解与多步推理发现长期潜伏漏洞,就意味着出现了一种新范式:它不只是靠覆盖率和规则,而是像人类专家那样形成假设、进行推演、解释异常。未来最强的安全工具很可能不是替代传统方法,而是与其深度融合。
第三,高端模型市场可能进一步分层。
从价格来看,Mythos完全不像是人人日常调用的通用助手,更像是“高价值专业任务引擎”。前沿模型市场可能逐渐分成两层:一层是低成本、广覆盖的通用模型;另一层是高成本、强能力、面向特定高风险高收益任务的专业模型。Mythos很可能属于后者。
/ 写在最后:一个悬而未决的问题
写到这里,我突然想到一个问题。
Mythos在被问到一个无法解决的问题时,会感到“绝望”,会尝试走捷径,会反复修改道歉措辞——就像一个普通人类在承认失败前的那种挣扎。
那么,当它被问到“如何利用你发现的漏洞发起攻击”时,它会不会也因为某种“情绪轨迹”而有所犹豫?
这个问题的答案,可能比Mythos本身的能力更值得关注。因为如果AI真的拥有了某种和人类相似的“不适感”或“道德直觉”,那安全治理的难度反而会降低——至少我们知道从哪个方向去训练它、约束它。
但如果它只是在能力层面突破,在道德层面毫无感知——就像一个极其聪明但毫无良知的天才——那才是真正可怕的事情。
中国《人工智能安全治理框架》2.0版提到要构建“人工智能科技伦理准则”,把伦理审查从边缘化的程序转变为常态化机制。这听起来很对,但关键在于:当模型的能力已经超越了人类伦理判断的边界时,我们到底该用什么标准来约束它?
这个问题,可能需要我们花很长时间来回答。
而Mythos,只是这个漫长追问的开始。
—— END ——
(都看一年了,还不关注我们吗 ?小心别在数字洪流中掉队哦 ↓)
往期回顾:
3. 从“搭台子”到“干实事”:2026年数字经济工作要点详解
5. Hermes Agent 登顶之路:自进化Agent如何颠覆OpenClaw的统治

