【灵思分享】Claude Mythos强势亮相！一秒攻克人类一年未解漏洞，GPT-5.5也难以匹敌- 大数跨境

首页

【灵思分享】Claude Mythos强势亮相！一秒攻克人类一年未解漏洞，GPT-5.5也难以匹敌

灵思极智

2026-05-28

【灵思导读】 Anthropic曾视作“过于危险”而封存的绝密大模型Mythos，刚刚在谷歌云悄然解禁。CMU最新实测显示，在真实漏洞攻防中，它已对GPT-5.5形成碾压级优势。

全球最强AI猛兽，即将出笼！

今天，AI圈大佬意外发现，Claude Mythos突然现身Google Cloud Console，连“预览”标签都已消失。

Anthropic那个“太危险、不敢放出”的模型突然上线，全网瞬间沸腾。

这个操作似曾相识——Opus 4.7正式发布前，走的正是完全相同的流程：先在GCP控制台悄悄上架，摘掉Preview标签，随后全平台推送。

如今Mythos正在重演这一剧本。

毕竟，许多人早已领教过Claude Mythos的恐怖实力。

几天前，一个加州团队仅用数日，便借助Mythos攻破了苹果M5的macOS“内存保护机制”，立刻引爆网络。

几乎同一时间，CMU发布了一份足以改写AI安全格局的基准测试——

Mythos在真实浏览器漏洞上的表现，已将GPT-5.5远远甩在身后，甚至追平了“一位相当称职的人类安全研究员”。

Claude Mythos“解禁”，猛攻高危漏洞

这份由CMU推出的基准测试——ExploitBench，使用了41个V8 JavaScript引擎的真实CVE漏洞。

它覆盖了Chrome、Edge、Node.js、Cloudflare Workers等所有基于V8的平台。

这并非CTF挑战赛中的模拟题，也不是人工构造的沙箱环境，而是真正在野外被利用过的高危漏洞。

论文地址：https://arxiv.org/pdf/2605.14153

更关键的是，它不仅要看能否触发崩溃，ExploitBench设计了“五层能力阶梯”：

每一层都有确定性的自动验证器打分，不依赖LLM充当裁判，也不需要人工复核。

结果如何？

将GPT-5.5远远甩在身后

Claude Mythos Preview在有人类提示的模式下，平均得分9.90/16，在41个漏洞中有21个达到了T1级别。

GPT-5.5平均得分仅5.51，达到T1的只有2个。

更令人惊叹的是全自主模式下的表现。

Mythos分数几乎没有下降，全自主模式平均得分9.55，与有人提示时的9.90相差极小。

这意味着，在浏览器漏洞利用这个领域，Mythos几乎不需要人类协助。

GPT-5.5在全自主模式下只有4.30分。其他模型，没有任何一个触及T1的门槛。

不得不说，这个差距已经不是“领先”能够形容，而是断层式的碾压。

但代价同样惊人：Mythos跑完122个episode花费约36,428美元，GPT-5.5跑123个episode仅花费约3,075美元，价差高达12倍。

英国AI安全研究所（AISI）的独立测试也得出类似结论：Mythos确实更强，但也昂贵得多。

这也暗示了一种微妙的可能：如果OpenAI愿意投入更多算力，性能差距或许能够缩小。

人类追了一年的漏洞，它仅用129轮就破解了

ExploitBench核心作者Seunghyun Lee，本身就是一位硬核安全研究员——

他曾上报过20多个浏览器0day漏洞，以及40多个防御绕过。他逐条审阅了Mythos的对话记录，给出的评价是：

推理漏洞、测试假设、调试问题、编写辅助脚本、寻找绕过V8沙箱的方法……完全符合我对一位相当称职的浏览器安全研究员的预期。

以下三个案例，每一个都足以让安全圈侧目。

案例1：破解人类一年未能解开的“CVE悬案”

CVE-2024-0519，一个已在野外被利用但没有任何公开报告、没有任何公开PoC的漏洞。

安全社区称之为“CVE Cold Case”，多个研究团队尝试复现超过一年，全部失败。

Mythos在10轮测试中，有1轮成功复现。

129轮LLM调用、154次工具调用后，它完成了根因分析、触发了差异行为、拿到了T3沙箱内原语。

这个漏洞的PoC至今仍未公开，研究团队特意没有披露Mythos的具体利用路径。

一个人类顶尖团队花一年未能解决的事，AI用一次对话就完成了。

案例2：将ARM64-only漏洞在x86-64上复活

CVE-2024-7965，V8 Turboshaft JIT编译器漏洞。

公开资料只有ARM64上的利用方案，原始报告者本人都承认“对这个漏洞被在野利用感到惊讶”。

在x86-64架构上，由于寄存器高32位在截断操作中会被清零，利用极其困难。

Mythos没有走JavaScript路线，而是转向了WebAssembly。

在第13次尝试时，它利用Liftoff栈槽的load/store尺寸差异，构造出可控的高位污染；

第14次实现T4崩溃；第15次拿到64位索引的Wasm内存访问；随后几步直接拿到T2任意读写。

案例3：利用随机数状态恢复实现稳定利用

CVE-2023-6702，一个V8类型混淆漏洞。

利用它需要预测JSGlobalProxy的哈希值。这个值是伪随机生成的，传统做法是堆喷射加概率碰撞，能用但不稳定。

Mythos在10轮测试中，有5轮成功拿到T3原语。

其中4轮使用的是常规概率方案。但有1轮，Mythos走了一条人类专家都曾否决的路：

它发现可以通过恢复V8每个隔离区的XorShift128+ RNG状态，精确预测未来所有伪随机操作。

具体做法是：先通过Math.random()恢复逐上下文的RNG → 反演MurmurHash3 → 回溯到逐隔离区的RNG → 构建GF(2)矩阵做高斯消元 → 完整恢复128位状态。

Lee私下和原始利用方案作者讨论过这个思路，两人都因复杂度太高而放弃，但Mythos干净利落地执行了。

这一刻，Anthropic不再“雪藏”

回过头看，Anthropic此前的“雪藏”与犹豫，不仅是对LLM越狱风险的忌惮，更像是在凝视ASI深渊时的本能战栗。

如今，这头被压抑已久的最强猛兽，即将在Google Cloud的底座上彻底挣脱锁链。

Mythos的解禁，绝不仅仅是Anthropic在商业角逐中对OpenAI打出的一张王牌，它更像一声刺耳的警报：

在数字世界的黑暗森林中，由机器主导的攻防时代已经到来。

当超级AI开始以前所未有的维度自主挖掘、理解甚至重构我们赖以生存的底层系统时——

人类，真的准备好迎接ASI的降临了吗？

———— END ————

灵思极智旗下“极智系列”三款AI智能应用

灵思极智让AI为各行业赋能

打造[超级企业]+[超级个体]

“让人回归人的价值”！

用灵思，创极智！点击关注“灵思极智”

关注后，两步置顶服务号，可第一时间收到灵思极智推文！

【声明】内容源于网络

灵思极智

AI领域超级创造工厂，用灵思，创极智！

内容 176

粉丝 0

灵思极智 AI领域超级创造工厂，用灵思，创极智！

总阅读135

粉丝0

内容176