Claude Opus 4.8 翻车，GPT-5.6 泄露，Anthropic 万亿估值反超 OpenAI！| AI Weekly 5.25-5.31- 大数跨境

首页

Claude Opus 4.8 翻车，GPT-5.6 泄露，Anthropic 万亿估值反超 OpenAI！| AI Weekly 5.25-5.31

AI信息Gap

2026-05-31

111

导读：AI Weekly 第 78 期：Claude Opus 4.8 翻车，GPT-5.6 泄露，Anthropic 万亿估值反超 OpenAI！

本周 AI 快讯 | 1 分钟速览

01 Anthropic 发布 Claude Opus 4.8 并完成 650 亿融资，同日被曝蒸馏国产模型：SWE-bench Pro 成绩跃升至 69.2%，领先 GPT-5.5 超 10 个百分点；投后估值 9650 亿美元首超 OpenAI；多位用户通过 API 发现模型会自称「千问」或「DeepSeek」，与 Anthropic 此前反蒸馏立场矛盾。

02 阶跃星辰开源 Step 3.7 Flash，400 tokens/s 专攻生产级 Agent：采用稀疏 MoE 架构，总参 196B+1.8B（ViT），激活 11B；SWE-bench Pro 得分 56.26%，开启 Advisor Mode 可达 Claude Opus 4.6 编程性能的 97%，成本仅九分之一。

03 小米 MiMo-V2.5 系列 API 永久降价最高 99%，国产价格战持续升级：缓存命中低至 0.025 元/百万 token，不再区分上下文长度；已购 Token Plan 用户额度重置为 5 至 8 倍。

04 面壁 MiniCPM5-1B 开源，1B 参数在 AA-Index 超越所有 2B 模型：INT4 量化后仅 0.5GB，可在手机和浏览器上运行；同周昆仑万维发布 SkyClaw-v1.0 百万上下文 Agent 模型，定价低于同级一半。

05 阿里「Qoder Cloud Agents」+ 百炼 CLI 开源，腾讯「Hy-Memory」同周上线：阿里 Qoder 将 Agent 上线周期从一个月压缩到一天；阿里云百炼 CLI 开源，原生支持 Claude Code 等主流框架；腾讯混元推出六层记忆框架 Hy-Memory，Token 消耗降低 35%。

06 SpaceX grok-build-0.1 API 公测 1 美元入场，马斯克澄清 Anthropic 算力合作仅 6 个月：grok-build-0.1 输入 1 美元/百万 token，仅为 Claude Opus 4.8 的五分之一；马斯克澄清 SpaceX 算力合作为 180 天租约加 90 天互裁条款，与 S-1 招股书写的「至 2029 年」矛盾。

07 GPT-5.6 泄露，代号 iris-alpha，上下文窗口扩至 150 万 token：开发者在 Codex 后端日志中发现未官宣模型，比 GPT-5.5 上下文扩大 43%；多个预测平台定价 6 月发布概率 80% 至 89%。

08 OpenAI Codex 电脑操控登陆 Windows，手机端可远程发起任务：此前仅限 Mac，现在 Windows 用户也能让 Codex 操控桌面应用、调试界面、测试流程；Goal 模式同步转正，开发者可设定目标让 Codex 自主执行数小时。

09 DeepMind AlphaProof Nexus 一周攻克 9 道 Erdős 难题，每题仅花几百美元：Gemini 3.1 Pro + Lean 验证器组合，每题推理成本仅几百美元；还证明了 OEIS 数据库中 44 个开放猜想，代码已开源。

10 Meta AI 推出付费订阅 Meta One，7.99 美元/月起步：Meta One Plus 7.99 美元，Premium 19.99 美元，6 月在新加坡等地开放测试；免费版保留，Plus 价格仅 ChatGPT Plus 的 40%。

Anthropic 发布 Claude Opus 4.8：融资估值首超 OpenAI，深陷蒸馏争议

5 月 28 日，Anthropic 发布 Claude Opus 4.8，距上代仅 42 天，创下系列最短迭代间隔。该模型在 SWE-bench Pro 基准测试中从 64.3% 跃升至 69.2%，领先 GPT-5.5 超过 10 个百分点；在 Artificial Analysis Intelligence Index 得分 61.4 首次登顶。新增 Dynamic Workflows 研究预览功能，支持协调数百个子 Agent 并行执行复杂任务，并推出 2.5 倍快速模式。

同日，Anthropic 完成 650 亿美元 H 轮融资，投后估值达 9650 亿美元，首次超越 OpenAI，成为全球最贵 AI 初创公司。本轮由 Altimeter Capital、红杉、Dragoneer 联合领投，三星、SK 海力士等芯片厂商参与。预计 Q2 营收环比翻倍至 109 亿美元，将迎来首个盈利季度。

然而，模型发布当日即引发「蒸馏」质疑。多位开发者通过裸 API 调用测试发现，Claude Opus 4.8 在被追问身份时会自称是「通义千问」或「DeepSeek」。尽管官方客户端因系统提示词约束较难复现，但此现象与 Anthropic 此前指责国内公司「工业蒸馏」的立场形成强烈反差，社交媒体上「双标」质疑迅速升温。截至发稿，Anthropic 尚未正式回应。

阶跃星辰开源 Step 3.7 Flash：专攻生产级 Agent，性能对标 Claude

5 月 29 日，阶跃星辰发布并开源 Step 3.7 Flash。该模型采用稀疏 MoE 架构，总参数量 196B（含 1.8B 视觉编码器），激活参数 11B，推理速度达 400 tokens/s，支持 256k 上下文。在 SWE-bench Pro 测试中得分为 56.26%。开启 Advisor Mode 后，其编程性能可达 Claude Opus 4.6 的 97%，而单任务成本仅为后者的九分之一。

与 Gemini 3.5 Flash 和 Claude Haiku 的闭源路线不同，阶跃选择完全开源模型权重。Step 3.7 Flash 原生兼容 Claude Code、OpenClaw 等主流 Agent 框架及 MCP 协议，表现稳定性显著提升。目前，该模型已预装在 OPPO、荣耀等品牌手机中，总装机量超 4200 万台。

小米 MiMo-V2.5 API 永久降价：最高降幅 99%，国产价格战升级

5 月 27 日，小米 MiMo 宣布 MiMo-V2.5 全系列 API 永久降价，最高降幅达 99%，并取消上下文长度分级加价策略。其中，MiMo-V2.5 Pro 缓存命中价格降至 0.025 元/百万 token，输出价格降至 6 元/百万 token。已购 Token Plan 用户的额度直接重置为原来的 5 至 8 倍，历史消耗额度全部返还。

继 DeepSeek V4-Pro 降价后，小米再次将降幅推至极致。小米 MiMo 负责人罗福莉表示，原始推理成本远低于行业平均，可维持收支平衡。不过也有开发者指出，虽然账户 Credit 余额大幅增加，但实际扣除倍率同步提高，对未能有效利用缓存的用户而言，实际成本降幅可能不如标价显著。

端侧与长文本新突破：面壁 MiniCPM5-1B 与昆仑万维 SkyClaw 发布

5 月 26 日，面壁智能联合清华大学开源 MiniCPM5-1B。该模型仅 1B 参数，却在 AA-Index 小尺寸模型榜单中夺冠，得分超越 Qwen3.5-2B。INT4 量化后权重仅 0.5GB，可直接在手机和浏览器运行。这是全球首个由自研 AI 训练框架 ForgeTrain 完成预训练的基座模型，权重、数据集及部署方案全部开源。

同日，昆仑万维发布 SkyClaw-v1.0，定位为百万 token 上下文的 Agent 模型，重点优化复杂工具调用与代码生成。其在 OpenClaw 任务上的表现接近 DeepSeek V4 Pro 和 Claude Opus 4.6，但定价不到同级一半。两款模型分别刷新了端侧能力上限和长文本 Agent 工作流的国产选项。

Agent 基础设施完善：阿里全托管平台上线，腾讯推出六层记忆框架

5 月 28 日，阿里 Qoder 推出 Cloud Agents 全托管平台，将推理引擎、运行沙箱及长程会话封装为 API，可将企业 Agent 部署周期从一个月压缩至一天。该平台支持自动扩缩容，全程可追踪审计。次日，阿里云开源百炼 CLI，原生支持 Claude Code 等主流框架。

同周，腾讯混元推出 Hy-Memory 记忆插件。该框架将记忆解耦为原始痕迹、原子事实、身份画像等六个层级，使记忆数量降低 70% 以上，单条信息密度提升 45%，Token 消耗降低 35%。三款工具分别补强了 Agent 的运行、接入和记忆环节。

SpaceX 入局 API 市场：grok-build-0.1 定价极低，马斯克澄清算力合约

5 月 29 日，SpaceX 旗下 AI 部门开放 grok-build-0.1 API 公测。其输入定价为 1 美元/百万 token，仅为 Claude Opus 4.8 的五分之一，是目前主流编程 Agent 模型中定价最低的一款。该模型支持 256k 上下文及多子 Agent 并行调度。

此外，马斯克澄清 SpaceX 与 Anthropic 的算力合作仅为 180 天租约加 90 天互裁条款，并非外界理解的多年长约。这与 SpaceX S-1 招股书中「支付至 2029 年」的描述存在矛盾。若按马斯克说法，Anthropic 的核心算力来源可能在半年内面临重新谈判。

GPT-5.6 疑似泄露：上下文窗口扩至 150 万，6 月发布概率极高

开发者在 Codex 后端日志中发现代号 iris-alpha 的未官宣模型 GPT-5.6。其上下文窗口达 150 万 token，较 GPT-5.5 扩大约 43%。压力测试显示，即便输入超过 105 万 token，模型仍保持较高处理精度。日志中还出现了 ember-alpha 等其他代号，暗示 OpenAI 正在测试多个变体。

预测市场显示，GPT-5.6 在 6 月底前发布的概率高达 80% 至 89%。据报道，OpenAI 可能采用「双版本」策略，标准版侧重多步推理，Pro 版强化 Agent 工作流。目前相关信息仍属泄露阶段，具体参数待定。

OpenAI Codex 登陆 Windows：支持远程操控，Goal 模式正式转正

5 月 29 日，Codex 电脑操控功能正式支持 Windows 系统。开发者可通过 @computer 指令让 Codex 操控桌面应用、调试界面及测试流程。ChatGPT 手机端现已支持连接 Windows 设备远程发起任务，实现跨端协同开发。

今年 Codex 在 Windows 生态扩展迅速，继 5 月推出原生版后，如今补齐了电脑操控能力。同时，Codex 的 Goal 模式结束实验阶段正式转正，允许开发者设定长期目标，由模型自主执行数小时甚至数天。目前 Codex 周活用户已超 400 万。

DeepMind AlphaProof Nexus：一周攻克 9 道数学难题，成本仅需数百美元

5 月 25 日，Google DeepMind 公布 AlphaProof Nexus 系统。该系统由 Gemini 3.1 Pro 与形式化验证语言 Lean 驱动，在一周内自主攻克了 9 道 Erdős 开放难题，其中 2 道已困扰数学界 56 年，同时还证明了 OEIS 数据库中的 44 个开放猜想。每道题的推理成本仅几百美元。

与以往不同，AlphaProof Nexus 生成的是机器可验证的形式化证明，无需人类数学家逐行审阅。系统采用进化搜索维护候选证明种群，并调用强化学习证明器处理子目标。DeepMind CEO 虽称其「非 AGI」，但该系统已从奥赛水平跨越至解决研究级开放问题。相关代码已在 GitHub 开源。

Meta AI 推出付费订阅 Meta One：低价策略试水商业模式

5 月 27 日，Meta 首次为 AI 聊天机器人推出付费订阅计划 Meta One。其中 Plus 档售价 7.99 美元/月，面向高频图文生成用户；Premium 档售价 19.99 美元/月，解锁更多算力与深度思考模式。该计划将于 6 月起在新加坡等地测试，免费版继续保留。

Meta One Plus 的价格仅为 ChatGPT Plus 的 40%，显示出明显的低价抢市意图。尽管消息发布后 Meta 股价上涨，但订阅收入在其整体营收中占比极小。此次举措更像是一次商业模式试水，旨在验证用户为 AI 功能付费的意愿。

【声明】内容源于网络

AI信息Gap

各类跨境出海行业相关资讯

内容 947

粉丝 0

AI信息Gap 各类跨境出海行业相关资讯

总阅读71.9k

粉丝0

内容947