本周 AI 快讯 | 1 分钟速览
01 Anthropic 发布 Claude Opus 4.8 并完成 650 亿融资,同日被曝蒸馏国产模型:SWE-bench Pro 成绩跃升至 69.2%,领先 GPT-5.5 超 10 个百分点;投后估值 9650 亿美元首超 OpenAI;多位用户通过 API 发现模型会自称「千问」或「DeepSeek」,与 Anthropic 此前反蒸馏立场矛盾。
02 阶跃星辰开源 Step 3.7 Flash,400 tokens/s 专攻生产级 Agent:采用稀疏 MoE 架构,总参 196B+1.8B(ViT),激活 11B;SWE-bench Pro 得分 56.26%,开启 Advisor Mode 可达 Claude Opus 4.6 编程性能的 97%,成本仅九分之一。
03 小米 MiMo-V2.5 系列 API 永久降价最高 99%,国产价格战持续升级:缓存命中低至 0.025 元/百万 token,不再区分上下文长度;已购 Token Plan 用户额度重置为 5 至 8 倍。
04 面壁 MiniCPM5-1B 开源,1B 参数在 AA-Index 超越所有 2B 模型:INT4 量化后仅 0.5GB,可在手机和浏览器上运行;同周昆仑万维发布 SkyClaw-v1.0 百万上下文 Agent 模型,定价低于同级一半。
05 阿里「Qoder Cloud Agents」+ 百炼 CLI 开源,腾讯「Hy-Memory」同周上线:阿里 Qoder 将 Agent 上线周期从一个月压缩到一天;阿里云百炼 CLI 开源,原生支持 Claude Code 等主流框架;腾讯混元推出六层记忆框架 Hy-Memory,Token 消耗降低 35%。
06 SpaceX grok-build-0.1 API 公测 1 美元入场,马斯克澄清 Anthropic 算力合作仅 6 个月:grok-build-0.1 输入 1 美元/百万 token,仅为 Claude Opus 4.8 的五分之一;马斯克澄清 SpaceX 算力合作为 180 天租约加 90 天互裁条款,与 S-1 招股书写的「至 2029 年」矛盾。
07 GPT-5.6 泄露,代号 iris-alpha,上下文窗口扩至 150 万 token:开发者在 Codex 后端日志中发现未官宣模型,比 GPT-5.5 上下文扩大 43%;多个预测平台定价 6 月发布概率 80% 至 89%。
08 OpenAI Codex 电脑操控登陆 Windows,手机端可远程发起任务:此前仅限 Mac,现在 Windows 用户也能让 Codex 操控桌面应用、调试界面、测试流程;Goal 模式同步转正,开发者可设定目标让 Codex 自主执行数小时。
09 DeepMind AlphaProof Nexus 一周攻克 9 道 Erdős 难题,每题仅花几百美元:Gemini 3.1 Pro + Lean 验证器组合,每题推理成本仅几百美元;还证明了 OEIS 数据库中 44 个开放猜想,代码已开源。
10 Meta AI 推出付费订阅 Meta One,7.99 美元/月起步:Meta One Plus 7.99 美元,Premium 19.99 美元,6 月在新加坡等地开放测试;免费版保留,Plus 价格仅 ChatGPT Plus 的 40%。
Anthropic 发布 Claude Opus 4.8:融资估值首超 OpenAI,深陷蒸馏争议
5 月 28 日,Anthropic 发布 Claude Opus 4.8,距上代仅 42 天,创下系列最短迭代间隔。该模型在 SWE-bench Pro 基准测试中从 64.3% 跃升至 69.2%,领先 GPT-5.5 超过 10 个百分点;在 Artificial Analysis Intelligence Index 得分 61.4 首次登顶。新增 Dynamic Workflows 研究预览功能,支持协调数百个子 Agent 并行执行复杂任务,并推出 2.5 倍快速模式。
同日,Anthropic 完成 650 亿美元 H 轮融资,投后估值达 9650 亿美元,首次超越 OpenAI,成为全球最贵 AI 初创公司。本轮由 Altimeter Capital、红杉、Dragoneer 联合领投,三星、SK 海力士等芯片厂商参与。预计 Q2 营收环比翻倍至 109 亿美元,将迎来首个盈利季度。
然而,模型发布当日即引发「蒸馏」质疑。多位开发者通过裸 API 调用测试发现,Claude Opus 4.8 在被追问身份时会自称是「通义千问」或「DeepSeek」。尽管官方客户端因系统提示词约束较难复现,但此现象与 Anthropic 此前指责国内公司「工业蒸馏」的立场形成强烈反差,社交媒体上「双标」质疑迅速升温。截至发稿,Anthropic 尚未正式回应。
阶跃星辰开源 Step 3.7 Flash:专攻生产级 Agent,性能对标 Claude
5 月 29 日,阶跃星辰发布并开源 Step 3.7 Flash。该模型采用稀疏 MoE 架构,总参数量 196B(含 1.8B 视觉编码器),激活参数 11B,推理速度达 400 tokens/s,支持 256k 上下文。在 SWE-bench Pro 测试中得分为 56.26%。开启 Advisor Mode 后,其编程性能可达 Claude Opus 4.6 的 97%,而单任务成本仅为后者的九分之一。
与 Gemini 3.5 Flash 和 Claude Haiku 的闭源路线不同,阶跃选择完全开源模型权重。Step 3.7 Flash 原生兼容 Claude Code、OpenClaw 等主流 Agent 框架及 MCP 协议,表现稳定性显著提升。目前,该模型已预装在 OPPO、荣耀等品牌手机中,总装机量超 4200 万台。
小米 MiMo-V2.5 API 永久降价:最高降幅 99%,国产价格战升级
5 月 27 日,小米 MiMo 宣布 MiMo-V2.5 全系列 API 永久降价,最高降幅达 99%,并取消上下文长度分级加价策略。其中,MiMo-V2.5 Pro 缓存命中价格降至 0.025 元/百万 token,输出价格降至 6 元/百万 token。已购 Token Plan 用户的额度直接重置为原来的 5 至 8 倍,历史消耗额度全部返还。
继 DeepSeek V4-Pro 降价后,小米再次将降幅推至极致。小米 MiMo 负责人罗福莉表示,原始推理成本远低于行业平均,可维持收支平衡。不过也有开发者指出,虽然账户 Credit 余额大幅增加,但实际扣除倍率同步提高,对未能有效利用缓存的用户而言,实际成本降幅可能不如标价显著。
端侧与长文本新突破:面壁 MiniCPM5-1B 与昆仑万维 SkyClaw 发布
5 月 26 日,面壁智能联合清华大学开源 MiniCPM5-1B。该模型仅 1B 参数,却在 AA-Index 小尺寸模型榜单中夺冠,得分超越 Qwen3.5-2B。INT4 量化后权重仅 0.5GB,可直接在手机和浏览器运行。这是全球首个由自研 AI 训练框架 ForgeTrain 完成预训练的基座模型,权重、数据集及部署方案全部开源。
同日,昆仑万维发布 SkyClaw-v1.0,定位为百万 token 上下文的 Agent 模型,重点优化复杂工具调用与代码生成。其在 OpenClaw 任务上的表现接近 DeepSeek V4 Pro 和 Claude Opus 4.6,但定价不到同级一半。两款模型分别刷新了端侧能力上限和长文本 Agent 工作流的国产选项。
Agent 基础设施完善:阿里全托管平台上线,腾讯推出六层记忆框架
5 月 28 日,阿里 Qoder 推出 Cloud Agents 全托管平台,将推理引擎、运行沙箱及长程会话封装为 API,可将企业 Agent 部署周期从一个月压缩至一天。该平台支持自动扩缩容,全程可追踪审计。次日,阿里云开源百炼 CLI,原生支持 Claude Code 等主流框架。
同周,腾讯混元推出 Hy-Memory 记忆插件。该框架将记忆解耦为原始痕迹、原子事实、身份画像等六个层级,使记忆数量降低 70% 以上,单条信息密度提升 45%,Token 消耗降低 35%。三款工具分别补强了 Agent 的运行、接入和记忆环节。
SpaceX 入局 API 市场:grok-build-0.1 定价极低,马斯克澄清算力合约
5 月 29 日,SpaceX 旗下 AI 部门开放 grok-build-0.1 API 公测。其输入定价为 1 美元/百万 token,仅为 Claude Opus 4.8 的五分之一,是目前主流编程 Agent 模型中定价最低的一款。该模型支持 256k 上下文及多子 Agent 并行调度。
此外,马斯克澄清 SpaceX 与 Anthropic 的算力合作仅为 180 天租约加 90 天互裁条款,并非外界理解的多年长约。这与 SpaceX S-1 招股书中「支付至 2029 年」的描述存在矛盾。若按马斯克说法,Anthropic 的核心算力来源可能在半年内面临重新谈判。
GPT-5.6 疑似泄露:上下文窗口扩至 150 万,6 月发布概率极高
开发者在 Codex 后端日志中发现代号 iris-alpha 的未官宣模型 GPT-5.6。其上下文窗口达 150 万 token,较 GPT-5.5 扩大约 43%。压力测试显示,即便输入超过 105 万 token,模型仍保持较高处理精度。日志中还出现了 ember-alpha 等其他代号,暗示 OpenAI 正在测试多个变体。
预测市场显示,GPT-5.6 在 6 月底前发布的概率高达 80% 至 89%。据报道,OpenAI 可能采用「双版本」策略,标准版侧重多步推理,Pro 版强化 Agent 工作流。目前相关信息仍属泄露阶段,具体参数待定。
OpenAI Codex 登陆 Windows:支持远程操控,Goal 模式正式转正
5 月 29 日,Codex 电脑操控功能正式支持 Windows 系统。开发者可通过 @computer 指令让 Codex 操控桌面应用、调试界面及测试流程。ChatGPT 手机端现已支持连接 Windows 设备远程发起任务,实现跨端协同开发。
今年 Codex 在 Windows 生态扩展迅速,继 5 月推出原生版后,如今补齐了电脑操控能力。同时,Codex 的 Goal 模式结束实验阶段正式转正,允许开发者设定长期目标,由模型自主执行数小时甚至数天。目前 Codex 周活用户已超 400 万。
DeepMind AlphaProof Nexus:一周攻克 9 道数学难题,成本仅需数百美元
5 月 25 日,Google DeepMind 公布 AlphaProof Nexus 系统。该系统由 Gemini 3.1 Pro 与形式化验证语言 Lean 驱动,在一周内自主攻克了 9 道 Erdős 开放难题,其中 2 道已困扰数学界 56 年,同时还证明了 OEIS 数据库中的 44 个开放猜想。每道题的推理成本仅几百美元。
与以往不同,AlphaProof Nexus 生成的是机器可验证的形式化证明,无需人类数学家逐行审阅。系统采用进化搜索维护候选证明种群,并调用强化学习证明器处理子目标。DeepMind CEO 虽称其「非 AGI」,但该系统已从奥赛水平跨越至解决研究级开放问题。相关代码已在 GitHub 开源。
Meta AI 推出付费订阅 Meta One:低价策略试水商业模式
5 月 27 日,Meta 首次为 AI 聊天机器人推出付费订阅计划 Meta One。其中 Plus 档售价 7.99 美元/月,面向高频图文生成用户;Premium 档售价 19.99 美元/月,解锁更多算力与深度思考模式。该计划将于 6 月起在新加坡等地测试,免费版继续保留。
Meta One Plus 的价格仅为 ChatGPT Plus 的 40%,显示出明显的低价抢市意图。尽管消息发布后 Meta 股价上涨,但订阅收入在其整体营收中占比极小。此次举措更像是一次商业模式试水,旨在验证用户为 AI 功能付费的意愿。

