大数跨境

AI前沿资讯 6/5:四巨头押注Agent,Token成本亮红灯

AI前沿资讯 6/5:四巨头押注Agent,Token成本亮红灯 创见AI实验室
2026-06-05
1
导读:Agent 越能干,Token 消耗越恐怖——这是 2026 年 AI 行业最需要解决的结构性矛盾。


2026 年 6 月 5 日,国内国外 AI 圈在同一天炸了 4 颗雷。

早上 9 点腾讯云 AI 产业应用大会开场,WorkBuddy 3 个月迭代 43 版、Hunyuan3 Preview 把首次响应砍掉 54%;几乎同时,华为云 INSPIRE 创想者大会在上海宣布 10 万卡级 AICS 灵衢智算集群、PB 级 Agentic 记忆存储、千卡每秒 500 万 Tokens——两家巨头隔空"撞题",全部押在 Agent。

再过几小时,旧金山传来 Anthropic 选定摩根士丹利 + 高盛主导 IPO 的消息,9650 亿美元估值超越 OpenAI;而 NVIDIA 在台北 GTC 推出首个"Agent 专用"推理模型 Nemotron 3 Ultra;Uber 4 个月烧光全年 AI 预算的账单又把"Agent 成本"摆上桌面。

今天就按主线把这 12 条新闻梳一遍。

视频简报



今日主线:Agent 产品化日,巨头集体出手

巨头
切入点
关键产品
腾讯
场景入口
WorkBuddy、CodeBuddy、QClaw、ima、元宝 + 23 家生态联盟
华为云
基础设施
AICS 灵衢、AMS 记忆存储、CCE 通智调度、AgentSphere 安全运行时
NVIDIA
推理效率
Nemotron 3 Ultra(550B/55B MoE)+ Vera CPU + Blackwell B200
Apple(预告)
用户触达
iOS 27 Siri 2.0 系统级 Agent + Gemini 深度合作

四家从不同维度切入,指向同一结论:Agent 已经从"概念共识"变成"产品矩阵"

但 Uber 的 Token 账单像一盆冷水浇下来——Claude Code / Cursor 这类 Agent 编码工具让单名工程师月均 API 成本冲到 2000 美元,4 个月烧光全年预算。Agent 越能干,Token 消耗越恐怖——这是 2026 年 AI 行业最需要解决的结构性矛盾。


一、腾讯发布"效率智能体工具集",覆盖 20+ 垂直场景 Agent

在 2026 腾讯云 AI 产业应用大会上,腾讯系统发布"效率智能体工具集",面向个人、职场、企业三大维度提供差异化智能体方案。

个人端:QClaw 首创"微信直连"模式,打通腾讯文档/会议/邮箱;ima 支持创建专属 Agent + 记忆系统;元宝联合 QQ 浏览器推出行业首个高考咨询师 Agent。

职场端:"Buddy"家族——WorkBuddy(3 个月迭代 43 版,按 DAU 计国内最受欢迎效率智能体)、CodeBuddy(覆盖编码/评审/测试/运维全流程)、Miora & Ardot(创意设计场景)。

企业端:WorkBuddy 企业版发布 7×24 专家数字员工,Agent Suite 套件通过 OneID 打通文档/网盘/乐享,ClawPro 与 ADP 同步升级 4.0。

底层能力:Hy3 Preview 模型使 WorkBuddy 首次响应提速 54%、任务完成时间缩短 47%;TokenHub 推理算力利用率提升 40%;SkillHub 已沉淀超 7 万个 skill。腾讯还联合 DeepSeek、KIMI、MiniMax 等 23 家伙伴启动"Buddy AI 生态共创计划"。

为什么值得关注:这是腾讯首次将散落的 AI 产品线系统化打包为"智能体工具集"——从单点工具到 Agent 矩阵,标志着国内互联网巨头正式从"做模型"切换到"做 Agent 生态"。WorkBuddy 3 个月 43 版迭代的节奏,也印证了 Agent 产品的竞争已经进入"周级迭代"阶段。

来源:腾讯新闻 / 环球网 / 经济观察网

二、华为云 INSPIRE 大会发布系列 Agentic AI 新品,定义"Agentic Infra 新范式"

华为云 INSPIRE 创想者大会在上海开幕,CEO 周跃峰提出"Agentic Infra 新范式 = 高效 Token 工厂 + 持续学习 + 通智一体化调度 + 安全自治",发布四大 Agentic Infra 新品:

产品
关键指标
AICS 灵衢智算集群
10 万卡级、200 EFLOPS、千卡每秒 500 万 Tokens、时延 10ms 以内
AMS Agentic 记忆存储
NPU 直通 CMS 硬件、PB 级记忆空间、KV Cache 分层池化
CCE VolcanoNext 通智融合调度
训推共池 + 碎片整合、资源利用率提升 30%+
AgentSphere 安全自治运行环境
100ms 极速启动、每分钟十万级批创能力

同时发布 ModelArts Next 模型训推平台(RL 强化学习服务、机密推理、模型路由、15 款 SOTA 模型 Day 0 上线)和全球首个全流程具身智能开发平台 CloudRobo。值得一提的是,ModelArts 已接入 DeepSeek、Kimi、智谱 GLM 等主流模型。

为什么值得关注:华为云把"Token 工厂"定义为 Agentic 时代的核心基础设施——千卡每秒 500 万 Tokens 的吞吐指标直指 Agent 规模化运行的算力瓶颈。而 Agentic 记忆存储解决的是 Agent"失忆"痛点,这是行业少有的从硬件层面专门为 Agent 长程任务设计的方案。

来源:智东西 / 科创板日报 / 网易 / 光明网 / 快科技

三、Anthropic 选定摩根士丹利和高盛主导 IPO,估值 9650 亿美元

Anthropic 已选定摩根士丹利和高盛集团主导其 IPO 发行,摩根大通参与承销,计划最快于今年 10 月上市。该公司已于 6 月 1 日秘密向 SEC 递交 S-1 注册声明。

Anthropic 5 月底完成 650 亿美元 H 轮融资,投后估值 9650 亿美元,超越 OpenAI 的 8520 亿美元成为全球估值最高 AI 公司。其年化营收从 2025 年底的 90 亿美元飙升至本月预计 500 亿美元,Q2 营收达 109 亿美元、运营利润 5.59 亿美元——成为首家实现盈利的头部 AI 实验室。联合总裁 Daniela Amodei 在彭博科技大会上表示,AI 模型训练是"极度资本密集型业务",公开市场"非常适合"为此融资。

为什么值得关注:Anthropic 抢在 OpenAI 之前选定投行并递交 S-1,AI 行业从"技术竞赛"正式进入"资本化竞赛"阶段。9650 亿美元估值意味着上市后很可能成为人类历史上最快突破万亿美元市值的公司。而其盈利结构也值得细看——Claude Code 年化 25 亿美元、API 收入 38 亿美元反超 OpenAI 的 18 亿,B 端定价权才是真正的护城河

来源:新浪财经 / 手机新浪网 / 第一财经 / OFweek

四、Anthropic 发布"When AI Builds Itself",呼吁全球放缓前沿 AI 研发

Anthropic 发布博客长文"When AI Builds Itself",首次系统披露递归自我改进(RSI)内部数据:

指标
数值
Claude 编写 Anthropic 代码库合并代码占比
超过 80%
(一年前仅个位数)
Claude Mythos Preview 模型优化实验加速比
约 52 倍
(人类仅 4 倍)
开放式工程任务成功率
从半年前的 26% 提升至 76%
AI 任务完成时长翻倍周期
从每 7 个月缩短到 每 4 个月

基于这些数据,Anthropic 呼吁全球顶级 AI 实验室达成"可核查的协议",在特定条件下放缓或暂停前沿 AI 开发。但这一呼吁遭到激烈批评——David Sacks 直指其为"监管俘获"策略,HN 社区认为安全叙事与 IPO 造势的时机过于巧合。

为什么值得关注:当一家正在冲刺史上最大 AI IPO 的公司,同时呼吁全行业"踩刹车",这本身就是 2026 年 AI 行业最耐人寻味的张力。80% 的合并代码由 AI 编写是硬数据,但"放缓"与"冲刺上市"的并行操作,让安全叙事的可信度打了折扣。真正的信号是:递归自我改进已经从理论概念变成可量化的工程现实

来源:DOIT / 51CTO / 第一财经 / coze.cn

五、Apple WWDC 2026 前瞻:Siri 2.0 重构为系统级 AI Agent,与 Google Gemini 深度合作

WWDC 2026 将于 6 月 8 日在 Apple Park 开幕,主题"All Systems Glow"。核心看点是 iOS 27 中 Siri 的全面重构:从语音助手升级为系统级 AI Agent,支持多轮连续对话、跨应用联动、图文理解;Siri 将独立为系统应用并在灵动岛增设快捷入口。

据 The Information 报道,Apple 已与 Google 达成协议,复杂请求由 Google Gemini 模型在 Nvidia Blackwell B200 芯片上处理,通过 Nvidia 硬件级机密计算保护隐私

此外,iOS 27 将 Apple Intelligence 从附加功能升级为系统底层智能中枢,Safari 新增 AI 内容总结,相机加入 Visual Intelligence(扫描食品标签同步 Health App 等),Siri Extensions 开放第三方 AI 工具接入。这也很可能是 Tim Cook 作为 CEO 主持的最后一届 WWDC

为什么值得关注:Apple 选择与 Google + Nvidia 合作处理复杂 AI 请求,是其在 AI 时代最重要的战略转向——从"全自研"转向"端侧自研 + 云端合作"的混合模式。Siri 从语音助手变为系统级 Agent,意味着全球 20 亿 + iPhone 用户的 AI 交互方式将发生根本变化。而第三方 AI 模型接入 Siri,则暗示 Apple 正在从"AI 功能提供者"转变为"AI 平台分发者"

来源:新浪科技 / Gizbot / Latestly / 网易

六、NVIDIA Vera Rubin 全面量产,HBM4 三大供应商获认证

黄仁勋在访韩期间确认,SK 海力士、三星电子、美光科技三家已全部通过 HBM4 供货资质认证,正全速量产以支撑 Vera Rubin 平台。Vera Rubin 现已进入全面量产阶段,整机产品将于今年 Q3 正式出货。

同时,NVIDIA 向 Anthropic、OpenAI、SpaceX 和 Oracle 首批交付了 Vera CPU——这是 NVIDIA 首款完全自研的数据中心 CPU,配备 88 颗定制"Olympus"核心,专为 Agent 工作负载设计。黄仁勋强调:"过去我们为人类创造 CPU,人类只有十亿;未来会有数十亿个 Agent。"

此外,SemiAnalysis 报告显示 Rubin NVL72 机架的 SOCAMM DRAM 容量可能从 55TB 降至 28TB,单机架成本直降 80 万美元。

为什么值得关注:Vera CPU 的交付标志着 NVIDIA 从"GPU 公司"正式延伸为"全栈 AI 系统公司"——自研 CPU + GPU + 网络 + 软件,形成完整闭环。而黄仁勋那句"为数十亿 Agent 设计 CPU"揭示了 AI 基础设施的底层逻辑变化:算力的服务对象正在从人类请求转向 Agent 自主执行。HBM4 三大供应商齐获认证则意味着产能瓶颈有望缓解。

来源:智通财经 / 新浪财经 / TechFastForward / coze.cn

七、智谱拟科创板上市募资 150 亿元,MiniMax 同步启动回 A,大模型资本化加速

智谱 6 月 1 日在港交所公告科创板上市计划,拟募资 150 亿元(120 亿投向通用基座大模型,20 亿投向 MaaS 平台,10 亿补充流动资金),由国泰海通与中金联合保荐。MiniMax 也已于 5 月 29 日启动 A 股 IPO 辅导。两家公司均于 2026 年 1 月登陆港股,上市不足 5 个月即加速回 A

截至 6 月 4 日收盘,智谱市值约 6358 亿港元,MiniMax 约 2081 亿港元。值得注意的是,智谱 2025 年总收入 7.24 亿元,净亏损 47.18 亿元——150 亿募资额是年收入的 20 倍,是过去三年研发投入总和的数倍

为什么值得关注:"先港股后 A 股"已成为头部大模型企业的标准化路径,科创板"1+6"改革为未盈利 AI 企业扫清了制度障碍。但 150 亿募资 vs 7.24 亿收入 vs 47.18 亿亏损的巨大落差,揭示了一个残酷现实:当前大模型公司的商业模式,本质上是"用资本换算力,用算力换模型能力,用模型能力换未来收入"——盈利的故事要等到下一代模型才能讲完。

来源:网易 / 辽宁理财周刊 / 中国经营报 / 新浪财经 / 第一财经

八、TSMC 称 AI 芯片需求将长期供不应求,产能扩张"需要很长时间"

TSMC 董事长魏哲家在接受 The Verge 采访时表示,AI 驱动的半导体需求将持续超过可用产能,尽管公司正在大规模扩建。他特别提到美国亚利桑那州 1650 亿美元的扩建项目"需要非常长的时间"才能投产。

ARM CEO 雷内哈斯也指出,高端存储短缺是当前 AI 产业链最难攻克的产能瓶颈。与此同时,博通 CEO 陈福阳重申 2027 财年 AI 半导体营收将超 1000 亿美元,并称市场对 AI 基础设施的需求"几乎无法满足"。

为什么值得关注:TSMC 和博通的表态从产业链最上游证实了一个判断——AI 算力供给不足不是短期问题,而是结构性瓶颈。而美国本土产能扩张"需要很长时间"的坦率表态,也为全球 AI 产业的地缘政治风险敲响了警钟。当需求以指数级增长而供给以线性增长时,算力的分配权将成为下一个竞争焦点

来源:creati.ai / ai0.news / coze.cn

九、AI 领袖联署公开信,呼吁国会强制合成 DNA/RNA 筛查以防 AI 生物武器风险

Sam Altman、Dario Amodei、Mustafa Suleyman 和 Demis Hassabis 等 AI 行业领袖签署公开信,敦促美国国会立法要求合成 DNA/RNA 制造商筛查订单中的危险病原体序列,以限制 AI 驱动的生物武器风险。

这是继此前 OpenAI 和 Anthropic 支持 DNA 筛查行动后的又一次联合推动。与此同时,MIT Tech Review 报道联邦文件中 AI 生成内容占比从 1% 飙升至 18%,虚假引用已成常态问题。

为什么值得关注:四大 AI 公司一把手联名推动生物安全立法,在 AI 监管议题中极为罕见——说明行业对"AI 降低生物武器门槛"这一风险的判断已从学术讨论升级为政策行动。但也要注意:这类"安全共识"往往也会成为提高行业准入门槛的隐性工具

来源:creati.ai / ai0.news

十、NVIDIA 发布 Nemotron 3 Ultra:首个面向 Agent 的"推理效率型"开源模型

NVIDIA 在 GTC Taipei 发布 Nemotron 3 Ultra,550B 参数 / 55B 激活的 MoE 架构,Apache 2.0 开源。核心定位不是"刷榜大模型"而是"Agent 推理性价比"——推理速度比同级开源模型快 5 倍,Agent 任务完成成本低 30%,支持 100 万 Token 上下文窗口、多 Token 预测、原生工具调用和 JSON 输出。

黄仁勋的定位很明确:构建"模型 + 硬件 + 软件"的 Agent 推理闭环——Nemotron 3 Ultra 是推理引擎,Blackwell GPU + NVFP4 量化是算力底座,NIM 部署 + OpenShell 安全运行时是交付层。

为什么值得关注:NVIDIA 正在重新定义 Agent 时代的模型竞争维度——不是谁最聪明,而是谁的 Token 性价比最高。一个在聊天榜单上稍逊但在多步推理中又快又便宜的模型,比一个跑不起来的模型更有用。当 Uber 已因 Agent Token 消耗 4 个月烧光全年预算,"推理效率"已从技术指标变成商业指标。

来源:天宥数据 / 头条 / 跨国串门儿播客 / TechFastForward

十一、Uber 4 个月烧光全年 AI 预算,Agent 时代 Token 成本危机浮现

据 Bloomberg 报道,Uber 在 2026 年仅 4 个月就烧光了全年 AI 预算。原因是 Claude Code 和 Cursor 等 Agent 型编码工具的 Token 消耗远超预期:

指标
数值
全天候运行 AI Agent 的工程师占比
84%
AI 自主生成的代码占比
72%
单名工程师月均 API 调用成本
2000 美元
(传统 SaaS 订阅费的几十倍)

Uber COO 反思:"我们把生成式 AI 的计费逻辑,误当成了过去的软件采购模式。"Uber 紧急设置每人每月 1500 美元上限。沃尔玛也已限制内部 Agent 使用时长;字节跳动 2026 年 AI 资本开支从 1600 亿上调至 2000 亿,豆包日均 Token 消耗突破 120 万亿。

为什么值得关注:这是 Agent 规模化落地后最残酷的账单——SaaS 按月固定收费,AI 按 Token 实时计费,Agent 型工具消耗量是普通聊天的 30 倍。"用得起"和"算得过来"是两回事。当 Agent 越能干、Token 消耗越恐怖、商业化闭环越难闭合——这可能是 2026 年 AI 行业最需要解决的结构性矛盾。

来源:Bloomberg via 天宥数据 / 头条

十二、Gartner 发布中国五大科技趋势:Agent 生态、具身智能、AI 原生位列前三

Gartner 发布《不可不知的中国五大科技与创新趋势》报告,解读五大关键领域:

#
趋势
关键数据
1
AI 原生
2026 年预计 75% 新增风投流向 AI 原生企业
2
智能体驱动新生态
中国具有先发优势,国策目标 2030 年智能体应用普及率超 90%
3
智能体产出即服务(RaaS)
从按订阅收费到按效果付费的新计费模式
4
AI 隐私计算
预测到 2028 年 22% 网络攻击与生成式 AI 相关
5
具身智能
爆发式增长已成共识,人形与传统工业应用结合是方向

报告特别指出:中国 AI 更偏重本地部署、企业有较强工程师文化、商业变现节奏慢于海外但更强调 AI 主权与安全可控。

为什么值得关注:Gartner 这份报告用全球视角定位中国 AI 的独特路径——"工程师文化 + 本地部署 + AI 主权"的三角结构,解释了中国 AI 在应用层突飞猛进但商业变现节奏偏慢的原因。而 RaaS(按 Agent 效果付费)被列入核心趋势,意味着定价模式的变革正在从边缘走向主流。

来源:中新网 / 头条


主线观察:双轨竞赛

6 月 5 日可能是 AI 行业 Agent 产品化最具标志性的一天:腾讯和华为同日举办大会,不约而同地将 Agent 作为核心产品线发布;NVIDIA 推出首个"Agent 专用"推理模型;Apple 即将把 Siri 重构为系统级 Agent。四家公司从不同维度切入——腾讯做场景入口,华为做基础设施,NVIDIA 做推理效率,Apple 做用户触达——但指向同一个结论:Agent 已从概念共识变为产品矩阵。

然而,Uber 的 Token 账单是一盆冷水。当 Agent 真正跑起来,成本以 30 倍于传统 SaaS 的速度消耗,"用得起"和"算得过来"之间横亘着一道鸿沟。Anthropic 一边冲刺 9650 亿美元 IPO 一边呼吁全行业"踩刹车",则构成了另一个悖论:如果 AI 真的在加速自我改进,那放缓的呼吁只会让呼吁者领先更多

今天的信号很清晰:Agent 赛道已进入"同时比拼产品迭代速度和 Token 经济效率"的双轨竞争。谁能把 Agent 做得既聪明又便宜,谁就掌握了下一阶段的入场券。


写在最后

今天 12 条新闻里,腾讯华为的双重押注、Nemotron 3 Ultra 的"反内卷"定位、Uber 的烧钱账单,这三条最值得记进你的工作备忘。

你今天印象最深的是哪条?评论区聊聊。

【声明】内容源于网络
0
0
创见AI实验室
创见AI实验室,我们不只是介绍工具,我们共同创造工作方式的未来。
内容 147
粉丝 0
创见AI实验室 创见AI实验室,我们不只是介绍工具,我们共同创造工作方式的未来。
总阅读20
粉丝0
内容147