100万亿Token揭示今年AI趋势！硅谷的这份报告火了- 大数跨境

量子位

2025-12-08

导读：小模型正在失宠，中型模型正在上位

一水发自凹非寺
量子位 | 公众号 QbitAI

硅谷联合发布的《State of AI：An Empirical 100 Trillion Token Study with OpenRouter》报告引发广泛关注。该报告由OpenRouter与a16z联合出品，基于2024年11月至2025年11月间OpenRouter平台上300多个模型（涵盖GPT系列、Claude、Gemini、DeepSeek、Qwen、Kimi等主流开源与闭源模型）累计约100万亿Token的真实调用数据，摒弃传统基准测试，转而以Token消耗量为标尺，揭示AI产业真实发展轨迹。

核心发现包括：

开源模型使用量预计在2025年底达整体用量的约1/3，与闭源模型形成互补关系而非替代；
中国开源模型周Token用量占比从1.2%跃升至峰值30%，平均占比13%，成为全球开源增长主要驱动力；
模型功能正加速从“语言生成系统”向“推理执行系统”演进，推理类Token占比已超50%；
编程与角色扮演是当前两大核心使用场景，其中编程查询用量从年初11%升至超50%；
用户留存呈现“水晶鞋效应”：模型若在发布初期精准匹配某类高价值需求（如工具调用、复杂推理），即可锁定强粘性用户群体；
模型价格敏感度低于预期——价格下降10%，仅带动使用量增长0.5%–0.7%。

开源不再是闭源平替，中国力量上大分

开源模型已脱离“闭源替代品”的初级定位，转向承担特定场景首选角色，开发者普遍同步采用开源与闭源模型。随着DeepSeek V3、Kimi K2等模型上线，开源整体用量持续攀升，预计2025年底将稳定在约1/3水平。

中国开源模型成为关键增量来源：其周用量占比最高达30%，平均达13%，与全球其他地区开源模型13.7%的平均份额基本持平。市场结构亦发生显著变化——2025年中为分水岭，上半年DeepSeek V3与R1合计占开源Token超50%，下半年MiniMax M2、Kimi K2、GPT-OSS等密集发布，推动市场走向分散化，预计年底无单一模型Token占比超25%，5–7个主力模型将共同主导格局。

模型规模偏好同步演变。报告按参数量将模型分为三类：大型（≥70B）、中型（15B–70B）、小型（＜15B）。数据显示，小模型热度明显衰退，中型与大型模型成为主流选择。2024年11月Qwen2.5-Coder-32B发布后，Mistral Small 3、GPT-OSS 20B等中型模型加速涌现，推动该细分市场成为新竞技场。报告指出：“小模型主导开源生态系统的时代可能已经过去。当前市场正分化为两类：用户倾向新兴强大中型模型，或整合至最强大型模型。”

推理模型成新范式

语言模型正经历本质升级：从对话系统转向推理与执行系统。年初推理类Token可忽略不计，当前已超总用量50%。Grok Code Fast 1目前占据推理流量最大份额，领先Gemini 2.5 Pro与Gemini 2.5 Flash；而DeepSeek R1、Qwen3亦稳居前列。报告明确指出：“推理模型正在成为真实工作负载的默认选择。”

工具调用能力支持范围快速扩大。年初仅GPT-4o-mini、Claude 3.5/3.7等少数模型支持，至年中已有多数主流模型加入；9月底起，Claude 4.5 Sonnet、Grok Code Fast、GLM 4.5等新版本迅速提升份额。报告警示：“工具使用在高价值工作流中呈上升趋势。缺乏可靠工具调用能力的模型，将在企业采用及编排环境中面临落后风险。”

编程和角色扮演成AI主要使用方式

AI使用方式呈现三大趋势：

任务复杂度提升：从生成短文转向分析整份文档、代码库或长对话，提炼关键信息；
输入输出“加重”：提示词长度平均增长约4倍，单次任务Token消耗增加近3倍，反映对上下文依赖增强；
模型向Agent演进：用户设定目标后，模型自主规划步骤、调用搜索/代码执行等工具、维持状态完成全流程任务。

编程是增长最稳定的类别，查询用量由年初11%升至超50%。Claude系列长期主导编程场景，多数时段占比超60%；但2025年11月其份额首次跌破60%，同期OpenAI份额由2%升至约8%，谷歌稳定在15%左右，Qwen、Mistral等开源模型亦稳步提升。报告特别指出：“MiniMax已成为快速崛起的新秀，近几周取得显著增长。”

角色扮演与编程并驾齐驱，在开源模型中使用量占比达52%。DeepSeek流量中逾2/3为角色扮演与闲聊，凸显其在消费端的高用户粘性。

主流模型都有自己的打开方式

各主流模型呈现差异化应用场景：

Anthropic：超80%流量集中于编程与技术任务，是公认的“程序员首选”；
Google：用途广泛，覆盖法律、科学、技术及常识性查询，体现“全才”定位；
xAI：聚焦编程、角色扮演与学术应用，11月下旬相关流量显著增长；
OpenAI：重心从娱乐休闲逐步转向编程与技术类任务；
Qwen：重点发力编程，角色扮演与科学类任务随时间波动。

编程正成为各大模型竞争的核心战场。

用户留存呈现“水晶鞋效应”

报告提出“水晶鞋效应”：用户普遍快速流失，但每代前沿模型发布时，均会精准吸引一批“天选用户”——其需求与模型新能力高度契合，一旦建立使用习惯便极难迁移。例如Claude 4 Sonnet（5月发布）与Gemini 2.5 Pro（6月发布），凭借工具调用与推理能力突破，5个月后用户留存率仍高达40%。这表明，“快”有时比“好”更具战略价值：首个解决关键痛点的模型，即使后续被全面超越，也能依托早期用户习惯与系统集成守住基本盘。

典型模式包括：

成功锁定型（如Claude、GPT-4o Mini）：发布即捕获高粘性核心用户；
从未合脚型（如Gemini 2.0 Flash）：缺乏突破性能力，用户留存低迷；
回旋镖效应型（如DeepSeek）：用户先离开后因性价比或特定能力优势回归。

该效应窗口期极短，仅存在于模型刚发布、被视为“最前沿”的阶段；一旦竞品能力追平，新用户获取难度陡增。

其他重要观察：

亚洲地区付费使用量占比从13%升至31%，AI已非硅谷独角戏；
北美仍为最大市场，但份额已不足50%；
英语占比82%，简体中文以近5%位居第二；
价格下降对使用量拉动有限，符合“杰文斯悖论”——低价促发更频繁、更长上下文、更广场景调用，总Token与总支出未必降低。

需注意报告局限性：OpenRouter数据主要反映开发者API调用行为，未覆盖App/Web端直连流量（如ChatGPT官方客户端）；且平台定价策略可能影响模型选用偏好，数据未必完全等同于真实用户偏好。尽管如此，该报告提供了以真实使用量为锚点的全新产业观察视角，具备重要参考价值。

报告地址：
https://openrouter.ai/state-of-ai

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14840

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读148.2k

粉丝0

内容14.8k

100万亿Token揭示今年AI趋势！硅谷的这份报告火了