一水 发自 凹非寺
量子位 | 公众号 QbitAI
硅谷联合发布的《State of AI:An Empirical 100 Trillion Token Study with OpenRouter》报告引发广泛关注。该报告由OpenRouter与a16z联合出品,基于2024年11月至2025年11月间OpenRouter平台上300多个模型(涵盖GPT系列、Claude、Gemini、DeepSeek、Qwen、Kimi等主流开源与闭源模型)累计约100万亿Token的真实调用数据,摒弃传统基准测试,转而以Token消耗量为标尺,揭示AI产业真实发展轨迹。
核心发现包括:
- 开源模型使用量预计在2025年底达整体用量的约1/3,与闭源模型形成互补关系而非替代;
- 中国开源模型周Token用量占比从1.2%跃升至峰值30%,平均占比13%,成为全球开源增长主要驱动力;
- 模型功能正加速从“语言生成系统”向“推理执行系统”演进,推理类Token占比已超50%;
- 编程与角色扮演是当前两大核心使用场景,其中编程查询用量从年初11%升至超50%;
- 用户留存呈现“水晶鞋效应”:模型若在发布初期精准匹配某类高价值需求(如工具调用、复杂推理),即可锁定强粘性用户群体;
- 模型价格敏感度低于预期——价格下降10%,仅带动使用量增长0.5%–0.7%。
开源不再是闭源平替,中国力量上大分
开源模型已脱离“闭源替代品”的初级定位,转向承担特定场景首选角色,开发者普遍同步采用开源与闭源模型。随着DeepSeek V3、Kimi K2等模型上线,开源整体用量持续攀升,预计2025年底将稳定在约1/3水平。
中国开源模型成为关键增量来源:其周用量占比最高达30%,平均达13%,与全球其他地区开源模型13.7%的平均份额基本持平。市场结构亦发生显著变化——2025年中为分水岭,上半年DeepSeek V3与R1合计占开源Token超50%,下半年MiniMax M2、Kimi K2、GPT-OSS等密集发布,推动市场走向分散化,预计年底无单一模型Token占比超25%,5–7个主力模型将共同主导格局。
模型规模偏好同步演变。报告按参数量将模型分为三类:大型(≥70B)、中型(15B–70B)、小型(<15B)。数据显示,小模型热度明显衰退,中型与大型模型成为主流选择。2024年11月Qwen2.5-Coder-32B发布后,Mistral Small 3、GPT-OSS 20B等中型模型加速涌现,推动该细分市场成为新竞技场。报告指出:“小模型主导开源生态系统的时代可能已经过去。当前市场正分化为两类:用户倾向新兴强大中型模型,或整合至最强大型模型。”
推理模型成新范式
语言模型正经历本质升级:从对话系统转向推理与执行系统。年初推理类Token可忽略不计,当前已超总用量50%。Grok Code Fast 1目前占据推理流量最大份额,领先Gemini 2.5 Pro与Gemini 2.5 Flash;而DeepSeek R1、Qwen3亦稳居前列。报告明确指出:“推理模型正在成为真实工作负载的默认选择。”
工具调用能力支持范围快速扩大。年初仅GPT-4o-mini、Claude 3.5/3.7等少数模型支持,至年中已有多数主流模型加入;9月底起,Claude 4.5 Sonnet、Grok Code Fast、GLM 4.5等新版本迅速提升份额。报告警示:“工具使用在高价值工作流中呈上升趋势。缺乏可靠工具调用能力的模型,将在企业采用及编排环境中面临落后风险。”
编程和角色扮演成AI主要使用方式
AI使用方式呈现三大趋势:
- 任务复杂度提升:从生成短文转向分析整份文档、代码库或长对话,提炼关键信息;
- 输入输出“加重”:提示词长度平均增长约4倍,单次任务Token消耗增加近3倍,反映对上下文依赖增强;
- 模型向Agent演进:用户设定目标后,模型自主规划步骤、调用搜索/代码执行等工具、维持状态完成全流程任务。
编程是增长最稳定的类别,查询用量由年初11%升至超50%。Claude系列长期主导编程场景,多数时段占比超60%;但2025年11月其份额首次跌破60%,同期OpenAI份额由2%升至约8%,谷歌稳定在15%左右,Qwen、Mistral等开源模型亦稳步提升。报告特别指出:“MiniMax已成为快速崛起的新秀,近几周取得显著增长。”
角色扮演与编程并驾齐驱,在开源模型中使用量占比达52%。DeepSeek流量中逾2/3为角色扮演与闲聊,凸显其在消费端的高用户粘性。
主流模型都有自己的打开方式
各主流模型呈现差异化应用场景:
- Anthropic:超80%流量集中于编程与技术任务,是公认的“程序员首选”;
- Google:用途广泛,覆盖法律、科学、技术及常识性查询,体现“全才”定位;
- xAI:聚焦编程、角色扮演与学术应用,11月下旬相关流量显著增长;
- OpenAI:重心从娱乐休闲逐步转向编程与技术类任务;
- Qwen:重点发力编程,角色扮演与科学类任务随时间波动。
编程正成为各大模型竞争的核心战场。
用户留存呈现“水晶鞋效应”
报告提出“水晶鞋效应”:用户普遍快速流失,但每代前沿模型发布时,均会精准吸引一批“天选用户”——其需求与模型新能力高度契合,一旦建立使用习惯便极难迁移。例如Claude 4 Sonnet(5月发布)与Gemini 2.5 Pro(6月发布),凭借工具调用与推理能力突破,5个月后用户留存率仍高达40%。这表明,“快”有时比“好”更具战略价值:首个解决关键痛点的模型,即使后续被全面超越,也能依托早期用户习惯与系统集成守住基本盘。
典型模式包括:
- 成功锁定型(如Claude、GPT-4o Mini):发布即捕获高粘性核心用户;
- 从未合脚型(如Gemini 2.0 Flash):缺乏突破性能力,用户留存低迷;
- 回旋镖效应型(如DeepSeek):用户先离开后因性价比或特定能力优势回归。
该效应窗口期极短,仅存在于模型刚发布、被视为“最前沿”的阶段;一旦竞品能力追平,新用户获取难度陡增。
其他重要观察:
- 亚洲地区付费使用量占比从13%升至31%,AI已非硅谷独角戏;
- 北美仍为最大市场,但份额已不足50%;
- 英语占比82%,简体中文以近5%位居第二;
- 价格下降对使用量拉动有限,符合“杰文斯悖论”——低价促发更频繁、更长上下文、更广场景调用,总Token与总支出未必降低。
需注意报告局限性:OpenRouter数据主要反映开发者API调用行为,未覆盖App/Web端直连流量(如ChatGPT官方客户端);且平台定价策略可能影响模型选用偏好,数据未必完全等同于真实用户偏好。尽管如此,该报告提供了以真实使用量为锚点的全新产业观察视角,具备重要参考价值。
报告地址:
https://openrouter.ai/state-of-ai

