大数跨境
0
0

100 万亿 Token 后,AI 世界的真规则浮出水面

100 万亿 Token 后,AI 世界的真规则浮出水面 独立开发
2025-12-09
6
导读:这项基于 100 万亿 Token 的实证研究,为我们提供了一个真实而细腻的 LLM 使用全景图

👆关注 加 星标,更新不错过

过去的一年,是人工智能真正转身的时刻。2025年12月,OpenRouter 发布了名为 “State of AI: An Empirical 100 Trillion Token Study” 的报告 —— 基于 超过 100 万 亿(trillion) 个真实用户 token 的消耗数据。

这篇文章可以帮助你了解大模型在这一年中发生的变化,以及各行各业面对模型厂商的百花齐放,是如何做出的选择。推荐收藏仔细阅读。

接下来,让我们一起来看一下,什么样的模型最受欢迎,而什么样的 AI 产品消耗着最多的 token赚着最多的钱

开源 vs 闭源

过去一年,开源与闭源大模型的格局在快速演化。尽管闭源模型仍处理约七成流量,但开源模型持续扩大,至 2025 年底已占到三分之一,且增长与 DeepSeek V3、Kimi K2、GPT-OSS、Qwen 等关键开源模型的发布密切相关。

尤其中国开源模型从 2024 年末的不足 2% 飙升至部分周接近 30%,展现出强劲竞争力和高频迭代优势。


过去一年,开源大模型生态从“DeepSeek 一家独大”迅速演变为多方并立的竞争格局。

数据显示,DeepSeek 仍以 14.37 万亿 tokens 位列开源家族之首,但其份额已被快速崛起的 Qwen、LLaMA、Mistral、Minimax、MoonshotAI 等拉低。


到 2025 年底,没有任何单一模型再能占据超过 25% 的开源使用量,开源生态呈现出高竞争、高迭代、低切换成本的特点:优秀新模型可在数周内跃升为主力,而缺乏持续更新的模型则会迅速失势。对开发者而言,这意味着开源模型的选择比以往更丰富多元;对模型构建者来说,这也是一个“既能快速成名、也能迅速被超越”的高速竞争时代。

大参数 vs 小参数

过去一年,开源大模型生态的“尺寸格局”发生了显著变化:曾经由“小模型数量多、大模型性能强”主导的两极结构,正被中模型的崛起重新改写。


数据表明,小模型虽然仍不断推出新品,但整体使用占比持续下降;而 15B–70B 参数的中型模型 成为新的市场主力,自 Qwen2.5 Coder 32B 首次定义这一赛道后,Mistral Small 3、GPT-OSS 20B 等强劲选手陆续加入,使这一区间迅速形成稳定需求与清晰的“模型-市场匹配”。

整体趋势显示:开源生态正在从“小模型时代”转向“中模型走向成熟 + 大模型多极竞争”的新格局。

开源模型token使用场景

如今的开源大模型已经被广泛用于创意、技术、信息等多种任务场景。虽然在结构化商业场景中仍是闭源模型占优势,但在 角色扮演式创作 与 编程辅助 这两个方向,开源模型已形成明显领先,并贡献了其整体使用量的主要部分。


数据显示,开源模型中超过一半的使用量来自角色扮演其次是编程任务。这意味着用户主要依赖开源模型进行创意互动,如讲故事、人物扮演、游戏对话等,同时也大量用于代码生成与辅助。角色扮演之所以能长期占据 50% 以上的份额,是因为开源模型在创意表达、情绪细节、上下文延续等能力上兼具灵活性,且限制较少,更适合幻想类内容与娱乐场景。因此,在同人创作、互动剧情、虚拟角色社区等领域,开源模型正成为用户最青睐的选择。

中国开源模型使用场景


如果只看中国开源模型,其使用结构已经从早期偏向创意任务,转向更“技术型”的分布。角色扮演仍占最大份额,但比例降至约 33%;而编程与技术类任务合计已达到 39%,成为新的主流。

这说明 QwenDeepSeek 等模型正被越来越多地用于代码生成、工程场景和基础设施相关工作负载。尽管部分企业级高流量用户可能拉高技术需求占比,但整体趋势十分明确:中国开源模型正在技术与生产力领域发起更直接的竞争。

AI Coding 使用的模型


在编程任务领域,整体来看仍由闭源模型占据主导地位,但开源生态内部竞争异常激烈。

2025 年年中,随着 Qwen 3 Coder 等模型的走红,中国开源模型一度承担了大部分开源代码辅助需求;到了 2025 年第四季度,LLaMA 系列与 GPT-OSS 等西方开源模型迅速崛起,但之后其相对份额又出现回落。

这种反复波动说明:开源代码助手的使用高度取决于模型质量的最新变化,开发者愿意随时切换到表现最好的那一个。需要强调的是,图中展示的是相对占比——开源编程需求整体是在增长的,因此占比下降并不等于用户流失,而是竞争更加激烈。

角色扮演使用的模型


在角色扮场景中,2025 年的格局出现了明显反转:这一类别曾在年中被闭源模型牢牢占据约 70% 的份额,但到年底,开源模型与闭源模型已几乎平分秋色——海外开源约占 43%,闭源约 42%,中国开源也显著抬升。

随着各家模型针对对话、人物一致性、故事生成等能力持续微调,开源模型在创意互动方面展现出更强竞争力,使用户在角色扮演任务上能够从多种模型中自由选择。

开源模型总结

从整体来看,开源模型的主要使用方向依旧集中在 角色扮演与创意对话、编程辅助、翻译与多语支持、以及知识问答四大类,其中角色扮演因可定制、限制少、适合幻想内容而长期保持领先;编程需求持续增长;多语与翻译因中式开源模型表现突出而稳定;而严肃问答领域仍由闭源模型占优。总体趋势显示:开源模型在“灵活、可改造、成本友好”的场景中持续扩大影响力,而闭源模型在高准确度需求中保持领先,两者的使用边界正持续融合。

智能体推理正在崛起

过去那种“一问一答”的文本生成方式,正在被彻底重写。真实的生产环境里,LLM 的主流使用方式正从“单轮补全文本”,转向“多步骤推理、工具调用、自动规划、跨上下文协作”的复杂工作流——这就是报告提出的 Agentic Inference(代理式推理)。

在这种新模式下,模型不再只是输出一句话,而是能够像一个智能体那样思考拆解任务调用工具持续跟踪状态


上图显示,进入 2025 年后,用于推理优化的模型流量占比出现了陡峭上升——从年初几乎可以忽略不计,迅速攀升到如今的 超过 50%

Token的消耗越来越多

每个prompt消耗的token
每次生成内容消耗的token

过去一年,大模型的工作负载结构发生了显著变化:输入(prompt)和输出(completion)长度全面走高。平均每次请求的输入从 1500 tokens 激增到超过 6000,输出也从约 150 上升到近 400。

这种同步增长表明,LLM 正从简单的文本补全,转向处理更复杂、上下文更密集的任务。

如今的典型请求,不再是“帮我写一篇文章”,而是让模型对大量材料进行推理:代码库、技术文档、访谈记录、长对话历史等。

进一步从任务类别来看,编程相关场景是输入长度暴涨的最大推手:理解代码、调试问题、生成程序的请求,输入长度动辄超过 2 万 tokens。

人们用大模型都做了什么?

这部分应该是大家最感兴趣的话题,这数百万亿 token 究竟燃烧在了哪里?

答案很简单,尽管大模型的潜力很大,应用在各行各业,但是编程虚拟陪伴仍旧是消耗token最大的场景。


时至今日,AI Coding 占了全球 token 总消耗的50%虚拟陪伴占了25%。科技、翻译、财经、学术、健康、法律等等主题占据了剩余部分。


从模型提供方来看,编程类请求的分布高度集中:Anthropic 依旧占据最大份额,是当前最主要的“代码模型提供者”;其次是 OpenAI 与 Google,而 MiniMax 的占比正在快速上升,成为值得关注的新势力。

场景细分

这一部分对 token 消耗最多的场景进行了细分,大家可以重点关注一下,也许里面藏着一些机会。

大多数使用场景并不是均匀分布的,而是呈现出 “一两个核心用途占大头” 的特征,这往往反映了用户的强需求聚焦,以及模型在某些方向上的天然优势。

1、虚拟陪伴:一个高度成熟且意外庞大的类别
在所有高流量类别中,Roleplay(角色扮演)最为突出且高度结构化:

  • • 近 60% 的角色扮演流量来自“角色扮演类游戏”
  • • 另有 15.6% 属于写作资源
  • • 15.4% 来自成人内容

这表明,用户并不是在与模型进行随意聊天,而是在将其当作“人物引擎”“小说共创工具”“情感投射载体”使用。

角色扮演已经形成一套可复制边界清晰需求稳定的类型化场景。

2、编程:泛化广、子类分散,是另一个流量巨头
编程同样呈现偏斜结构:

  • • 超过 2/3 的编程请求被归类为“Programming/Other”,代表其用途极其广泛
  • • 用户提出的是“任意代码问题”:逻辑调试、脚本生成、数据处理、框架迁移等
  • • 26.4% 来自“开发工具”标签,也说明专业场景正逐渐细化

这种碎片化意味着:模型在程序理解与结构化代码工作流方面存在巨大的优化空间

3、翻译、科学、健康:小众但稳定的“长尾场景”

  • • 翻译:需求分散,约一半为语言资源查询,另一半为轻量翻译与语义重写
  • • 科学:高度集中在“机器学习 & AI”,占 80%,说明用户的科学类提问其实大多是“问 AI 关于 AI”
  • • 健康:最为碎片化,没有任何子类超过 25%,涵盖从医疗信息查询到心理咨询,反映领域复杂且难以统一建模

这些场景虽小,但反映了 LLM 正在渗透到众多边缘领域。

4、金融、学术、法律:高度离散、尚未形成统一模式

这些类别的共同特征是 —— 使用意图分散,没有明确主流子类:

  • • 金融的流量在外汇、ESG、审计等多领域分散
  • • 法律场景同样如此,政府相关与法律咨询呈分散态

这很可能意味着:这些领域的复杂性远高于其它类别,目前还缺乏真正针对性的 LLM 工作流,用户需求未形成规模化的明确场景

各家厂商模型的主要用途


这是一个很有意思的部分,众所周知 Anthropic 的模型被广泛应用在了编程。其他厂商的模型用途则令人意想不到。


Google 模型被应用的最为平均,虚拟陪伴、编程、科技、学术并驾齐驱。我猜想这跟它教育账号免费有关。


xAI 的模型主要被应用在了编程中。


OpenAI 的模型同样被应用的很平均,和 Google 的很相似,从这种相似的模式下,我觉得 Google 和 OpenAI 都展现出了一种国民模型的感觉,相对来说更加的普及。


Qwen 的开源小模型在各行各业一直风评很好,从年中编程占据消耗主导,到最近金融领域崛起,我觉得Qwen在未来能够继续在各行各业大放异彩。

大模型使用的地域特征


全球范围内,大模型的使用呈现出明显的地域差异。从支出分布来看,AI 推理市场正变得愈发全球化:

  • • 北美仍是最大市场,但其占比已经降至不足总量的一半;
  • • 欧洲保持稳定,长期维持在 15%–20% 区间;
  • • 亚洲成为最大亮点 ——不仅是新模型的主要产地,也是增长最快的消费市场。

在数据集的最初阶段,亚洲仅占全球使用量的约 13%;而在最新一段时间里,这一数字已经翻倍至 31%。这表明亚洲用户对 LLM 的接受度和使用深度正在迅速提升,逐步形成与欧美并列的第三极力量。

从语言分布来看,英语依旧是全球 LLM 使用的绝对主导,占比超过 80%。。

但长尾语言同样值得关注:

  • • 简体中文占比接近 5%,是非英语中最重要的语言;
  • • 俄语、西班牙语也拥有稳定用户规模;
    随着 DeepSeekQwen 等中文开源模型快速崛起,中文生态正在持续扩大。

大模型的用户留存

报告中的留存曲线揭示了一个过去常被忽略的关键现象:绝大多数大模型都有极高的用户流失率,但极少数“早期用户群”却能长期留下来,并形成模型真正的护城河。


这些留存下来的用户并不是普通的“尝鲜者”,而是因为某个模型 精准满足了他们尚未被解决的核心需求。一旦用户的工作流与某模型形成这种深度匹配,就会产生强大的“经济与认知惯性”,哪怕后来有更多新模型出现,他们也不会轻易迁移。

First-to-Solve 才是最强护城河


当一款模型是 第一个真正解决某类关键工作流 的,它就天然拥有第一性优势:用户会把它深度嵌入流水线、自动化系统、产品逻辑中。

靠“更好”而不是“更便宜”驱动长期留存,竞争者很难撼动

DeepSeek 的“回旋镖效应”更特别


DeepSeek 的曲线中出现了罕见的“回流”现象:部分用户离开后又在第 2–3 个月回到模型

表明他们比较了竞品后发现 DeepSeek 才是最适合其任务的选择

这意味着 DeepSeek 在某些高价值场景中具备 独特优势,例如:

  • • 极高性价比
  • • 特定任务上的强性能
  • • 稳定可预期的推理

什么领域用着最贵的模型

报告通过一张成本—使用量散点图,将 AI 的真实应用场景划分成四个象限。横轴是总使用量(Token),纵轴是实际成本(每百万 Token 花费)。

1、高成本 × 高使用量:高价值专业工作,这一象限包含技术类与科学类任务,它们既贵、又用得多。尤其是技术类任务成为全图最大异类。

这说明用户愿意为高复杂度问题(系统设计、架构推理、深技术问题)支付溢价,同时也是 AI 推理最具商业价值的领域之一。市场机会显然也在这里:谁能提供“便宜但够强”的技术模型,谁就有可能吃下最肥的一块蛋糕。

2、低成本 × 高使用量:AI 的“流量发动机”。这个象限由三个高流量类别组成:编程,角色扮演,科学

开源模型也正是在这些价格敏感、需求巨大的场景中快速爆发。

3、高成本 × 低使用量:专业领域专家类。这里聚集着:金融,学术,医疗,营销

这些领域天然高风险、高要求,因此调用频率不高,但用户愿意为专业正确性支付更高价格

4、低成本 × 低使用量:工具化长尾场景。包括:翻译,法律查询,小知识问答,琐事。

这些都是“能低成本解决就很好”的工具型任务,用量小但稳定,也意味着已高度商品化,很难长期靠它们做差异化竞争

最后的最后

这项基于 100 万亿 Token 的实证研究,为我们提供了一个真实而细腻的 LLM 使用全景图。与大众想象相比,真实世界的大模型使用呈现出几个完全不同的趋势:
1)多模型时代已经到来:没有任何一款模型能够“一统江湖”

2)使用场景远比我们以为的更“娱乐化”
这意味着:

  • • AI 正在成为一种新的“互动叙事媒介”;
  • • 用户需要的不是完美事实,而是 稳定的角色表达、一致性与情绪共鸣
  • • 这将催生全新产品品类:人格化 Agent、个性化长期陪伴者、互动 IP 角色等。

未来的模型评估标准,不仅是正确率,更是“是否能讲一个好故事”。

3)人与 Agent 的界线正在模糊:Agentic Inference 的全面崛起
大模型正从“回答机器”转变为“行动体”:会规划,会调用工具,会访问外部数据,会进行多步骤推理并自我纠错

随着 Agent 模式普及,AI 的竞争焦点将从文本质量转向:任务完成度,执行效率,推理链条稳定性

4)全球化扩散:亚洲正在迅速成为第二增长中心
LLM 使用正在从北美向全球扩散。亚洲的 Token 占比从 13% 提升到 31%,增长速度惊人。
中国不仅是使用大国,同时也是新模型的重要输出国

5)价格并不能解释使用量:价值优先于成本
LLM 市场并未像商品市场那样“越便宜越吃香”。实际情况是:高价值任务(如深度推理、企业关键流程)仍然愿意付高价给闭源模型,大规模批处理、角色扮演、编程辅助等高频任务则更偏爱开源模型

6)留存才是真正的关键
每一代模型发布时,都有一个极短的窗口期,能否形成“基础用户群(foundational cohort)”决定它能否长期立足。

当某个模型 第一次真正解决某类关键工作流 时,便会和用户紧紧捆绑在一起,即使有更强新模型出现,他们也不会再迁移。

反之,如果模型在发布时没有形成这种匹配,那么它之后几乎不可能再补救。

最后的最后的最后

希望这份研究能成为未来更多实证工作的重要基石,推动整个 AI 行业在真实、可测量的基础上不断前进。

感谢 OpenRouter 把自己宝贵的数据分享出来,撰写了这篇如此有价值的分析。

也感谢你能够读到这里,2025年 Agent 似乎并没有如大家所愿掀起风浪,但是AI Coding确确实实改变了大家的工作模式,AI也深刻的改变了大家的生活。

祝各位创业者、AI爱好者、开发者们能够继续探索出大模型更多的应用场景,在AI的浪潮中扬帆


【声明】内容源于网络
0
0
独立开发
技术变现,实现被动收入,SEO优化技巧,流量获取与变现,独立开发指南,网站搭建,niche站点,独立站,affiliate,广告,订阅
内容 74
粉丝 1
独立开发 技术变现,实现被动收入,SEO优化技巧,流量获取与变现,独立开发指南,网站搭建,niche站点,独立站,affiliate,广告,订阅
总阅读6.1k
粉丝1
内容74