【专家视野】王坚院士谈词元：人工智能时代的数据计量与价值表达- 大数跨境

无锡软件资讯发布

2026-06-15

随着人工智能核心概念Token被正式定名“词元”，一组数据备受关注：2024年年初我国日均词元调用量为1000亿，2025年底跃升至100万亿，2026年3月已突破140万亿，两年间增长超千倍。从对话交互到决策执行，人工智能应用场景持续深化，我国AI产业竞争力显著增强，数据供给大幅提升，数据要素价值不断释放。

词元作为大模型理解、处理、生成信息的最小单元，贯穿各类智能应用之中，让数据具备可计量、可定价、可交易的属性，正成为丈量智能经济、量化数据价值的全新标尺，深刻影响着日常生活、产业变革与商业未来。

来源：《学习时报》2026年6月3日第6版

作者：王坚，中国工程院院士、阿里云创始人、之江实验室主任。

词元的出现与重要价值

Token，在人工智能领域被正式命名为词元，是大模型理解、处理、生成信息的最小单元，早已藏在每一次AI交互、每一项智能应用运行的背后。从日常智能对话、内容生成，到产业端的智能研发、数字决策，词元如同智能时代的通用计量单元，串联起技术、产业与市场，让数据在智能时代具备了可计量、可定价、可交易的特征，成为丈量智能经济、量化数据价值的全新标尺。

长期以来，我们讲信息、讲数据，却始终没有把信息和数据真正区分开。无论是比特还是字节，都是信息时代的良好度量，但一直被用来度量数据，缺少专门面向数据的、符合智能时代特征的计量方式。词元的出现，正是区分数据与信息的重要分水岭。

传统的字节以固定长度表达文字，一个汉字对应两个字节，比如“我喜欢你”4个汉字就是8个字节，这是物理层面的简单记录；而词元是按照人工智能理解世界的方式，把语句拆分成最小处理单元，它不完全遵循人类直觉的字词划分，可能将“我”和“喜欢”各作为一个单元、“你”作为一个单元，以更贴合模型处理逻辑的方式完成语义单元切分。从本质上说，词元首先是数据的计量单位，就像日常生活中的“斤两”，不同内容、不同价值的词元，对应着不同的成本与价值，让数据第一次有了清晰可度量的基础。

词元更让数据价值实现了升华。2017年随Transformer架构进入人工智能视野后，词元让数据拥有了自己的“身份”与“人格”—任何原始数据不经过词元化（Tokenization），就无法进入人工智能模型、无法被智能系统使用。数据要真正产生价值，必须走完三步：

第一，把人工智能模型不能直接使用的原始数据转化为词元；

第二，在模型中建立词元之间的关联，把零散知识组织成体系；

第三，根据应用需求，模型再以词元为基本单元转化为可输出、可应用的内容。这一过程高度依赖技术与算力，而词元能够综合反映数据价值、模型优劣与算力强度，是目前唯一能把三者统一度量的核心单元。

更为关键的是，词元是数据要素市场形成的重要标志。过去数据交易市场难以真正落地，核心原因就是数据价值无法统一计量、认定成本过高，甚至超过数据本身价值。词元作为统一的计量与计价单元，让数据在流通中可以自动结算，大幅降低产业链成本、提升流通效率，让磁盘上的比特真正变成可流动、可交易、可增值的数据要素。就像菜市场离不开“斤两”，词元让数据要素市场具备了运行的基础，标志着数据要素市场从理念走向现实。

词元的核心运行逻辑

词元的运行与消耗，遵循人工智能时代的底层规律，清晰体现出算力、数据与模型三者协同的内在关系。

词元是人工智能模型操作的最小单元。模型的思维链构建、推理过程推演、内容生成输出，所有运算操作的最小对象都是词元，无论输入内容长短、推理逻

辑深浅，系统最终都要拆解为词元进行处理，这是词元运行的基础逻辑。

词元消耗由两大核心因素决定：一是内容体量，输入与生成的信息越多，需要处理的词元数量就越多，算力消耗也随之增加；二是推理复杂度，模型思考深度、逻辑链条长度、决策难度越高，处理单个词元所需的算力与时间就越多，对应成本也越高。这也解释了不同场景、不同模型的词元成本存在差异，本质是处理逻辑与技术路径的不同。

词元是人工智能时代的核心“标尺”。软件时代，人们习惯用代码行数衡量一款软件的价值与复杂度；而进入智能时代，单纯强调数据规模与算力大小，并不能真实反映人工智能的发展与应用水平。词元能够综合反映数据价值、模型优劣与算力强度，把三者统一在一个计量单元里，这是其他指标都无法做到的。词元的消费量、流通量与使用效率，就像社会用电量能够反映电气化程度一样，是衡量人工智能产业成熟度直观、准确的指标。

以“小龙虾”（OpenClaw）为代表的智能体，让人工智能应用从碎片走向完整，也让词元的应用逻辑实现关键突破。过去人工智能应用分散割裂，人们需要为不同模型安装不同APP，使用方式与人工智能的技术特性并不匹配；而“小龙虾”这类智能体，彻底颠覆了传统APP模式，打通了从词元、基础模型到实际应用的完整链条，形成“感知—决策—执行”的闭环能力，让人工智能真正找到了与自身技术相适配的应用形态，词元的价值也因此得到充分释放。

词元爆发式增长意味着什么

我国词元调用量在两年间实现超千倍的爆发式增长，这并非简单的数字攀升，而是我国人工智能应用迎来质变、普及进入重要拐点、产业基础持续夯实、数据要素市场全面释放的集中体现。

第一，这标志着人工智能应用实现了质的转型。词元消耗量大幅提升，说明AI应用已从“点一盏电灯”的初级阶段，迈入“用上冰箱、洗衣机”的发展阶段，从简单对话拓展至自主执行、智能决策，使用方式与应用场景都发生了根本性改变。

第二，这意味着人工智能普及迎来重要拐点。过去人们只有打开手机APP、主动输入问题时才会使用AI，而以“小龙虾”为代表的智能体可以7×24小时自主运行，使用人群从技术从业者扩展到全民，使用时长、场景、频次全面提升，人工智能正在变成像水电一样的基础设施。

第三，这反映出单位词元成本持续下降，产业基础更加坚实。词元大规模应用的前提是单位成本可控可降，我国人工智能技术、算力技术持续突破，让单位词元处理成本大幅降低，如同电价下降推动家电普及，词元成本下降为智能经济全面渗透提供了坚实保障。

第四，这印证了数据要素市场进入实质启动阶段。词元的爆发式流通与消耗，证明数据已成为真正流动的生产要素，数据的生产、加工、交易、使用形成完整闭环，过去难以推进的数据交易、数据流通难题，在词元体系下取得突破性进展。

与此同时，词元也让产业竞争焦点全面转向生态构建。相关行业巨头纷纷布局词元赛道，成立专门事业部、推出专用引擎与平台，标志着词元已从技术概念升级为产业价值锚点，人工智能竞争从模型竞速，转向词元计量、定价、流通、应用的全生态竞争。

词元对生产生活的全面赋能

词元不仅是技术层面的基础单元，更全面渗透生活、生产、产业与商业各环节，深刻重塑智能时代的运行规则。

对百姓日常生活而言，词元本身是无感的底层技术，真正改变生活的是基于词元的各类智能应用。就像电本身不被感知，却支撑起照明、家电、娱乐等全部生活场景，词元为智能体、智慧服务、自动化工具提供核心支撑，让公众享受7×24小时智能服务、个性化内容、便捷化办事体验。从付费逻辑来看，词元是AI服务的基础收费单元，如同电费、水费一样清晰透明，而各类智能体大幅降低AI使用门槛，让新手都能轻松上手，推动数字普惠，让每个人都能跟上智能时代步伐。

对企业生产运营而言，词元的意义远不止收费方式，它构建起全链条数据流通体系。企业可清晰追踪词元从原始数据流、模型训练、客户应用到合作伙伴协同的全流程，实现数据流通可计量、可追溯、可自动结算，大幅提升数据使用效率与协作效率。同时，词元推动企业生产组织方式变革，用智能体替代大量重复性、辅助性工作，重新定义工作内容与方式，让员工聚焦创新、决策等高价值环节，也为中小企业、创新型企业打破传统要素壁垒提供了可能。

对产业升级而言，词元推动人工智能从工具革命升级为“革命的工具”，其产业影响远超电商、互联网等传统变革，堪称电力发明以来最重大的产业变革。词元让数据、算法、算力实现清晰的变现路径，重构产业成本结构、商业模式与协作方式，推动传统产业与智能技术深度融合。应用形态从分散的APP模式走向一体化智能整合，数据与服务更加高效统一，市场更趋一体化，为中小企业、创新型企业带来前所未有的发展机遇。

对商业逻辑而言，词元是人工智能商业价值的核心。早期软件产业长期依附硬件、找不到盈利模式，直到微软率先实现软件商业化定价，才真正推动软件产业走向成熟。

今天的人工智能产业正经历相似转型，词元正是激活商业价值的关键所在。很多生成式AI项目“叫好不叫座”，根本原因在于词元消耗成本远高于用户获得的实际价值；而智能体能够创造增量价值、解决真实问题，即便词元消耗较大，依然被市场接受。词元让人工智能的投入产出可精准计量，推动商业模型走向可持续。从全球视角看，词元为数据与算力出海提供了天然的结算方式，让人工智能服务突破国界，推动数字贸易、知识贸易打开新空间。

词元发展的安全挑战与应对路径

词元在驱动智能经济快速发展的同时，也面临算力成本、数据安全、应用规范等多重现实挑战，必须坚持在发展中规范、在规范中发展，做到发展与安全并重。

在成本层面，高消耗类AI应用普遍面临商业可持续性压力。OpenAI关停Sora、部分AI视频生成服务调整收费策略，其核心原因都是词元消耗巨大、成本与价值不匹配。这就需要行业像从白炽灯升级到节能灯一样，持续优化模型效率、降低无效词元消耗，在提升应用价值的同时严控成本，让人工智能商业逻辑更加成立。

在安全层面，词元与智能体的广泛普及，带来比传统APP、传统网络服务更大的安全风险。数据流通、智能执行、跨境服务等环节都可能出现数据泄露、违规操作、滥用误用等问题，安全是产业行稳致远的底线。但如同信用卡、手机支付从饱受安全质疑到逐步成熟可靠一样，词元生态的安全能力也会在技术迭代、实践检验中不断完善。

应对安全挑战，需要多方协同发力。国家层面出台安全使用指南，划定发展底线与规则；地方政府出台扶持政策，规范引导智能体生态健康发展；技术团队主动搭建安全框架，强化技术防护能力；全行业在发展中发现问题、解决问题，推动技术在迭代中完善。词元的发展，必将催生全新的安全产业，形成“发展促安全、安全保发展”的良性循环。

词元是智能时代的基础单元，是数据要素市场的核心基石。面向未来，我们应深刻理解词元的内涵与价值，尊重技术发展规律，把握智能经济变革机遇，以词元为抓手激活数据资源、释放智能红利，让词元真正成为推动智能经济高质量发展、开启数据要素新时代的核心力量。

来源：学习时报

【声明】内容源于网络

无锡软件资讯发布

发布软件和信息技术服务业产业动态、前沿科技、项目合作、企业服务等最新资讯

内容 3476

粉丝 0

无锡软件资讯发布发布软件和信息技术服务业产业动态、前沿科技、项目合作、企业服务等最新资讯

总阅读15.6k

粉丝0

内容3.5k