★ 新知识百科 ★
词元
Token
选
词
理
由
词元(Token)不仅是模型计算的最小信息处理单位,更是发展智能经济的“关键要素”,影响着AI基础设施和模型的演进升级。
1
基本释义
Token作为一种数据表示单元,最早起源于自然语言处理(NLP)领域。在传统文本处理中,Token通常指文本被分割后的有意义的最小单元(如单词)。2012年后,随着深度学习技术的发展,BPE(字节对编码)、SentencePiece等更为先进的分词方法,可将单词拆分为更小的、可复用的子词单元(如前缀、后缀、词根),实际上是将token定义为更为灵活的子词单元(subword),这些方法能让模型高效处理罕见词和跨语言文本,后来成为GPT、BERT等大模型的基础分词方法。
2
拓展解读
Token是AI基础设施的“核心产物”。当前,全球计算范式正在发生新一轮重大变革,即从CPU主导的计算体系,向GPU主导的AI计算体系迁移。英伟达创始人黄仁勋认为:人工智能数据中心实际上是“AI工厂",未来的数据中心不再是存储与计算中心,而是生产Token的工厂——输入能源,输出价值(token)。AI工厂生产的Token,将成为各行各业的动力底座,推动产业变革和智能升级。如果人工智能是未来最大的商品,类比于“电”,云计算网络可类比于“电网”,预计未来90%的Token会在云上生成和输出,也只有在云上才有最高效率。未来的五到十年,我们可能会经历一次实质性的GDP扩张,也会见证一个全新产业的诞生。这个产业的核心,就是以“生产token”的AI基础设施来生产数智成果。未来,哪个国家掌控着生产token的AI基础设施,谁就可能掌握智能经济的主导权。
Token是衡量模型性能的重要标尺。Token如同AI时代的标准石油,基本上量化了当前AI的能力边界。Token是衡量模型知识储备的标尺。预训练阶段的Token使用量,直接反映模型的知识广度。当前主流大模型的预训练语料规模已达数万亿Token。Token是衡量模型长文本处理能力的标尺。模型支持的上下文窗口大小,决定其长文本理解能力。Token是衡量模型推理效率的标尺。Token生成速度(tokens/秒)直接影响人机交互体验和大模型的应用落地效果,就像汽车启动时的百米加速,即便慢半秒体验就会很差。如果说“token化”解决的是“能算”,那么Token生成速度解决的则是“算得快”的问题。
来源:经信词典
★ 新知识百科 ★
词元
Token
词元(Token)不仅是模型计算的最小信息处理单位,更是发展智能经济的“关键要素”,影响着AI基础设施和模型的演进升级。
1
基本释义
Token作为一种数据表示单元,最早起源于自然语言处理(NLP)领域。在传统文本处理中,Token通常指文本被分割后的有意义的最小单元(如单词)。2012年后,随着深度学习技术的发展,BPE(字节对编码)、SentencePiece等更为先进的分词方法,可将单词拆分为更小的、可复用的子词单元(如前缀、后缀、词根),实际上是将token定义为更为灵活的子词单元(subword),这些方法能让模型高效处理罕见词和跨语言文本,后来成为GPT、BERT等大模型的基础分词方法。
2
拓展解读
Token是AI基础设施的“核心产物”。当前,全球计算范式正在发生新一轮重大变革,即从CPU主导的计算体系,向GPU主导的AI计算体系迁移。英伟达创始人黄仁勋认为:人工智能数据中心实际上是“AI工厂",未来的数据中心不再是存储与计算中心,而是生产Token的工厂——输入能源,输出价值(token)。AI工厂生产的Token,将成为各行各业的动力底座,推动产业变革和智能升级。如果人工智能是未来最大的商品,类比于“电”,云计算网络可类比于“电网”,预计未来90%的Token会在云上生成和输出,也只有在云上才有最高效率。未来的五到十年,我们可能会经历一次实质性的GDP扩张,也会见证一个全新产业的诞生。这个产业的核心,就是以“生产token”的AI基础设施来生产数智成果。未来,哪个国家掌控着生产token的AI基础设施,谁就可能掌握智能经济的主导权。
Token是衡量模型性能的重要标尺。Token如同AI时代的标准石油,基本上量化了当前AI的能力边界。Token是衡量模型知识储备的标尺。预训练阶段的Token使用量,直接反映模型的知识广度。当前主流大模型的预训练语料规模已达数万亿Token。Token是衡量模型长文本处理能力的标尺。模型支持的上下文窗口大小,决定其长文本理解能力。Token是衡量模型推理效率的标尺。Token生成速度(tokens/秒)直接影响人机交互体验和大模型的应用落地效果,就像汽车启动时的百米加速,即便慢半秒体验就会很差。如果说“token化”解决的是“能算”,那么Token生成速度解决的则是“算得快”的问题。
来源:经信词典

