AI基础百科
什么是Token?
AI是怎么"数数"的?
用过AI的人都会遇到"Token"这个词,但很少有人真正讲清楚它是什么。
一、什么是Token?
Token是AI处理语言时的最小单位。你可以理解为:AI不是直接"读"汉字,而是把文字拆成一个个小碎片来理解和处理。
这就好像我们读英语单词时,会把它们拆成字母来记忆。AI读文字的时候,也是把文字拆成更小的单元来处理。这些小单元,就叫Token。
Token = AI理解语言的基本单位
二、中英文Token怎么切?
英文怎么切?
-
按单词或子词切分 -
"Hello world" = 2个Token -
"Artificial Intelligence" = 3个Token
中文怎么切?
-
按字或词切分 -
"你好世界" ≈ 3-4个Token -
"人工智能" ≈ 2-3个Token
经验公式:1个Token ≈ 4个英文字符 ≈ 0.75个中文字。这是估算值,实际切分方式取决于具体模型。
三、为什么Token这么重要?
理解Token为什么重要,要从三个维度来看:
1. 收费依据
市面上几乎所有AI产品都按Token数量收费。输入多少Token、输出多少Token,都要算钱。这也是为什么很多人发现:问得越多,花费越高。
2. 上下文限制
每个模型都有Token上限(称为"上下文窗口")。比如4K就是4000多个Token。一旦超过,早期的内容就会被AI"遗忘"。这也是为什么长对话进行到后面,AI可能会"失忆"。
3. 能力边界
Token数量直接决定了AI能"看"多长的内容。越长上下文的模型,价格越贵,但处理长文档、长对话的能力也越强。
四、主流模型Token上限
不同模型的上下文窗口差异很大,直接决定了它们能处理多长的内容:
GPT-4: 128K
Claude 3: 200K
Claude 3.5: 100万
Kimi: 20万
通义千问: 1000K
* K=1024,100万=1M。上下文窗口越大,能处理的内容越长。
五、Token的实际例子
让我们看几个实际的例子,帮你建立直观感受:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
六、一句话总结
Token是AI理解语言的最小单位
AI按Token收费,Token数量决定上下文长度

