

Tokenization-大语言模型的分词艺术

Lucas聊出海

2025-09-16

导读：在庞大的LLM世界中，分词是所有工作的起点，它像一把钥匙，开启了模型理解和自然语言的大门。分词的效率和策略，直接影响着模型的性能、计算成本，甚至是它“思考”的深度。一个好的分词器Tokenizatio

Tokenization全解析-深入理解大语言模型的分词艺术

大家想象一下，语言就像一盒无穷无尽的乐高积木。我们用这些积木搭建出单词、句子、段落，乃至整本书籍。对于人来说，很简单就能理解这些积木的组合方式。但对于计算机，尤其是大语言模型（LLM），它们需要一种更系统、更数学的方法来理解和处理这些。整个过程就是Tokenization（分词）。

Tokenization，顾名思义，就是将一长串文本（比如你“正在阅读的这句话”）分解成一个个更小的单元，这些单元被称为“Token”。这些Token可以是单词、字符，或者更常见的——“子词”（Subword）。

在庞大的LLM世界中，分词是所有工作的起点，它像一把钥匙，开启了模型理解和自然语言的大门。分词的效率和策略，直接影响着模型的性能、计算成本，甚至是它“思考”的深度。一个好的分词器，就像一位技艺高超的翻译官，能将自然语言精准地翻译成模型能够理解的数字序列，同时也能将模型生成的数字序列完美地还原为流畅的自然语言。

在众多分词器中，OpenAI开发的Tokenization无疑是最成功的之一。它不仅是驱动ChatGPT、GPT-4等顶级模型的官方分词器，更以其无与伦比的性能和与模型的高度契合性，成为了后来所有LLM开发者的必备工具。Tokenization由高性能的Rust语言编写，并为Python提供了接口，使其在处理大规模文本时，速度远超许多其他分词库。

本文将带领您探索关于Tokenization奥秘。将从分词的理论基石出发，由浅入深，逐步揭开其背后的核心算法——BPE（Byte Pair Encoding）的神秘面纱。随后将通过通俗易懂的实战代码案例，向您展示如何在真实项目中驾驭Tokenization，解决从管理上下文窗口、计算成本到数据预处理等一系列实际问题。最后，我们将一同潜入更深的水域，探讨Tokenization中的高级概念，如不同编码器的差异和特殊Token的妙用。

一、理论基石——为什么我们需要分词？

在深入Tokenization了解之前，必须先了解一下理论基础。理解“为什么”分词，以及为什么是“这种”分词方式，比单纯知道“如何”使用工具更为重要。

1.1 分词的“三国演义”：词、字符与子词

在计算机的历史长河中，文本分词主要经历了三种方式的演变，它们各有优劣，仿佛一场“三国演义”。

• 词分词 (Word-level Tokenization)

• 策略： 以空格或标点符号为界，将文本切分成单词。例如，“I love AI”会被分成["I", "love", "AI"]。

• 优点： 非常直观，每个Token都具有完整的语义，便于模型理解。

• 缺点：

1. 词汇表爆炸 (Huge Vocabulary): 一门语言的单词数量是极其庞大的（英语可能有数十万甚至上百万）。要为每个单词创建一个ID，会导致词汇表过大，模型参数也会随之激增。

2. 未登录词问题 (Out-of-Vocabulary, OOV): 对于词汇表中不存在的词，比如新词、拼写错误、专业术语（如“transformer”在AI领域外的意思），模型将无法处理，通常会将其标记为一个特殊的<UNK>（Unknown）Token，从而丢失了宝贵的信息。

字符分词 (Character-level Tokenization)
策略：
将文本切分成最基本的单元——字符。例如，“hug”会被分成["h", "u", "g"]。
优点：
1. 词汇表极小:
英文只有26个字母，加上数字和符号，词汇表大小通常只有几百个，根本上解决了OOV问题。
缺点：
1. 序列过长:
一个单词被拆成多个字符，导致输入序列的长度急剧增加，这会给模型的计算带来巨大压力，尤其对于Transformer架构这种计算复杂度与序列长度平方相关的模型。
2. 语义丧失:
单个字符（如'h'）本身几乎不携带任何语义信息，模型需要耗费大量精力去学习如何从字符组合中构建出单词的含义，学习效率低下。
子词分词 (Subword Tokenization)

策略：
一种介于词分词和字符分词之间的折中方案。它试图在词汇表大小和序列长度之间找到一个完美的平衡点。
核心思想：
对于常见词，将其视为一个完整的Token（如"love"）；对于不常见的词，将其拆分成几个有意义的子词单元（如"tokenization"可能被拆分为["token", "ization"]）。对于极其罕见的词或OOV词，则退化为字符组合。
优点：
1. 有效控制词汇表大小:
通过复用子词，可以用一个有限的词汇表（通常在3万到10万之间）表示几乎所有的文本。
2. 完美解决OOV问题:
任何新词都可以由已知的子词或字符组合而成，不会有信息丢失。
3. 保留了大部分语义:
子词（如"token"和"ization"）本身就携带了一定的形态学和语义信息，便于模型学习。
4. 处理构词法:
能够很好地处理单词的各种变体，如look, looking, looked，它们可能共享同一个子词"look"。

显然，子词分词是当前LLM领域的绝对主流。而tokenization所使用的核心算法——BPE，正是子词分词中最著名和最成功的一种。

1.2 BPE算法：tokenization的“心脏”

BPE，全称Byte Pair Encoding（字节对编码），最初是一种数据压缩算法，后来被巧妙地应用于自然语言处理领域。它的核心思想非常简单、甚至可以说有些“暴力美学”：在一个文本语料库中，不断找出最频繁出现的相邻Token对，并将它们合并成一个新的、更长的Token。

让我们通过一个极其简单的例子，一步步走完BPE的构建流程。假设我们的语料库只有一句话，并且我们想构建一个大小为10的词汇表。

语料库:hug a pug

步骤 1: 初始化词汇表和语料

首先，我们将语料库拆分成最基本的单元——字符。同时，初始词汇表就是所有这些独立字符的集合。

语料拆分:h u g _ a _ p u g
(这里的 _ 代表空格)
初始词汇表 (大小为6):['h', 'u', 'g', '_', 'a', 'p']

步骤 2: 迭代合并

现在，我们开始迭代。在每一步，我们都寻找当前语料中出现次数最多的相邻Token对。

迭代 1:

我们观察h u g _ a _ p u g
。
u
和g相邻出现了两次 (hug 和 pug)。其他对（如h u, g _, _ a等）都只出现了一次。
因此，我们合并u
和g，创造一个新Token ug。
新词汇表 (大小为7):['h', 'u', 'g', '_', 'a', 'p', 'ug']
更新后语料:h ug _ a _ p ug

迭代 2:

观察h ug _ a _ p ug
。
h
和ug相邻出现一次，p和ug相邻出现一次。假设我们按字母顺序选择，合并h和ug，创造新Token hug。
新词汇表 (大小为8):['h', 'u', 'g', '_', 'a', 'p', 'ug', 'hug']
更新后语料:hug _ a _ p ug

迭代 3:

观察hug _ a _ p ug
。
p
和ug相邻出现一次。我们合并它们，创造新Token pug。

新词汇表 (大小为9):['h', 'u', 'g', '_', 'a', 'p', 'ug', 'hug', 'pug']

更新后语料:hug _ a _ pug

迭代 4:

观察hug _ a _ pug
。
hug
和_相邻出现一次。我们合并它们，创造新Token hug_。
新词汇表 (大小为10):['h', 'u', 'g', '_', 'a', 'p', 'ug', 'hug', 'pug', 'hug_']
更新后语料:hug_ a _ pug

终止！ 我们的词汇表大小达到了预设的10。现在，我们就拥有了一个基于BPE算法训练好的迷你分词器。

使用这个分词器：

现在，如果我们要对新文本hug a bug进行分词，我们会这样做：

切分文本: h u g _ a _ b u g
应用合并规则（我们学到的合并优先级是 ug
> hug > pug > hug_）：
首先，u
和g合并成ug -> h ug _ a _ b ug
然后，h
和ug合并成hug -> hug _ a _ b ug
最终分词结果: ['hug', '_', 'a', '_', 'b', 'ug']
。注意，bug因为b是未登录字符，所以b和ug无法合并，只能保持原样。

tokenization正是基于这个原理，但在一个由数TB文本构成的巨大语料库上进行训练，词汇表大小也扩展到了数万。此外，tokenization在实现上做了一些关键优化：它操作的是**字节（Byte）**而不是Unicode字符。这意味着它天然地能处理所有语言（包括中文、日文等）和各种符号（如emoji），因为万物皆可编码为字节，从根本上消除了OOV问题，这也是其名称中“Byte Pair”的真正含义。

1.3 tokenization的独特之处

1. 与模型强绑定: 不同的GPT模型使用不同的“编码（Encoding）”。例如，GPT-4使用cl100k_base编码，而早期的GPT-3模型使用r50k_base。这些编码的词汇表和合并规则都是在模型预训练时一同学习的。使用与模型匹配的tokenization编码进行分词，是确保输入能被模型正确理解的唯一方式。

2. 极致的性能:tokenization的核心逻辑由Rust实现，这是一种以安全和高性能著称的系统编程语言。相比于许多纯Python实现的分词器（如Hugging Face的tokenizers），tokenization在处理长文本时速度要快上3-6倍，这在数据预处理等场景下是巨大的优势。

3. 正则表达式预处理: 在应用BPE合并之前，tokenization会使用一个特定的正则表达式对文本进行预分割。这个正则表达式的设计非常精妙，它能根据字符的类别（字母、数字、标点等）将文本切分开，这有助于BPE算法学习到更合理、更符合语言直觉的Token。我们将在第三部分深入探讨这一点。

二、Python实战——tokenization的核心API

理论知识是内功，而代码实践则是招式。在这一部分，我们将通过一系列由简到繁的Python代码示例，彻底掌握tokenization的核心用法，并将其应用到解决真实世界的问题中。

2.1 安装与基础设置

安装tiktoken非常简单，只需一行pip命令：

 # 安装tiktoken库!pip install tiktoken安装完成后，我们就可以在Python中导入并使用它了。import tiktoken

2.2 获取编码器：get_encoding vs encoding_for_model

Python中tiktoken提供了两种主要的方式来获取一个“编码器”（Encoding Object），这个对象是执行分词和解码的核心。1. tiktoken.get_encoding("encoding_name")用途: 当你明确知道需要使用哪种编码（如cl100k_base）时，使用此函数。示例: # 获取cl100k_base编码器，这是GPT-3.5-Turbo和GPT-4使用的编码encoding = tiktoken.get_encoding("cl100k_base")print(f"获取到的编码器名称: {encoding.name}")2. tiktoken.encoding_for_model("model_name")用途: 这是更推荐、更安全的方式。你只需提供你将要使用的模型名称（如gpt-4），tiktoken会自动为你匹配并加载正确的编码器。这可以避免因手动指定错误编码而导致的问题。示例: # 根据模型名称获取编码器encoding = tiktoken.encoding_for_model("gpt-4")print(f"为GPT-4模型获取到的编码器名称: {encoding.name}")encoding_gpt3 = tiktoken.encoding_for_model("text-davinci-003")print(f"为text-davinci-003模型获取到的编码器名称: {encoding_gpt3.name}")

建议: 始终优先使用encoding_for_model()，除非你有非常特殊的理由需要直接获取某个特定名称的编码器。这能让你的代码更具健壮性，因为即使未来OpenAI更改了某个模型的编码，你的代码也无需修改。

2.3 编码与解码：文本与Token ID

编码器最核心的功能就是encode()（编码）和decode()（解码）。

.encode(text): 文本 -> Token ID 列表此方法接收一个字符串，返回一个由整数组成的列表，每个整数代表一个Token的ID。encoding = tiktoken.get_encoding("cl100k_base")text_to_encode = "tiktoken is a popular tokenizer!"# 进行编码token_ids = encoding.encode(text_to_encode)print(f"原始文本: '{text_to_encode}'")print(f"编码后的Token ID列表: {token_ids}")print(f"Token数量: {len(token_ids)}")输出:原始文本: 'tiktoken is a popular tokenizer!'编码后的Token ID列表: [83, 1143, 1136, 318, 257, 11053, 24533, 0]Token数量: 8decode(token_ids): Token ID 列表 -> 文本此方法接收一个Token ID列表，将其还原为原始的字符串。 # 使用上面生成的Token ID列表进行解码decoded_text = encoding.decode(token_ids)print(f"待解码的Token ID列表: {token_ids}")print(f"解码后的文本: '{decoded_text}'")输出:待解码的Token ID列表: [83, 1143, 1136, 318, 257, 11053, 24533, 0]解码后的文本: 'tiktoken is a popular tokenizer!'

编码和解码是一个可逆的过程，这保证了信息的无损传递。

2.4 实战案例一：精确管理上下文窗口

每个LLM都有一个最大的上下文窗口（Context Window），即它一次能处理的Token数量上限（例如，gpt-3.5-turbo是4096或16384个Token）。如果输入的文本超过这个限制，API将会报错。因此，在将长文本（如一篇文章）喂给模型前，精确计算其Token数量并进行必要的截断，是至关重要的。

让我们编写一个实用的函数来完成这个任务。

def count_tokens_and_truncate(text: str, model_name: str, max_tokens: int) -> str:    """    计算给定文本在特定模型下的Token数量，如果超过限制则进行截断。    :param text: 原始文本。    :param model_name: OpenAI模型名称, e.g., "gpt-4".    :param max_tokens: 允许的最大Token数量。    :return: 截断后（如果需要）的文本。    """    try:        encoding = tiktoken.encoding_for_model(model_name)    except KeyError:        print(f"警告: 模型 '{model_name}' 未找到。使用 cl100k_base 作为默认编码。")        encoding = tiktoken.get_encoding("cl100k_base")    # 编码文本    token_ids = encoding.encode(text)    # 检查Token数量    current_tokens = len(token_ids)    print(f"文本的Token数量为: {current_tokens}")    if current_tokens > max_tokens:        print(f"Token数量 ({current_tokens}) 超出限制 ({max_tokens})。正在进行截断...")        # 截断Token ID列表        truncated_token_ids = token_ids[:max_tokens]        # 解码截断后的列表        truncated_text = encoding.decode(truncated_token_ids)        print(f"截断后的Token数量为: {len(truncated_token_ids)}")        return truncated_text    else:        print("Token数量在限制范围内。")        return text# --- 示例 --- #long_text = "..." # 假设这里是一篇非常长的文章# 为了演示，我们用重复文本来模拟long_text = "This is a very long text. " * 500model = "gpt-3.5-turbo"context_window_limit = 4096processed_text = count_tokens_and_truncate(long_text, model, context_window_limit)# 你现在可以将 processed_text 安全地发送给API了# print("\n处理后的文本预览:\n", processed_text[:500], "...")这个函数非常实用，它可以作为你与LLM API交互前的“守门员”，确保输入永远不会超长。2.5 实战案例二：可视化Token，洞察分词奥秘理论总是有些枯燥，让我们来点酷的！我们将编写一个脚本，用不同的背景颜色来高亮显示文本中的每一个Token。这将非常直观地展示tiktoken是如何对真实世界的复杂文本进行切分的。import random# 为了在Jupyter或Colab中显示颜色，我们将使用IPython.displayfrom IPython.display import display, HTMLdef visualize_tokens(text: str, model_name: str):    """    将文本分词，并用不同颜色高亮显示每个Token。    """    print(f"模型: {model_name}")    encoding = tiktoken.encoding_for_model(model_name)    token_ids = encoding.encode(text)    # 为每个Token ID生成一个随机颜色    # 为了可复现性，我们使用固定的种子    random.seed(42)    colors = [f"hsl({random.randint(0, 360)}, 95%, 85%)" for _ in token_ids]    html_output = ""    for token_id, color in zip(token_ids, colors):        # 解码单个Token以获取其文本表示        token_text = encoding.decode([token_id])        # HTML编码以防止特殊字符破坏布局        escaped_token_text = token_text.replace('&', '&').replace('<', '<').replace('>', '>').replace('\n', '<br>')        html_output += f'<span style="background-color: {color}; padding: 2px; border-radius: 3px;">{escaped_token_text}</span>'    print(f"总Token数: {len(token_ids)}")    display(HTML(html_output))# --- 示例 --- #text1 = "Tokenization is a fundamental step in Natural Language Processing."text2 = "深入理解大型语言模型（LLM）的分词艺术，特别是tiktoken。"text3 = "Let's run at 5:30pm, the price is $1,234.56! "visualize_tokens(text1, "gpt-4")visualize_tokens(text2, "gpt-4")visualize_tokens(text3, "gpt-4")

这个可视化工具能极大地加深你对BPE分词直觉的理解。你可以尝试输入各种不同的文本，观察它是如何处理拼写错误、不同语言、代码、URL等的，这比阅读任何文档都来得有效。

2.6 实战案：Token数量精准计算-省钱好帮手

使用OpenAI API是需要付费的，而费用与你处理的Token数量直接挂钩。在处理大量文档或构建一个面向用户的应用时，提前估算成本至关重要。tiktoken是实现这一目标的最精确工具。中文一个汉字约1-2个Token

假设gpt-4的输入价格是每1000个Token $0.03。

def estimate_cost(text: str, model_name: str, price_per_1k_tokens: float) -> float:    """    估算处理给定文本所需的大致API成本。    """    encoding = tiktoken.encoding_for_model(model_name)    token_count = len(encoding.encode(text))    # 计算成本    cost = (token_count / 1000) * price_per_1k_tokens    print(f"文本Token数量: {token_count}")    print(f"预计成本: ${cost:.6f}")    return cost

# --- 示例 --- #

假设我们有一份10万字的报告需要处理英文平均一个单词约1.3个Token，10万字约7.7万词，约10万Token中文一个汉字约1-2个Token我们用一个长文本模拟report_text = "This is a long report. " * 20000 # 模拟一个约10万Token的文本GPT4_INPUT_PRICE = 0.03 # 美元/1k tokensestimated_price = estimate_cost(report_text, "gpt-4", GPT4_INPUT_PRICE)

在开发一个应用时，你可以在用户上传文件后立即调用此函数，向用户透明地展示预估的处理费用，这是一种非常好的用户体验实践。

揭秘tiktoken的高级特性与内部机制

你可能已经注意到，不同的模型对应着不同的编码。tiktoken中最常见的三个编码家族是：

• cl100k_base:

• 使用者:gpt-5，gpt-4, gpt-3.5-turbo, text-embedding-ada-002等最新一代模型。

• 特点: 词汇表大小为100,256。它在处理代码和多语言文本方面经过了特别优化，通常效率更高（即用更少的Token表示相同的文本）。

• p50k_base:

• 使用者:text-davinci-002, text-davinci-003等上一代Codex和InstructGPT模型。

• 特点: 词汇表大小为50,257。它主要针对英文文本进行了优化。

• r50k_base (或 gpt2):

• 使用者: GPT-3的早期版本，如davinci。

• 特点: 词汇表大小为50,257。这是GPT-2和GPT-3使用的原始编码。

为什么会有不同？ 因为每个编码器都是和其对应的模型一同在特定的数据上训练的。GPT-4的训练数据比GPT-3更广泛、更多样（包含了更多代码和非英语语言），因此它需要一个更大、更高效的词汇表来适应这些数据，cl100k_base应运而生。

总结：Tokenization，通往AGI之路的基石

我们从语言的“乐高积木”出发，穿越了分词理论的“三国演义”，亲手实践了BPE算法的构建过程。我们不仅学会了如何使用tiktoken来计数、截断、可视化和估算成本，更深入到了它的心脏，理解了不同编码的演进逻辑、特殊Token的控制作用。

掌握tiktoken，你不仅掌握了一个强大的工具，更重要的是，你开始用模型的“视角”去审视语言。这种理解，将是你作为一名AI开发者，在通往通用人工智能（AGI）的漫漫征途开始，希望这篇能对你理j解“Tokenize”有一定作用！欢迎关注。

【声明】内容源于网络

Lucas聊出海

跨境分享台 | 长期更新实用资讯

内容 47463

粉丝 2

Lucas聊出海跨境分享台 | 长期更新实用资讯

总阅读247.7k

粉丝2

内容47.5k