元龙科普丨Transformer的Tokenization枷锁与SSM无Token化建模潜力：从局限到突破- 大数跨境

首页

元龙科普丨Transformer的Tokenization枷锁与SSM无Token化建模潜力：从局限到突破

元龙数字智能科技

2025-07-10

Transformer的Tokenization枷锁

与SSM无Token

化建模潜力

从局限到突破

自 2017 年《Attention is All You Need》横空出世以来，Transformer 凭借其强大的长程依赖建模能力，迅速成为自然语言处理、计算机视觉等领域的主流架构。其核心组件自注意力机制通过计算序列中每一对元素的交互，彻底打破了传统循环神经网络（RNN）的时序限制，使得模型能够捕捉到更复杂的语义关系。然而，这种看似完美的架构背后，却隐藏着一个鲜为人知的 “枷锁”——Tokenization（分词）。Tokenization 是将原始文本转化为模型可处理的离散单元（Token）的过程，例如字节对编码（BPE）算法将单词拆分为子词单元。这一过程在提升计算效率的同时，也带来了诸多问题：语义碎片化、边缘案例处理失败、多语言适配困难等。Mamba 作者 Albert Gu 在其最新博客中尖锐指出，Tokenization 本质上是 Transformer 为弥补自身缺陷而不得不采取的妥协，而状态空间模型（SSM）等新兴架构则展现出无需 Tokenization 即可直接处理原始数据的潜力。

Transformer 的自注意力机制计算复杂度与序列长度呈二次关系（\(O(L^2)\)），这在处理长文本时会导致计算资源的爆炸式增长。例如，当序列长度从 1000 扩展到 10,000 时，计算量将增加 100 倍。为了缓解这一问题，Tokenization 通过将原始文本压缩为更短的子词序列（通常缩短一个数量级），显著降低了输入维度，使得 Transformer 能够在有限资源下运行。同时，Transformer 的归纳偏置天然倾向于关注每一个具体的 Token。例如，在处理 “strawberry” 一词时，BPE 可能将其拆分为 “straw” 和 “berry”，但模型无法直接感知字母 “r” 的出现次数，导致类似 “strawberry 里有几个字母 r？” 的问题频繁出错。这种对 Token 粒度的过度依赖，使得 Transformer 在处理低语义密度数据（如原始字节流）时表现不佳。更重要的是，深度学习的核心精神是通过端到端模型自动学习数据特征，而非依赖人工设计的预处理步骤。然而，Tokenization 本质上是一种手工特征工程，它将语言的连续性割裂为离散单元，限制了模型从原始数据中学习更丰富语义模式的能力。正如《苦涩的教训》所指出的，人工智能的重大进步往往伴随着更少的数据处理和更多的自动学习。

SSM 可视为现代版的 RNN，其核心公式\(h_t = A_t h_{t-1} + B_t x_t \)定义了隐藏状态的动态更新。SSM 的成功源于三大要素：状态大小方面，隐藏状态\(h_t\)的维度远大于输入输出，允许模型存储更多上下文信息；状态表现力上，动态转移矩阵\(A_t\)依赖数据本身，实现选择性记忆，解决了传统 RNN 对语言信息速率多变的适应性问题；训练效率方面，通过并行扫描算法和线性特征设计，SSM 在 GPU 上实现了与 Transformer 相当的训练速度，同时内存占用与序列长度呈线性关系。Mamba 作为 SSM 的代表性模型，在语言、音频、DNA 等多模态任务中表现出惊人的潜力。

例如，在 DNA 语言建模任务中，Mamba 无需特别调优即可超越 Transformer，其扩展能力在原始字节级数据上尤为突出。这一现象揭示了 SSM 的本质优势：原生处理低语义密度数据时，SSM 能够通过状态压缩机制自动学习更抽象的模式，而无需依赖人工设计的 Token 粒度。SSM 的递归公式\(h_t = A_t h_{t-1} + B_t x_t\)确保每一步计算耗时为常数，整个序列的处理时间与长度呈线性关系（\(O(L)\)）。相比之下，Transformer 的自注意力机制在推理阶段需要缓存所有历史 Token，内存占用随序列长度线性增长，而计算复杂度仍为二次。这种效率差异在处理长序列或噪声数据时尤为显著。

Tokenization 的局限性体现在多个方面。在语义碎片化与边缘案例上，Tokenization 将连续的语言流拆分为离散单元，导致语义碎片化。例如，“unhappiness” 可能被拆分为 “un”、“happiness”，但模型难以直接捕捉 “un” 作为否定前缀的语义。此外，边缘案例如 “strawberry” 中的字母计数问题，暴露了 Tokenization 在细节处理上的缺陷。多语言与多模态的困境也十分明显，不同语言的形态差异（如中文的分词、阿拉伯语的连写）使得 Tokenization 难以统一适配。在多模态任务中，图像的 “切块”（Patchification）和音频的分帧处理同样面临类似问题。

例如，图像中的 Patch 在某些情况下能捕捉显著特征，但在其他时候可能语义不完整。在扩展律的瓶颈方面，Tokenization 通过缩短序列长度提升了 Transformer 的计算效率，但其本质是对数据的预压缩。这种压缩可能丢失关键信息，限制模型的扩展能力。实验表明，在字节级建模中，即使让 Transformer 使用更多计算资源，其性能仍显著落后于 SSM，这说明 Tokenization 在原始数据处理中存在根本性的建模能力局限。

SSM 与 Transformer 存在高阶权衡，类似于数据库与大脑的区别。在自回归状态的本质差异上，Transformer 的自注意力机制显式缓存所有历史 Token，类似于数据库的精确检索；而 SSM 通过状态压缩将历史信息编码为固定大小的隐藏状态，类似于大脑的模糊记忆。

这种差异导致两者在归纳偏置上的根本不同：Transformer 擅长精确回忆单个 Token，而 SSM 擅长在线流式处理和语义抽象。混合模型的启示也很有价值，研究表明，将 SSM 与 Transformer 按 3:1 至 10:1 的比例混合，能够显著提升模型性能。例如，NVIDIA 的 Nemotron-H 和腾讯的 T1/TurboS 等混合模型在多任务上达到了 SOTA。这种现象印证了 “人类智能依赖大脑（SSM）和外部数据库（Transformer）结合” 的类比，说明两者的互补性。在噪声与冗余的挑战方面，当序列中存在噪声或冗余 Token 时，Transformer 的性能会显著下降，因为其缓存机制迫使模型处理所有无关信息。相比之下，SSM 的状态压缩机制能够过滤噪声，保持性能稳定。例如，在插入填充 Token 的实验中，SSM 的内存占用保持不变，而 Transformer 的计算和内存消耗随冗余因子线性增长。

未来的发展趋势指向摆脱 Tokenization 的端到端革命。在端到端模型的实践上，现代深度学习正朝着端到端方向发展，例如视觉领域的 ETT（End-to-End Vision Tokenizer Tuning）通过联合优化视觉 Tokenzier 和下游任务，显著提升了多模态性能。类似地，语言模型若能直接处理原始文本，将彻底摆脱 Tokenization 的桎梏，实现真正的端到端学习。扩展律的重新定义也很关键，SSM 在原始数据上的表现表明，模型的能力提升不仅依赖计算资源的增加，更取决于数据处理方式的革新。

未来的扩展律可能不再以 FLOPs 为唯一衡量标准，而是关注模型如何高效利用原始数据中的信息。多模态融合的新范式同样值得期待，SSM 的线性复杂度和原生处理能力使其在多模态任务中具有天然优势。例如，LBMamba 通过局部双向扫描优化视觉模型，在 ImageNet 等数据集上实现了性能 - 吞吐量的双赢。这种架构创新为多模态融合提供了新的思路。

Tokenization 是 Transformer 时代的产物，它在提升效率的同时，也成为模型能力提升的枷锁。SSM 等新兴架构的崛起，揭示了无需 Tokenization 即可实现高效建模的可能性。正如 Albert Gu 所言，“Tokens are bullshit”，未来的智能系统应回归原始数据，通过端到端学习自动挖掘语义模式。这不仅是技术的进步，更是人工智能向人类智能逼近的关键一步。当模型能够像人类一样直接感知世界的连续性时，真正的通用人工智能或许将不再遥远。

-END-

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读246

粉丝0

内容901