大数跨境

元龙科普丨Transformer的Tokenization枷锁与SSM无Token化建模潜力:从局限到突破

元龙科普丨Transformer的Tokenization枷锁与SSM无Token化建模潜力:从局限到突破 元龙数字智能科技
2025-07-10
1

Transformer的Tokenization枷锁

与SSM无Token

化建模潜力

从局限到突破

自 2017 年《Attention is All You Need》横空出世以来,Transformer 凭借其强大的长程依赖建模能力,迅速成为自然语言处理、计算机视觉等领域的主流架构。其核心组件自注意力机制通过计算序列中每一对元素的交互,彻底打破了传统循环神经网络(RNN)的时序限制,使得模型能够捕捉到更复杂的语义关系。然而,这种看似完美的架构背后,却隐藏着一个鲜为人知的 “枷锁”——Tokenization(分词)。Tokenization 是将原始文本转化为模型可处理的离散单元(Token)的过程,例如字节对编码(BPE)算法将单词拆分为子词单元。这一过程在提升计算效率的同时,也带来了诸多问题:语义碎片化、边缘案例处理失败、多语言适配困难等。Mamba 作者 Albert Gu 在其最新博客中尖锐指出,Tokenization 本质上是 Transformer 为弥补自身缺陷而不得不采取的妥协,而状态空间模型(SSM)等新兴架构则展现出无需 Tokenization 即可直接处理原始数据的潜力。


Transformer 的自注意力机制计算复杂度与序列长度呈二次关系(\(O(L^2)\)),这在处理长文本时会导致计算资源的爆炸式增长。例如,当序列长度从 1000 扩展到 10,000 时,计算量将增加 100 倍。为了缓解这一问题,Tokenization 通过将原始文本压缩为更短的子词序列(通常缩短一个数量级),显著降低了输入维度,使得 Transformer 能够在有限资源下运行。同时,Transformer 的归纳偏置天然倾向于关注每一个具体的 Token。例如,在处理 “strawberry” 一词时,BPE 可能将其拆分为 “straw” 和 “berry”,但模型无法直接感知字母 “r” 的出现次数,导致类似 “strawberry 里有几个字母 r?” 的问题频繁出错。这种对 Token 粒度的过度依赖,使得 Transformer 在处理低语义密度数据(如原始字节流)时表现不佳。更重要的是,深度学习的核心精神是通过端到端模型自动学习数据特征,而非依赖人工设计的预处理步骤。然而,Tokenization 本质上是一种手工特征工程,它将语言的连续性割裂为离散单元,限制了模型从原始数据中学习更丰富语义模式的能力。正如《苦涩的教训》所指出的,人工智能的重大进步往往伴随着更少的数据处理和更多的自动学习。


SSM 可视为现代版的 RNN,其核心公式\(h_t = A_t h_{t-1} + B_t x_t \)定义了隐藏状态的动态更新。SSM 的成功源于三大要素:状态大小方面,隐藏状态\(h_t\)的维度远大于输入输出,允许模型存储更多上下文信息;状态表现力上,动态转移矩阵\(A_t\)依赖数据本身,实现选择性记忆,解决了传统 RNN 对语言信息速率多变的适应性问题;训练效率方面,通过并行扫描算法和线性特征设计,SSM 在 GPU 上实现了与 Transformer 相当的训练速度,同时内存占用与序列长度呈线性关系。Mamba 作为 SSM 的代表性模型,在语言、音频、DNA 等多模态任务中表现出惊人的潜力。


例如,在 DNA 语言建模任务中,Mamba 无需特别调优即可超越 Transformer,其扩展能力在原始字节级数据上尤为突出。这一现象揭示了 SSM 的本质优势:原生处理低语义密度数据时,SSM 能够通过状态压缩机制自动学习更抽象的模式,而无需依赖人工设计的 Token 粒度。SSM 的递归公式\(h_t = A_t h_{t-1} + B_t x_t\)确保每一步计算耗时为常数,整个序列的处理时间与长度呈线性关系(\(O(L)\))。相比之下,Transformer 的自注意力机制在推理阶段需要缓存所有历史 Token,内存占用随序列长度线性增长,而计算复杂度仍为二次。这种效率差异在处理长序列或噪声数据时尤为显著。


Tokenization 的局限性体现在多个方面。在语义碎片化与边缘案例上,Tokenization 将连续的语言流拆分为离散单元,导致语义碎片化。例如,“unhappiness” 可能被拆分为 “un”、“happiness”,但模型难以直接捕捉 “un” 作为否定前缀的语义。此外,边缘案例如 “strawberry” 中的字母计数问题,暴露了 Tokenization 在细节处理上的缺陷。多语言与多模态的困境也十分明显,不同语言的形态差异(如中文的分词、阿拉伯语的连写)使得 Tokenization 难以统一适配。在多模态任务中,图像的 “切块”(Patchification)和音频的分帧处理同样面临类似问题。


例如,图像中的 Patch 在某些情况下能捕捉显著特征,但在其他时候可能语义不完整。在扩展律的瓶颈方面,Tokenization 通过缩短序列长度提升了 Transformer 的计算效率,但其本质是对数据的预压缩。这种压缩可能丢失关键信息,限制模型的扩展能力。实验表明,在字节级建模中,即使让 Transformer 使用更多计算资源,其性能仍显著落后于 SSM,这说明 Tokenization 在原始数据处理中存在根本性的建模能力局限。


SSM 与 Transformer 存在高阶权衡,类似于数据库与大脑的区别。在自回归状态的本质差异上,Transformer 的自注意力机制显式缓存所有历史 Token,类似于数据库的精确检索;而 SSM 通过状态压缩将历史信息编码为固定大小的隐藏状态,类似于大脑的模糊记忆。


这种差异导致两者在归纳偏置上的根本不同:Transformer 擅长精确回忆单个 Token,而 SSM 擅长在线流式处理和语义抽象。混合模型的启示也很有价值,研究表明,将 SSM 与 Transformer 按 3:1 至 10:1 的比例混合,能够显著提升模型性能。例如,NVIDIA 的 Nemotron-H 和腾讯的 T1/TurboS 等混合模型在多任务上达到了 SOTA。这种现象印证了 “人类智能依赖大脑(SSM)和外部数据库(Transformer)结合” 的类比,说明两者的互补性。在噪声与冗余的挑战方面,当序列中存在噪声或冗余 Token 时,Transformer 的性能会显著下降,因为其缓存机制迫使模型处理所有无关信息。相比之下,SSM 的状态压缩机制能够过滤噪声,保持性能稳定。例如,在插入填充 Token 的实验中,SSM 的内存占用保持不变,而 Transformer 的计算和内存消耗随冗余因子线性增长。


未来的发展趋势指向摆脱 Tokenization 的端到端革命。在端到端模型的实践上,现代深度学习正朝着端到端方向发展,例如视觉领域的 ETT(End-to-End Vision Tokenizer Tuning)通过联合优化视觉 Tokenzier 和下游任务,显著提升了多模态性能。类似地,语言模型若能直接处理原始文本,将彻底摆脱 Tokenization 的桎梏,实现真正的端到端学习。扩展律的重新定义也很关键,SSM 在原始数据上的表现表明,模型的能力提升不仅依赖计算资源的增加,更取决于数据处理方式的革新。


未来的扩展律可能不再以 FLOPs 为唯一衡量标准,而是关注模型如何高效利用原始数据中的信息。多模态融合的新范式同样值得期待,SSM 的线性复杂度和原生处理能力使其在多模态任务中具有天然优势。例如,LBMamba 通过局部双向扫描优化视觉模型,在 ImageNet 等数据集上实现了性能 - 吞吐量的双赢。这种架构创新为多模态融合提供了新的思路。


Tokenization 是 Transformer 时代的产物,它在提升效率的同时,也成为模型能力提升的枷锁。SSM 等新兴架构的崛起,揭示了无需 Tokenization 即可实现高效建模的可能性。正如 Albert Gu 所言,“Tokens are bullshit”,未来的智能系统应回归原始数据,通过端到端学习自动挖掘语义模式。这不仅是技术的进步,更是人工智能向人类智能逼近的关键一步。当模型能够像人类一样直接感知世界的连续性时,真正的通用人工智能或许将不再遥远。



-END-

【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读246
粉丝0
内容901