元龙科普丨H-Net 革除传统分词，以动态分块实现端到端建模，数据效率提升 4 倍，开启无 Tokenizer 时代- 大数跨境

首页

元龙科普丨H-Net 革除传统分词，以动态分块实现端到端建模，数据效率提升 4 倍，开启无 Tokenizer 时代

元龙数字智能科技

2025-07-13

导读：H-Net 革除传统分词以动态分块实现端到端建模数据效率提升 4 倍，开启无 Tokenizer 时代在自然语

H-Net 革除传统分词

以动态分块实现端到端建模

数据效率提升 4 倍，开启无 Tokenizer 时代

在自然语言处理领域，Tokenization（分词）作为预处理环节，长期以来被视为语言模型的基石。通过将原始文本切割为固定词汇表中的子词单元（如 BPE 分词），它能够压缩序列长度并提升计算效率。然而，这一技术存在显著缺陷：其依赖手工设计的启发式规则，导致可解释性差；在处理中文、代码、DNA 序列等复杂语言或模态时，性能下降明显。例如，中文的分词边界模糊性常导致语义割裂，而 DNA 序列的生物学特性无法被固定词汇表有效捕捉。

近年来，随着深度学习的发展，端到端建模成为研究热点。然而，截至目前，尚未有任何无 Tokenizer 模型在计算预算相当的情况下超越基于 Tokenizer 的语言模型。直到 Mamba 作者 Albert Gu 团队提出 H-Net（Hierarchical Network），通过动态分块（Dynamic Chunking）机制实现了真正的端到端序列建模，为突破 Tokenization 限制带来了曙光。

H-Net 的核心在于其分层架构和动态分块机制，这两者的结合彻底颠覆了传统 Tokenization 的范式。H-Net 采用三级分层处理流程：首先是精细处理，通过小型编码器逐个处理原始数据（如字节或字符），捕捉细粒度模式。例如，在处理中文时，编码器可直接解析每个汉字的笔画结构。其次是压缩抽象，将数据压缩下采样后，交给主网络（如 Transformer 或 SSM）处理。主网络包含大部分参数，专注于抽象概念的建模。例如，在处理代码时，主网络可识别函数调用模式。最后是还原输出，通过解码器上采样并还原到原始精度，确保输出与输入的语义一致性。这种设计形成了天然的认知分层，外层处理细节，内层处理抽象，符合人类从具体到抽象的认知规律。例如，在处理 DNA 序列时，编码器捕捉碱基对的物理特性，主网络则学习基因表达的生物学规律。

H-Net 的核心突破在于动态分块（DC）机制，其由路由模块和平滑模块组成。路由模块通过相似度评分预测相邻元素的边界。例如，在处理英文文本时，路由模块可学习在空格处分割，但在专有名词内部保持连续。平滑模块则利用路由器输出插值表示，减弱不确定边界的影响。例如，在处理代码时，平滑模块可模糊函数名与变量名的边界，提升学习稳定性。通过联合优化路由模块、平滑模块与主网络，H-Net 能够自动发现有意义的数据单元。实验表明，动态分块模块自然将数据压缩到与 BPE 相似的分辨率（4.5-5 字节 / 块），且无需任何外部监督或启发式规则。例如，在处理中文时，H-Net 可学习将 “人工智能” 作为一个整体分块，而非机械地按字符分割。

H-Net 的性能在多个领域得到验证，展现出强大的扩展性和鲁棒性。在计算资源和数据量对等的条件下，单层字节级 H-Net 已优于基于 BPE 的强 Transformer。例如，在英语预训练中，H-Net 的困惑度与 BPE Transformer 相当，而字符级鲁棒性显著增强。多级分层迭代进一步提升性能，可媲美两倍规模的传统模型。例如，2 阶段 H-Net 在中文处理上的准确率比 BPE Transformer 高 8 个百分点。在复杂语言和模态中，H-Net 的优势更为突出。例如，在 DNA 序列建模中，H-Net 结合 SSM（状态空间模型），其性能超越 Transformer，验证了 SSM 在序列建模中的优势。在代码处理中，H-Net 的数据效率较基线提升近 4 倍，尤其在处理长函数和嵌套结构时表现优异。

H-Net 在鲁棒性与扩展性方面也表现出色。在 HellaSwag 测试中，H-Net 的鲁棒性显著提高，尤其在处理带噪声的数据时优势明显。例如，在包含拼写错误的文本中，H-Net 的准确率比 BPE Transformer 高 12 个百分点。此外，H-Net 的扩展性极佳，通过多级分层迭代，可在参数规模不变的情况下提升性能，而传统模型需增加参数才能获得类似效果。

H-Net 的出现标志着无 Tokenizer 时代的到来，其影响将波及多个领域。在自然语言处理领域，H-Net 彻底改变了语言模型的训练流程，无需依赖预训练的 Tokenizer，降低了对特定语言的依赖。例如，在低资源语言（如斯瓦希里语）中，H-Net 可直接处理原始文本，避免了因 Tokenizer 不适用导致的性能下降。此外，H-Net 的动态分块机制为可解释性研究提供了新方向，通过可视化分块边界，可分析模型的决策逻辑。

在生物信息学领域，H-Net 也有着重要应用。在 DNA 序列建模中，H-Net 的端到端学习能力可直接处理原始碱基序列，避免了传统方法中人工特征工程的局限性。例如，H-Net 可自动识别基因调控区域，为疾病研究提供新工具。结合我国在 DNA 存储技术上的突破（如 HELIX 系统），H-Net 有望推动生物数据的智能化处理。

在跨模态应用方面，H-Net 的分层架构和动态分块机制同样适用。例如，在图文生成中，H-Net 可动态分割图像区域和文本片段，实现更精准的跨模态对齐。Meta 的 BLT 架构虽也采用动态字节分块，但 H-Net 的分层设计在抽象建模上更具优势。

尽管 H-Net 取得了显著突破，仍面临一些挑战。在计算资源需求方面，分层架构和动态分块增加了训练复杂度，需进一步优化以适应移动端等资源受限环境。在长序列处理上，现有实验主要针对中等长度序列，H-Net 在超长序列（如整本小说）中的表现仍需验证。在跨语言泛化方面，虽然 H-Net 在多语言任务中表现良好，但其对形态复杂语言（如芬兰语）的处理仍需改进。

未来研究可聚焦以下方向：混合分块策略，结合动态分块与固定分块，平衡灵活性与效率；自监督学习，探索无监督动态分块，减少对标注数据的依赖；硬件适配，设计专用芯片或优化框架，提升 H-Net 的推理速度。

H-Net 的诞生标志着 Tokenization 时代的终结。通过分层架构和动态分块，H-Net 实现了真正的端到端序列建模，在性能、鲁棒性和扩展性上全面超越传统模型。尽管仍面临挑战，但其展现的潜力已足够令人振奋。正如知名博主 Rohan Paul 所言：“无需 Tokenizer 训练的时代真的要来了 —— 可能性无限大。” 随着 H-Net 等技术的发展，我们正站在自然语言处理乃至人工智能领域的新起点，迈向更智能、更普适的未来。

END

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读2.5k

粉丝0

内容901