大数跨境

元龙科普丨H-Net 革除传统分词,以动态分块实现端到端建模,数据效率提升 4 倍,开启无 Tokenizer 时代

元龙科普丨H-Net 革除传统分词,以动态分块实现端到端建模,数据效率提升 4 倍,开启无 Tokenizer 时代 元龙数字智能科技
2025-07-13
3
导读:H-Net 革除传统分词以动态分块实现端到端建模数据效率提升 4 倍,开启无 Tokenizer 时代在自然语

H-Net 革除传统分词

以动态分块实现端到端建模

数据效率提升 4 倍,开启无 Tokenizer 时代


在自然语言处理领域,Tokenization(分词)作为预处理环节,长期以来被视为语言模型的基石。通过将原始文本切割为固定词汇表中的子词单元(如 BPE 分词),它能够压缩序列长度并提升计算效率。然而,这一技术存在显著缺陷:其依赖手工设计的启发式规则,导致可解释性差;在处理中文、代码、DNA 序列等复杂语言或模态时,性能下降明显。例如,中文的分词边界模糊性常导致语义割裂,而 DNA 序列的生物学特性无法被固定词汇表有效捕捉。

近年来,随着深度学习的发展,端到端建模成为研究热点。然而,截至目前,尚未有任何无 Tokenizer 模型在计算预算相当的情况下超越基于 Tokenizer 的语言模型。直到 Mamba 作者 Albert Gu 团队提出 H-Net(Hierarchical Network),通过动态分块(Dynamic Chunking)机制实现了真正的端到端序列建模,为突破 Tokenization 限制带来了曙光。

H-Net 的核心在于其分层架构和动态分块机制,这两者的结合彻底颠覆了传统 Tokenization 的范式。H-Net 采用三级分层处理流程:首先是精细处理,通过小型编码器逐个处理原始数据(如字节或字符),捕捉细粒度模式。例如,在处理中文时,编码器可直接解析每个汉字的笔画结构。其次是压缩抽象,将数据压缩下采样后,交给主网络(如 Transformer 或 SSM)处理。主网络包含大部分参数,专注于抽象概念的建模。例如,在处理代码时,主网络可识别函数调用模式。最后是还原输出,通过解码器上采样并还原到原始精度,确保输出与输入的语义一致性。这种设计形成了天然的认知分层,外层处理细节,内层处理抽象,符合人类从具体到抽象的认知规律。例如,在处理 DNA 序列时,编码器捕捉碱基对的物理特性,主网络则学习基因表达的生物学规律。

H-Net 的核心突破在于动态分块(DC)机制,其由路由模块和平滑模块组成。路由模块通过相似度评分预测相邻元素的边界。例如,在处理英文文本时,路由模块可学习在空格处分割,但在专有名词内部保持连续。平滑模块则利用路由器输出插值表示,减弱不确定边界的影响。例如,在处理代码时,平滑模块可模糊函数名与变量名的边界,提升学习稳定性。通过联合优化路由模块、平滑模块与主网络,H-Net 能够自动发现有意义的数据单元。实验表明,动态分块模块自然将数据压缩到与 BPE 相似的分辨率(4.5-5 字节 / 块),且无需任何外部监督或启发式规则。例如,在处理中文时,H-Net 可学习将 “人工智能” 作为一个整体分块,而非机械地按字符分割。

H-Net 的性能在多个领域得到验证,展现出强大的扩展性和鲁棒性。在计算资源和数据量对等的条件下,单层字节级 H-Net 已优于基于 BPE 的强 Transformer。例如,在英语预训练中,H-Net 的困惑度与 BPE Transformer 相当,而字符级鲁棒性显著增强。多级分层迭代进一步提升性能,可媲美两倍规模的传统模型。例如,2 阶段 H-Net 在中文处理上的准确率比 BPE Transformer 高 8 个百分点。在复杂语言和模态中,H-Net 的优势更为突出。例如,在 DNA 序列建模中,H-Net 结合 SSM(状态空间模型),其性能超越 Transformer,验证了 SSM 在序列建模中的优势。在代码处理中,H-Net 的数据效率较基线提升近 4 倍,尤其在处理长函数和嵌套结构时表现优异。

H-Net 在鲁棒性与扩展性方面也表现出色。在 HellaSwag 测试中,H-Net 的鲁棒性显著提高,尤其在处理带噪声的数据时优势明显。例如,在包含拼写错误的文本中,H-Net 的准确率比 BPE Transformer 高 12 个百分点。此外,H-Net 的扩展性极佳,通过多级分层迭代,可在参数规模不变的情况下提升性能,而传统模型需增加参数才能获得类似效果。

H-Net 的出现标志着无 Tokenizer 时代的到来,其影响将波及多个领域。在自然语言处理领域,H-Net 彻底改变了语言模型的训练流程,无需依赖预训练的 Tokenizer,降低了对特定语言的依赖。例如,在低资源语言(如斯瓦希里语)中,H-Net 可直接处理原始文本,避免了因 Tokenizer 不适用导致的性能下降。此外,H-Net 的动态分块机制为可解释性研究提供了新方向,通过可视化分块边界,可分析模型的决策逻辑。

在生物信息学领域,H-Net 也有着重要应用。在 DNA 序列建模中,H-Net 的端到端学习能力可直接处理原始碱基序列,避免了传统方法中人工特征工程的局限性。例如,H-Net 可自动识别基因调控区域,为疾病研究提供新工具。结合我国在 DNA 存储技术上的突破(如 HELIX 系统),H-Net 有望推动生物数据的智能化处理。

在跨模态应用方面,H-Net 的分层架构和动态分块机制同样适用。例如,在图文生成中,H-Net 可动态分割图像区域和文本片段,实现更精准的跨模态对齐。Meta 的 BLT 架构虽也采用动态字节分块,但 H-Net 的分层设计在抽象建模上更具优势。

尽管 H-Net 取得了显著突破,仍面临一些挑战。在计算资源需求方面,分层架构和动态分块增加了训练复杂度,需进一步优化以适应移动端等资源受限环境。在长序列处理上,现有实验主要针对中等长度序列,H-Net 在超长序列(如整本小说)中的表现仍需验证。在跨语言泛化方面,虽然 H-Net 在多语言任务中表现良好,但其对形态复杂语言(如芬兰语)的处理仍需改进。

未来研究可聚焦以下方向:混合分块策略,结合动态分块与固定分块,平衡灵活性与效率;自监督学习,探索无监督动态分块,减少对标注数据的依赖;硬件适配,设计专用芯片或优化框架,提升 H-Net 的推理速度

H-Net 的诞生标志着 Tokenization 时代的终结。通过分层架构和动态分块,H-Net 实现了真正的端到端序列建模,在性能、鲁棒性和扩展性上全面超越传统模型。尽管仍面临挑战,但其展现的潜力已足够令人振奋。正如知名博主 Rohan Paul 所言:“无需 Tokenizer 训练的时代真的要来了 —— 可能性无限大。” 随着 H-Net 等技术的发展,我们正站在自然语言处理乃至人工智能领域的新起点,迈向更智能、更普适的未来。

END

【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读2.5k
粉丝0
内容901