henry 发自 凹非寺
量子位 | 公众号 QbitAI
LLM的下一个推理单位,何必是Token?
字节Seed团队最新研究提出DLCM(Dynamic Large Concept Models),将大模型推理单位从固定粒度的token动态提升至语义层级的concept。
DLCM通过端到端学习语义边界,将Token序列自适应分割为概念单元,在压缩后的概念空间中进行深度推理,并借助因果交叉注意力将概念级结果重构为Token级预测。
该方法将传统LLM中均匀分配的Token级计算,转变为面向语义密度的动态算力分配,实现推理效率与准确率双提升:在主流推理基准上,FLOPs降低34%,平均准确率提升2.69%。
分层的下一token预测框架
DLCM的核心是学习动态Token-概念映射,解决当前LLM两大瓶颈:
一是自然语言信息分布不均,但所有token被等量计算,造成冗余;
二是既有潜在推理框架(如LCM)依赖人工设定、固定粒度的句子划分,缺乏自适应性与可扩展性。
其分层框架包含四个阶段:
编码阶段:使用编码器提取细粒度Token表示,捕获局部上下文,支撑后续边界检测与解码。
动态分割阶段:基于Token表示计算相邻Token在潜在空间的余弦距离,当不相似度超阈值即判定为语义断点;对同一概念内Token做均值池化并投影升维,生成长度大幅压缩的概念序列。
概念级推理阶段:在压缩概念空间中执行高容量深度推理,整合语义信息。
Token级解码阶段:利用经推理的概念表示,重构并预测下一token。
由此,DLCM将计算重心从低效的Token-Token交互,迁移至结构化的Token-概念-Token交互,实现资源的自适应、高效利用。
关键技术突破与优化
全局解析器:内容自适应压缩
DLCM通过全局解析器(Global Parser)与辅助损失函数,实现按信息密度动态调整概念粒度——对代码或简单文本激进压缩,对复杂语义转折则保持细粒度。
该机制不在单序列层面强制压缩比,而是在Batch整体约束平均边界生成率,使模型可随领域与内容波动自动调节分段策略,精准匹配关键语义区域的算力需求。
Flash Attention适配优化:概念复制策略
为规避可变长概念带来的动态掩码与不规则内存访问问题,DLCM引入概念复制(Concept Replication):将概念特征沿序列维度复制扩展,使其长度与原始Token序列对齐。
此举将变长交叉注意力转化为长度对齐、局部恒定的注意力任务,从而兼容高度优化的Flash Attention Varlen内核,实测加速1.26–1.73倍。
异构架构稳定训练:解耦宽度缩放
针对Token模块与概念主干宽度不一致导致的学习率冲突,DLCM采用解耦的最大更新参数化,为两类模块分别设置宽度缩放因子,并验证其有效学习率应与对应宽度成反比。
该设计显著提升训练稳定性,并支持零样本超参数迁移——小型代理模型调优所得学习率可直接用于更大规模DLCM训练。
量化最优分配点:概念主干占比存在峰值
基于scaling law分析发现:在固定压缩比下,DLCM性能并非随概念主干容量单调增长,而是在中等占比处达到效率峰值。
且该优势随模型规模扩大愈发显著——基线模型越大,DLCM在性能对齐前提下实现的FLOPs节省越可观。
实验统一采用LLaMA论文设定(1T Token训练、相同批次大小/学习率/序列长度),DLCM达43.92%平均准确率,较基线41.23%提升2.69%。

