字节Seed：大概念模型来了，推理的何必是下一个token- 大数跨境

首页

字节Seed：大概念模型来了，推理的何必是下一个token

量子位

2026-01-04

导读：有效的推理关键在于在哪里思考，而不仅是思考什么。

henry 发自凹非寺
量子位 | 公众号 QbitAI

LLM的下一个推理单位，何必是Token？

字节Seed团队最新研究提出DLCM（Dynamic Large Concept Models），将大模型推理单位从固定粒度的token动态提升至语义层级的concept。

DLCM通过端到端学习语义边界，将Token序列自适应分割为概念单元，在压缩后的概念空间中进行深度推理，并借助因果交叉注意力将概念级结果重构为Token级预测。

该方法将传统LLM中均匀分配的Token级计算，转变为面向语义密度的动态算力分配，实现推理效率与准确率双提升：在主流推理基准上，FLOPs降低34%，平均准确率提升2.69%。

分层的下一token预测框架

DLCM的核心是学习动态Token-概念映射，解决当前LLM两大瓶颈：
一是自然语言信息分布不均，但所有token被等量计算，造成冗余；
二是既有潜在推理框架（如LCM）依赖人工设定、固定粒度的句子划分，缺乏自适应性与可扩展性。

其分层框架包含四个阶段：

编码阶段：使用编码器提取细粒度Token表示，捕获局部上下文，支撑后续边界检测与解码。

动态分割阶段：基于Token表示计算相邻Token在潜在空间的余弦距离，当不相似度超阈值即判定为语义断点；对同一概念内Token做均值池化并投影升维，生成长度大幅压缩的概念序列。

概念级推理阶段：在压缩概念空间中执行高容量深度推理，整合语义信息。

Token级解码阶段：利用经推理的概念表示，重构并预测下一token。

由此，DLCM将计算重心从低效的Token-Token交互，迁移至结构化的Token-概念-Token交互，实现资源的自适应、高效利用。

关键技术突破与优化

全局解析器：内容自适应压缩

DLCM通过全局解析器（Global Parser）与辅助损失函数，实现按信息密度动态调整概念粒度——对代码或简单文本激进压缩，对复杂语义转折则保持细粒度。

该机制不在单序列层面强制压缩比，而是在Batch整体约束平均边界生成率，使模型可随领域与内容波动自动调节分段策略，精准匹配关键语义区域的算力需求。

Flash Attention适配优化：概念复制策略

为规避可变长概念带来的动态掩码与不规则内存访问问题，DLCM引入概念复制（Concept Replication）：将概念特征沿序列维度复制扩展，使其长度与原始Token序列对齐。

此举将变长交叉注意力转化为长度对齐、局部恒定的注意力任务，从而兼容高度优化的Flash Attention Varlen内核，实测加速1.26–1.73倍。

异构架构稳定训练：解耦宽度缩放

针对Token模块与概念主干宽度不一致导致的学习率冲突，DLCM采用解耦的最大更新参数化，为两类模块分别设置宽度缩放因子，并验证其有效学习率应与对应宽度成反比。

该设计显著提升训练稳定性，并支持零样本超参数迁移——小型代理模型调优所得学习率可直接用于更大规模DLCM训练。

量化最优分配点：概念主干占比存在峰值

基于scaling law分析发现：在固定压缩比下，DLCM性能并非随概念主干容量单调增长，而是在中等占比处达到效率峰值。

且该优势随模型规模扩大愈发显著——基线模型越大，DLCM在性能对齐前提下实现的FLOPs节省越可观。

实验统一采用LLaMA论文设定（1T Token训练、相同批次大小/学习率/序列长度），DLCM达43.92%平均准确率，较基线41.23%提升2.69%。

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14587

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读105.3k

粉丝0

内容14.6k