大数跨境
0
0

字节Seed:大概念模型来了,推理的何必是下一个token

字节Seed:大概念模型来了,推理的何必是下一个token 量子位
2026-01-04
7
导读:有效的推理关键在于在哪里思考,而不仅是思考什么。
henry 发自 凹非寺
量子位 | 公众号 QbitAI

LLM的下一个推理单位,何必是Token?

字节Seed团队最新研究提出DLCM(Dynamic Large Concept Models),将大模型推理单位从固定粒度的token动态提升至语义层级的concept。

DLCM通过端到端学习语义边界,将Token序列自适应分割为概念单元,在压缩后的概念空间中进行深度推理,并借助因果交叉注意力将概念级结果重构为Token级预测。

该方法将传统LLM中均匀分配的Token级计算,转变为面向语义密度的动态算力分配,实现推理效率与准确率双提升:在主流推理基准上,FLOPs降低34%,平均准确率提升2.69%。

分层的下一token预测框架

DLCM的核心是学习动态Token-概念映射,解决当前LLM两大瓶颈:
一是自然语言信息分布不均,但所有token被等量计算,造成冗余;
二是既有潜在推理框架(如LCM)依赖人工设定、固定粒度的句子划分,缺乏自适应性与可扩展性。

其分层框架包含四个阶段:

编码阶段:使用编码器提取细粒度Token表示,捕获局部上下文,支撑后续边界检测与解码。

动态分割阶段:基于Token表示计算相邻Token在潜在空间的余弦距离,当不相似度超阈值即判定为语义断点;对同一概念内Token做均值池化并投影升维,生成长度大幅压缩的概念序列。

概念级推理阶段:在压缩概念空间中执行高容量深度推理,整合语义信息。

Token级解码阶段:利用经推理的概念表示,重构并预测下一token。

由此,DLCM将计算重心从低效的Token-Token交互,迁移至结构化的Token-概念-Token交互,实现资源的自适应、高效利用。

关键技术突破与优化

全局解析器:内容自适应压缩

DLCM通过全局解析器(Global Parser)与辅助损失函数,实现按信息密度动态调整概念粒度——对代码或简单文本激进压缩,对复杂语义转折则保持细粒度。

该机制不在单序列层面强制压缩比,而是在Batch整体约束平均边界生成率,使模型可随领域与内容波动自动调节分段策略,精准匹配关键语义区域的算力需求。

Flash Attention适配优化:概念复制策略

为规避可变长概念带来的动态掩码与不规则内存访问问题,DLCM引入概念复制(Concept Replication):将概念特征沿序列维度复制扩展,使其长度与原始Token序列对齐。

此举将变长交叉注意力转化为长度对齐、局部恒定的注意力任务,从而兼容高度优化的Flash Attention Varlen内核,实测加速1.26–1.73倍。

异构架构稳定训练:解耦宽度缩放

针对Token模块与概念主干宽度不一致导致的学习率冲突,DLCM采用解耦的最大更新参数化,为两类模块分别设置宽度缩放因子,并验证其有效学习率应与对应宽度成反比。

该设计显著提升训练稳定性,并支持零样本超参数迁移——小型代理模型调优所得学习率可直接用于更大规模DLCM训练。

量化最优分配点:概念主干占比存在峰值

基于scaling law分析发现:在固定压缩比下,DLCM性能并非随概念主干容量单调增长,而是在中等占比处达到效率峰值。

且该优势随模型规模扩大愈发显著——基线模型越大,DLCM在性能对齐前提下实现的FLOPs节省越可观。

实验统一采用LLaMA论文设定(1T Token训练、相同批次大小/学习率/序列长度),DLCM达43.92%平均准确率,较基线41.23%提升2.69%。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14587
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读105.3k
粉丝0
内容14.6k