近日,微信AI研究团队发布了连续自回归语言模型(CALM),这是一项从根本上突破传统大语言模型效率瓶颈的创新技术。CALM通过将语言建模从“预测下一个离散标记”转变为“预测下一个连续向量”,实现了计算效率的质的飞跃。这项研究标志着语言模型设计从“离散符号处理”向“连续语义理解”的范式转变,为解决长文本生成中的计算瓶颈提供了全新的技术路径。
论文地址:https://arxiv.org/abs/2510.27688
核心问题洞察
传统大语言模型的根本效率瓶颈在于其逐标记生成机制。每个标记仅携带15-18比特信息,导致生成长序列时需要大量计算步骤。CALM团队敏锐地意识到,克服这一瓶颈需要引入新的设计维度:增加每个生成步骤的语义带宽。
连续自回归的革命性理念
CALM实现了从离散的下一个标记预测到连续的下一个向量预测的范式转变:
高保真自动编码器:采用轻量级编码器-解码器架构,将K个标记块压缩为单个连续向量,并能以超过99.9%的准确率重建原始标记。
语义带宽提升:通过将K个标记合并为一个向量,CALM将生成步骤的数量减少K倍,从根本上提升了计算效率。
自动编码器的关键创新
CALM的自动编码器架构经过精心设计,确保连续表示的高保真度和高鲁棒性:
变分正则化:采用变分自编码器框架,通过KL散度损失正则化潜在空间,使其更平滑、结构化。
防后验崩溃机制:引入KL剪裁策略,确保每个潜在维度都积极参与重建,防止坍缩为无信息噪声。
随机失活增强:对潜在向量和输入标记应用随机遮蔽,迫使编码器学习包含语义信息的冗余表示。
无似然建模框架
由于连续向量空间无法使用标准softmax计算概率分布,CALM开发了全面的无似然框架:
能量转换器:采用基于能量的生成头,实现高效的单步连续向量生成,避免迭代方法重新引入推理瓶颈。
严格训练目标:使用能量得分作为训练目标,通过蒙特卡洛方法进行无偏估计,驱使模型预测分布与真实数据分布匹配。
评估挑战的突破性解决
CALM作为隐式生成模型,没有明确的似然函数,使得基于似然的标准评估指标失效。研究团队提出了BrierLM——一种基于Brier分数的严格且恰当的新型评估指标。
技术优势
原则性保证:BrierLM是一种严格恰当的评分规则,当且仅当模型预测分布与真实数据分布匹配时达到最优值。
无偏估计:仅需从模型中抽取两个样本即可计算无偏估计,为不同模型家族提供公平比较基准。
通用适用性:不仅适用于CALM,也适用于任何生成模型,包括传统自回归模型和其他隐式生成模型。
不同模型和训练检查点的交叉熵损失与BrierLM分数的联合分布
精确采样算法
CALM提出了两种无似然温度采样算法:
精确算法:基于拒绝采样的原理性方法,能精确地从目标温度分布生成样本,具有理论保证。
批量近似算法:通过单批次大量采样和组合搜索,在保持渐近无偏性的同时大幅提升效率,特别适用于低温场景。
实用控制机制
批次大小杠杆:批量近似算法中的批次大小N成为权衡效率与准确性的实用控制杠杆,比温度T具有更广的调节范围。
轨迹复现能力:通过调整CALM的批次大小N,可以精确复现传统Transformer通过调整softmax温度所实现的准确率-多样性权衡轨迹。
计算效率显著提升
实验结果表明,CALM在达到相当性能的同时,显著降低了训练和推理的计算成本:
训练效率:3.71亿参数的CALM-M模型性能与2.81亿参数的Transformer-S相当,但训练FLOPs减少44%。
推理效率:相同性能水平下,推理FLOPs减少34%,展现了连续向量预测的固有效率优势。
语义带宽的最佳权衡
CALM引入了语义带宽K作为性能与计算成本权衡的新维度:
最佳平衡点:K=4时达到最佳权衡,性能-计算比超过传统离散模型基线。
可扩展性预示:K=8时性能受当前模型容量限制,暗示更大模型可能利用更高带宽,为未来扩展指明方向。
CALM通过将语言建模重新定义为连续向量预测任务,开创了超高效语言模型的新范式。这一创新不仅证明了增加语义带宽作为语言模型扩展新维度的可行性,也为解决长文本处理中的“计算瓶颈”提供了可复用的技术范式。
未来发展方向:
语义丰富的潜在空间:设计能学习语义相似性与向量距离相关联的潜在空间,为生成模型提供更强归纳偏差。
集成架构探索:研究更集成的端到端生成Transformer,可能带来更强的生成能力。
新的缩放定律:建立包含语义带宽K作为第三个变量的统一缩放定律,指导在不同计算预算下选择最优K值。
随着大模型技术进入“深水区”,CALM代表的“效率优先”设计理念正逐渐取代单纯的“参数规模竞赛”,成为行业竞争的新焦点。这项研究为未来更长上下文、更高效率的模型发展指明了方向,在人工智能计算效率不断提升的征程中树立了新的里程碑。

