01
引言
现代语言模型(LMs)长期由自回归(AR)方法主导,这类模型以从左到右的方式逐词元生成文本。在该范式下,模型通过学习最大化给定上文时下一个词元的概率。GPT-3、LLaMA 3等模型均采用此方法,并取得了显著成功。然而,这种顺序生成方式会导致错误累积,且并行能力受限——若自回归模型早期出现错误,将影响后续所有词元,且无法直接修正已生成的文本。
相比之下,扩散语言模型(DLMs)是借鉴图像生成领域的新思路。扩散模型通过多步噪声干扰破坏完整序列,再训练模型逆向还原该过程。在视觉领域(如DDPMs),扩散模型会向图像添加高斯噪声,再训练去噪网络。对于文本,该思想被改造为逐步添加噪声(如替换词元或扰动嵌入向量)后重建文本。简言之,扩散模型通过对被破坏的句子逐步去噪,实现全文本同步生成,支持序列任意位置的并行更新与错误修正。
02
自回归模型是现代自然语言处理(NLP)的基石,尤其在文本生成领域。其设计本质上是序列化的,正如人类构建句子和叙述的常规方式。
自回归(AR)语言模型通过将Token序列的概率分解为条件概率的乘积来进行学习:
在训练过程中,模型通过教师强制(teacher-forcing)使用训练数据中的前序词元,最大化数据似然(等价于最小化交叉熵)。这种从左到右的概率分解方式是大型语言模型训练的通用范式。自回归模型通常采用RNN/LSTM架构,或(更常见于当下)基于Transformer解码器架构来实现这些条件概率的计算。
数学原理
自回归模型将序列的联合概率逐步分解。对于Token序列 x₁,…,x_T:
等价地,在训练过程中,模型通过最小化负对数似然(NLL)或交叉熵损失进行优化:
其中 p(θ) 为模型的 softmax 输出。该数学表达假设每个Token仅依赖于前序Token(通过因果掩码实现)。通过最大化对数似然,自回归模型本质上学习的是"预测下一个Token"的能力。这种方法使得并行训练成为可能,但在推理(生成)时则强制进行顺序生成。
模型架构
当前自回归语言模型几乎均采用Transformer解码器架构。以典型的GPT类模型为例,其工作流程如下:首先将输入词元Token映射为连续嵌入向量,并添加固定位置编码;这些嵌入向量经过N个堆叠的Transformer块(每个块包含掩码自注意力层和前馈网络层)处理,生成上下文感知的表征;最后,一个线性层和 softmax 函数会为下一个词元Token生成词汇表上的概率分布。
组件介绍
嵌入层与位置编码:输入词元Token(以整数表示)经过嵌入查找表转换为向量。叠加正弦函数或可学习的位置向量,以确保模型感知词元的顺序。
解码器层:每一层由因果自注意力(causal self-attention)组成,即词元t只关注位置≤t的内容。
输出投影层:最后一层的输出在对应位置被投影并通过softmax,预测下一个词元的概率。
该架构通过因果注意力机制天然满足自回归特性,可扩展至数十亿参数规模。其固定上下文窗口(如2048Tokens)在超限时需通过截断或缓存机制处理。生成阶段,模型逐步采样(或贪婪选择)下一个词元并追加至上下文,迭代该过程直至满足终止条件(如生成序列结束符EOS或达到最大长度)。
训练过程
推理过程
在推理阶段,词元Token是逐步生成的。常用的方法包括贪婪解码(每次选择概率最高的令牌)或采样方法(例如top-k或top-p采样)以引入多样性。在一些自回归设置中(尤其是翻译任务),还会采用束搜索(beam search)来探索多个高概率序列。
请注意,所有这些策略在每次前向传播中只生成一个词元,这使得长序列的生成速度相对较慢。自回归模型无法修改已经生成的词元;每个选择一旦做出就已定局,并作为下一步的输入。这种严格的左到右生成方式导致误差可能逐步传播,而且由于生成过程是串行的,不能在不同位置实现并行化。
03
扩散模型的灵感源自非平衡态热力学——这一过程常被类比为观察颜料在水中逐渐扩散直至均匀染色的现象。在生成式AI领域,该过程被逆向用于数据生成。
扩散模型通过逐步添加噪声来破坏数据,然后学习逆向降噪的过程。在文本领域,基于扩散的语言模型将这一思想应用于令牌序列。其核心概念是定义一个正向(添加噪声)过程
这个过程主要包含两个阶段:
正向(添加噪声)过程
:这是扩散阶段,逐渐向原始干净数据添加噪声,经过一系列时间步。在文本中,这意味着逐步将干净的文本嵌入转换为更简单的分布,通常是高斯噪声。这个过程系统地破坏数据,直到它与随机噪声无法区别。q 逆向(降噪)过程
p θ :这是生成阶段,也是扩散模型生成内容的核心。模型学会逆转正向过程,逐步从含噪的输入中去除噪声。通过反复去噪,模型可以重构原始数据,或者生成与学习到的数据分布相匹配的高质量新样本。
不同于自回归模型,扩散语言模型在生成时可以同时更新所有词元。
数学原理
在扩散语言模型中,每个文本序列x(长度为L)首先会被嵌入到连续空间(例如通过词嵌入)。前向马尔可夫链会逐步破坏这一嵌入序列。例如,可以像连续扩散那样定义高斯步骤:
这样经过T步后,数据几乎变为纯噪声。我们可以将上述方程改写为:
其中:
这里,z_0是干净的嵌入序列,而z_T则接近随机高斯噪声。在离散/词元扩散变体中,前向过程可能通过随机替换或在词汇单纯形(vocabulary simplex)上使用可学习的转移来破坏词元,但其核心思想与通过多个小步骤添加噪声类似。
反向(生成)模型p_θ试图逆转前向过程。通常,对于每个时间步t,神经网络(主要基于Transformer)会接收噪声状态z_t,并为p_θ(z_{t-1} | z_t)预测参数(如均值噪声)。训练的目标是最小化p_θ与真实反向条件q(z_{t-1} | z_t)之间的差异。实践中,这可以通过去噪目标(例如预测添加的高斯噪声)或通过最大化似然的变分下界来实现。
模型架构
扩散语言模型(Diffusion LMs)的架构多种多样,但都包含几个核心组件:词嵌入(token embeddings)、噪声调度(noise schedules)和去噪网络(denoising network)。典型的流程是:先对词元进行嵌入,添加时间步信息,然后通过一系列Transformer或U-Net层来预测去噪后的输出。
一些关键点总结:
-
连续与离散 (Continuous vs. Discrete): 一些模型(如 Plaid LM)将词元嵌入到连续空间并使用高斯噪声。其他模型则直接在词元概率的离散单纯形(one-hot向量)上操作。例如,SSD-LM 在自然词汇空间(即单纯形)上执行扩散,而不是在潜空间(latent space)中。 -
时间嵌入 (Time Embedding): 模型通常会对当前噪声时间戳 t 进行编码(通常通过正弦嵌入或可学习嵌入),这样它就能知道已添加了多少噪声。这类似于 Transformer 中的位置嵌入,但它表示的是噪声水平。 -
网络主干 (Network Backbone): 许多扩散语言模型的去噪器使用 Transformer 模块(类似于自回归模型 AR models)。一些(视觉领域的)研究采用 U-Net 架构,但对于文本,主干通常是双向甚至自回归的 Transformer,它将整个噪声序列作为输入。
总体而言,扩散语言模型的架构可以看作是一个编码器网络,它处理噪声序列并为去噪过程输出残差(residual)或下一步的预测。网络经过训练,以便在 T 个去噪步骤(通常为 50-200 步)之后,恢复的序列与原始文本相匹配。与自回归(AR)解码器不同,扩散网络在训练和采样过程中都会同时看到(并更新)所有词元。
训练过程
扩散语言模型的训练目标通常采用最大似然估计或去噪分数匹配的形式。虽然可以通过推导数据似然的变分下界进行优化,但常见的简化方法是直接最小化去噪误差。具体而言,在每一步时间步t,模型会接收样本x的噪声版本z_t,并学习预测原始数据x或所添加的噪声。这一过程可通过预测噪声的均方误差损失(连续空间)或离散层面的交叉熵损失(如词汇空间)实现。因此,模型逐步学会逆转前向破坏过程。由于前向过程固定且已知,梯度可以跨所有时间步在去噪网络中传播,从而支持并行硬件的端到端训练。
推理过程
为了生成文本,模型从一个随机噪声向量 z_T 开始,并应用学习到的反向过程进行 T 步操作。具体来说,在步骤 t,我们有一个噪声嵌入 z_t,模型会预测 z_{t-1} 的参数(例如均值或可能是方差)。我们通过采样或取均值得到 z_{t-1},并持续此过程直到得到 z_0。结果 z_0 随后通过最近词元(nearest-token)或 softmax 解码成离散文本。与自回归(AR)模型不同,在每个去噪步骤中,所有词元都会并行更新。
值得注意的是,扩散推理支持前瞻性修正:模型可在每一步调整序列的任何部分。理论上,这为全局连贯性和规划提供了更大灵活性。然而,扩散模型需要对整个序列进行T次神经网络评估(T通常为50-200步),而AR模型仅需执行与词元数量相当的步骤。因此,对于长文本生成,朴素的扩散采样可能比AR更慢——除非大幅减少扩散步数。
04
自回归模型与扩散模型在文本生成方式上的本质差异,导致了截然不同的性能表现与权衡取舍。
生成过程的根本差异
自回归模型(AR):顺序生成,逐词推进。如同一个按部就班的讲述者,严格遵循从左到右的顺序逐词生成文本。每个新词元的预测完全依赖于已生成的历史序列。
扩散模型:并行生成,迭代优化。更像一名精雕细琢的工匠,从整个序列的噪声表示出发,通过多步迭代逐步去噪,最终得到完整文本。
速度与效率
固定长度与任意长度输出:对于非常短的响应,AR模型速度较快,因为它们只需逐个生成必要的符号。而扩散模型因并行处理整个序列,在生成固定长度(尤其是较长)文本时可能更快,但需付出多步计算的代价。
长上下文分析:AR模型在处理长输入时更具效率,可以利用键值(KV)缓存技术加速处理。而扩散模型需在每一步去噪时对整个序列重新计算注意力,长上下文场景下计算开销显著增加。
质量与多样性
连贯性与流畅性:由于严格的顺序条件,AR模型通常在局部连贯性和语法正确性方面表现优异。而扩散模型通过全局迭代优化,能实现更好的整体连贯性和上下文一致性。
多样性:理论上,扩散模型提供更高的多样性和模型覆盖面,因为其生成过程能够更广泛地探索数据分布,从而避免模式崩塌(mode collapse)。
总结
05
自回归模型与扩散模型各自固有的独特优势和不足,自然推动了混合架构的发展。自回归模型擅长处理长上下文时保持流畅性和效率,而扩散模型则具备强大的全局连贯性、生成多样性潜力及细粒度控制能力。混合方法的目标正是融合这些互补优势,以缓解各自的局限性。
近期涌现的若干模型实现了两种范式的交融:
AR-Diffusion(NeurIPS 2023):由微软研究者提出,该模型为右侧词元分配更多去噪步骤,左侧词元则分配较少。这种设计使左侧词元更早生成并作为条件影响右侧词元,巧妙地将自回归依赖性重新引入扩散过程。
LongTextAR:该模型针对特定挑战而设计——在图像中生成连贯的长文本内容。由于上下文窗口限制,纯扩散模型在此任务上往往表现不佳。LongTextAR充分发挥自回归模型处理超长文本序列的优势来生成文本内容,同时结合视觉生成能力实现图文协同创作。
06
展望未来,我们预计自回归(AR)与扩散模型将进一步深度融合。潜在的发展方向包括:
少步扩散:通过知识蒸馏或一致性模型等方法,将扩散步骤缩减至数十步甚至单步(类似图像扩散领域的进展);
文本隐空间扩散:仿效图像隐向量扩散思路,先将文本映射到压缩隐空间再进行扩散,以提升效率;
统一架构:可能出现能动态切换顺序生成与并行生成模式的架构,或仅在深层模型的特定层级应用扩散机制。
总体而言,尽管自回归Transformer语言模型目前仍占主导地位,但基于扩散的方法正快速发展。其并行化生成、全局连贯性以及模块化控制的潜力,使其成为充满前景的研究前沿。AR与扩散优势融合的混合模型(如AR-Diffusion)已展现出二者兼得的可能性。未来的语言模型很可能不再是非此即彼的选择,而是将扩散原理(如基于噪声的扰动、得分匹配目标函数等)融入以自回归为主的框架中。这种融合有望催生具有更快生成速度、更高多样性及新型控制能力的模型。
参考:
【1】Large Language Diffusion Models:
https://arxiv.org/pdf/2502.09992
【2】Scaling Laws and Efficient Training of Diffusion Language Models:
https://arxiv.org/abs/2305.16291
【3】Denoising Diffusion Probabilistic Models:
https://arxiv.org/abs/2006.11239
【4】Structured Denoising Diffusion Models in Discrete State-Spaces:
https://arxiv.org/abs/2107.03006
【5】Diffusion-LM: Improving Controllable Text Generation:
https://arxiv.org/abs/2205.14217
【6】AR-Diffusion: Auto-Regressive Diffusion for Efficient and High-Quality Text Generation:
https://arxiv.org/abs/2207.10551
点击上方小卡片关注我
添加个人微信,进专属粉丝群!

