挑战 next token prediction,Diffusion LLM 够格吗?
引言:在 Google I/O 2025 开发者大会后约半个月,Gemini Diffusion 开始引发 AI 社区广泛关注,成为基于扩散架构的语言模型(dLLM)研究热潮的导火索[1-1][1-2]。
「或许是被忽视的重大突破」,Diffusion LLM 干掉自回归模型的底气是什么?
Gemini Diffusion 虽在 Google I/O 2025 上因同期发布多项重磅成果而未被突出展示,但其采用扩散架构进行文本生成的思路与主流自回归模型形成鲜明对比,被社区称为“被忽略的重大突破”[1-1][1-2]。
该模型在 Demo 中展现出显著性能优势:平均采样速度达 1479 TPS,在编码任务中甚至可达 2000 TPS,较 Gemini 2.0 Flash-Lite 快 4-5 倍(排除额外开销)[1-3]。其核心机制在于利用扩散架构的并行去噪过程生成文本,即从噪声或掩码输入出发,通过多步迭代精炼整个输出序列,实现“从粗到细”的生成模式[1-5]。
这一并行机制被视为潜在的范式转移。相比自回归模型逐个预测 token 的方式,扩散模型可同时优化整个序列,显著降低计算开销[1-4][1-5]。IBM 研究工程师 Benjamin Hoover 指出,该特性在 AI 能耗日益严峻的背景下具有战略意义,长远看有望适配模拟计算硬件,大幅削减能源成本[1-4]。
尽管部分报道将 Gemini Diffusion 视为谷歌在该领域的首项突破,但学界与产业界此前已有探索。例如,斯坦福大学 2022 年提出的 Diffusion-LM 实现了细粒度控制;上海 AI 实验室的 DiffuSeq 为 Seq2Seq 任务设计;复旦大学推出 DiffusionBERT[1-6]。2025 年 2 月,蚂蚁与人大团队发布的 LLaDA 系列及 Inception Labs 推出的编码模型 Mercury,进一步验证了 dLLM 的可行性[1-8]。
自回归建模方式并非大模型的底层逻辑,Diffusion 也可被视作无损数据压缩器?
尽管 Gemini Diffusion 尚未公开,但已有研究系统梳理了扩散模型在 NLP 中的应用。明尼苏达大学 2023 年综述指出,扩散模型可用于文本生成、翻译等任务,分为离散空间建模与连续嵌入空间处理两类[1-7]。
其优势包括:并行生成提升效率、文本插值增强连贯性、细粒度控制能力强及高鲁棒性。但挑战亦存,如多步扩散导致训练复杂、潜空间表征抽象、离散数据处理难等问题[1-7]。
LLaDA 在 8B 规模下验证了冷启动训练扩散 LLM 的有效性,证明通过前向加噪与反向去噪机制可实现大模型核心能力[1-8]。研究团队指出,大模型的优良特性主要源于极大似然估计(等价于最小化 KL 散度)及 Transformer 架构、数据规模与 Fisher 一致性间的协同作用,而非自回归结构本身[1-6][1-8]。这意味着扩散模型同样具备成为主流语言建模范式的理论基础。

