跳过“逐字生成”！蚂蚁集团赵俊博：扩散模型让我们能直接修改Token | MEET2026

量子位

2025-12-12

导读：致力于探索扩散语言模型的Scaling Law

当主流大语言模型仍采用自回归架构时，扩散架构正成为新的技术焦点。

在量子位MEET2026智能未来大会上，浙江大学百人计划研究员、蚂蚁集团资深技术专家赵俊博指出：

扩散架构在推理过程中可直接修改和控制token，无需像自回归模型那样重新生成整段内容。

这意味着扩散模型有望实现更快的生成速度与更低的计算成本。基于这一判断，赵俊博团队将研发重心投向扩散语言模型（dLLM），并致力于探索其独特的Scaling Law。

作为关键进展，团队近期发布并开源了LLaDA 2.0，首次将扩散语言模型扩展至千亿参数规模。

赵俊博坦言，尽管该领域在训练与推理层面尚处早期，但发展迅速，已吸引谷歌、字节跳动等科技巨头及多家初创公司布局。

为完整呈现其技术思路，量子位对演讲内容进行整理，供读者参考。

MEET2026智能未来大会由量子位主办，汇聚近30位产业代表，线下参会人数近1500人，线上直播观看量超350万，获主流媒体广泛关注。

核心观点梳理

当前主流大模型多基于自回归架构，而我们最新开源的模型则采用了完全不同的技术路线——扩散语言模型（dLLM）。

以Midjourney、Sora等图像视频模型为例，其核心机制为“加噪—去噪”的扩散过程。类比到文本生成，dLLM并非逐词接龙，而是通过遮盖部分词语后恢复，类似“完形填空”。

我们的研究重点正是dLLM的Scaling Law。生成模型的本质是对数据分布P(X)的拟合，自回归仅是其中一种方式。

根据新加坡国立大学SEA AI研究员Jinjie Ni的研究分析：

团队发布的LLaDA 2.0是首个达到千亿参数的扩散语言模型，标志着dLLM规模化的重要突破。

关键技术包括：

混合注意力机制：区块间采用自回归注意力保障连贯性，区块内并行解码提升效率；结合全局Attention捕捉长程依赖，Causal Attention维持序列约束。
长序列处理：集成几何加权方法与文档级切分策略，优化长文本建模能力。
完整工具链支持：开源配套训练与推理框架，支持SFT（监督微调）与DPO（直接偏好优化），集成5D并行、Flex-Attention等先进工程方案。