编辑部 整理自 MEET2026
量子位 | 公众号 QbitAI
当主流大语言模型仍采用自回归架构时,扩散架构正成为新的技术焦点。
在量子位MEET2026智能未来大会上,浙江大学百人计划研究员、蚂蚁集团资深技术专家赵俊博指出:
扩散架构在推理过程中可直接修改和控制token,无需像自回归模型那样重新生成整段内容。
这意味着扩散模型有望实现更快的生成速度与更低的计算成本。基于这一判断,赵俊博团队将研发重心投向扩散语言模型(dLLM),并致力于探索其独特的Scaling Law。
作为关键进展,团队近期发布并开源了LLaDA 2.0,首次将扩散语言模型扩展至千亿参数规模。
赵俊博坦言,尽管该领域在训练与推理层面尚处早期,但发展迅速,已吸引谷歌、字节跳动等科技巨头及多家初创公司布局。
为完整呈现其技术思路,量子位对演讲内容进行整理,供读者参考。
MEET2026智能未来大会由量子位主办,汇聚近30位产业代表,线下参会人数近1500人,线上直播观看量超350万,获主流媒体广泛关注。
核心观点梳理
所有生成模型本质均为数据分布拟合。自回归模型通过单向因果顺序建模条件概率,但并非唯一路径。
在相同计算量与性能目标下,LLaDA所需参数规模小于自回归模型(暂不考虑MoE结构)。
扩散架构支持在推理阶段直接修改token,无需整段重生成。
在计算受限场景下,LLaDA采用“完形填空”式预测,数据需求更高,训练吸收速度更快。
LLaDA的Scaling Law与自回归模型存在差异,已验证可扩展至千亿级,进一步扩展面临新挑战。
押注扩散语言模型的Scaling Law
当前主流大模型多基于自回归架构,而我们最新开源的模型则采用了完全不同的技术路线——扩散语言模型(dLLM)。
以Midjourney、Sora等图像视频模型为例,其核心机制为“加噪—去噪”的扩散过程。类比到文本生成,dLLM并非逐词接龙,而是通过遮盖部分词语后恢复,类似“完形填空”。
我们的研究重点正是dLLM的Scaling Law。生成模型的本质是对数据分布P(X)的拟合,自回归仅是其中一种方式。
根据新加坡国立大学SEA AI研究员Jinjie Ni的研究分析:
- 数据效率更高:在计算资源受限时,dLLM因“完形填空”机制更“data-hungry”,能更高效利用数据持续训练。
- 参数效率更优:在dense结构下,相同计算量与性能目标中,dLLM可使用更少参数。
- 推理可控性强:不同于自回归模型“落子无悔”的特性,dLLM可在推理过程中动态修改token,提升生成灵活性与效率。
发布并开源千亿规模dLLM
团队发布的LLaDA 2.0是首个达到千亿参数的扩散语言模型,标志着dLLM规模化的重要突破。
关键技术包括:
- 混合注意力机制:区块间采用自回归注意力保障连贯性,区块内并行解码提升效率;结合全局Attention捕捉长程依赖,Causal Attention维持序列约束。
- 长序列处理:集成几何加权方法与文档级切分策略,优化长文本建模能力。
- 完整工具链支持:开源配套训练与推理框架,支持SFT(监督微调)与DPO(直接偏好优化),集成5D并行、Flex-Attention等先进工程方案。
发展历程回顾:
- 中国人民大学文继荣、李崇轩团队推出LLaDA 1.0(8B),为首个大规模训练的扩散语言模型,效果对标LLaMA-3-8B。
- 蚂蚁技术研究院联合浙大、人大、西湖大学推进后续研发,解决密集模型扩展瓶颈。
- 2024年9月发布LLaDA-MoE(总参7B,激活1B),全球首个原生MoE架构dLLM。
- 近期发布LLaDA 2.0,实现千亿参数规模,技术报告已公开。
实际表现方面:
- 代码生成:得益于并行解码,模型可一次性输出多个token,行为类似Cursor中的自动补全,在调用与编码任务上优于自回归模型。
- 文学创作:支持先定框架、再填充润色的非线性生成路径,展现更强的结构控制能力。
未来一两个月内,团队将联合ZenMux平台开放部分API接口,推动社区共建。
dLLM的训练推理仍处于早期发展阶段
目前团队已推出实验性推理引擎dInfer,旨在通过新架构提升关键场景下的TPS,实现5倍以上速度增益。
尽管Data/Parameter Scaling Law已趋成熟,Testing-time Scaling Law也逐步被验证,但Diffusion Scaling Law仍待探索。
可以确定的是,dLLM与自回归模型在Scaling规律上存在显著差异,继续扩展将面临新挑战。
赵俊博表示,自ChatGPT问世三年来,AR模型生态趋于成熟,而dLLM的训练与推理体系才刚刚起步,期待更多开发者加入共建。

