大数跨境
0
0

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 量子位
2025-12-12
4
导读:致力于探索扩散语言模型的Scaling Law
编辑部 整理自 MEET2026
量子位 | 公众号 QbitAI

当主流大语言模型仍采用自回归架构时,扩散架构正成为新的技术焦点。

在量子位MEET2026智能未来大会上,浙江大学百人计划研究员、蚂蚁集团资深技术专家赵俊博指出:

扩散架构在推理过程中可直接修改和控制token,无需像自回归模型那样重新生成整段内容。

这意味着扩散模型有望实现更快的生成速度与更低的计算成本。基于这一判断,赵俊博团队将研发重心投向扩散语言模型(dLLM),并致力于探索其独特的Scaling Law。

作为关键进展,团队近期发布并开源了LLaDA 2.0,首次将扩散语言模型扩展至千亿参数规模。

赵俊博坦言,尽管该领域在训练与推理层面尚处早期,但发展迅速,已吸引谷歌、字节跳动等科技巨头及多家初创公司布局。

为完整呈现其技术思路,量子位对演讲内容进行整理,供读者参考。

MEET2026智能未来大会由量子位主办,汇聚近30位产业代表,线下参会人数近1500人,线上直播观看量超350万,获主流媒体广泛关注。

核心观点梳理

  • 所有生成模型本质均为数据分布拟合。自回归模型通过单向因果顺序建模条件概率,但并非唯一路径。

  • 在相同计算量与性能目标下,LLaDA所需参数规模小于自回归模型(暂不考虑MoE结构)。

  • 扩散架构支持在推理阶段直接修改token,无需整段重生成。

  • 在计算受限场景下,LLaDA采用“完形填空”式预测,数据需求更高,训练吸收速度更快。

  • LLaDA的Scaling Law与自回归模型存在差异,已验证可扩展至千亿级,进一步扩展面临新挑战。

押注扩散语言模型的Scaling Law

当前主流大模型多基于自回归架构,而我们最新开源的模型则采用了完全不同的技术路线——扩散语言模型(dLLM)。

以Midjourney、Sora等图像视频模型为例,其核心机制为“加噪—去噪”的扩散过程。类比到文本生成,dLLM并非逐词接龙,而是通过遮盖部分词语后恢复,类似“完形填空”。

我们的研究重点正是dLLM的Scaling Law。生成模型的本质是对数据分布P(X)的拟合,自回归仅是其中一种方式。

根据新加坡国立大学SEA AI研究员Jinjie Ni的研究分析:

  • 数据效率更高:在计算资源受限时,dLLM因“完形填空”机制更“data-hungry”,能更高效利用数据持续训练。
  • 参数效率更优:在dense结构下,相同计算量与性能目标中,dLLM可使用更少参数。
  • 推理可控性强:不同于自回归模型“落子无悔”的特性,dLLM可在推理过程中动态修改token,提升生成灵活性与效率。

发布并开源千亿规模dLLM

团队发布的LLaDA 2.0是首个达到千亿参数的扩散语言模型,标志着dLLM规模化的重要突破。

关键技术包括:

  • 混合注意力机制:区块间采用自回归注意力保障连贯性,区块内并行解码提升效率;结合全局Attention捕捉长程依赖,Causal Attention维持序列约束。
  • 长序列处理:集成几何加权方法与文档级切分策略,优化长文本建模能力。
  • 完整工具链支持:开源配套训练与推理框架,支持SFT(监督微调)与DPO(直接偏好优化),集成5D并行、Flex-Attention等先进工程方案。

发展历程回顾:

  • 中国人民大学文继荣、李崇轩团队推出LLaDA 1.0(8B),为首个大规模训练的扩散语言模型,效果对标LLaMA-3-8B。
  • 蚂蚁技术研究院联合浙大、人大、西湖大学推进后续研发,解决密集模型扩展瓶颈。
  • 2024年9月发布LLaDA-MoE(总参7B,激活1B),全球首个原生MoE架构dLLM。
  • 近期发布LLaDA 2.0,实现千亿参数规模,技术报告已公开。

实际表现方面:

  • 代码生成:得益于并行解码,模型可一次性输出多个token,行为类似Cursor中的自动补全,在调用与编码任务上优于自回归模型。
  • 文学创作:支持先定框架、再填充润色的非线性生成路径,展现更强的结构控制能力。

未来一两个月内,团队将联合ZenMux平台开放部分API接口,推动社区共建。

dLLM的训练推理仍处于早期发展阶段

目前团队已推出实验性推理引擎dInfer,旨在通过新架构提升关键场景下的TPS,实现5倍以上速度增益。

尽管Data/Parameter Scaling Law已趋成熟,Testing-time Scaling Law也逐步被验证,但Diffusion Scaling Law仍待探索。

可以确定的是,dLLM与自回归模型在Scaling规律上存在显著差异,继续扩展将面临新挑战。

赵俊博表示,自ChatGPT问世三年来,AR模型生态趋于成熟,而dLLM的训练与推理体系才刚刚起步,期待更多开发者加入共建。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14462
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读87.8k
粉丝0
内容14.5k