大数跨境
0
0

模速加速度 | “密度法则”登上 Nature子刊封面,揭示高效大模型发展路径

模速加速度 | “密度法则”登上 Nature子刊封面,揭示高效大模型发展路径 上海模速空间大模型创新生态社区
2025-11-26
0
导读:清华、面壁智能联合研究成果

近日,清华大学联合面壁智能研究成果《Densing Law of LLMs》(大模型密度法则)正式在《自然 · 机器智能》(Nature Machine Intelligence)上 作为封面文章正式发表

密度法则指出,大语言模型的最大能力密度随时间呈指数级增长,2023 年 2 月至 2025 年 4 月,大模型最大能力密度约每 3.5 个月翻一倍。这意味着每隔 3.5 个月,即可用一半参数量的模型实现当前最优性能。这一发现为理解大模型发展规律提供了新的视角,揭示了大模型高效化发展的内在趋势。


大模型的快速发展给通用人工智能的研究带来了曙光。自 2020 年以来,大模型在尺度定律(Scaling Law)的指导下,不断增加训练数据和模型参数的规模,在自然语言理解、生成和推理任务上的取得了显著的能力提升。这推动了一系列参数量超过千亿的超大规模模型的涌现。然而,随着训练规模的膨胀,大模型的训练和推理成本急剧上升:一方面,公开可用数据的增长难以匹配模型需求的指数级扩张;另一方面,计算资源和能源消耗成为大模型训练与部署的瓶颈。为应对这些挑战,研究者亟需探索大模型的可持续发展路径。


信息技术发展史提供了重要借鉴。摩尔法则通过优化芯片制造工艺、提升晶体管密度,持续提升芯片计算能力,推动了计算设备的普及化进程。受此启发,研究团队思考:大模型是否也存在类似的“密度提升”规律?研究团队提出了大模型“能力密度”(Capability Density)概念,用于评估大模型单位参数内蕴含的智能水平。该概念基于一个核心假设:采用相同制造工艺、经过充分训练的不同尺寸模型,其能力密度应当相同。


为了量化能力密度,研究团队设计了相对能力密度的评估框架。首先选取一系列基准模型,通过拟合这些模型在不同参数规模下的性能表现,建立参数量与性能之间的映射关系。在此基础上,研究团队设定基准模型的能力密度为 1,作为衡量其他模型能力密度的基线。给定目标模型的能力密度被定义为:目标模型的参数量与达到相同效果的基准模型参数量的比值。

能力密度计算方法示意图

团队对 51 个近年来发布的开源大模型进行了密度分析。结果显示,这些模型的最大能力密度随时间呈指数增长趋势,大约每过 3.5 个月,就能用参数量减半的模型达到当前最先进模型的性能水平。这一规律揭示了大模型技术的飞速进展,以及在算力和算法的协同作用下,模型能力的持续提升。

开源大模型能力密度的变化趋势

根据密度法则,研究团队得出了若干重要推论:

推论1:同能力模型的推理开销随时间指数级下降 

一方面,密度法则指出同能力的大模型参数每 3.5 个月减半。同时在推理系统优化方面,摩尔定律驱动芯片算力持续增强,而模型量化、投机采样、显存优化等算法技术也在不断突破,相同推理成本下,能够运行的模型大小不断提升。实证数据显示,GPT-3.5 级模型 API 价格在 20 个月内下降 266.7 倍,约每 2.5 个月下降一倍。

GPT-3.5 级模型 API 价格

推论2:大模型能力密度正在加速增强 

以 MMLU 为评测基准的统计显示,ChatGPT 发布前能力密度每 4.8 个月翻倍,而 ChatGPT 发布后能力密度每 3.2 个月翻倍,密度增强速度提升了 50%。这表明,随着大模型技术的成熟和开源生态的繁荣,能力密度提升正在加速。

以 MMLU 为基准测量的能力密度变化情况

推论3:模型压缩算法并不总能增强模型能力密度 

研究团队对比了多个模型与其压缩版本的能力密度,发现除了 Gemma-2-9B 以外,如 Llama-3.2-3B/1B、Llama-3.1-minitron-4B 等其他压缩模型的密度都低于原始模型。量化技术同样会降低模型性能和能力密度。这一发现揭示了当前模型压缩技术的局限性:压缩过程中较小模型的训练往往不够充分,无法达到最优密度。

模型压缩对能力密度的影响

推论4:模型小型化揭示端侧智能巨大潜力 

芯片电路密度(摩尔定律)和模型能力密度(密度法则)两条曲线的交汇,意味着端侧设备将能够运行更高性能的大模型,边缘计算和终端智能将迎来爆发式增长,算力普惠将从云端走向终端。

发表在《Nature Communications》上的论文(Efficient GPT-4V level multimodal large language model for deployment on edge devices)刻画了这一变化趋势

基于密度法则的理论指导,清华大学、OpenBMB 及模速空间入驻企业面壁智能团队围绕模型架构、算法、数据等方面持续创新,加速推进高密度模型研发。自 2024 年以来,陆续发布了面壁小钢炮 MiniCPM、MiniCPM-V/o、VoxCPM 等一系列端侧「高密度」模型,凭借高效低成本的特性享誉全球,被评为 2024 年 Hugging Face 最多下载、最受欢迎的中国大模型。截至 2025 年 10 月,模型下载量接近 1500 万次, GitHub 星标接近 3 万次。


来源:面壁智能

【声明】内容源于网络
0
0
上海模速空间大模型创新生态社区
“模速空间”是全国首个大模型专业孵化和加速载体,立足徐汇滨江,基于“十百千万”目标,打造数据、算力、评测、金融、综合等功能平台,赋能各通用大模型、垂类大模型、大模型应用创新初创企业汇聚上海、引领全国、扬帆世界。
内容 597
粉丝 0
上海模速空间大模型创新生态社区 “模速空间”是全国首个大模型专业孵化和加速载体,立足徐汇滨江,基于“十百千万”目标,打造数据、算力、评测、金融、综合等功能平台,赋能各通用大模型、垂类大模型、大模型应用创新初创企业汇聚上海、引领全国、扬帆世界。
总阅读14
粉丝0
内容597