大数跨境
0
0

大模型边际效应下降,小模型正在悄悄逆袭

大模型边际效应下降,小模型正在悄悄逆袭 极市平台
2025-12-02
2
↑ 点击蓝字 关注极市平台
作者丨刘聪NLP
来源丨刘聪NLP
编辑丨极市平台

极市导读

 

清华&面壁「Densing Law」登 Nature 子刊封面:大模型能力密度约每 100 天翻倍,0.6B 模型可榨出 3B 性能;本文作者判断小模型知识密度竞赛将成 2025-2027 主旋律。>>加入极市CV技术交流群,走在计算机视觉的最前沿

前两天刷到一个信息,就是清华和面壁的Densing Law文章,登上Nature子刊的封面,

Densing Law就是大模型的能力密度法则,这个概念并不陌生,其实2024年就挂在了arxiv上了,也听刘知远老师在各大论坛上讲过,

能力密度就是大模型的有效参数大小与实际参数大小的比率,一个0.6B的模型能达到3B参考模型的性能,那么这个0.6B模型的能力密度就是5

Densing Law发现现在大模型能力密度大概每3.5个月(约100天)就翻一倍,也就是说随着不断地发展,小模型可以干更多的事情

引用大聪明老师的一句话,就是马上有一天,你可以在小天才手表上,跑 Nano Banana,哈哈哈。

所以今天,借着重读这篇文章,聊一聊端侧模型/小模型的一些想法。

了其实现在在很多场景中,小模型还是很有用的。

有些人可能对端侧模型很模糊,其实我也很模糊,因为你会发现,有的0.几B的说自己的端侧模型,7B、8B甚至14B的也说自己的端侧模型。

就像,之前讨论过,多大模型算大模型一样,是LLM、还是SLM,本身就没有明确的定义。

我就以我的想法来定义一波,我觉得分两种端侧,

狭义的端侧,在手机(主要)、眼镜、手表、音箱、甚至汽车座舱上的模型,因为手机内存通常8-16G,留给模型4-6G使用,那么模型规模可以在0.5B-3B之间,或者经过极致量化的7B模型。

广义的端侧,在笔记本电脑、台式机,可以轻松运行7B到14B的模型,所以只要是不上传云端,完全在你的电脑显卡/CPU上跑完推理,都可以算端侧。

说一个爆论,相较于更大参数的模型,小模型或者端侧模型,在未来两年发展的趋势会更猛,

Scaling Law告诉我们大力出奇迹,堆参数、堆训练数据,模型就会很强,但预训练数据基本上已经用的差不多了,模型一味变大的边际效应明显在变弱。

近期 Ilya 的采访估计大家都看了,Ilya表示2012-2020年是研究时代,2020-2025 年是扩展时代,2025年之后会重回研究时代。

那么,我觉得让小模型拥有大智慧,是一个会大家进行更多研究的方向

一方面是,LLM落地会考虑成本,使用越小的模型,成本会越低;另一方面,更大模型无法取得很大突破时,以小博大是很多人直观的想法。

英伟达不就发了《Small Language Models are the Future of Agentic AI》了吗?

而且在这两年,小模型的发展其实已经很快了,之前GPT3.5的效果,应该随随便便的7B模型就能达到,甚至还会更好。

然后就是我再思考一个问题,

小参数模型,学习更多的数据,真的能记住吗?

从数据层面上来看,数据的知识密度可能更重要。数据过多可能导致模型出现遗忘,直观层面,就是脑容量的问题。

但我并没有理论依旧,我知道知识密度对模型有作用,但我想说的是,也许小模型对知识密度的要求对大模型更高。(欢迎评论区讨论,我也是瞎想)

所以数据是我觉得是未来持续要卷的方向。

还有就是,模型量化,Densing Law发现模型压缩算法并不总能增强模型能力密度,说白了,就是量化之后,模型本身能力下降了,把这个比率拉的更高,模型能力密度才能更高。

比如现在有很多原生INT4、MXFP4、NVFP4训练,这些主要解决超大模型训练的问题,在小模型上应该也是奏效的,只不过,现在训练资源充足,小模型没必要这么去搞。

长文本在端侧,这其实是个悖论。

好不容易把模型参数压到了极致,塞进手机那可怜的4G/6G内存里。结果一开长文本,KV Cache直接拉满。

但在未来,端侧的长文本也是必须的,端侧需要读取用户大量的私密信息,如聊天记录等等等,才能更了解用户,必会有用户的需求是需要长上下文的。

所以我觉得,端侧长文本,应该是架构层面的创新。

现在模型结构上,大家都在改,Qwen3-Next的SWA+Mamba2,还有现在MoE是标配了, 但目前小模型结构改变,貌似只有面壁的InfLLMv2稀疏注意力架构了,反正就是快。

Infra还用聊吗?推理框架就是隐形的战场,

llama.cpp、MLC LLM、Qualcomm QNN、SNPE、Apple CoreML、MLX-LLM

哪个更好,适配问题,都值得思考?

这块我也是真不擅长,哈哈哈哈哈

最后想说,

端侧芯片的承载能力越来越强,

端侧模型的知识密度越来越高,

此前只能在云上部署的大模型,最终一定可以用终端芯片就装得下、跑得动,

端侧智能有着巨大潜力。



公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k