先岔开个题外话,我有个朋友叫锴杰,颜值在线,在乐团当过首席
对于锴杰,我一直觉得偶像前景 > 技术品味 > 产品塑造
他有个产品叫马卡龙,但本文和这个无关
上个月锴杰来酒吧,跟我说:
做产品的过程中,他们有一些技术上的发现,然后成立了一个 Lab
这对于锴杰来说,我觉得,比单纯做产品靠谱多了
现在,Mind Lab 正式成立,并交出了第一份答卷
-
• 万亿参数 LoRA 强化学习 -
• GPU 消耗砍掉 90% -
• 记忆算法 SOTA
现在他不但搞了产品,还搞了技术,很好
偶像之路,再缓缓吧
预训练结束了
Richard Sutton 是 DeepMind 首席科学家,强化学习之父
他今年有个判断:预训练时代结束了
互联网数据总共就 14T 左右,该训的都训过了
那接下来怎么继续提升模型智能?
Sutton 给的方向叫 Era of Experience
翻译过来就是「经验智能」
核心思路是这样:
把模型放进真实产品里,基于用户真实反馈,持续训练训练
让模型,在产品里一直训、一直长
...等等,锴杰跟我讲这些的时候
我突然想到了之前的另一个产品
Hitem 为了训练 3D 模型,专门建立了个工厂,也是这个理由
Mind Lab 做了个实验,恰好也验证这件事:
真实反馈数据流训练的模型,智能提升效果远比用固定 reward 训练的好
顺道说一下,这里有个概念上的区分
预训练造的是 Brain——大脑
大脑是静态的,训完就定型了,记住了互联网上的海量知识,但不会再进化
强化学习造的是 Mind——心智
心智会在环境中不断进化,能从反馈中学习,能动态调整行为
这是 Mind Lab 名字的由来
Mind Lab 在干啥
锴杰他们,在技术上做了两件事
第一件:万亿参数 LoRA 强化学习
在万亿参数模型上跑全参数强化学习,算力太贵,绝大多数团队玩不起
Mind Lab 的解法是用 LoRA
LoRA 的意思是:不动整个大模型,只取出大约 0.5% 的核心参数来训练
效果基本不打折,成本砍到十分之一
他们在 Kimi K2 上验证了这套方案:
64 张 H800 搞定万亿参数模型的强化学习
这套方案,已经合并到 NVIDIA Megatron-Bridge 和字节 seed verl,代码开源
锴杰跟我说,目前全球做这个方向的,只有两家
Thinking Machine 和 Mind Lab
第二件:Memory Diffusion
这是一个记忆算法,我很喜欢
传统模型想要保存更多的东西,要么每轮对话总结记忆(开销大、细节丢失),要么存数据库检索(容易丢上下文)
Mind Lab 的思路很有意思,它是把对话轨迹本身当记忆
通过「遮蔽-分配-重填」三步动态压缩
-
• 选一块遮掉 -
• 根据重要性分配 token 预算 -
• 在预算约束下重新生成
灵感来自人类的遗忘机制:
比如...在开车的时候,你会忘掉路过的广告牌,只记住目的地
这套东西,在 Locomo 基准上达到 93% 准确率,SOTA
一个有意思的发现
Mind Lab 做了个对照实验
三个模型,控制总计算量一致,来做个训练对比
-
• 1.5B 全参数训练 -
• 7B LoRA 训练 -
• 32B LoRA 训练
结论是 32B + LoRA 效果最好
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
20.61% |
为什么?
因为强化学习本质上是「先验受限」的
如果基座模型本身生成不出高质量轨迹,强化学习就没什么有用的信号可以放大
大模型已经编码了丰富的推理模式,强化学习在这些基础上精修,比从头造轮子效率高得多
大先验 + 小 LoRA,比小模型全参数训练更划算
还挺有意思的
产品是天然的 RL 环境
和锴杰认识很久了,也一直很喜欢他的技术品味
但即便是这样,我依然会有一个问题
这样的技术,为什么是来自产品团队?
得到了这样的回答
产品本身,就是最好的强化学习环境
这里说个很有趣的事实
Cursor 的估值,能买下国内所有的大模型创业公司
Cursor 值钱,在于它有最多的真实用户数据
用户用 Cursor 写代码,接受或拒绝建议,编辑或删除生成内容,这些全是训练信号
作为对比,X.AI 有很多算力、很多优秀研究员,但模型提升速度不够快
为什么?没有真实产品环境,奖励函数没法持续进化
Mind Lab 的逻辑也是这样
研究给产品带来体验升级(比如生成速度从 20 分钟到 2 分钟),产品给研究带来真实数据,这些是互相增强的
预训练时代,赢家是数据多的
经验智能时代,赢家会是产品好的
最后
Ilya 说过:
预训练时代正在走向终结
那下一个时代是什么?
可能是「经验智能」,也或者不是
但正如我们所体验的,
大脑在真实世界中,产生的心智会不断进化
AI 或许也会遵循,在人类的世界中不断进化
至于锴杰,他准备啥时候开启偶像之路》
我觉得...可能得等他先把心智这件事搞明白
附
Lab 主页https://macaron.im/mindlab
合并PRhttps://github.com/volcengine/verl/pull/4063https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1310

