大数跨境
0
0

Mind Lab 成立|64 张卡跑万亿参数 RL,开源

Mind Lab 成立|64 张卡跑万亿参数 RL,开源 赛博禅心
2025-12-08
2
导读:最好、最新的内容,总来自赛博禅心

 

先岔开个题外话,我有个朋友叫锴杰,颜值在线,在乐团当过首席

在线应援(bushi

对于锴杰,我一直觉得
偶像前景 > 技术品味 > 产品塑造

他有个产品叫马卡龙,但本文和这个无关
上个月锴杰来酒吧,跟我说:
做产品的过程中,他们有一些技术上的发现,然后成立了一个 Lab

这对于锴杰来说,我觉得,比单纯做产品靠谱多了

现在,Mind Lab 正式成立,并交出了第一份答卷

  • • 万亿参数 LoRA 强化学习
  • • GPU 消耗砍掉 90%
  • • 记忆算法 SOTA

现在他不但搞了产品,还搞了技术,很好
偶像之路,再缓缓吧

https://macaron.im/mindlab

预训练结束了

Richard Sutton 是 DeepMind 首席科学家,强化学习之父
他今年有个判断:预训练时代结束了

互联网数据总共就 14T 左右,该训的都训过了
那接下来怎么继续提升模型智能?
Sutton 给的方向叫 Era of Experience
翻译过来就是「经验智能

核心思路是这样:
把模型放进真实产品里,基于用户真实反馈,持续训练训练
让模型,在产品里一直训、一直长

Era of Experience

...等等,锴杰跟我讲这些的时候
我突然想到了之前的另一个产品
Hitem 为了训练 3D 模型,专门建立了个工厂,也是这个理由

Hitem 的 3D 工厂

Mind Lab 做了个实验,恰好也验证这件事:
真实反馈数据流训练的模型,智能提升效果远比用固定 reward 训练的好

流式 Reward vs 固定 Reward 效果对比

顺道说一下,这里有个概念上的区分

预训练造的是 Brain——大脑
大脑是静态的,训完就定型了,记住了互联网上的海量知识,但不会再进化

强化学习造的是 Mind——心智
心智会在环境中不断进化,能从反馈中学习,能动态调整行为

这是 Mind Lab 名字的由来

Mind Lab 在干啥

锴杰他们,在技术上做了两件事

第一件:万亿参数 LoRA 强化学习

在万亿参数模型上跑全参数强化学习,算力太贵,绝大多数团队玩不起

Mind Lab 的解法是用 LoRA

LoRA 的意思是:不动整个大模型,只取出大约 0.5% 的核心参数来训练

效果基本不打折,成本砍到十分之一

他们在 Kimi K2 上验证了这套方案:
64 张 H800 搞定万亿参数模型的强化学习

训练曲线,稳定收敛

这套方案,已经合并到 NVIDIA Megatron-Bridge 和字节 seed verl,代码开源

锴杰跟我说,目前全球做这个方向的,只有两家
Thinking Machine 和 Mind Lab

第二件:Memory Diffusion

这是一个记忆算法,我很喜欢

传统模型想要保存更多的东西,要么每轮对话总结记忆(开销大、细节丢失),要么存数据库检索(容易丢上下文)

DeepSeek v3.2 对此亦有探讨

Mind Lab 的思路很有意思,它是把对话轨迹本身当记忆
通过「遮蔽-分配-重填」三步动态压缩

  • • 选一块遮掉
  • • 根据重要性分配 token 预算
  • • 在预算约束下重新生成

灵感来自人类的遗忘机制:
比如...在开车的时候,你会忘掉路过的广告牌,只记住目的地

这套东西,在 Locomo 基准上达到 93% 准确率,SOTA

一个有意思的发现

Mind Lab 做了个对照实验

三个模型,控制总计算量一致,来做个训练对比

  • • 1.5B 全参数训练
  • • 7B LoRA 训练
  • • 32B LoRA 训练

结论是 32B + LoRA 效果最好

模型
可训练参数
效果提升
1.5B 全参数
1.5B
8.33%
7B LoRA
0.16B
11.31%
32B LoRA
0.07B
20.61%

为什么?
因为强化学习本质上是「先验受限」的
如果基座模型本身生成不出高质量轨迹,强化学习就没什么有用的信号可以放大

大模型已经编码了丰富的推理模式,强化学习在这些基础上精修,比从头造轮子效率高得多

大先验 + 小 LoRA,比小模型全参数训练更划算

还挺有意思的

产品是天然的 RL 环境

和锴杰认识很久了,也一直很喜欢他的技术品味
但即便是这样,我依然会有一个问题
这样的技术,为什么是来自产品团队?

得到了这样的回答
产品本身,就是最好的强化学习环境

这里说个很有趣的事实
Cursor 的估值,能买下国内所有的大模型创业公司

Cursor 最新一轮融资

Cursor 值钱,在于它有最多的真实用户数据
用户用 Cursor 写代码,接受或拒绝建议,编辑或删除生成内容,这些全是训练信号

作为对比,X.AI 有很多算力、很多优秀研究员,但模型提升速度不够快
为什么?没有真实产品环境,奖励函数没法持续进化

Mind Lab 的逻辑也是这样
研究给产品带来体验升级(比如生成速度从 20 分钟到 2 分钟),产品给研究带来真实数据,这些是互相增强的

示意图

预训练时代,赢家是数据多的
经验智能时代,赢家会是产品好的

最后

Ilya 说过:
预训练时代正在走向终结

那下一个时代是什么?
可能是「经验智能」,也或者不是

但正如我们所体验的,
大脑在真实世界中,产生的心智会不断进化
AI 或许也会遵循,在人类的世界中不断进化

至于锴杰,他准备啥时候开启偶像之路》

我觉得...可能得等他先把心智这件事搞明白

Lab 主页
https://macaron.im/mindlab

合并PR
https://github.com/volcengine/verl/pull/4063
https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1310

 


【声明】内容源于网络
0
0
赛博禅心
拜AI古佛,修赛博禅心
内容 465
粉丝 0
赛博禅心 拜AI古佛,修赛博禅心
总阅读238
粉丝0
内容465