过去两年,AI 行业几乎默认了一条“铁律”——参数越大,推理越强。
DeepSeek R1(671B)、Kimi K2(超 1T)这类超大模型,占据了高端推理任务几乎全部话语权。
但微博AI团队刚发布的VibeThinker-1.5B,把这条“铁律”正面按在地上摩擦:
仅15亿参数,数学推理成绩超过671B的 DeepSeek R1
编码能力比肩闭源强模型
全程训练成本只有 7800 美元
并且:开源、免费可用
这不仅是一款“小而强”的模型,更像是一记敲在行业头顶的警钟——“参数决定论”,真的要终结了。
一、被大模型“垄断”的推理时代
在 VibeThinker-1.5B 出现之前,复杂推理几乎等同于“堆大模型”:
参数规模:动辄数百亿、上千亿
训练成本:轻松迈入 百万美元级别
参与门槛:只有云厂商和巨头能玩,中小企业、高校基本被挡在门外
行业形成一种默认共识:
“小模型(<3B 参数)天生不会推理,只能做点简单任务。”
这也让很多团队在推理模型方向“看得见、够不着”——想做数学竞赛、复杂代码生成,几乎只能依赖闭源大模型 API。
VibeThinker-1.5B 的意义,就在于:它证明了这条共识可以被推翻。
二、核心秘诀:先“多想”,再“选对”
VibeThinker-1.5B 真正颠覆行业认知的,并不是“参数更小、成绩更高”,而是背后的训练思路——谱信号原理(SSP)。
它把训练拆成两大步骤:
先扩宽思路,再精准聚焦。
1. SFT 阶段:多样性蒸馏,让模型“敢想”
在传统监督微调(SFT)中,模型通常被训练成“尽量一次做对”,容易收窄思考路径。
VibeThinker 的做法是反过来:
不追求“一次命中答案”,而是鼓励模型生成多种合理解法
通过 “领域探测 + 专家模型融合”,让模型在不同视角间游走
对同一道数学题,模型可能同时给出“代数思路 + 几何思路”等多条解题路径
目标:最大化“解题多样性”,先把“会想”这个能力练出来。
2. RL 阶段:MGPO 优化,让模型“选对”
有了多样解法之后,第二步是用 MGPO(Maximum Gain Policy Optimization) 在强化学习阶段“放大正确信号”:
使用 最大熵引导 策略,重点训练模型在“没把握”的题目上进步
提升“正确解法”被生成出来的概率
避免在低价值、重复错误的解法上浪费算力
可以用一句话概括:
先让模型敢想其所能想,再教它更常选对。
相比单纯堆参数,这种“结构化训练 + 智能放大信号”的方式,在效率上提升了一个数量级。
三、硬核成绩单:1.5B 干翻千亿级推理大模型
VibeThinker-1.5B 的亮点,集中体现在两大关键场景:数学推理与代码生成。
1. 数学推理:AIME & HMMT 正面超车
在 AIME24/25、HMMT25 等高难度数学基准上,VibeThinker-1.5B 的表现非常亮眼:
AIME24:80.3 分,超过 DeepSeek R1 的 79.8 分
HMMT25:50.4 分,大幅领先 DeepSeek R1 的 41.7 分
在同量级小模型中几乎属于“碾压级”存在
这意味着,它不仅是“便宜的小模型”,而是真正在高难数学推理上,和顶级大模型掰手腕并占到上风。
2. 编码能力:逼近闭源强模型
在 LiveCodeBench V6 编码基准上:
VibeThinker-1.5B 得分 51.1
超过闭源模型 Magistral Medium(50.3)
远远抛离一些“基础模型”接近 0 分的表现
在代码生成与修复场景中,它已经具备直接实用的能力,而不仅仅是实验室里的“榜单明星”。
3. 对比大模型:以 1/10 甚至 1/300 参数逼近性能
与更大规模模型对比时,它的表现同样惊人:
性能比肩 20B 参数的 GPT-OSS-20B
接近 456B 参数的 MiniMax-M1
但参数量只有前者的 1/13、后者的 1/304
换句话说:
在推理这个赛道,小模型已经可以跑在大模型旁边甚至前面。四、7800 美元训练成本:推理能力真正“平民化”
如果说性能是“面子”,那 成本 才是“里子”。
VibeThinker-1.5B 的训练成本,直接把行业打到了一个很多团队“不敢想”的价位:
全程训练成本仅 7800 美元(约 3900 个 H800 GPU 小时)
约为:
DeepSeek R1 的 1/38
MiniMax-M1 的 1/68
更重要的是,推理成本也极低:
比起动辄百亿级参数的大模型,推理成本低 20~70 倍
可以部署在 手机、车载设备等边缘端
让“高端推理”从云上,真正开始向终端下沉
再加上它已经在 GitHub 和 HuggingFace 完整开源:
企业可以直接拉模型,本地/私有云部署
高校、研究机构也能用低成本进行推理相关研究
这意味着——AI 推理能力的“民主化”,真的开始发生了。
五、行业意义:小模型,可能才是推理的未来
VibeThinker-1.5B 带来的冲击,不只是一款爆款模型,更是对行业路线的一次“当头棒喝”。
1. 技术话语权,从“巨头独占”走向“多点开花”
过去,谁有钱训大模型,谁就掌握推理能力的话语权。
现在:
中小企业可以用一个小团队 + 几千美金预算,做出可用的高推理模型
高校也可以复现实验,而不是只能当闭源 API 的“下游用户”
推理能力的研发,从“资本密集型”转向“智力密集型”。
2. 算法优化 > 粗暴堆料
VibeThinker-1.5B 用事实告诉大家:
这会进一步推动:
更精细的训练范式设计
更高效的强化学习与蒸馏策略
更注重“思维路径”而非“参数规模”的模型设计理念
从这个意义上说,它给“小模型路线”打了一剂强心针。
3. 应用层的巨大红利:更多场景真正可落地
随着小模型推理能力的提升,加上低成本、易部署的特性,很多此前“不划算用大模型干”的场景,将迎来新机会:
教育:数学解题辅导、分步推理解题过程展示
编程:本地代码助手、离线调试辅导、端侧 IDE 插件
嵌入式与车载:车机推理助手、本地路径规划与决策辅助
专用行业助手:只需在 VibeThinker 之上微调,就能做领域推理模型
推理能力正在从“稀缺资源”转向“基础设施”。
六、它并非完美,但已经足够“颠覆”
当然,VibeThinker-1.5B 也不是“全能王”:
在通用知识类任务(如 GPQA benchmark)上,仍与超大模型有差距
一些需要大规模世界知识、跨领域常识的任务上,大模型仍然占优
但这并不妨碍它成为目前**“小模型推理的天花板之一”**。
如果把通用知识看作“广度”,把复杂推理看作“深度”,那么 VibeThinker-1.5B 显然是一款在“深度”上押注极重的模型——而它押对了方向。
七、如果你想亲自试一试
目前,作者已经公开了完整资源,方便研究者和开发者快速上手:
包含训练代码、技术文档,可复现完整训练流程
✅ GitHub 地址:
https://github.com/WeiboAI/VibeThinker(含训练代码、技术文档,可复现完整训练流程)
✅HuggingFace 地址:
https://huggingface.co/WeiboAI/VibeThinker-1.5B(直接下载模型权重,支持在线试用、本地部署)
无论你是:
想做一套数学推理实验的研究者
想在自家产品中加入“轻量级推理中枢”的开发团队
还是想把高推理能力带到手机、车机等端侧设备的工程师
都可以零门槛试水这一波“小模型推理革命”。
如果你在实践过程中有新的发现、心得或踩坑经验,也欢迎在评论区分享——
也许你的那一次尝试,就能把“小模型推理”的天花板再顶高一截。
更多精彩内容

