大数跨境
0
0

15亿参数小模型,干翻671B 大模型:推理能力拉满,训练成本仅 7800 美元

15亿参数小模型,干翻671B 大模型:推理能力拉满,训练成本仅 7800 美元 北京无限迭代科技有限公司
2025-11-21
0
导读:DeepSeek R1(671B)、Kimi K2(超 1T)这类超大模型,占据了高端推理任务几乎全部话语权。但微博AI团队刚发布的VibeThinker-1.5B,把这条“铁律”正面按在地上摩擦:

过去两年,AI 行业几乎默认了一条“铁律”——参数越大,推理越强

DeepSeek R1(671B)、Kimi K2(超 1T)这类超大模型,占据了高端推理任务几乎全部话语权。

但微博AI团队刚发布的VibeThinker-1.5B,把这条“铁律”正面按在地上摩擦:

  • 15亿参数,数学推理成绩超过671B的 DeepSeek R1

  • 编码能力比肩闭源强模型

  • 全程训练成本只有 7800 美元

  • 并且:开源、免费可用

这不仅是一款“小而强”的模型,更像是一记敲在行业头顶的警钟——“参数决定论”,真的要终结了。



一、被大模型“垄断”的推理时代

在 VibeThinker-1.5B 出现之前,复杂推理几乎等同于“堆大模型”:

  • 参数规模:动辄数百亿、上千亿

  • 训练成本:轻松迈入 百万美元级别

  • 参与门槛:只有云厂商和巨头能玩,中小企业、高校基本被挡在门外

行业形成一种默认共识:

“小模型(<3B 参数)天生不会推理,只能做点简单任务。”

这也让很多团队在推理模型方向“看得见、够不着”——想做数学竞赛、复杂代码生成,几乎只能依赖闭源大模型 API。

VibeThinker-1.5B 的意义,就在于:它证明了这条共识可以被推翻。



二、核心秘诀:先“多想”,再“选对”

VibeThinker-1.5B 真正颠覆行业认知的,并不是“参数更小、成绩更高”,而是背后的训练思路——谱信号原理(SSP)

它把训练拆成两大步骤:

先扩宽思路,再精准聚焦

1. SFT 阶段:多样性蒸馏,让模型“敢想”

在传统监督微调(SFT)中,模型通常被训练成“尽量一次做对”,容易收窄思考路径。

VibeThinker 的做法是反过来:

  • 不追求“一次命中答案”,而是鼓励模型生成多种合理解法

  • 通过 “领域探测 + 专家模型融合”,让模型在不同视角间游走

  • 对同一道数学题,模型可能同时给出“代数思路 + 几何思路”等多条解题路径

目标:最大化“解题多样性”,先把“会想”这个能力练出来。

2. RL 阶段:MGPO 优化,让模型“选对”

有了多样解法之后,第二步是用 MGPO(Maximum Gain Policy Optimization) 在强化学习阶段“放大正确信号”:

  • 使用 最大熵引导 策略,重点训练模型在“没把握”的题目上进步

  • 提升“正确解法”被生成出来的概率

  • 避免在低价值、重复错误的解法上浪费算力

可以用一句话概括:

先让模型敢想其所能想,再教它更常选对。

相比单纯堆参数,这种“结构化训练 + 智能放大信号”的方式,在效率上提升了一个数量级



三、硬核成绩单:1.5B 干翻千亿级推理大模型

VibeThinker-1.5B 的亮点,集中体现在两大关键场景:数学推理代码生成

1. 数学推理:AIME & HMMT 正面超车

在 AIME24/25、HMMT25 等高难度数学基准上,VibeThinker-1.5B 的表现非常亮眼:

  • AIME24:80.3 分,超过 DeepSeek R1 的 79.8 分

  • HMMT25:50.4 分,大幅领先 DeepSeek R1 的 41.7 分

  • 在同量级小模型中几乎属于“碾压级”存在

这意味着,它不仅是“便宜的小模型”,而是真正在高难数学推理上,和顶级大模型掰手腕并占到上风

2. 编码能力:逼近闭源强模型

在 LiveCodeBench V6 编码基准上:

  • VibeThinker-1.5B 得分 51.1

  • 超过闭源模型 Magistral Medium(50.3)

  • 远远抛离一些“基础模型”接近 0 分的表现

在代码生成与修复场景中,它已经具备直接实用的能力,而不仅仅是实验室里的“榜单明星”。

3. 对比大模型:以 1/10 甚至 1/300 参数逼近性能

与更大规模模型对比时,它的表现同样惊人:

  • 性能比肩 20B 参数的 GPT-OSS-20B

  • 接近 456B 参数的 MiniMax-M1

  • 但参数量只有前者的 1/13、后者的 1/304

换句话说:

在推理这个赛道,小模型已经可以跑在大模型旁边甚至前面。


四、7800 美元训练成本:推理能力真正“平民化”

如果说性能是“面子”,那 成本 才是“里子”。

VibeThinker-1.5B 的训练成本,直接把行业打到了一个很多团队“不敢想”的价位:

  • 全程训练成本仅 7800 美元(约 3900 个 H800 GPU 小时)

  • 约为:

    • DeepSeek R1 的 1/38

    • MiniMax-M1 的 1/68

更重要的是,推理成本也极低

  • 比起动辄百亿级参数的大模型,推理成本低 20~70 倍

  • 可以部署在 手机、车载设备等边缘端

  • 让“高端推理”从云上,真正开始向终端下沉

再加上它已经在 GitHub 和 HuggingFace 完整开源

  • 企业可以直接拉模型,本地/私有云部署

  • 高校、研究机构也能用低成本进行推理相关研究

这意味着——AI 推理能力的“民主化”,真的开始发生了。



五、行业意义:小模型,可能才是推理的未来

VibeThinker-1.5B 带来的冲击,不只是一款爆款模型,更是对行业路线的一次“当头棒喝”。

1. 技术话语权,从“巨头独占”走向“多点开花”

过去,谁有钱训大模型,谁就掌握推理能力的话语权。

现在:

  • 中小企业可以用一个小团队 + 几千美金预算,做出可用的高推理模型

  • 高校也可以复现实验,而不是只能当闭源 API 的“下游用户”

推理能力的研发,从“资本密集型”转向“智力密集型”。

2. 算法优化 > 粗暴堆料

VibeThinker-1.5B 用事实告诉大家:

与其一味堆参数,不如重新思考“模型怎么学、如何放大正确信号”。

这会进一步推动:

  • 更精细的训练范式设计

  • 更高效的强化学习与蒸馏策略

  • 更注重“思维路径”而非“参数规模”的模型设计理念

从这个意义上说,它给“小模型路线”打了一剂强心针。

3. 应用层的巨大红利:更多场景真正可落地

随着小模型推理能力的提升,加上低成本、易部署的特性,很多此前“不划算用大模型干”的场景,将迎来新机会:

  • 教育:数学解题辅导、分步推理解题过程展示

  • 编程:本地代码助手、离线调试辅导、端侧 IDE 插件

  • 嵌入式与车载:车机推理助手、本地路径规划与决策辅助

  • 专用行业助手:只需在 VibeThinker 之上微调,就能做领域推理模型

推理能力正在从“稀缺资源”转向“基础设施”。



六、它并非完美,但已经足够“颠覆”

当然,VibeThinker-1.5B 也不是“全能王”:

  • 在通用知识类任务(如 GPQA benchmark)上,仍与超大模型有差距

  • 一些需要大规模世界知识、跨领域常识的任务上,大模型仍然占优

但这并不妨碍它成为目前**“小模型推理的天花板之一”**。

如果把通用知识看作“广度”,把复杂推理看作“深度”,那么 VibeThinker-1.5B 显然是一款在“深度”上押注极重的模型——而它押对了方向。

七、如果你想亲自试一试

目前,作者已经公开了完整资源,方便研究者和开发者快速上手:

包含训练代码、技术文档,可复现完整训练流程

✅ GitHub 地址:

https://github.com/WeiboAI/VibeThinker(含训练代码、技术文档,可复现完整训练流程)

✅HuggingFace 地址:

https://huggingface.co/WeiboAI/VibeThinker-1.5B(直接下载模型权重,支持在线试用、本地部署)



无论你是:

  • 想做一套数学推理实验的研究者

  • 想在自家产品中加入“轻量级推理中枢”的开发团队

  • 还是想把高推理能力带到手机、车机等端侧设备的工程师

都可以零门槛试水这一波“小模型推理革命”

如果你在实践过程中有新的发现、心得或踩坑经验,也欢迎在评论区分享——

也许你的那一次尝试,就能把“小模型推理”的天花板再顶高一截。



更多精彩内容




点击关注 get更多“无限迭代”最新资讯

 
 

【声明】内容源于网络
0
0
北京无限迭代科技有限公司
专注AI大模型训练语料与数据合成
内容 11
粉丝 0
北京无限迭代科技有限公司 专注AI大模型训练语料与数据合成
总阅读1
粉丝0
内容11