大数跨境

实测MiMo-V2.5-Pro UltraSpeed,小米把超跑塞进万亿大模型

实测MiMo-V2.5-Pro UltraSpeed,小米把超跑塞进万亿大模型 欧巴聊AI
2026-06-13
1
导读:速度就是智能

周末,咱们简单聊聊。

最近,我拿到了小米 MiMo-V2.5-Pro UltraSpeed 模式的内测资格。

我先什么都不说,你直接来看下面这段我录的实测视频,全程没有加速。

再说一遍,从头到尾全程都没有加速。

说真的,我现在已经很少被 AI 惊艳到了,但这个东西让我久违的眼前一亮。

当时盯着屏幕看的我,不知道说了多少个卧槽出来。。。

最主要是,我觉得这件事的重要性,大多数人还没意识到,包括很多天天在使用 AI 的人。

先用一句话说下,这个 UltraSpeed 是干啥的。

就是让万亿参数大模型的输出速度,首次冲过了每秒 1000 tokens。

你应该已经知道了,token 的中文名是词元,简单理解就是大模型吐字的最小单位,几个字母,或者一两个汉字。

咱们平时用的那些主流模型,输出速度普遍在每秒几十到一百出头个 token。

1000 tokens/s,意味着比你习惯的那个速度,快了整整一个数量级。

而且注意前面的定语,万亿参数,这是大模型里的旗舰排量。

让巨无霸跑出超跑的圈速,这事儿直觉上是违反物理学的。

行业里正常的逻辑是,要么大而慢,要么小而快,鱼和熊掌选一个。

但小米说,我全都要。

毕竟在速度这条赛道上,小米在纽北那条赛道上已经证明了多次。

实力不可小觑。

1

再来看上面实测的细节数据。

首次响应用时 0.83s,总计输出 12874 个 token,总用时 12.4s,平均输出 1016 tokens/s。

峰值甚至飙到了 1157。

0.83s 是什么概念?

以往,我们可能都习惯了问完问题后,出现那个思考中的转圈圈。

但现在你话音刚落,它就已经思考完开始动笔了。

总用时 12.4s 是什么概念?

可能连你起身倒杯咖啡,上趟厕所的时间,都可以直接被省略掉。

最离谱的是,平均输出 1016 tokens/s,全程速度都拉的很满。

你可能会问,即然这么猛,价格是不是也贵的离谱?

价格是 MiMo-V2.5-Pro 的 3 倍,但速度是 10 倍。

而且这才刚开始,价格只会越来越便宜。

2

但是我很好奇,小米凭啥能做到呢?

所以我去翻了翻技术方案细节,发现这 1000 tokens/s 不只是一个黑科技,是三套技术紧密组合出来的。

一听技术细节,你可能会担心听不懂,咱们用大白话来讲。

第一套,FP4 量化。

模型参数的精度,你可以理解成行李的体积,精度越高行李越大,搬运就越慢。

万亿参数用传统的精度跑,光是在显存里搬运数据,就能把速度拖死。

FP4 干的事儿,就是给行李抽成真空,体积直接压掉一大截。

但重要的是,不是无脑全压。

被子可以抽成真空,电脑和相机镜头不行,一压就废了。

Mimo 只压了模型里占参数大头,有最抗压的那部分,MoE 专家模块。

其他部分保留原有精度,整个过程用量化感知训练来做,让模型在训练时就适应了被压缩的状态。

官方给的对比数据是,压完之后,模型能力和原版基本持平。

模型的体重减了一大半,但是脑子还是那个脑子。

可以说是非常 6 了。

3

第二个,DFlash 投机解码,我觉得是整套系统里最妙的设计。

大模型生成文字,原本是一个字一个字往外蹦的。

每个字都要全模型走一遍,又慢又贵。

行业里早就有个偷懒方案,雇个小模型当实习生,先把后面几个字猜出来。

大模型只负责审稿,对的收下,错的打回。

这就比纯写快得多了。

但传统方案有个死结,实习生也是一个字一个字憋的,憋快了准出错,憋准了又太慢。

两头堵。

DFlash 反着来,不让实习生一个字一个字的猜了,让他一把就猜出来后面的一整块。

然后一口气交卷,大模型扫一眼,整块验收。

实测在写代码的场景里,实习生交上来的活儿,大约八成都可以直接通过。

速度这就上来了。

4

第三个,TileRT 推理系统。

前面两个是算法层面的减重和抢跑,TileRT 管的是最底层的事。

让这条产线别停下来。

打个比方,一条计算流水线,传统推理系统是怎么干活儿的?

做完一道工序,停机,启动下一道,等数据搬到位,再开工。

平时这点停顿无所谓,工序本身要跑好几秒,开关机那点时间可以忽略不计。

但当速度被拉到 1000 tokens/s,单道工序的耗时被压到了微秒级。

这时候每一次停机,启动,等数据的开关机动作,本身就和干活一样长了。

产线大部分时间不是在生产,是在切换。

这种被切换撕碎的空档,专门有个词叫执行间隙。

它才是这个速度档位下真正的敌人。

TileRT 的第一招,是让整条流水线常驻在 GPU 里持续流转,不停机,不换班。

这道工序还在算,下一批料的数据已经沿着管道提前送到了工位边上,算完无缝衔接,中间没有那个致命的空档。

第二招更狠,叫异构流水线协作,简单说就是给流水线重新分工。

GPU 里成千上万的计算单元,传统玩法是大家步调一致地齐步走。

搬运的,计算的,通信的,挤在同一个节拍里。

TileRT 把它们拆开,专门一批负责搬数据,一批负责算,一批负责通信,各干各的,又严丝合缝地咬在一起。

一台原本整整齐齐一起动的机器,被改造成了一个永不停转,各司其职的精密车间。

到这个尺度,你会发现一件事。

那些平时根本不会被人提起的小动作,在毫秒级运行时都无所谓,可一旦压到微秒级,它们居然也成了拖后腿的瓶颈。

快到极致的时候,每一个平时不起眼的环节,都得被重新设计一遍。

减重,抢跑,不熄火。

三件事不是各干各的,是 MiMo 模型团队和 TileRT 系统团队深度共创,协同进化。

最后组合在一起,巨无霸才能跑出超跑的圈速。

5

好了,终于到了聊这件事我认为最牛的地方。

行业里追极致速度的玩家,过去基本都走专用硬件路线。

自研芯片,定制架构,为了快,专门修一条磁悬浮。

效果是猛,但代价是整个生态都得搬家,门槛高到劝退绝大多数人。

那种快,只是少数人的快。

而 MiMo 这次,是在一个标准的 8 卡通用 GPU 节点上跑出来的。

没有定制芯片,没有专属赛道,就是市面上最常规的硬件。

靠模型和推理系统互相迁就,协同设计,硬生生在万亿参数上,调校出了专用硬件级别的速度。

别人是为了圈速去修专属赛道,它是把一台满载的巨无霸重型车,开上普通公路,跑出了赛道成绩。

更令人敬佩的是,MiMo 把 FP4 量化权重和 DFlash 模型参数,直接开源到了 HuggingFace。

圈速跑完了,调校手册也一并摊开了。

让大家都能沿着这条路线复现,改进,再继续往前推进。

快,第一次变成了一个可以被继承的东西。

尾声

在万亿参数这个尺度上,速度过了某条线,整个玩法就彻底变了。

第一,速度开始变成智能。

以前你问模型一个难题,等十秒才得到一个答案,对不对还得看运气。

现在同样这十秒,它能在后台能并行跑几十条推理路径,互相验证纠错,把经过验证质量更高的那条答案交给你。

时间一秒没多,但答案的质量变高了。

第二,AI 编程生产力提升。

AI 写代码的瓶颈,是 Agent 跑长程任务时,推理太慢了。

大部分时候都需要你等它,心流也直接断了。

现在速度拉起来之后,生产效率自然会翻倍。

第三,万亿模型介入实时决策的闭环。

量化交易的信号,支付的反欺诈,流畅的实时对话。

这些以毫秒计的场景,过去只能二选一,小模型够快不够聪明,旗舰够聪明又挤不进时间窗口。

而 1000 tokens/s,第一次把旗舰级的脑子,塞进了毫秒级的窗口。

再往前一步,落到手术辅助,医疗影像这种地方,分量就完全不一样了。

AI 每提前一秒完成病灶分析,留给医生的处置空间就多一分。

到这一步,速度就不是效率指标,是和死神抢时间的筹码。

说到底,人们对快的执念,并非是什么技术审美,是对时间的在乎。

机器每快一秒,人就多赢回一秒,就可以有更多时间,去做那些机器永远替代不了的事。

这,才是技术进步的意义。

既然你看到这里了,如果觉得不错,请帮我一键三连,转发给你的朋友,这真的对我很重要。

另外如果想第一时间收到推送,请将本公众号加个星标🌟

谢谢你看我的文章,祝你有财安康,我们下期见。

【声明】内容源于网络
0
0
欧巴聊AI
某大厂程序员,极致专注AI人工智能
内容 746
粉丝 0
欧巴聊AI 某大厂程序员,极致专注AI人工智能
总阅读3.5k
粉丝0
内容746