大数跨境

【灵思资讯】突发:国产AI开创全球先例,自主完成AI制造

【灵思资讯】突发:国产AI开创全球先例,自主完成AI制造 灵思极智
2026-06-05
5

创造AI这项任务,如今主角换成了AI。

就在刚才,一个国产AI自行编写了一套大模型预训练框架,并利用这套框架成功训练出一个新的小尺寸模型。

这一重大突破来自面壁智能。

这套由AI生成的预训练框架名为ForgeTrain,它是全球首个完全由AI编写的生产级大模型预训练框架,性能甚至超过了英伟达的Megatron。

同时,ForgeTrain在华为昇腾上预训练MiniCPM5-1B时,相较于昇腾自有框架也实现了10%的加速。

围绕ForgeTrain,面壁智能还提出了一种新的软件编程范式——Forge Engineering。

更直白地讲,随着AI编写代码的成本持续降低,未来的软件不必再做成一整套通用大框架,而是可以针对不同模型、不同硬件、不同任务,现场量身锻造专用代码。

而由ForgeTrain训练出的新模型,叫做MiniCPM5-1B。

三者关系可用一张图来说明:

尽管行业内过去一直有“AI制造AI”的说法,但大多停留在特定环节,例如写一段函数、改一个脚本、调一组参数等。

然而这一次,中国的大模型公司首次将“AI制造AI”从概念推进到了可展示、可评估、可复现的工程样本阶段。

AI造出的AI有何能力?

既然MiniCPM5-1B是由ForgeTrain训练而来,那么最直接的问题就是:

AI制造出的AI,到底能做什么?

先看一个非常直观的场景——桌面宠物。

这个1B参数的小模型可以常驻电脑桌面,变成一个随时响应的AI伙伴。用户可以与其聊天,让它根据上下文接话,还能为其设置不同性格。

这款桌宠的重点在于,它不必非要运行在云端的大模型服务上。1B的规模使其足够小巧,部署门槛也相当低。

据面壁智能官方介绍,MiniCPM5-1B在FP16精度下权重体积约为2GB,适合GPU、高端笔记本和服务器;INT4/Q4精度下约为0.5GB,可应用于手机、平板、车机等设备。

MiniCPM5-1B想要证明的是,1B模型同样可以具备强劲性能。

在综合知识、数学推理、代码推理、工具调用等方向上,MiniCPM5-1B都展示了面向同尺寸端侧模型的对比结果。

公开评测中,MiniCPM5-1B/think的平均得分为42.57;在MMLU-Pro、MMLU-Redux、AIME-2025、AIME-2026、BFCL-v4、AA榜单等项目上也给出了对应成绩。

尤其值得注意的是,MiniCPM5-1B再次刷新了小模型的智能密度上限。

仅凭1B参数规模,它就在国际知名榜单AA-Index上超越了所有2B参数以下的模型。与3个月前发布的Qwen3.5-2B相比,MiniCPM5-1B不仅效果更优,参数量还减少了一半。

这背后指向一个愈发清晰的趋势:模型能力的提升不再单纯依靠堆砌参数规模。更小的模型,正在承载更高的智能密度。按照这一趋势,大模型的智能密度正以大约每3.5个月翻一番的速度持续增长。

这也让MiniCPM5-1B的价值更加明确:它不只是一个小型模型,而是一个在参数规模、部署成本与实际能力之间重新寻找平衡点的端侧模型。

此外,它还可以自定义人格:

虽然这听起来像是聊天产品的基础功能,但在端侧模型上意义更大,因为端侧模型离用户更近,更容易成为本地设备上的轻量级智能入口。

它可以记住用户偏好的交互方式,也能根据不同场景切换风格。

如果大模型要从云端走向每个人的设备,那么模型必须足够小、足够便宜、足够好用,并且拥有完整的工具链。

这也是它强调开发者友好的原因

MiniCPM5-1B提供了模型、推理、微调相关的工具链。推理侧支持SGLang、vLLM、llama.cpp、Ollama、Hugging Face、ArcLight等;微调侧支持LLaMA-Factory、ms-swift等工具。

对开发者来说,这比单纯给一个模型权重更为重要。

因为一个模型能否被实际应用,往往不仅取决于模型本身,还取决于部署、推理、量化、微调、接入工作流是否顺手。

甚至超越了英伟达Megatron

如果说MiniCPM5-1B是AI制造AI的产品,那么ForgeTrain就是AI制造AI的工厂。而这座工厂,本身也是由AI建造的。

面壁智能将AI制造AI划分为L1到L5五个阶段:

• L1:AI仅提供建议,人类执行所有操作(代表:Github Copilot)

• L2:AI辅助研发,完成具体环节(代表:Cursor,Claude Code)

• L3:AI端到端产出下一代模型(代表:ForgeTrain)

• L4:AI递归自改进,改造训练管线及自身

• L5:AI自主设定研究议程,开放式探索

ForgeTrain对应的正是L3-L4这个阶段。它尚未达到让AI自己发明下一代Transformer的程度,但已经进入了模型研发最核心的基础设施层——预训练框架。

在此之前,全球许多大模型的预训练框架,都是由人类程序员逐行写出的。英伟达的Megatron、Meta的Fairseq、谷歌的TensorFlow,无一例外。

但面壁智能提出了一条完全不同的思路:Forge Engineering。

传统的软件工程强调通用框架,一个框架要兼容各种模型、各种硬件、各种训练任务。好处是代码可复用,代价是难以将每个具体场景的性能压榨到极致。就像一件均码衣服,谁都能穿,但谁都穿不合身。

Forge Engineering的思路则激进得多:既然AI写代码越来越快,代码生产成本越来越低,那我们何必还要追求通用?完全可以给不同的模型、不同的硬件、不同的任务,分别编写专用代码。

这就像从工业化的批量生产,回归到了高级定制。AI就是那个不知疲倦的顶级工匠,可以为每一个需求量身打造最合适的代码。

但AI自己编写预训练框架,难点不仅在于写代码。更难的是:它如何知道自己写对了?如何知道速度够不够快?如何知道显存、并行、通信、稳定性是否存在问题?

这就需要Harness。

可以把Harness理解为一个考场,AI被放入这个考场中,一轮轮地生成代码、运行测试、获取反馈、继续修改。整个过程完全自动,无需人工干预。

面壁智能采用了三阶段构建方法:

1. 从现有预训练框架中采集关键数据,形成评估标准和Harness

2. 从评估Harness构建二进制一致的预训练框架版本

3. 解除二进制一致的限制,迭代优化至超越参考实现

最终结果是,ForgeTrain不仅在功能上完全对齐英伟达Megatron,而且在相同硬件条件下,训练速度还要快10%。

这意味着,同样的算力下,使用ForgeTrain可以节省10%的训练时间和成本。

这是一件值得关注的事情

看到这里,你可能会觉得这只是一场很酷的技术展示。但透过现象看本质,面壁智能的这次发布,正揭示着大模型行业正在发生的一场深刻变革。

首先,大模型的竞争,正从堆砌资源转向极致提升效率。

过去几年,所有大模型厂商都在比拼大力出奇迹,比拼参数、语料、算力、十万卡集群。但这条Scaling Law的道路是有尽头的。

当堆料遇到天花板,接下来的胜负手是什么?是效率。

在相同的算力预算下,谁能实现更多的研发迭代?谁的单代研发周期更短?面壁智能的AI制造AI给出了答案:

用AI替代人类研发管线中的重复劳动,将人类数周的代码开发压缩到几十分钟。这是唯一能对抗资源瓶颈、实现大模型能力继续指数级攀升的解法。

其次,AI研究员的角色,正在发生不可逆转的变化。

在ForgeTrain这样的系统中,人类的角色正在发生迁移。从Human in the loop(在循环中执行具体代码)转变为Human on the loop(在循环外进行监督与设计)。

未来的AI科学家,不再需要亲自去编写无穷无尽的CUDA算子和底层通信逻辑。他们将变成研发系统的设计者和边界守护者。只需定义目标、搭建Harness,剩下的繁杂工作全交给不知疲倦的AI去完成。

最后,对于国产大模型和国产芯片而言,这是实现弯道超车的绝佳契机。

过去,我们评价国产大模型,总是紧盯参数大小、榜单跑分、长文本能力。但真正决定一家公司、一个生态长期核心竞争力的,其实是底层系统——也就是生产模型的能力。

谁能更快地训练出模型,谁能以更低的成本试错,谁就能在残酷的百模大战中存活到最后。

更深远的战略意义在于国产算力生态。众所周知,华为昇腾等国产芯片在硬件算力上正奋力追赶,但最大的短板在于软件生态。英伟达有数百万开发者花费了十五年时间踩坑、优化,这是国产芯片靠人力难以在短时间内抹平的差距。

但ForgeTrain提供了一种破局的可能。

如果人力不足,那就用AI来弥补!通过AI自动生成适配各种新模型、新硬件的专属预训练框架,国产芯片将有机会借助AI的生产力,大幅缩短追赶国际顶尖生态的时间差。

当AI学会了制造AI,齿轮便开始加速转动。一个新时代,正在我们眼前展开。



————  END  ————


灵思极智旗下“极智系列”三款AI智能应用

图片




灵思极智让AI为各行业赋能
打造[超级企业]+[超级个体]
“让人回归人的价值”!
用灵思,创极智!点击关注“灵思极智”
图片


关注后,两步置顶服务号,可第一时间收到灵思极智推文!


图片

【声明】内容源于网络
0
0
灵思极智
AI领域超级创造工厂,用灵思,创极智!
内容 176
粉丝 0
灵思极智 AI领域超级创造工厂,用灵思,创极智!
总阅读135
粉丝0
内容176