创造AI这项任务,如今主角换成了AI。
就在刚才,一个国产AI自行编写了一套大模型预训练框架,并利用这套框架成功训练出一个新的小尺寸模型。
这一重大突破来自面壁智能。
这套由AI生成的预训练框架名为ForgeTrain,它是全球首个完全由AI编写的生产级大模型预训练框架,性能甚至超过了英伟达的Megatron。
同时,ForgeTrain在华为昇腾上预训练MiniCPM5-1B时,相较于昇腾自有框架也实现了10%的加速。
围绕ForgeTrain,面壁智能还提出了一种新的软件编程范式——Forge Engineering。
更直白地讲,随着AI编写代码的成本持续降低,未来的软件不必再做成一整套通用大框架,而是可以针对不同模型、不同硬件、不同任务,现场量身锻造专用代码。
而由ForgeTrain训练出的新模型,叫做MiniCPM5-1B。
三者关系可用一张图来说明:
尽管行业内过去一直有“AI制造AI”的说法,但大多停留在特定环节,例如写一段函数、改一个脚本、调一组参数等。
然而这一次,中国的大模型公司首次将“AI制造AI”从概念推进到了可展示、可评估、可复现的工程样本阶段。
AI造出的AI有何能力?
既然MiniCPM5-1B是由ForgeTrain训练而来,那么最直接的问题就是:
AI制造出的AI,到底能做什么?
先看一个非常直观的场景——桌面宠物。
这个1B参数的小模型可以常驻电脑桌面,变成一个随时响应的AI伙伴。用户可以与其聊天,让它根据上下文接话,还能为其设置不同性格。
这款桌宠的重点在于,它不必非要运行在云端的大模型服务上。1B的规模使其足够小巧,部署门槛也相当低。
据面壁智能官方介绍,MiniCPM5-1B在FP16精度下权重体积约为2GB,适合GPU、高端笔记本和服务器;INT4/Q4精度下约为0.5GB,可应用于手机、平板、车机等设备。
MiniCPM5-1B想要证明的是,1B模型同样可以具备强劲性能。
在综合知识、数学推理、代码推理、工具调用等方向上,MiniCPM5-1B都展示了面向同尺寸端侧模型的对比结果。
公开评测中,MiniCPM5-1B/think的平均得分为42.57;在MMLU-Pro、MMLU-Redux、AIME-2025、AIME-2026、BFCL-v4、AA榜单等项目上也给出了对应成绩。
尤其值得注意的是,MiniCPM5-1B再次刷新了小模型的智能密度上限。
仅凭1B参数规模,它就在国际知名榜单AA-Index上超越了所有2B参数以下的模型。与3个月前发布的Qwen3.5-2B相比,MiniCPM5-1B不仅效果更优,参数量还减少了一半。
这背后指向一个愈发清晰的趋势:模型能力的提升不再单纯依靠堆砌参数规模。更小的模型,正在承载更高的智能密度。按照这一趋势,大模型的智能密度正以大约每3.5个月翻一番的速度持续增长。
这也让MiniCPM5-1B的价值更加明确:它不只是一个小型模型,而是一个在参数规模、部署成本与实际能力之间重新寻找平衡点的端侧模型。
此外,它还可以自定义人格:
虽然这听起来像是聊天产品的基础功能,但在端侧模型上意义更大,因为端侧模型离用户更近,更容易成为本地设备上的轻量级智能入口。
它可以记住用户偏好的交互方式,也能根据不同场景切换风格。
如果大模型要从云端走向每个人的设备,那么模型必须足够小、足够便宜、足够好用,并且拥有完整的工具链。
这也是它强调开发者友好的原因。
MiniCPM5-1B提供了模型、推理、微调相关的工具链。推理侧支持SGLang、vLLM、llama.cpp、Ollama、Hugging Face、ArcLight等;微调侧支持LLaMA-Factory、ms-swift等工具。
对开发者来说,这比单纯给一个模型权重更为重要。
因为一个模型能否被实际应用,往往不仅取决于模型本身,还取决于部署、推理、量化、微调、接入工作流是否顺手。
甚至超越了英伟达Megatron
如果说MiniCPM5-1B是AI制造AI的产品,那么ForgeTrain就是AI制造AI的工厂。而这座工厂,本身也是由AI建造的。
面壁智能将AI制造AI划分为L1到L5五个阶段:
• L1:AI仅提供建议,人类执行所有操作(代表:Github Copilot)
• L2:AI辅助研发,完成具体环节(代表:Cursor,Claude Code)
• L3:AI端到端产出下一代模型(代表:ForgeTrain)
• L4:AI递归自改进,改造训练管线及自身
• L5:AI自主设定研究议程,开放式探索
ForgeTrain对应的正是L3-L4这个阶段。它尚未达到让AI自己发明下一代Transformer的程度,但已经进入了模型研发最核心的基础设施层——预训练框架。
在此之前,全球许多大模型的预训练框架,都是由人类程序员逐行写出的。英伟达的Megatron、Meta的Fairseq、谷歌的TensorFlow,无一例外。
但面壁智能提出了一条完全不同的思路:Forge Engineering。
传统的软件工程强调通用框架,一个框架要兼容各种模型、各种硬件、各种训练任务。好处是代码可复用,代价是难以将每个具体场景的性能压榨到极致。就像一件均码衣服,谁都能穿,但谁都穿不合身。
Forge Engineering的思路则激进得多:既然AI写代码越来越快,代码生产成本越来越低,那我们何必还要追求通用?完全可以给不同的模型、不同的硬件、不同的任务,分别编写专用代码。
这就像从工业化的批量生产,回归到了高级定制。AI就是那个不知疲倦的顶级工匠,可以为每一个需求量身打造最合适的代码。
但AI自己编写预训练框架,难点不仅在于写代码。更难的是:它如何知道自己写对了?如何知道速度够不够快?如何知道显存、并行、通信、稳定性是否存在问题?
这就需要Harness。
可以把Harness理解为一个考场,AI被放入这个考场中,一轮轮地生成代码、运行测试、获取反馈、继续修改。整个过程完全自动,无需人工干预。
面壁智能采用了三阶段构建方法:
1. 从现有预训练框架中采集关键数据,形成评估标准和Harness
2. 从评估Harness构建二进制一致的预训练框架版本
3. 解除二进制一致的限制,迭代优化至超越参考实现
最终结果是,ForgeTrain不仅在功能上完全对齐英伟达Megatron,而且在相同硬件条件下,训练速度还要快10%。
这意味着,同样的算力下,使用ForgeTrain可以节省10%的训练时间和成本。
这是一件值得关注的事情
看到这里,你可能会觉得这只是一场很酷的技术展示。但透过现象看本质,面壁智能的这次发布,正揭示着大模型行业正在发生的一场深刻变革。
首先,大模型的竞争,正从堆砌资源转向极致提升效率。
过去几年,所有大模型厂商都在比拼大力出奇迹,比拼参数、语料、算力、十万卡集群。但这条Scaling Law的道路是有尽头的。
当堆料遇到天花板,接下来的胜负手是什么?是效率。
在相同的算力预算下,谁能实现更多的研发迭代?谁的单代研发周期更短?面壁智能的AI制造AI给出了答案:
用AI替代人类研发管线中的重复劳动,将人类数周的代码开发压缩到几十分钟。这是唯一能对抗资源瓶颈、实现大模型能力继续指数级攀升的解法。
其次,AI研究员的角色,正在发生不可逆转的变化。
在ForgeTrain这样的系统中,人类的角色正在发生迁移。从Human in the loop(在循环中执行具体代码)转变为Human on the loop(在循环外进行监督与设计)。
未来的AI科学家,不再需要亲自去编写无穷无尽的CUDA算子和底层通信逻辑。他们将变成研发系统的设计者和边界守护者。只需定义目标、搭建Harness,剩下的繁杂工作全交给不知疲倦的AI去完成。
最后,对于国产大模型和国产芯片而言,这是实现弯道超车的绝佳契机。
过去,我们评价国产大模型,总是紧盯参数大小、榜单跑分、长文本能力。但真正决定一家公司、一个生态长期核心竞争力的,其实是底层系统——也就是生产模型的能力。
谁能更快地训练出模型,谁能以更低的成本试错,谁就能在残酷的百模大战中存活到最后。
更深远的战略意义在于国产算力生态。众所周知,华为昇腾等国产芯片在硬件算力上正奋力追赶,但最大的短板在于软件生态。英伟达有数百万开发者花费了十五年时间踩坑、优化,这是国产芯片靠人力难以在短时间内抹平的差距。
但ForgeTrain提供了一种破局的可能。
如果人力不足,那就用AI来弥补!通过AI自动生成适配各种新模型、新硬件的专属预训练框架,国产芯片将有机会借助AI的生产力,大幅缩短追赶国际顶尖生态的时间差。
当AI学会了制造AI,齿轮便开始加速转动。一个新时代,正在我们眼前展开。
———— END ————
灵思极智旗下“极智系列”三款AI智能应用
关注后,两步置顶服务号,可第一时间收到灵思极智推文!

