【灵思资讯】突发：国产AI开创全球先例，自主完成AI制造- 大数跨境

首页

【灵思资讯】突发：国产AI开创全球先例，自主完成AI制造

灵思极智

2026-06-05

创造AI这项任务，如今主角换成了AI。

就在刚才，一个国产AI自行编写了一套大模型预训练框架，并利用这套框架成功训练出一个新的小尺寸模型。

这一重大突破来自面壁智能。

这套由AI生成的预训练框架名为ForgeTrain，它是全球首个完全由AI编写的生产级大模型预训练框架，性能甚至超过了英伟达的Megatron。

同时，ForgeTrain在华为昇腾上预训练MiniCPM5-1B时，相较于昇腾自有框架也实现了10%的加速。

围绕ForgeTrain，面壁智能还提出了一种新的软件编程范式——Forge Engineering。

更直白地讲，随着AI编写代码的成本持续降低，未来的软件不必再做成一整套通用大框架，而是可以针对不同模型、不同硬件、不同任务，现场量身锻造专用代码。

而由ForgeTrain训练出的新模型，叫做MiniCPM5-1B。

三者关系可用一张图来说明：

尽管行业内过去一直有“AI制造AI”的说法，但大多停留在特定环节，例如写一段函数、改一个脚本、调一组参数等。

然而这一次，中国的大模型公司首次将“AI制造AI”从概念推进到了可展示、可评估、可复现的工程样本阶段。

AI造出的AI有何能力？

既然MiniCPM5-1B是由ForgeTrain训练而来，那么最直接的问题就是：

AI制造出的AI，到底能做什么？

先看一个非常直观的场景——桌面宠物。

这个1B参数的小模型可以常驻电脑桌面，变成一个随时响应的AI伙伴。用户可以与其聊天，让它根据上下文接话，还能为其设置不同性格。

这款桌宠的重点在于，它不必非要运行在云端的大模型服务上。1B的规模使其足够小巧，部署门槛也相当低。

据面壁智能官方介绍，MiniCPM5-1B在FP16精度下权重体积约为2GB，适合GPU、高端笔记本和服务器；INT4/Q4精度下约为0.5GB，可应用于手机、平板、车机等设备。

MiniCPM5-1B想要证明的是，1B模型同样可以具备强劲性能。

在综合知识、数学推理、代码推理、工具调用等方向上，MiniCPM5-1B都展示了面向同尺寸端侧模型的对比结果。

公开评测中，MiniCPM5-1B/think的平均得分为42.57；在MMLU-Pro、MMLU-Redux、AIME-2025、AIME-2026、BFCL-v4、AA榜单等项目上也给出了对应成绩。

尤其值得注意的是，MiniCPM5-1B再次刷新了小模型的智能密度上限。

仅凭1B参数规模，它就在国际知名榜单AA-Index上超越了所有2B参数以下的模型。与3个月前发布的Qwen3.5-2B相比，MiniCPM5-1B不仅效果更优，参数量还减少了一半。

这背后指向一个愈发清晰的趋势：模型能力的提升不再单纯依靠堆砌参数规模。更小的模型，正在承载更高的智能密度。按照这一趋势，大模型的智能密度正以大约每3.5个月翻一番的速度持续增长。

这也让MiniCPM5-1B的价值更加明确：它不只是一个小型模型，而是一个在参数规模、部署成本与实际能力之间重新寻找平衡点的端侧模型。

此外，它还可以自定义人格：

虽然这听起来像是聊天产品的基础功能，但在端侧模型上意义更大，因为端侧模型离用户更近，更容易成为本地设备上的轻量级智能入口。

它可以记住用户偏好的交互方式，也能根据不同场景切换风格。

如果大模型要从云端走向每个人的设备，那么模型必须足够小、足够便宜、足够好用，并且拥有完整的工具链。

这也是它强调开发者友好的原因。

MiniCPM5-1B提供了模型、推理、微调相关的工具链。推理侧支持SGLang、vLLM、llama.cpp、Ollama、Hugging Face、ArcLight等；微调侧支持LLaMA-Factory、ms-swift等工具。

对开发者来说，这比单纯给一个模型权重更为重要。

因为一个模型能否被实际应用，往往不仅取决于模型本身，还取决于部署、推理、量化、微调、接入工作流是否顺手。

甚至超越了英伟达Megatron

如果说MiniCPM5-1B是AI制造AI的产品，那么ForgeTrain就是AI制造AI的工厂。而这座工厂，本身也是由AI建造的。

面壁智能将AI制造AI划分为L1到L5五个阶段：

• L1：AI仅提供建议，人类执行所有操作（代表：Github Copilot）

• L2：AI辅助研发，完成具体环节（代表：Cursor，Claude Code）

• L3：AI端到端产出下一代模型（代表：ForgeTrain）

• L4：AI递归自改进，改造训练管线及自身

• L5：AI自主设定研究议程，开放式探索

ForgeTrain对应的正是L3-L4这个阶段。它尚未达到让AI自己发明下一代Transformer的程度，但已经进入了模型研发最核心的基础设施层——预训练框架。

在此之前，全球许多大模型的预训练框架，都是由人类程序员逐行写出的。英伟达的Megatron、Meta的Fairseq、谷歌的TensorFlow，无一例外。

但面壁智能提出了一条完全不同的思路：Forge Engineering。

传统的软件工程强调通用框架，一个框架要兼容各种模型、各种硬件、各种训练任务。好处是代码可复用，代价是难以将每个具体场景的性能压榨到极致。就像一件均码衣服，谁都能穿，但谁都穿不合身。

Forge Engineering的思路则激进得多：既然AI写代码越来越快，代码生产成本越来越低，那我们何必还要追求通用？完全可以给不同的模型、不同的硬件、不同的任务，分别编写专用代码。

这就像从工业化的批量生产，回归到了高级定制。AI就是那个不知疲倦的顶级工匠，可以为每一个需求量身打造最合适的代码。

但AI自己编写预训练框架，难点不仅在于写代码。更难的是：它如何知道自己写对了？如何知道速度够不够快？如何知道显存、并行、通信、稳定性是否存在问题？

这就需要Harness。

可以把Harness理解为一个考场，AI被放入这个考场中，一轮轮地生成代码、运行测试、获取反馈、继续修改。整个过程完全自动，无需人工干预。

面壁智能采用了三阶段构建方法：

1. 从现有预训练框架中采集关键数据，形成评估标准和Harness

2. 从评估Harness构建二进制一致的预训练框架版本

3. 解除二进制一致的限制，迭代优化至超越参考实现

最终结果是，ForgeTrain不仅在功能上完全对齐英伟达Megatron，而且在相同硬件条件下，训练速度还要快10%。

这意味着，同样的算力下，使用ForgeTrain可以节省10%的训练时间和成本。

这是一件值得关注的事情

看到这里，你可能会觉得这只是一场很酷的技术展示。但透过现象看本质，面壁智能的这次发布，正揭示着大模型行业正在发生的一场深刻变革。

首先，大模型的竞争，正从堆砌资源转向极致提升效率。

过去几年，所有大模型厂商都在比拼大力出奇迹，比拼参数、语料、算力、十万卡集群。但这条Scaling Law的道路是有尽头的。

当堆料遇到天花板，接下来的胜负手是什么？是效率。

在相同的算力预算下，谁能实现更多的研发迭代？谁的单代研发周期更短？面壁智能的AI制造AI给出了答案：

用AI替代人类研发管线中的重复劳动，将人类数周的代码开发压缩到几十分钟。这是唯一能对抗资源瓶颈、实现大模型能力继续指数级攀升的解法。

其次，AI研究员的角色，正在发生不可逆转的变化。

在ForgeTrain这样的系统中，人类的角色正在发生迁移。从Human in the loop（在循环中执行具体代码）转变为Human on the loop（在循环外进行监督与设计）。

未来的AI科学家，不再需要亲自去编写无穷无尽的CUDA算子和底层通信逻辑。他们将变成研发系统的设计者和边界守护者。只需定义目标、搭建Harness，剩下的繁杂工作全交给不知疲倦的AI去完成。

最后，对于国产大模型和国产芯片而言，这是实现弯道超车的绝佳契机。

过去，我们评价国产大模型，总是紧盯参数大小、榜单跑分、长文本能力。但真正决定一家公司、一个生态长期核心竞争力的，其实是底层系统——也就是生产模型的能力。

谁能更快地训练出模型，谁能以更低的成本试错，谁就能在残酷的百模大战中存活到最后。

更深远的战略意义在于国产算力生态。众所周知，华为昇腾等国产芯片在硬件算力上正奋力追赶，但最大的短板在于软件生态。英伟达有数百万开发者花费了十五年时间踩坑、优化，这是国产芯片靠人力难以在短时间内抹平的差距。

但ForgeTrain提供了一种破局的可能。

如果人力不足，那就用AI来弥补！通过AI自动生成适配各种新模型、新硬件的专属预训练框架，国产芯片将有机会借助AI的生产力，大幅缩短追赶国际顶尖生态的时间差。

当AI学会了制造AI，齿轮便开始加速转动。一个新时代，正在我们眼前展开。

———— END ————

灵思极智旗下“极智系列”三款AI智能应用

灵思极智让AI为各行业赋能

打造[超级企业]+[超级个体]

“让人回归人的价值”！

用灵思，创极智！点击关注“灵思极智”

关注后，两步置顶服务号，可第一时间收到灵思极智推文！

【声明】内容源于网络

灵思极智

AI领域超级创造工厂，用灵思，创极智！

内容 176

粉丝 0

灵思极智 AI领域超级创造工厂，用灵思，创极智！

总阅读135

粉丝0

内容176