大数跨境
0
0

只靠国产算力预训练,稳!全流程开源,「开元」盛世真来了

只靠国产算力预训练,稳!全流程开源,「开元」盛世真来了 新智元
2025-12-21
2

新智元报道

编辑:LRST
【新智元导读】当算力受限、数据参差,如何训练出高效可用的端侧模型?鹏城实验室联合清华不仅给出了答案,更将每一步都开源共享。

在国产算力资源有限、数据质量不一的背景下,能否成功完成端侧大模型的预训练?鹏城实验室与清华大学PACMAN实验室联合发布鹏城脑海‑2.1‑开元‑2B(PCMind‑2.1‑Kaiyuan‑2B,简称开元‑2B),以全流程开源的方式回应了这一挑战。从训练数据、处理框架、训练代码到技术报告和模型权重,全部开放共享。

模型链接:https://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2B

数据集:https://huggingface.co/datasets/thu-pacman/PCMind-2.1-Kaiyuan-2B

技术报告:https://arxiv.org/abs/2512.07612

数据处理框架:https://github.com/thu-pacman/Kaiyuan-Spark

训练框架:https://github.com/thu-pacman/kaiyuan-mindformers


该模型为国内研究者提供了可在国产平台上复现的大模型训练路径,验证了在国产计算平台上实现高效稳定预训练的可行性。训练依托“鹏城脑海2”计算平台,数据处理基于华为鲲鹏920,训练系统采用华为昇腾910A芯片。

由于昇腾910A仅支持FP16精度,存在训练不稳定风险。团队基于Qwen3-1.7B架构,引入两项关键技术:

三明治范数(Sandwich Norm):在Transformer每层前后保留归一化层,控制梯度传播中的数值范围。

软裁剪(Soft Clipping):对输出logits应用tanh非线性变换,限制数值区间,防止发散。

加入三明治范数与软裁剪前后的数值稳定性对比

这些技术有效保障了FP16环境下的训练稳定性,为后续国产平台开展大规模训练提供重要参考。

开源数据:去重、评价与高效利用

当前开源预训练数据来源广泛、质量参差,如何筛选高质量子集并建立统一评价标准,是构建优质模型的关键基础。开元‑2B聚焦两大核心问题:

  1. 如何从海量数据中筛选高质量子集?
  2. 如何建立跨数据集的统一质量评估体系?
全局去重的高效实现:Kaiyuan‑Spark框架


团队开发了Kaiyuan‑Spark数据处理框架,采用树状流水线设计,全程通过YAML配置管理,具备高可复现性与扩展性。

结合诸葛弩计算框架进行本地加速,在MinHash去重任务中实现端到端2.5倍加速比,高效完成TB级数据的全局模糊去重。

分位标定(Quantile Benchmarking)


为解决不同数据集间质量标签不可比的问题,团队提出分位标定方法:通过小规模探针实验,构建数据质量分数与下游任务表现之间的映射关系。

分位标定流程示意图

具体做法:从各数据集中按质量分位数抽取子集,使用小模型训练测试,根据下游任务表现反向标定其质量水平。该方法成本低、可迁移性强,为大规模训练的数据配比提供科学依据。

关键发现


基于分位标定分析,团队得出以下结论:

数据集优势与任务类型相关
Fineweb-Edu在知识问答与阅读理解任务上表现更优,DCLM-Baseline在常识推理类任务中略胜一筹。

DCLM Baseline和Fineweb-Edu在MMLU和WinoGrande上的分位标定结果

同一数据集内部质量差异显著
最高与最低质量数据在ARC-Easy任务上的表现差距可达8%–15%

DCLM Baseline和Fineweb-Edu在ARC-Easy上的分位标定结果

可见,尽管高质量数据占比较小,但对模型能力提升至关重要。

数据利用策略:动态调整与课程学习

针对数据分布不均问题,开元‑2B提出三项核心策略:

多阶段动态比例调整


随训练进程逐步提高数学、代码、中文等关键领域数据的比例,缓解模型遗忘效应,确保后期充分学习。

多阶段调整数据比例

策略性数据重复


实验证明,适度重复训练高质量数据优于单轮训练。开元‑2B在训练后期逐步增加高质量数据采样频率。

以Fineweb-Edu为例:Top 10%高质量数据多次出现,中低质量数据仅保留一次,优化整体数据效用。

Fineweb-Edu在多阶段训练中采样比例变化

多领域混合课程学习


团队提出Curriculum Decay Model Average方法,在课程学习基础上引入权重平均机制,降低训练噪声,提升收敛稳定性。

通过领域内质量排序领域间比例均衡相结合,实现多领域数据的渐进式学习。

论文链接:https://arxiv.org/abs/2511.18903

学习率衰减会影响课程学习效果

在不同学习率衰减条件下,最优的课程学习+权重平均配置(Ascend+EMA)优于常规做法(Uniform+WSD)

多领域课程的实现

配合精细化的学习率调度方案,模型在高质量数据上得以充分学习,最终性能接近千问系列(仅开源权重)模型水平。

全流程开源:推动国产AI生态共建

开元‑2B不仅是端侧模型训练的技术实践,更是一次全栈透明、可复现的技术示范。从数据处理框架Kaiyuan-Spark、训练数据集到评价体系与训练策略,所有环节均公开开放

所涉原始数据集均采用宽松开源协议(如CC、Apache、MIT、ODC等,详见技术报告附录B),个人、高校及企业均可自由使用,显著提升训练可复现性与合规性。

值得注意的是,部分所谓“开放”的数据集实际未采用自由许可证,或混入非自由授权内容;大量公开数据集缺乏对原始许可的审查说明,存在潜在法律风险。开元‑2B对此进行了严格规避。

该项目为国内研究者在国产算力平台上开展大模型预训练提供了完整工具链,迈出构建开放协同AI研发生态的关键一步。模型权重、技术文档与代码均已发布,欢迎开发者共同参与测试、改进与拓展。

结语

真正的技术进步源于开放协作。开元‑2B只是一个起点,未来将携手社区,在国产算力的土壤上培育更多创新成果,从开元系列出发,开启国产算力训练的「开元盛世」。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14628
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读79.5k
粉丝0
内容14.6k