

规模化稳定性：AMD 面向大模型训练的全栈平台

AMD开发者中心

2025-11-21

原文作者：Chaojun Hou, Lei Wei, Liz Li, Yao Fu, Andy Luo, Zhenyu Gu

在AMD GPU 集群上训练大规模 AI 模型，需要同时满足稳定性与可调试性。然而，现实中许多基于 ROCm 的多节点部署仍依赖不统一的脚本与工具来发起分布式作业、监控性能和处理故障。随着模型规模和训练时长不断上升，这类“拼装式”工作流的排障成本急剧增加，也削弱了集群整体的可靠性。

基于AMD 的 Primus 训练框架[1]（通过统一的 YAML 配置和模块化后端来支持大模型训练）与 Primus-Turbo[2]（面向 Transformer 的高性能加速库），我们认识到：生产环境不仅需要高效的训练代码，更需要一个能够管理集群基础设施、确保稳定性并提供全栈可观测性的完整平台。

为此，我们推出Primus-SaFE——运行在 Kubernetes 之上并与 ROCm 深度集成的全栈、全生命周期训练平台，专为大规模稳定性与可调试性而构建。它自动化覆盖从集群开箱即用式部署、智能调度到实时监控和硬件健康验证的全过程；其可观测模块Primus-Lens 进一步提供跨节点、GPU 与训练作业的统一遥测与可视化，帮助工程师快速定位问题并优化性能。结合 Primus 训练框架与 Primus-Turbo，Primus-SaFE 能将 AMD GPU 集群构建为具备自监控与弹性的训练环境，为下一代大模型训练奠定基础。

本文将带你在支持ROCm 的 Kubernetes 集群上逐步部署 Primus-SaFE：从平台引导、启用Primus-Lens 端到端监控，到在 AMD GPU 上运行具备容错能力的多节点训练。最终，你将获得一套可复用的操作指引，用于提升训练稳定性并加速工作流。

Primus-SaFE 架构：四大核心模块

▼

Primus-SaFE 围绕四个高度集成的模块构建，分别覆盖部署、调度、可观测性与验证等大规模训练的关键能力（见图1）。

图1：Primus-SaFE 全栈架构：四大模块协同管理大模型训练全流程

Primus-Bootstrap：快速构建集群

大规模训练离不开稳定、高性能的集群基础。Primus-Bootstrap 可在裸金属服务器上自动部署生产级 Kubernetes 集群，并预先配置适配 AI 工作负载的关键组件：

高可用Kubernetes：基于Kubespray 构建高可用控制平面与 etcd，确保集群在部分节点故障时仍可正常运行。

高吞吐统一存储（JuiceFS）：通过元/数分离架构与客户端缓存，实现高速访问海量数据，解决训练场景常见存储瓶颈。

安全的镜像管理（Harbor）：提供RBAC、镜像扫描与签名能力，确保训练镜像可信可验证。

高并发API 网关（Higress）：基于Istio + Envoy，配合 WebAssembly 插件实现自定义认证、路由与限流策略。

借助这些预配置能力，Primus-Bootstrap 可将裸金属服务器快速转变为可直接用于AI 训练的基础设施，显著减少集群搭建与集成成本，让团队更聚焦于模型研发。

Primus-SaFE Platform：智能调度与容错能力

在集群就绪之后，如何高效分配GPU 资源并确保长时训练稳定运行成为关键。Primus-SaFE Platform 在 Kubernetes 调度之上扩展了一系列面向 AI 的智能能力（见图2）。

图2：Primus-SaFE 关键能力：面向大模型训练的智能调度与容错特性

多级优先级队列与抢占：在资源紧张时，高优先级作业可抢占低优先级作业。

自动故障切换与重试：若节点或GPU 故障，训练任务会自动迁移至健康节点，并从最近的检查点恢复。

拓扑感知调度：使用topologyIPSort 等插件按网络拓扑选择节点；支持 Gang 调度。

健康检查与预检验证：包括网络连通性检查、Primus-Bench 性能基准与端到端试训验证。

这些特性既保证了GPU 资源的高利用率，又提供了稳健的容错能力。即便部分节点发生故障或重启，Primus-SaFE 仍能推动训练作业持续向前，使多周级的长时训练在无需 24×7（全天候）人工值守的情况下保持稳定运行。

Primus-Lens：全栈可观测性与可视化

Primus-Lens 为团队提供覆盖集群基础设施到训练作业的结构化实时视图：

集群级监控： 采集GPU 利用率、显存、网络、I/O、温度与功耗等指标。

作业级遥测： 跟踪迭代、吞吐、损失曲线、检查点状态等关键指标。

可视化与告警： 跨节点对比、阈值告警、日志关联分析等。

如下方图3所示，Primus-Lens 的仪表盘为集群健康状况与训练进度提供了全面的可视化展示：

图3：Primus-Lens 监控与可视化：提供训练与集群的统一洞察

Primus-Bench：节点健康与性能基准

在启动多节点训练作业之前，确保每台GPU 节点状态良好并达到预期性能至关重要。Primus-Bench 正是用于对集群中每个节点执行严格健康检查与性能基准测试的模块：

硬件与网络诊断：运行底层检查以验证GPU、驱动和网络接口是否正常，并在节点加入训练集群前提前发现如网络配置错误或 GPU 连接故障等问题。

AI 微基准测试：执行矩阵乘法和all-gather 等训练常用操作以测量节点吞吐，从而识别可能导致分布式训练瓶颈的性能不足或错误配置。

试运行训练验证：在节点上运行少量迭代的小规模训练作业，以模拟真实训练负载并验证计算、内存与网络组件能否在实际条件下正常协同工作。

未通过测试或性能偏低的节点会在加入主集群前被标记为维护或替换。提前隔离这些表现欠佳的硬件，可避免慢节点影响分布式训练整体速度。简而言之，Primus-Bench 能确保所有节点达到统一性能基线，使训练环境更加稳健。

关键特性与优势

▼

高可用与高性能的基础设施：Primus-Bootstrap 快速构建生产级 Kubernetes 集群，并预先配置适用于 AI 工作负载的必要组件，包括高可用控制平面、统一存储、镜像安全与服务网关，为大规模训练提供稳定且一致的基础环境。

智能调度与容错能力：Primus-SaFE 扩展了 Kubernetes 调度体系，提供多级优先级与抢占、自动故障切换、拓扑感知放置以及基于 Primus-Bench 的预检验证。即使部分节点故障或重启，训练仍能从最近的检查点恢复并继续推进，提高多周训练任务的可靠性。

全面监控与洞察能力：借助Primus-Lens，用户可以查看从集群到单个训练作业的实时指标，包括 GPU 利用率、吞吐量、损失曲线与检查点状态等，并支持指标与日志的关联分析，以更快定位性能瓶颈或系统异常。

一致性验证与性能基线：Primus-Bench 在节点加入训练集群前执行硬件诊断、AI 微基准测试和试运行训练，确保所有节点满足最低性能要求。未达标节点会被提前标记或隔离，避免在大规模训练中形成瓶颈。

端到端训练体验：通过将集群部署、调度、可观测性和健康检查整合为一个统一平台，Primus-SaFE 搭配 Primus 框架和 Primus-Turbo，提供端到端的大模型训练体验，使团队能够在 AMD GPU 上更稳定、高效地运行分布式训练。

可扩展性：平台架构面向从少量GPU 到大规模 GPU 集群的使用场景进行设计和验证，并在架构上预留向十万级 GPU 加速器扩展的能力，以更好地满足不断扩大的大模型训练需求。

全栈 Primus-SaFE 安装指南

▼

Primus-SaFE 平台将 Kubernetes 引导、可观测性以及稳定性层整合为一个统一的代码库。你无需克隆多个仓库，只需克隆一个统一的仓库，并在各自的子目录中安装对应组件即可。

1. 克隆统一仓库

git clone https://github.com/AMD-AGI/Primus-SaFE.gitcd Primus-SaFE

仓库中包含以下目录：

bootstrap/ —— Kubernetes 集群引导

Lens/ —— 可观测性模块（Primus-Lens）

SaFE/ —— 稳定性与调度层（Primus-SaFE）

2. 引导 Kubernetes 集群

（1）进入引导目录

cd bootstrap

（2）配置主机

编辑hosts.yaml，列出节点的 IP / 主机名以及其角色（例如 control-plane、worker）。

保存文件。

（3）运行引导脚本

bash bootstrap.sh

脚本执行完成后，一个生产级的Kubernetes 集群以及基础服务将启动并运行。

3. 使用 Primus-Lens 部署可观测性

（1）进入 Lens 引导目录

cd ../Lens/bootstrap

（2）安装 Primus-Lens

bash install.sh

安装完成后，监控仪表盘和日志后端即可使用。

4. 安装 Primus-SaFE 平台层

（1）进入 SaFE 引导目录

cd ../../SaFE/bootstrap

（2）部署 Primus-SaFE

bash install.sh

该步骤将安装稳定性/ 调度层（健康检查、拓扑感知调度、故障容错等）。

Primus-SaFE 通过为 Kubernetes 添加集群健康检查、拓扑感知调度和容错机制来扩展其能力。一旦所有组件安装完成，整个全栈即可用于大规模 AI 训练工作负载。

路线图与未来规划

▼

Primus-SaFE 正在持续演进，未来将加入以下能力扩展：

下一代AMD 硬件与网络支持：平台将持续适配后续推出的AMD GPU 和 ROCm 软件栈，并针对新一代硬件和网络能力进行优化。

智能体驱动的自动化平台：团队正在探索集成多智能体系统（如LangGraph、CrewAI），使用户能够通过自然语言触发复杂操作。例如，“部署 20 个节点并开始训练模型 X”这样的指令，可由智能体自动完成部署、调度与监控，从而简化对大规模集群的操作。

更细粒度的容错机制：未来将从节点级容错拓展到更细的粒度，如进程级故障切换、异步检查点、冗余训练进程和按需降级执行等，使训练作业在组件故障后仍能保持近乎不中断的运行。

总结

▼

与Primus 训练框架和 Primus-Turbo 加速库结合后，Primus-SaFE 构成了 AMD 面向大模型开发的端到端方案，覆盖从优化训练内核、实验管理到生产级集群编排和可观测性的全链路。欢迎探索完整的 Primus 生态，体验 AMD 如何让 ROCm 上的大规模训练更加易用、可靠与高效。

细节介绍

▼

[1] Primus: A Lightweight, Unified Training Framework for Large Models on AMD GPUs：
https://www.amd.com/en/developer/resources/technical-articles.html#sortCriteria=@amd_release_date%20descending&f-amd_blog_hardware_platforms=Instinct%20GPUs,Radeon%20Graphics&f-amd_blog_development_tools=ROCm%20Software

[2] Primus-Turbo 加速库：Primus-Turbo 简介：在 AMD GPU 上加速 Transformer 模型的高性能库

[3] Primus-SaFE GitHub 仓库：https://github.com/AMD-AGI

【声明】内容源于网络

AMD开发者中心

AMD开发者中心为开发者提供工具、技术和资源，助力构建AI解决方案。ROCm、Ryzen AI软件和ZenDNN，帮助您实现模型加速与部署。开发者可通过文档、SDK及教程快速上手。立即关注AMD开发者中心，开启智能未来！

内容 65

粉丝 0

AMD开发者中心 AMD开发者中心为开发者提供工具、技术和资源，助力构建AI解决方案。ROCm、Ryzen AI软件和ZenDNN，帮助您实现模型加速与部署。开发者可通过文档、SDK及教程快速上手。立即关注AMD开发者中心，开启智能未来！

总阅读61

粉丝0

内容65