「星连资本(Z基金)」是专注于大模型生态的风险投资基金,侧重早期,管理规模 15 亿元人民币。「Z计划」是面向未上市初创企业与优秀独立开发者/团队,提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划,由智谱与星连资本共同支持。面向全球,持续招募中!🐋(点击报名)
当前,全球AI竞争日趋激烈。在最高难度AI评测中霸榜,全球TOP10模型中8个未开源,核心基础设施遭遇封锁。AGI的火种正被少数力量垄断。
对此,「基流科技」和创智的回应是:以开源生态打破壁垒,以实干人才推动普惠,并于近日,正式开源 MegaTrace ——一款源于丰富集群调优经验,覆盖全链路的一站式排障与性能分析工具集。
「星连资本(Z基金)在「基流科技」成立之初,就投资了其种子轮,并连续多轮加注!🌊
源于丰富的集群调优经验,打造完整的堵点排查工具集
在大规模分布式集群中,运维与排障一直是困扰研发和运维团队的核心难题。传统手段往往覆盖不全、定位效率低,面对“训练hang住、链路慢点、故障难复现”等问题,总是需要大量人工介入。
今天,我们正式开源 MegaTrace ——一款源于丰富集群调优经验,覆盖全链路的 一站式排障与性能分析工具集。
源于丰富的集群调优经验,打造完整的堵点排查工具集。
巡检机器人 Bot 已集成到学院算力平台,形成‘探测-巡检-告警-恢复’的闭环运维体系,覆盖 95% 的问题发现与定位。
MegaTrace 通过 API 拦截与关键路径分析,快速定位 Hang 与慢点,补齐剩余 5% 的检测能力。
开源代码仓库:https://github.com/sii-research/Megatrace
MegaTrace 内置的 巡检机器人 Bot 已在创智学院算力平台稳定运行,形成了完整的 “探测 – 巡检 – 告警 – 恢复” 运维闭环:
借助这一体系,Bot 已经能够覆盖 95% 的问题发现与定位,大幅降低人工成本。
对于剩下的疑难场景,MegaTrace 引入 API 拦截与关键路径分析,快速定位Hang与慢点,其核心工作流程分为 配置采集、在线监测、离线分析 三个阶段:
1. 配置信息获取
在分析之前,MegaTrace 会首先收集训练的基础配置信息,包括:
集群的总 GPU 数量;
并行切分大小(如 DP、PP、TP 维度);
batch 大小;
各类训练特性(feature)的开启情况。
这些信息构成后续分析的上下文,为性能判断与瓶颈定位提供参考基线。
2. 在线采集监测
在训练过程中,MegaTrace 通过 API 拦截 的方式,实时采集通信相关数据:
这一步确保我们能够在线捕捉通信行为,及时发现潜在的瓶颈或异常。
结合训练切分信息,MegaTrace 首先生成完整的 训练计算依赖图;
再根据 API 调用记录,标注每个 前向与后向阶段的执行时间;
最终引入 关键路径算法,结合依赖关系,精准识别 Hang 点或慢点。
这一整套机制,让 MegaTrace 能够从宏观到微观,既能发现 全局瓶颈,又能定位到 具体算子或链路,帮助研发快速解决问题。让 MegaTrace 补齐了 最后 5% 的检测能力,实现从常规巡检到深度诊断的全面覆盖。
简单来说,MegaTrace 就是把训练过程从“黑盒”变成“透明玻璃盒”,让研发与运维团队能够看清 谁在拖慢系统、哪里出了问题。
在训练过程中我们突然遇到任务卡死,然后会有机器随机重启,现象很诡异,所有硬件监控指标都正常,难以定位根因;
根据通信调用的先后关系分析,我们发现训练最先出问题的节点Node188的第二张GPU,这张GPU上跑单卡任务也会出现卡死,踢掉这个节点任务正常运行
Megatrace可以有效地深挖出这种深层问题,可以支撑万卡集群99.9%的服务质量保障。
为什么选择 MegaTrace
实战沉淀:源于真实集群调优经验,设计贴合运维场景;
全链路覆盖:95% 常规问题 + 5% 疑难问题,一个工具集解决。
MegaTrace 已在实际集群中完成验证,现在正式开源,欢迎体验、反馈与共建!
如何参与贡献?
我们非常期待社区开发者的参与,一起让 MegaTrace 更加强大:
-
提出问题:在 [GitHub Issues] 区提交使用中遇到的 Bug 或改进建议;
-
提交 PR:修复问题、优化代码、补充文档,都欢迎通过 Pull Request 贡献;
-
分享经验:在社区中交流使用案例与优化思路,帮助更多人受益。
无论是 Bug 修复、功能开发还是文档完善,你的每一份贡献都将推动 MegaTrace 的成长。🌊
基流科技是全栈自主的 AI 算力建筑商,致力打造全球领先的 AI 基础设施。公司专注攻克 AI 系统的分布式计算通信难题,在高速组网、集合通信、并行框架、管控调度等方面形成了一系列关键技术。公司坚持硬件自主可控,软件生态开放,已构建全链路开源自主的高性能智算系统 Galaxy HPAC,携手芯片、设备、数据中心等行业伙伴,为客户快速、高效、稳定交付智算集群,提供专业的管控与运维服务,为大模型训练、推理等提供重要支撑。
截至目前,公司累计组网调优交付的算力规模已达 23 个集群,超 6 万 6 千 张 GPU,4000 余台交换机,超 32 万个光模块,服务对象涵盖大模型、运营商、数据中心、地方国企在内的多个头部用户。
排版 | 埃玛
审阅|邓瑞恒
* 本文不代表智谱公司必然认同以上任何观点。