大数跨境
0
0

「基流科技」联合上海创智学院发布 MegaTrace 智能运维系统并开源|Z计划好事发生

「基流科技」联合上海创智学院发布 MegaTrace 智能运维系统并开源|Z计划好事发生 Z计划支持大模型创业
2025-09-23
2
导读:以开源生态打破壁垒,以实干人才推动普惠。
图片

「星连资本(Z基金)」是专注于大模型生态的风险投资基金,侧重早期,管理规模 15 亿元人民币。「Z计划」面向未上市初创企业与优秀独立开发者/团队,提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划,由智谱与星连资本共同支持。面向全球,持续招募中!🐋(点击报名)

当前,全球AI竞争日趋激烈。在最高难度AI评测中霸榜,全球TOP10模型中8个未开源,核心基础设施遭遇封锁。AGI的火种正被少数力量垄断。

对此,「基流科技」和创智的回应是:以开源生态打破壁垒,以实干人才推动普惠,并于近日,正式开源 MegaTrace ——一款源于丰富集群调优经验,覆盖全链路的一站式排障与性能分析工具集。

「星连资本(Z基金)在「基流科技」成立之初,就投资了其种子轮,并连续多轮加注🌊 
#1.

源于丰富的集群调优经验,打造完整的堵点排查工具集

在大规模分布式集群中,运维与排障一直是困扰研发和运维团队的核心难题。传统手段往往覆盖不全、定位效率低,面对“训练hang住、链路慢点、故障难复现”等问题,总是需要大量人工介入。
今天,我们正式开源 MegaTrace ——一款源于丰富集群调优经验,覆盖全链路的 一站式排障与性能分析工具集。
源于丰富的集群调优经验,打造完整的堵点排查工具集。
巡检机器人 Bot 已集成到学院算力平台,形成‘探测-巡检-告警-恢复’的闭环运维体系,覆盖 95% 的问题发现与定位。
MegaTrace 通过 API 拦截与关键路径分析,快速定位 Hang 与慢点,补齐剩余 5% 的检测能力。
开源代码仓库:https://github.com/sii-research/Megatrace
巡检机器人 Bot:闭环运维体系
MegaTrace 内置的 巡检机器人 Bot 已在创智学院算力平台稳定运行,形成了完整的 “探测 – 巡检 – 告警 – 恢复” 运维闭环:
探测:主动监测集群状态,提前发现潜在隐患;
巡检:自动运行健康检查,覆盖大多数常见问题;
告警:实时反馈异常,防止问题扩大化;
恢复:自动或半自动执行修复操作,减少人工值守。
借助这一体系,Bot 已经能够覆盖 95% 的问题发现与定位,大幅降低人工成本。
图片
MegaTrace:补齐最后 5% 的检测盲区

对于剩下的疑难场景,MegaTrace 引入 API 拦截与关键路径分析,快速定位Hang与慢点,其核心工作流程分为 配置采集、在线监测、离线分析 三个阶段:

1.  配置信息获取

在分析之前,MegaTrace 会首先收集训练的基础配置信息,包括:

  • 集群的总 GPU 数量;

  • 并行切分大小(如 DP、PP、TP 维度);

  • batch 大小;

  • 各类训练特性(feature)的开启情况。

这些信息构成后续分析的上下文,为性能判断与瓶颈定位提供参考基线。

2. 在线采集监测

在训练过程中,MegaTrace 通过 API 拦截 的方式,实时采集通信相关数据:

  • 获取不同 stream 上通信原语的调用时间戳;

  • 监控 WR(work request)下发过程中的 队列长度变化;

  • 结合这些信息评估网卡带宽使用情况,从而判断 网络通信是否正常。

这一步确保我们能够在线捕捉通信行为,及时发现潜在的瓶颈或异常。

3. 离线分析诊断
采集到的数据会进入 离线分析阶段:
结合训练切分信息,MegaTrace 首先生成完整的 训练计算依赖图;
再根据 API 调用记录,标注每个 前向与后向阶段的执行时间;
最终引入 关键路径算法,结合依赖关系,精准识别 Hang 点或慢点。
这一整套机制,让 MegaTrace 能够从宏观到微观,既能发现 全局瓶颈,又能定位到 具体算子或链路,帮助研发快速解决问题。让 MegaTrace 补齐了 最后 5% 的检测能力,实现从常规巡检到深度诊断的全面覆盖。
图片
简单来说,MegaTrace 就是把训练过程从“黑盒”变成“透明玻璃盒”,让研发与运维团队能够看清 谁在拖慢系统、哪里出了问题。
以一个3480卡的训练挂起定位流程举例:
在训练过程中我们突然遇到任务卡死,然后会有机器随机重启,现象很诡异,所有硬件监控指标都正常,难以定位根因;
根据通信调用的先后关系分析,我们发现训练最先出问题的节点Node188的第二张GPU,这张GPU上跑单卡任务也会出现卡死,踢掉这个节点任务正常运行
Megatrace可以有效地深挖出这种深层问题,可以支撑万卡集群99.9%的服务质量保障。
#2.

为什么选择 MegaTrace

实战沉淀:源于真实集群调优经验,设计贴合运维场景;
自动闭环:实现从探测到恢复的全流程自动化;
全链路覆盖:95% 常规问题 + 5% 疑难问题,一个工具集解决。
MegaTrace 已在实际集群中完成验证,现在正式开源,欢迎体验、反馈与共建!

#3.

如何参与贡献?

我们非常期待社区开发者的参与,一起让 MegaTrace 更加强大:

  • 提出问题:在 [GitHub Issues] 区提交使用中遇到的 Bug 或改进建议;
  • 提交 PR:修复问题、优化代码、补充文档,都欢迎通过 Pull Request 贡献;
  • 分享经验:在社区中交流使用案例与优化思路,帮助更多人受益。
无论是 Bug 修复、功能开发还是文档完善,你的每一份贡献都将推动 MegaTrace 的成长。🌊
图片
关于「基流科技」
基流科技是全栈自主的 AI 算力建筑商,致力打造全球领先的 AI 基础设施。公司专注攻克 AI 系统的分布式计算通信难题,在高速组网、集合通信、并行框架、管控调度等方面形成了一系列关键技术。公司坚持硬件自主可控,软件生态开放,已构建全链路开源自主的高性能智算系统 Galaxy HPAC,携手芯片、设备、数据中心等行业伙伴,为客户快速、高效、稳定交付智算集群,提供专业的管控与运维服务,为大模型训练、推理等提供重要支撑。
截至目前,公司累计组网调优交付的算力规模已达 23 个集群,超 6 万 6 千 张 GPU,4000 余台交换机,超 32 万个光模块,服务对象涵盖大模型、运营商、数据中心、地方国企在内的多个头部用户。
—end—
内容来源|上海创智学院

排版 | 埃玛

审阅|邓瑞恒

* 本文不代表智谱公司必然认同以上任何观点。

【声明】内容源于网络
0
0
Z计划支持大模型创业
和智谱一起创业!联系我们:zhipu_eco(大智)
内容 32
粉丝 0
Z计划支持大模型创业 和智谱一起创业!联系我们:zhipu_eco(大智)
总阅读0
粉丝0
内容32