「基流科技」联合上海创智学院发布 MegaTrace 智能运维系统并开源

「基流科技」联合上海创智学院发布 MegaTrace 智能运维系统并开源｜Z计划好事发生

Z计划支持大模型创业

2025-09-23

导读：以开源生态打破壁垒，以实干人才推动普惠。

「星连资本（Z基金）」是专注于大模型生态的风险投资基金，侧重早期，管理规模 15 亿元人民币。「Z计划」是面向未上市初创企业与优秀独立开发者/团队，提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划，由智谱与星连资本共同支持。面向全球，持续招募中！🐋（点击报名）

当前，全球AI竞争日趋激烈。在最高难度AI评测中霸榜，全球TOP10模型中8个未开源，核心基础设施遭遇封锁。AGI的火种正被少数力量垄断。

对此，「基流科技」和创智的回应是：以开源生态打破壁垒，以实干人才推动普惠，并于近日，正式开源 MegaTrace ——一款源于丰富集群调优经验，覆盖全链路的一站式排障与性能分析工具集。

「星连资本（Z基金）在「基流科技」成立之初，就投资了其种子轮，并连续多轮加注！🌊

#1.

源于丰富的集群调优经验，打造完整的堵点排查工具集

在大规模分布式集群中，运维与排障一直是困扰研发和运维团队的核心难题。传统手段往往覆盖不全、定位效率低，面对“训练hang住、链路慢点、故障难复现”等问题，总是需要大量人工介入。

今天，我们正式开源 MegaTrace ——一款源于丰富集群调优经验，覆盖全链路的一站式排障与性能分析工具集。

源于丰富的集群调优经验，打造完整的堵点排查工具集。

巡检机器人 Bot 已集成到学院算力平台，形成‘探测-巡检-告警-恢复’的闭环运维体系，覆盖 95% 的问题发现与定位。

MegaTrace 通过 API 拦截与关键路径分析，快速定位 Hang 与慢点，补齐剩余 5% 的检测能力。

开源代码仓库：https://github.com/sii-research/Megatrace

巡检机器人 Bot：闭环运维体系

MegaTrace 内置的巡检机器人 Bot 已在创智学院算力平台稳定运行，形成了完整的 “探测 – 巡检 – 告警 – 恢复” 运维闭环：

探测：主动监测集群状态，提前发现潜在隐患；

巡检：自动运行健康检查，覆盖大多数常见问题；

告警：实时反馈异常，防止问题扩大化；

恢复：自动或半自动执行修复操作，减少人工值守。

借助这一体系，Bot 已经能够覆盖 95% 的问题发现与定位，大幅降低人工成本。

MegaTrace：补齐最后 5% 的检测盲区

对于剩下的疑难场景，MegaTrace 引入 API 拦截与关键路径分析，快速定位Hang与慢点，其核心工作流程分为配置采集、在线监测、离线分析三个阶段：

1. 配置信息获取

在分析之前，MegaTrace 会首先收集训练的基础配置信息，包括：

集群的总 GPU 数量；
并行切分大小（如 DP、PP、TP 维度）；
batch 大小；
各类训练特性（feature）的开启情况。

这些信息构成后续分析的上下文，为性能判断与瓶颈定位提供参考基线。

2. 在线采集监测

在训练过程中，MegaTrace 通过 API 拦截的方式，实时采集通信相关数据：

获取不同 stream 上通信原语的调用时间戳；
监控 WR（work request）下发过程中的队列长度变化；
结合这些信息评估网卡带宽使用情况，从而判断网络通信是否正常。

这一步确保我们能够在线捕捉通信行为，及时发现潜在的瓶颈或异常。

3. 离线分析诊断

采集到的数据会进入离线分析阶段：

结合训练切分信息，MegaTrace 首先生成完整的训练计算依赖图；

再根据 API 调用记录，标注每个前向与后向阶段的执行时间；

最终引入关键路径算法，结合依赖关系，精准识别 Hang 点或慢点。

这一整套机制，让 MegaTrace 能够从宏观到微观，既能发现全局瓶颈，又能定位到具体算子或链路，帮助研发快速解决问题。让 MegaTrace 补齐了最后 5% 的检测能力，实现从常规巡检到深度诊断的全面覆盖。

简单来说，MegaTrace 就是把训练过程从“黑盒”变成“透明玻璃盒”，让研发与运维团队能够看清谁在拖慢系统、哪里出了问题。

以一个3480卡的训练挂起定位流程举例：

在训练过程中我们突然遇到任务卡死，然后会有机器随机重启，现象很诡异，所有硬件监控指标都正常，难以定位根因；

根据通信调用的先后关系分析，我们发现训练最先出问题的节点Node188的第二张GPU，这张GPU上跑单卡任务也会出现卡死，踢掉这个节点任务正常运行

Megatrace可以有效地深挖出这种深层问题，可以支撑万卡集群99.9%的服务质量保障。

#2.

为什么选择 MegaTrace

实战沉淀：源于真实集群调优经验，设计贴合运维场景；

自动闭环：实现从探测到恢复的全流程自动化；

全链路覆盖：95% 常规问题 + 5% 疑难问题，一个工具集解决。

MegaTrace 已在实际集群中完成验证，现在正式开源，欢迎体验、反馈与共建！

#3.

如何参与贡献？

我们非常期待社区开发者的参与，一起让 MegaTrace 更加强大：

提出问题：在 [GitHub Issues] 区提交使用中遇到的 Bug 或改进建议；
提交 PR：修复问题、优化代码、补充文档，都欢迎通过 Pull Request 贡献；
分享经验：在社区中交流使用案例与优化思路，帮助更多人受益。

无论是 Bug 修复、功能开发还是文档完善，你的每一份贡献都将推动 MegaTrace 的成长。🌊

关于「基流科技」

基流科技是全栈自主的 AI 算力建筑商，致力打造全球领先的 AI 基础设施。公司专注攻克 AI 系统的分布式计算通信难题，在高速组网、集合通信、并行框架、管控调度等方面形成了一系列关键技术。公司坚持硬件自主可控，软件生态开放，已构建全链路开源自主的高性能智算系统 Galaxy HPAC，携手芯片、设备、数据中心等行业伙伴，为客户快速、高效、稳定交付智算集群，提供专业的管控与运维服务，为大模型训练、推理等提供重要支撑。

截至目前，公司累计组网调优交付的算力规模已达 23 个集群，超 6 万 6 千张 GPU，4000 余台交换机，超 32 万个光模块，服务对象涵盖大模型、运营商、数据中心、地方国企在内的多个头部用户。

‍