大数跨境

国产GPU组了个开源局,把SGLang等核心开发者都摇来了!

国产GPU组了个开源局,把SGLang等核心开发者都摇来了! 量子位
2026-05-14
40
导读:国产GPU开启生态坐标之争

金磊 发自 凹非寺 | 量子位 公众号 QbitAI

活动现场未见大厂高管,却聚集了众多开源圈核心开发者,现场可见多个GitHub知名明星ID

  • 大模型推理框架顶流SGLang核心开发者BBuf
  • 下一代算子生态TileLang维护者唐正举
  • KVCache传输工具Mooncake核心贡献者马腾
  • 智源研究院Triton/FlagOS编译器专家肖航
  • 开源社区活跃开发者R0CKSTAR

这场由国产GPU企业摩尔线程举办的SGLang × MUSA Meetup,展现了行业新动向:国产GPU的竞争焦点已从硬件参数转向生态坐标之争

会议核心议题聚焦国产GPU如何融入大模型推理主流开源工程链路,涉及SGLang、Triton、TileLang等关键工具链的协同运作。

国产GPU开始“扩圈”了

SGLang作为高关注度开源推理框架,其核心目标是实现低延迟、高吞吐的大模型部署,需解决prefill与decode拆分、KVCache复用等复杂生产问题。

SGLang核心开发者BBuf展示了框架2026年Q2路线图:

  • 完成DeepSeek V4全链路优化(W4A16量化/MegaMoE加速);
  • jit_kernel替代传统编译流程,提速数倍;
  • Vibe Coding自动优化已交付60余项任务;
  • 多模态性能提升5倍。
数据显示,其P/D分离架构在12台H100节点实现52.3k输入token/s/node吞吐,成本仅为DeepSeek官方API的20%。

SGLang核心开发者BBuf

摩尔线程工程师R0CKSTAR宣布SGLang on MUSA完成全链路打通:开发者仅需克隆官方仓库并安装sgl-kernel,即可在MTT S5000显卡上运行DeepSeek、通义千问3.5等主流模型。其关键突破在于MUSA三层CUDA兼容栈——通过import torchada单行代码实现99% CUDA适配,大幅降低迁移成本。截至5月12日,摩尔线程已向SGLang主线提交47个PR,41个获合入。

摩尔线程工程师R0CKSTAR

智源肖航分享了DeepSeek V4在MUSA的Day-0适配成果:结合FlagOS算子优化与SQMMA张量加速引擎,首token延迟降低56.7%,吞吐量提升23%。核心在于FP8矩阵乘(8.85倍加速)与稀疏注意力(6.01倍加速)两大关键算子的极致优化。

智源AI编译器研究员肖航

唐正举展示了TileLang的颠覆性价值:50行Python代码即可实现FlashAttention级性能。其15行代码的GEMM实现媲美CUTLASS,开发效率提升90%,已应用于DeepSeek V4核心内核。

TileLang维护者唐正举

阿里马腾汇报Mooncake在KVCache解耦的突破:Kimi K2 1T模型权重同步时间从53秒降至7.2秒,多模态首token延迟降低6-8倍,多轮对话缓存命中率超90%。该成果使SGLang、vLLM等框架的生产部署更高效。

Mooncake Contributor 马腾

整条工程链路清晰呈现:SGLang构成推理主链路,MUSA提供国产GPU平台支持,FlagOS/Triton优化关键算子,TileLang降低开发门槛,Mooncake完善生产部署能力。

为什么摩尔线程能把他们摇来?

核心原因在于MUSA架构的设计哲学:摩尔线程CTO张钰勃强调,MUSA作为Meta-computing Unified System Architecture,致力于兼容通用计算生态,避免开发者重学新API。

摩尔线程CTO张钰勃

其三层CUDA兼容栈实现高效迁移:torch_musa对接PyTorch基础能力,torchada支持CUDA生态,mthreads-ml-py暴露设备管理接口。这种"修路至家门口"策略,使适配方案具备低侵入性,大幅降低上游合入门槛。

SGLang × MUSA代表推理主链路贯通,MUSA后端已正式纳入SGLang主线,从单点适配升级为生态共建。

FlagOS × MUSA推动关键算子与新模型快速适配,DeepSeek V4等模型的Day-0支持能力验证生态响应速度

Mooncake × MUSA探索生产级推理解耦,实现跨实例KVCache共享与弹性扩缩容。

TileLang × MUSA提前布局下一代算子生态,降低高性能内核开发门槛。四维协同构成摩尔线程的生态组局能力。

国产GPU的生态位,正在走向协作

相比传统厂商闭门造车或私有Fork模式,摩尔线程选择全面融入全球开源生态,实践Day-0 Support、Upstream PR等标准工程实践。

通过将环境构建、PR提交、CI/CD等环节深度嵌入SGLang等顶级项目,国产GPU首次实现从"被动适配"到"主动共建"的转变。这种可持续的Upstream模式,标志着国产GPU已进入大模型推理开源生态的核心协作网络,与SGLang、Triton/FlagOS等项目共同构建未来算力基础设施。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 15949
粉丝 1
量子位 各类跨境出海行业相关资讯
总阅读222.8k
粉丝1
内容15.9k