国产GPU组了个开源局，把SGLang等核心开发者都摇来了！- 大数跨境

首页

国产GPU组了个开源局，把SGLang等核心开发者都摇来了！

量子位

2026-05-14

导读：国产GPU开启生态坐标之争

金磊发自凹非寺 | 量子位公众号 QbitAI

活动现场未见大厂高管，却聚集了众多开源圈核心开发者，现场可见多个GitHub知名明星ID：

大模型推理框架顶流SGLang核心开发者BBuf；
下一代算子生态TileLang维护者唐正举；
KVCache传输工具Mooncake核心贡献者马腾；
智源研究院Triton/FlagOS编译器专家肖航；
开源社区活跃开发者R0CKSTAR。

这场由国产GPU企业摩尔线程举办的SGLang × MUSA Meetup，展现了行业新动向：国产GPU的竞争焦点已从硬件参数转向生态坐标之争。

会议核心议题聚焦国产GPU如何融入大模型推理主流开源工程链路，涉及SGLang、Triton、TileLang等关键工具链的协同运作。

国产GPU开始“扩圈”了

SGLang作为高关注度开源推理框架，其核心目标是实现低延迟、高吞吐的大模型部署，需解决prefill与decode拆分、KVCache复用等复杂生产问题。

SGLang核心开发者BBuf展示了框架2026年Q2路线图：

完成DeepSeek V4全链路优化（W4A16量化/MegaMoE加速）；
jit_kernel替代传统编译流程，提速数倍；
Vibe Coding自动优化已交付60余项任务；
多模态性能提升5倍。

数据显示，其P/D分离架构在12台H100节点实现52.3k输入token/s/node吞吐，成本仅为DeepSeek官方API的20%。

SGLang核心开发者BBuf

摩尔线程工程师R0CKSTAR宣布SGLang on MUSA完成全链路打通：开发者仅需克隆官方仓库并安装sgl-kernel，即可在MTT S5000显卡上运行DeepSeek、通义千问3.5等主流模型。其关键突破在于MUSA三层CUDA兼容栈——通过import torchada单行代码实现99% CUDA适配，大幅降低迁移成本。截至5月12日，摩尔线程已向SGLang主线提交47个PR，41个获合入。

摩尔线程工程师R0CKSTAR

智源肖航分享了DeepSeek V4在MUSA的Day-0适配成果：结合FlagOS算子优化与SQMMA张量加速引擎，首token延迟降低56.7%，吞吐量提升23%。核心在于FP8矩阵乘（8.85倍加速）与稀疏注意力（6.01倍加速）两大关键算子的极致优化。

智源AI编译器研究员肖航

唐正举展示了TileLang的颠覆性价值：50行Python代码即可实现FlashAttention级性能。其15行代码的GEMM实现媲美CUTLASS，开发效率提升90%，已应用于DeepSeek V4核心内核。

TileLang维护者唐正举

阿里云马腾汇报Mooncake在KVCache解耦的突破：Kimi K2 1T模型权重同步时间从53秒降至7.2秒，多模态首token延迟降低6-8倍，多轮对话缓存命中率超90%。该成果使SGLang、vLLM等框架的生产部署更高效。

Mooncake Contributor 马腾

整条工程链路清晰呈现：SGLang构成推理主链路，MUSA提供国产GPU平台支持，FlagOS/Triton优化关键算子，TileLang降低开发门槛，Mooncake完善生产部署能力。

为什么摩尔线程能把他们摇来？

核心原因在于MUSA架构的设计哲学：摩尔线程CTO张钰勃强调，MUSA作为Meta-computing Unified System Architecture，致力于兼容通用计算生态，避免开发者重学新API。

摩尔线程CTO张钰勃

其三层CUDA兼容栈实现高效迁移：torch_musa对接PyTorch基础能力，torchada支持CUDA生态，mthreads-ml-py暴露设备管理接口。这种"修路至家门口"策略，使适配方案具备低侵入性，大幅降低上游合入门槛。

SGLang × MUSA代表推理主链路贯通，MUSA后端已正式纳入SGLang主线，从单点适配升级为生态共建。

FlagOS × MUSA推动关键算子与新模型快速适配，DeepSeek V4等模型的Day-0支持能力验证生态响应速度。

Mooncake × MUSA探索生产级推理解耦，实现跨实例KVCache共享与弹性扩缩容。

TileLang × MUSA提前布局下一代算子生态，降低高性能内核开发门槛。四维协同构成摩尔线程的生态组局能力。

国产GPU的生态位，正在走向协作

相比传统厂商闭门造车或私有Fork模式，摩尔线程选择全面融入全球开源生态，实践Day-0 Support、Upstream PR等标准工程实践。

通过将环境构建、PR提交、CI/CD等环节深度嵌入SGLang等顶级项目，国产GPU首次实现从"被动适配"到"主动共建"的转变。这种可持续的Upstream模式，标志着国产GPU已进入大模型推理开源生态的核心协作网络，与SGLang、Triton/FlagOS等项目共同构建未来算力基础设施。

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 15949

粉丝 1

量子位各类跨境出海行业相关资讯

总阅读222.8k

粉丝1

内容15.9k