大咖“源”聚GOSIM！开源大模型推理框架SGLang中国首场Workshop，这些亮点不容错过！- 大数跨境

首页

大咖“源”聚GOSIM！开源大模型推理框架SGLang中国首场Workshop，这些亮点不容错过！

华为开源

2025-09-08

201

导读：Hi，SGLang在国内的首场Workshop线下活动来啦！

Hi，SGLang在国内的首场Workshop线下活动来啦！作为大模型领域高知名度、高热度、DeepSeek推荐使用的开源推理引擎之一——SGLang迎来全面开源后的中国首场重磅Workshop线下活动！

9月13-14日，GOSIM HANGZHOU 2025 将在杭州举行，此次大会由GOSIM 全球开源创新汇主办、CSDN 承办，集合全球顶级知名AI大牛，旨在助力千行百业繁荣创新。在这次大会上，SGLang Workshop将与大家一起见面！属于AI开发者的技术盛宴即将拉开序幕！

【活动概览】

时间：9月14日10:15-18:00

地点：杭州白金汉爵大酒店（浙江省杭州市西湖区珊瑚沙东路9号）

报名：https://hangzhou2025.gosim.org/

【活动亮点抢先看】

亮点1

开源核心专家面对面：与来自阿里云、华为昇腾、科大讯飞、英伟达、美团、字节跳动等行业大咖深入交流，直击 SGLang 全面开源开放策略。

亮点2

SGLang 实战案例：SGLang 具备高性能、易用性和广泛的应用场景，解锁行业应用、性能调优、兼容性等痛点问题的解决方案。

亮点3

独家干货：解锁 SGLang 底层优化、大模型训练推理性能提升、大模型能力密度提升等核心技术，直击行业痛点。

亮点4

精准资源对接：现场可与昇腾生态团队、知名企业技术负责人交流，获取技术支持与合作对接机会。

【大咖云集，干货满满】

NO.1 张懿

阿里云的研发工程师，SGLang Committer，目前主要关注构建高性能的 LLM/VLM 推理引擎。

议题：SGLang：一个高效的开源大规模LLM服务框架

议题简介：SGLang 是一个高效的开源大规模 LLM 服务框架。在过去的一年中，SGLang 经历了快速的迭代和发展，本次 Talk 将概括性地介绍 SGLang 的核心特性，主要包括：KV Cache 复用、Zero-overhead 批调度、投机采样、Prefill & Decode 分离和大规模专家并行。

核心特性：

● 基于 RadixAttention 的高效 KV Cache 复用

● 零开销批处理调度器

● 投机采样与 SpecForge

● 预填充与解码的解耦设计

● 大规模专家并行

NO.2 蔡尚铭

阿里云飞天实验室工程师及研究员、Mooncake Core Member、SGLang Committer。主要研究兴趣包括分布式机器学习训练、大语言模型、高效推理服务系统以及大数据分析。

议题：基于 Mooncake 的 SGLang Prefill/Decode 分离方案

议题简介：SGLang 中引入了预填充与解码解耦（Prefill and Decode Disaggregation，简称 PD 分离）方案，在互不干扰的同时也使得每个阶段可以分别进行针对性的优化。本次演讲将详细介绍 Mooncake 后端的具体实现，这是 SGLang 首个集成且默认的 PD 分离后端。除了简述整体流程，本次演讲还将详细介绍 PD 分离如何与 DP attention 和 MTP 等特性协同工作，以及如何支持预填充与解码阶段采用不同的张量并行（TP）策略。此外，还将介绍我们为了确保在生产环境下稳定运行，在 PD 节点容错和伸缩方面所做的一些工作。

NO.3 杨彦波

现任职于科大讯飞，负责 MaaS 平台的研发工作；SGLang Committer

议题：讯飞 MaaS 平台大模型高性能推理实践

议题简介：讯飞基于开源引擎结合自身推理服务框架在 PD 分离上的相关技术介绍。

NO.4 林骏荣

通义千问（Qwen）后训练团队工程师、SGLang Committer

议题：和 SGLang 一起思考：推理赋能强化学习时代的模型训练

议题简介：通过强化学习（RL）和测试时扩展（TTS）来优化大语言模型（LLM）的输出，已成为当前趋势，这也使得高效的推理引擎成为了模型训练中前所未有重要的一环。本次演讲将介绍 SGLang 在强化学习场景下的最新进展及社区应用情况。

NO.5 朱熠恺&王超

朱熠恺：SGLang Committer

王超：SGLang Committer&美团软件工程师。专注于利用 TensorFlow/TensorRT 进行点击率（CTR）模型的 GPU 推理，以及利用 PyTorch 进行大语言模型（LLMs）的 GPU 推理。此前曾任职于腾讯。

议题：SpecForge：用于训练推测式解码模型的开源框架

议题简介：推测式解码（Speculative Decoding）是一种能够显著加速大语言模型（LLM）推理的强大技术。本次演讲将首次宣布开源 SpecForge 框架——一种基于 Eagle3 的推测式解码模型训练新框架。SpecForge 专为易用性设计，并与 SGLang 推理引擎紧密集成，实现从训练到部署的无缝衔接。

NO.6 曹逸中

通义千问（Qwen）推理团队工程师

议题：Qwen 团队在大模型推理中算法-系统联合优化实践

议题简介：

● KV Cache Reuse 实践

● 长序列推理优化实践

● SGLang 离线推理优化实践

NO.7 包小明

华为昇腾高级构架师、SGLang贡献者

议题：SGLang on Ascend 大模型推理的高效实践

议题简介：华为昇腾架构相比NV GPU架构存在较多不同点，包含芯片的架构、互联、软件栈、编程体系、算子库等, 也为SGLang on Ascend的适配与支持带来诸多挑战。本议题介绍昇腾的体系结构，以及SGLang on Ascend适配的心路历程与高效实践。

NO.8 王冬

英伟达GPU计算专家，当前主要从事大语言模型训练与推理过程的通讯优化。

议题：大规模混合专家模型（MoE）中的AII2AII通信优化研究

议题简介：针对万亿级参数规模的混合专家（MoE）模型，其分布式训练与推理长期受到跨节点通信瓶颈的制约。为此，业内提出了专门面向MoE与专家并行（EP）的高性能通信库DeepEP。该库提供了高吞吐量、低延迟的全对全（AIl2AlI）GPU通信内核以及低精度通信支持。我们基于底层高性能RDMA通信库，对非对称域带宽转发模型进行了进一步优化。

NO.9 张晓雷