
Hi,SGLang在国内的首场Workshop线下活动来啦!作为大模型领域高知名度、高热度、DeepSeek推荐使用的开源推理引擎之一——SGLang迎来全面开源后的中国首场重磅Workshop线下活动!
9月13-14日,GOSIM HANGZHOU 2025 将在杭州举行,此次大会由GOSIM 全球开源创新汇主办、CSDN 承办,集合全球顶级知名AI大牛,旨在助力千行百业繁荣创新。在这次大会上,SGLang Workshop将与大家一起见面!属于AI开发者的技术盛宴即将拉开序幕!
【活动概览】
时间:9月14日10:15-18:00
地点:杭州白金汉爵大酒店(浙江省杭州市西湖区珊瑚沙东路9号)
报名:https://hangzhou2025.gosim.org/
【活动亮点抢先看】
亮点1
开源核心专家面对面:与来自阿里云、华为昇腾、科大讯飞、英伟达、美团、字节跳动等行业大咖深入交流,直击 SGLang 全面开源开放策略。
亮点2
SGLang 实战案例:SGLang 具备高性能、易用性和广泛的应用场景,解锁行业应用、性能调优、兼容性等痛点问题的解决方案。
亮点3
独家干货:解锁 SGLang 底层优化、大模型训练推理性能提升、大模型能力密度提升等核心技术,直击行业痛点。
亮点4
精准资源对接:现场可与昇腾生态团队、知名企业技术负责人交流,获取技术支持与合作对接机会。
【大咖云集,干货满满】
NO.1 张懿
阿里云的研发工程师,SGLang Committer,目前主要关注构建高性能的 LLM/VLM 推理引擎。
议题:SGLang:一个高效的开源大规模LLM服务框架
议题简介:SGLang 是一个高效的开源大规模 LLM 服务框架。在过去的一年中,SGLang 经历了快速的迭代和发展,本次 Talk 将概括性地介绍 SGLang 的核心特性,主要包括:KV Cache 复用、Zero-overhead 批调度、投机采样、Prefill & Decode 分离和大规模专家并行。
核心特性:
● 基于 RadixAttention 的高效 KV Cache 复用
● 零开销批处理调度器
● 投机采样与 SpecForge
● 预填充与解码的解耦设计
● 大规模专家并行
NO.2 蔡尚铭
阿里云飞天实验室工程师及研究员、Mooncake Core Member、SGLang Committer。主要研究兴趣包括分布式机器学习训练、大语言模型、高效推理服务系统以及大数据分析。
议题:基于 Mooncake 的 SGLang Prefill/Decode 分离方案
议题简介:SGLang 中引入了预填充与解码解耦(Prefill and Decode Disaggregation,简称 PD 分离)方案,在互不干扰的同时也使得每个阶段可以分别进行针对性的优化。本次演讲将详细介绍 Mooncake 后端的具体实现,这是 SGLang 首个集成且默认的 PD 分离后端。除了简述整体流程,本次演讲还将详细介绍 PD 分离如何与 DP attention 和 MTP 等特性协同工作,以及如何支持预填充与解码阶段采用不同的张量并行(TP)策略。此外,还将介绍我们为了确保在生产环境下稳定运行,在 PD 节点容错和伸缩方面所做的一些工作。
NO.3 杨彦波
现任职于科大讯飞,负责 MaaS 平台的研发工作;SGLang Committer
议题:讯飞 MaaS 平台大模型高性能推理实践
议题简介:讯飞基于开源引擎结合自身推理服务框架在 PD 分离上的相关技术介绍。
NO.4 林骏荣
通义千问(Qwen)后训练团队工程师、SGLang Committer
议题:和 SGLang 一起思考:推理赋能强化学习时代的模型训练
议题简介:通过强化学习(RL)和测试时扩展(TTS)来优化大语言模型(LLM)的输出,已成为当前趋势,这也使得高效的推理引擎成为了模型训练中前所未有重要的一环。本次演讲将介绍 SGLang 在强化学习场景下的最新进展及社区应用情况。
NO.5 朱熠恺&王超
朱熠恺:SGLang Committer
王超:SGLang Committer&美团软件工程师。专注于利用 TensorFlow/TensorRT 进行点击率(CTR)模型的 GPU 推理,以及利用 PyTorch 进行大语言模型(LLMs)的 GPU 推理。此前曾任职于腾讯。
议题:SpecForge:用于训练推测式解码模型的开源框架
议题简介:推测式解码(Speculative Decoding)是一种能够显著加速大语言模型(LLM)推理的强大技术。本次演讲将首次宣布开源 SpecForge 框架——一种基于 Eagle3 的推测式解码模型训练新框架。SpecForge 专为易用性设计,并与 SGLang 推理引擎紧密集成,实现从训练到部署的无缝衔接。
NO.6 曹逸中
通义千问(Qwen)推理团队工程师
议题:Qwen 团队在大模型推理中算法-系统联合优化实践
议题简介:
● KV Cache Reuse 实践
● 长序列推理优化实践
● SGLang 离线推理优化实践
NO.7 包小明
华为昇腾高级构架师、SGLang贡献者
议题:SGLang on Ascend 大模型推理的高效实践
议题简介:华为昇腾架构相比NV GPU架构存在较多不同点,包含芯片的架构、互联、软件栈、编程体系、算子库等, 也为SGLang on Ascend的适配与支持带来诸多挑战。本议题介绍昇腾的体系结构,以及SGLang on Ascend适配的心路历程与高效实践。
NO.8 王冬
英伟达GPU计算专家,当前主要从事大语言模型训练与推理过程的通讯优化。
议题:大规模混合专家模型(MoE)中的AII2AII通信优化研究
议题简介:针对万亿级参数规模的混合专家(MoE)模型,其分布式训练与推理长期受到跨节点通信瓶颈的制约。为此,业内提出了专门面向MoE与专家并行(EP)的高性能通信库DeepEP。该库提供了高吞吐量、低延迟的全对全(AIl2AlI)GPU通信内核以及低精度通信支持。我们基于底层高性能RDMA通信库,对非对称域带宽转发模型进行了进一步优化。
NO.9 张晓雷
字节跳动AI性能优化专家,在火山引擎专注于AI性能优化,致力于通过模型、算法、芯片与基础设施之间的协同作用突破瓶颈,持续赋能高效的AI服务。
议题:火山引擎SGLang最佳实践-使用PD分离和专家并行部署DeepSeek模型
议题简介:重点关注基于SGLang的PD+EP部署实践。通过分析硬件特性和核心算子性能,确定使用不同硬件最佳部署方式和性能数据。针对真实客户场景,在Prefill阶段,通过融合计算与通信,并利用稀疏注意力机制提高对于长文本的处理能力。在Decode阶段,根据模块特性应用不同的并行化方法。
【GOSIM ● 相约杭州】
9月,杭州的水雾与创新的光芒交织,GOSIM HANGZHOU 2025 正在等你来点燃开源与 AI 的未来!
9 月 13- 14 日,GOSIM HANGZHOU 2025
1500 + 全球一线开源开发者
100 + 海内外资深专家
100 +优质技术分享
5 大技术论坛
12 场主题 Workshop
4 场 Hackathon 创新竞赛
1 场 GOSIM AI for Humanity Spotlight
特别联动 Rust 十周年精彩活动 RustGlobal + RustChinaConf
大咖云集,内容丰富
点击「阅读原文」或扫描下方二维码,即刻加入 GOSIM HANGZHOU 2025!
加入我们!一起跨越技术边界、碰撞思想火花!

