大数跨境

大咖“源”聚GOSIM!开源大模型推理框架SGLang中国首场Workshop,这些亮点不容错过!

大咖“源”聚GOSIM!开源大模型推理框架SGLang中国首场Workshop,这些亮点不容错过! 华为开源
2025-09-08
201
导读:Hi,SGLang在国内的首场Workshop线下活动来啦!

图片


Hi,SGLang在国内的首场Workshop线下活动来啦!作为大模型领域高知名度、高热度、DeepSeek推荐使用的开源推理引擎之一——SGLang迎来全面开源后的中国首场重磅Workshop线下活动!

9月13-14日,GOSIM HANGZHOU 2025 将在杭州举行,此次大会由GOSIM 全球开源创新汇主办、CSDN 承办,集合全球顶级知名AI大牛,旨在助力千行百业繁荣创新。在这次大会上,SGLang Workshop将与大家一起见面!属于AI开发者的技术盛宴即将拉开序幕!


1

【活动概览】

时间:9月14日10:15-18:00

地点:杭州白金汉爵大酒店(浙江省杭州市西湖区珊瑚沙东路9号)

报名:https://hangzhou2025.gosim.org/


2

【活动亮点抢先看】

亮点1

开源核心专家面对面:与来自阿里云、华为昇腾、科大讯飞、英伟达、美团、字节跳动等行业大咖深入交流,直击 SGLang 全面开源开放策略。

亮点2

SGLang 实战案例:SGLang 具备高性能、易用性和广泛的应用场景,解锁行业应用、性能调优、兼容性等痛点问题的解决方案。

亮点3

独家干货:解锁 SGLang 底层优化、大模型训练推理性能提升、大模型能力密度提升等核心技术,直击行业痛点。

亮点4

精准资源对接:现场可与昇腾生态团队、知名企业技术负责人交流,获取技术支持与合作对接机会。

3

【大咖云集,干货满满】

NO.1 张懿

阿里云的研发工程师,SGLang Committer,目前主要关注构建高性能的 LLM/VLM 推理引擎。

议题:SGLang:一个高效的开源大规模LLM服务框架

议题简介:SGLang 是一个高效的开源大规模 LLM 服务框架。在过去的一年中,SGLang 经历了快速的迭代和发展,本次 Talk 将概括性地介绍 SGLang 的核心特性,主要包括:KV Cache 复用、Zero-overhead 批调度、投机采样、Prefill & Decode 分离和大规模专家并行。

核心特性:

●  基于 RadixAttention 的高效 KV Cache 复用

●  零开销批处理调度器

●  投机采样与 SpecForge

●  预填充与解码的解耦设计

●  大规模专家并行

NO.2 蔡尚铭

阿里云飞天实验室工程师及研究员、Mooncake Core Member、SGLang Committer。主要研究兴趣包括分布式机器学习训练、大语言模型、高效推理服务系统以及大数据分析。

议题:基于 Mooncake 的 SGLang Prefill/Decode 分离方案

议题简介:SGLang 中引入了预填充与解码解耦(Prefill and Decode Disaggregation,简称 PD 分离)方案,在互不干扰的同时也使得每个阶段可以分别进行针对性的优化。本次演讲将详细介绍 Mooncake 后端的具体实现,这是 SGLang 首个集成且默认的 PD 分离后端。除了简述整体流程,本次演讲还将详细介绍 PD 分离如何与 DP attention 和 MTP 等特性协同工作,以及如何支持预填充与解码阶段采用不同的张量并行(TP)策略。此外,还将介绍我们为了确保在生产环境下稳定运行,在 PD 节点容错和伸缩方面所做的一些工作。

NO.3 杨彦波

现任职于科大讯飞,负责 MaaS 平台的研发工作;SGLang Committer

议题:讯飞 MaaS 平台大模型高性能推理实践

议题简介:讯飞基于开源引擎结合自身推理服务框架在 PD 分离上的相关技术介绍。

NO.4 林骏荣

通义千问(Qwen)后训练团队工程师、SGLang Committer

议题:和 SGLang 一起思考:推理赋能强化学习时代的模型训练

议题简介:通过强化学习(RL)和测试时扩展(TTS)来优化大语言模型(LLM)的输出,已成为当前趋势,这也使得高效的推理引擎成为了模型训练中前所未有重要的一环。本次演讲将介绍 SGLang 在强化学习场景下的最新进展及社区应用情况。

NO.5 朱熠恺&王超

朱熠恺:SGLang Committer

王超:SGLang Committer&美团软件工程师。专注于利用 TensorFlow/TensorRT 进行点击率(CTR)模型的 GPU 推理,以及利用 PyTorch 进行大语言模型(LLMs)的 GPU 推理。此前曾任职于腾讯。

议题:SpecForge:用于训练推测式解码模型的开源框架

议题简介:推测式解码(Speculative Decoding)是一种能够显著加速大语言模型(LLM)推理的强大技术。本次演讲将首次宣布开源 SpecForge 框架——一种基于 Eagle3 的推测式解码模型训练新框架。SpecForge 专为易用性设计,并与 SGLang 推理引擎紧密集成,实现从训练到部署的无缝衔接。

NO.6 曹逸中

通义千问(Qwen)推理团队工程师

议题:Qwen 团队在大模型推理中算法-系统联合优化实践

议题简介:

●  KV Cache Reuse 实践

●  长序列推理优化实践

●  SGLang 离线推理优化实践

NO.7 包小明

华为昇腾高级构架师、SGLang贡献者

议题:SGLang on Ascend 大模型推理的高效实践

议题简介:华为昇腾架构相比NV GPU架构存在较多不同点,包含芯片的架构、互联、软件栈、编程体系、算子库等, 也为SGLang on Ascend的适配与支持带来诸多挑战。本议题介绍昇腾的体系结构,以及SGLang on Ascend适配的心路历程与高效实践。

NO.8 王冬

英伟达GPU计算专家,当前主要从事大语言模型训练与推理过程的通讯优化。

议题:大规模混合专家模型(MoE)中的AII2AII通信优化研究

议题简介:针对万亿级参数规模的混合专家(MoE)模型,其分布式训练与推理长期受到跨节点通信瓶颈的制约。为此,业内提出了专门面向MoE与专家并行(EP)的高性能通信库DeepEP。该库提供了高吞吐量、低延迟的全对全(AIl2AlI)GPU通信内核以及低精度通信支持。我们基于底层高性能RDMA通信库,对非对称域带宽转发模型进行了进一步优化。

NO.9 张晓雷

字节跳动AI性能优化专家,在火山引擎专注于AI性能优化,致力于通过模型、算法、芯片与基础设施之间的协同作用突破瓶颈,持续赋能高效的AI服务。

议题:火山引擎SGLang最佳实践-使用PD分离和专家并行部署DeepSeek模型

议题简介:重点关注基于SGLang的PD+EP部署实践。通过分析硬件特性和核心算子性能,确定使用不同硬件最佳部署方式和性能数据。针对真实客户场景,在Prefill阶段,通过融合计算与通信,并利用稀疏注意力机制提高对于长文本的处理能力。在Decode阶段,根据模块特性应用不同的并行化方法。

4

【GOSIM ● 相约杭州】

9月,杭州的水雾与创新的光芒交织,GOSIM HANGZHOU 2025 正在等你来点燃开源与 AI 的未来!

9 月 13- 14 日,GOSIM HANGZHOU 2025

1500 + 全球一线开源开发者

100 + 海内外资深专家

100 +优质技术分享

5 大技术论坛

12 场主题 Workshop

4 场 Hackathon 创新竞赛

1 场 GOSIM AI for Humanity Spotlight

特别联动 Rust 十周年精彩活动 RustGlobal + RustChinaConf

大咖云集,内容丰富

点击「阅读原文」或扫描下方二维码,即刻加入 GOSIM HANGZHOU 2025!

加入我们!一起跨越技术边界、碰撞思想火花!

图片

【声明】内容源于网络
0
0
华为开源
1234
内容 1151
粉丝 0
华为开源 1234
总阅读9.3k
粉丝0
内容1.2k