在以上视频中,来自 SGLang 开源社区的 Yichi 介绍了 SGLang Diffusion,一个面向图像与视频生成的高性能、全开源扩散模型推理引擎。另外,文有英文版。
SGLang Diffusion 的目标是在保持灵活性和生产可用性的同时,大幅提升文本生成图像、文本生成视频、图像生成图像、图像生成视频等工作流的速度。它基于 SGLang 已经过验证的调度机制与内核级优化,将这些能力迁移到扩散模型推理中,从而在同样的硬件与模型条件下取得显著的实际加速效果。
视频中介绍了:
SGLang Diffusion 是什么,以及它的定位
支持的扩散模型与生成模式
开源的 API、命令行工具和 Python 绑定
与 Hugging Face Diffusers 的性能对比(最佳情况下最高可快 5.9 倍)
基于 CFG 并行的多 GPU 加速能力
多种图像与视频的真实生成示例
在 Google Colab 上运行 SGLang Diffusion 的现场演示
视频还展示了文本生成视频、文本生成图像、图像到图像的风格迁移、图像到视频的动画等能力,并演示了如何通过命令行运行推理引擎。
特别感谢 SGLang Diffusion 团队、Fast Video 团队、NVIDIA 和 Voltage Park 对本项目的支持。
👉 更多技术细节与示例可查看官方技术博客:
https://lmsys.org/blog/2025-11-07-sglang-diffusion/
感谢观看!
以下为英文版:

