NVIDIA AI 加速精讲堂
TensorRT-LLM 和 Dynamo
产品和技术更新
6 月 26 日,星期四,19:00 — 20:30
活动介绍
演讲一:NVIDIA TensorRT-LLM 产品策略更新
TensorRT-LLM 是 NVIDIA 推出的高效大语言模型推理框架,当前产品开发聚焦于 PyTorch Workflow 和 GitHub First 两大理念。
基于 PyTorch 的架构简化了模型部署和开发,灵活高效。支持 HuggingFace Checkpoint,用户只需少量代码即可快速试用模型。"GitHub First" 模式推动关键组件开源,支持多 GPU 架构的持续集成,提升社区协作和透明度。
TensorRT-LLM 结合 NVIDIA 硬件加速,助力开发者实现高性能、低延迟的 AI 推理应用。
通过本次演讲,您将了解:
TensorRT-LLM 产品定位
PyTorch 工作流
GitHub-First 策略
产品策略路线
演讲嘉宾:
郑彬 (Adam Zheng)
NVIDIA 资深产品经理
负责 NVIDIA AI 平台软件产品管理,目前主要聚焦于大模型推理架构和优化。
演讲二:NVIDIA Dynamo:LLM 的开源分布式推理服务框架
NVIDIA Dynamo 是一个开源的模块化推理服务框架,用于在分布式环境上实现语言和多模态大模型的服务化部署。它能够通过动态资源调度、智能请求路由、多级 KV 缓存存储管理和加速的数据传输,无缝扩展大型 GPU 集群之间的推理工作负载。
作为 Dynamo 第一期中文入门技术讲解,本次分享将聚焦其四个特征:适配主流 AI 推理后端的 Prefill / Decode 分离服务、P / D 实例 GPU 资源规划器 (GPU planner)、KV 缓存感知路由和多级存储、低延迟通信的 NVIDIA 推理传输库 NIXL (NVIDIA Inference Transfer Library)。
通过本次演讲,您将了解 Dynamo 以下技术实现:
支持 SGLang、vLLM、TensorRT-LLM 等的 P / D 分离服务
P / D 实例 GPU 资源规划器 (GPU planner) 和容错机制
KV 缓存感知路由和多级存储
加速 GPU 之间以及异构内存和存储类型之间的 KV 缓存传输
演讲嘉宾:
卢翔龙 (David Lu)
NVIDIA 资深解决方案架构师
NVIDIA 资深解决方案架构师,本科毕业于华中科技大学,硕士毕业于美国亚利桑那州立大学。负责为消费互联网行业提供 GPU 计算加速解决方案。专注方向包括 Dynamo,Triton 推理服务器,TensorRT-LLM 等 LLM 推理和服务加速技术。
参与方式
识别以下二维码,注册参加本次在线研讨会。
相关资料
欢迎在 TensorRT-LLM GitHub 使用和贡献开源项目:
https://github.com/NVIDIA/TensorRT-LLM
欢迎在 Dynamo GitHub 使用和贡献开源项目:
https://github.com/ai-dynamo/dynamo
点击“阅读原文”或扫描下方海报二维码,观看 NVIDIA CEO 黄仁勋 GTC 巴黎主题演讲回放!

