大数跨境
0
0

在线研讨会:TensorRT-LLM 和 Dynamo 产品和技术更新

在线研讨会:TensorRT-LLM 和 Dynamo 产品和技术更新 紫光数码企业解决方案
2025-06-19
0
导读:AI 加速精讲堂系列——探索高吞吐、低延迟、高精确度的 LLM 推理和服务软件


NVIDIA AI 加速精讲堂

TensorRT-LLM 和 Dynamo 

产品和技术更新


6 月 26 日,星期四,19:00 — 20:30


活动介绍


演讲一:NVIDIA TensorRT-LLM 产品策略更新


TensorRT-LLM 是 NVIDIA 推出的高效大语言模型推理框架,当前产品开发聚焦于 PyTorch Workflow 和 GitHub First 两大理念。


基于 PyTorch 的架构简化了模型部署和开发,灵活高效。支持 HuggingFace Checkpoint,用户只需少量代码即可快速试用模型。"GitHub First" 模式推动关键组件开源,支持多 GPU 架构的持续集成,提升社区协作和透明度。


TensorRT-LLM 结合 NVIDIA 硬件加速,助力开发者实现高性能、低延迟的 AI 推理应用。


通过本次演讲,您将了解:


  1. TensorRT-LLM 产品定位

  2. PyTorch 工作流

  3. GitHub-First 策略

  4. 产品策略路线


演讲嘉宾:


郑彬 (Adam Zheng) 

NVIDIA 资深产品经理


负责 NVIDIA AI 平台软件产品管理,目前主要聚焦于大模型推理架构和优化。


演讲二:NVIDIA Dynamo:LLM 的开源分布式推理服务框架


NVIDIA Dynamo 是一个开源的模块化推理服务框架,用于在分布式环境上实现语言和多模态大模型的服务化部署。它能够通过动态资源调度、智能请求路由、多级 KV 缓存存储管理和加速的数据传输,无缝扩展大型 GPU 集群之间的推理工作负载。


作为 Dynamo 第一期中文入门技术讲解,本次分享将聚焦其四个特征:适配主流 AI 推理后端的 Prefill / Decode 分离服务、P / D 实例 GPU 资源规划器 (GPU planner)、KV 缓存感知路由和多级存储、低延迟通信的 NVIDIA 推理传输库 NIXL (NVIDIA Inference Transfer Library)。


通过本次演讲,您将了解 Dynamo 以下技术实现:


  1. 支持 SGLang、vLLM、TensorRT-LLM 等的 P / D 分离服务

  2. P / D 实例 GPU 资源规划器 (GPU planner) 和容错机制

  3. KV 缓存感知路由和多级存储

  4. 加速 GPU 之间以及异构内存和存储类型之间的 KV 缓存传输


演讲嘉宾:


卢翔龙 (David Lu) 

NVIDIA 资深解决方案架构师


NVIDIA 资深解决方案架构师,本科毕业于华中科技大学,硕士毕业于美国亚利桑那州立大学。负责为消费互联网行业提供 GPU 计算加速解决方案。专注方向包括 Dynamo,Triton 推理服务器,TensorRT-LLM 等 LLM 推理和服务加速技术。


参与方式


识别以下二维码,注册参加本次在线研讨会。



相关资料


  • 欢迎在 TensorRT-LLM GitHub 使用和贡献开源项目:

https://github.com/NVIDIA/TensorRT-LLM


  • 欢迎在 Dynamo GitHub 使用和贡献开源项目:

https://github.com/ai-dynamo/dynamo




点击“阅读原文”扫描下方海报二维码,观看 NVIDIA CEO 黄仁勋 GTC 巴黎主题演讲回放!


【声明】内容源于网络
0
0
紫光数码企业解决方案
第一时间获取紫光数码企业级解决方案、成功案例介绍,报名市场活动。
内容 283
粉丝 0
紫光数码企业解决方案 第一时间获取紫光数码企业级解决方案、成功案例介绍,报名市场活动。
总阅读6
粉丝0
内容283