AI Infra
AI Infra
时间: 14:00 - 14:10
主讲人: 张家驹(Redhat)、章津楠(CCF ODTC AI Infra)
内容: 简要介绍活动背景及vLLM社区的发展现状,为后续议题奠定基础。
议题一、vLLM社区简介:构建、测试及如何贡献
时间: 14:10 - 14:40
主讲人: Daniele Trifirò(Red Hat核心开发者)
内容:
探讨vLLM的构建与测试流程,分析其技术挑战。
分享如何参与社区贡献的具体路径,为开发者提供入门指导。
议题二、从P/D分离到大EP:基于llm-d的技术实现
时间: 14:40 - 15:10
主讲人: Nicolo' Lucchesi(Redhat核心开发者)
内容:
介绍llm-d在密集模型中Prefill和Decode阶段解耦的应用。
探讨Mixture-of-Experts (MoE) 模型扩展中的通信瓶颈优化策略。
阐述通过张量并行优化KVCache传输,以及对大规模专家并行部署的支持。
茶歇与自由交流
时间: 15:10 - 15:25
内容: 提供轻食饮品,参会者可利用此时间段进行非正式交流。
议题三、文心大模型开源工作及与vLLM的生态共建
时间: 15:25 - 15:55
主讲人: 王凯(百度高级产品经理)
内容:
文心大模型于6月30日开源,持续推动与vLLM社区的合作。
重点分享文心开发工具、实践案例及其在vLLM生态中的应用。
个人背景: 王凯拥有德克萨斯大学奥斯汀分校硕士学位,研究方向涵盖人工智能与物联网领域。
议题四、Mooncake与LMCache集成性能优化的历程
时间: 15:55 - 16:25
主讲人: 苏金阳(Mooncake核心开发者)
内容:
介绍在vLLM中集成LMCache的优化实践,最终实现高达10倍性能提升。
核心优化点包括:
在binding层面释放GIL以增强并发能力。
解决bytes类型引发的内存拷贝与Python GC开销问题。
原生支持批处理降低网络RTT,实现零拷贝数据接入。
减少worker CPU负载,缓解调度器长尾查询延迟问题。
议题五、如何在MACA上支持vLLM
时间: 16:25 - 16:55
主讲人: 张廉洁(MetaX核心开发者)
内容:
基于沐曦GPU MXMACA平台对 vLLM 进行适配,通过源码级改造与插件化两条路径,系统验证其在非 CUDA 架构上的适配可行性,实现主流大语言模型的高效推理与服务化部署。
活动总结与自由交流
时间: 16:55 - 17:30
本次活动汇聚行业顶尖专家,围绕vLLM技术展开深度探讨,助力开发者掌握最新动态并参与开源生态建设。

声明:本页面所有信息均由商家提供,大数跨境仅提供技术支持