关注大模型推理性能提升的小伙伴,快看过来!
DeepSeek 推理效率优化探讨 Meetup 将于 2025 年 4 月 12 日 13:30 在模速空间 1F 路演厅与大家见面!在这场技术深度碰撞的探讨中,开源先锋与工程大咖齐聚,为你拆解 DeepSeek 高效推理框架的实战密码,无论你是关注前沿技术创新,还是追求工程落地效能,这里都有你感兴趣的热点话题!
分享内容
抢先看
《Kuberetes 分布式推理的最佳实践 - LWS & DRA》
在 AI 技术飞速发展的当下,Kubernetes 如何支撑分布式推理场景已成为业界核心议题。「DaoCloud 道客」首席架构师颜开将深度剖析两大关键技术,即已在 Google、阿里云、字节跳动等大厂实现规模化应用的 AI/ML 推理专用编排框架 LWS,以及重新定义 GPU 调度范式的动态资源分配技术 DRA。
颜开将结合「DaoCloud 道客」在云原生和 AI 领域的实战经验,为听众呈现从架构设计到生产落地的完整方法论,帮助大家掌握如何有效实现在 Kubernetes 环境中的分布式 AI/ML 推理。
《如何压榨你的 GPU?》
作为一名 AI 工程师,GPU 资源不够用是否也是你的日常。旧的业务模型虽然平时没啥请求,但又不能下线,这可怎么办?公司的 GPU 集群用的人多,能用的卡少,各种 AI 项目需求都不能如期完成,又该如何解决?试图申请加钱买卡?被直接打回。
蜜瓜智能 CTO 李孟轩来教你找到答案。《如何压榨你的 GPU?》演讲中将给大家分享集群中 GPU 的使用方式和痛点以及如何使用开源项目 HAMi 来提升你的 GPU 集群体验,让大家的 GPU 利用率 UP! UP! UP!
《通过 XpYd 分离架构提升 DeepSeek 推理效率》
当别的 AI 还在“996”式苦哈哈干活时,DeepSeek 官方的 PD 分离架构让深度思考场景直接实现了"脑力自由"。开源社区最近也集体上头,Mooncake、LMCache 等项目已实现 1P1D 能力,但业界更期待 XpYd 的灵活配比及 PD 组件独立扩缩容能力。
来自阿里云技术大咖顾静&车漾即将在线发车,从 1P1D 到 XpYd 的极限拉扯,揭秘 Mooncake/LMCache/RTP-LLM 的隐藏技能,还有打工人福音 LWS+TopoWare 组合技,带你把 PD 分离架构的千层套路玩得明明白白。
《MCP 是什么?机遇以及可能的未来》
当 Manus 带着它的"流量密码"横空出世,整个硅谷突然开启集体烧脑模式。VC 大佬连夜翻窗撒钱!Agent Infra 项目成资本新宠,而你还在搜索栏颤抖着输入:M...C...P...到底是啥??不用担心,「DaoCloud 道客」高级研发工程师张凡石将在《MCP 是什么?机遇以及可能的未来》演讲中,向您揭秘 MCP 到底是什么?它又意味着什么?我们又能从中学到什么?
《各种 BatchJob 项目该怎么选?》
新同事又双叒把 Job 调度崩了?主管只给你 3 天调研 BatchJob 项目!Kueue, Volcano 和 YuniKorn 到底有什么区别啊?!DaoCloud 技术锦囊已送达!「DaoCloud 道客」开源团队工程师张世明将在《各种 BatchJob 项目该怎么选?》演讲中,通过深入剖析主流的 BatchJob 技术栈,帮您精准匹配业务场景,同时对三大 BatchJob 项目进行对比分析。
还有更多神秘嘉宾等待解锁···
立即报名抢占席位,与行业顶尖实践者同行,探索推理效率跃迁的下一站,共同解锁低成本、高稳定的大模型服务!👇
02
活动议程
热门推荐
访问以下网址立即体验

