大数跨境
0
0

不卷算力卷效率!8月23日来模速空间,算力优化与平台自动化实战主题沙龙,教你边偷懒边把算力榨干!

不卷算力卷效率!8月23日来模速空间,算力优化与平台自动化实战主题沙龙,教你边偷懒边把算力榨干! 上海模速空间大模型创新生态社区
2025-08-19
0
导读:线下见一面吧!
密瓜智能发起并主导的 CNCF 活跃开源项目,HAMi 由来自 15+ 国家、350+ 贡献者共同维护,已被 120+ 企业与机构在实际生产环境中采纳,具备良好的可扩展性与支持保障。

随着大模型能力逐渐标准化,企业间的竞争已经从“谁的模型更强”,转向“谁能用得更高效”。推理部署的性能优化、训练资源的动态调度、以及平台工程的自动化协同,正在成为 AI 应用落地过程中的核心议题。


8 月 23 日下午,CloudPilot AI、密瓜智能、Zadig 和 DLRover 将在上海模速空间联合举办线下技术沙龙,主题为「偷懒也是生产力!算力优化与平台自动化实战」。我们将围绕以下方向展开技术分享与交流:


  • 如何提升 AI 推理任务的算力利用率与稳定性

  • 在 K8s 环境中实现训练任务的自动化调度与资源优化

  • 用平台工程实践,提升团队在多角色协作中的效率


与各位一线开发者、平台工程师、AI 应用团队一起探讨如何在资源紧张的现实条件下,通过自动化手段实现“偷懒式”提效。

01/

沙龙信息

活动时间

8月23日(周六) 14:00—17:00


活动地点:

上海徐汇区模速空间 F2栋2层,金融服务平台 (地铁11号线龙耀路站)


报名方式:

扫描下方二维码或点击文末【阅读原文】填写问卷即可报名。

02/

沙龙议程







突破传统 Kubernetes 扩缩容逻辑:从 Resource Requests 迈向智能弹性伸缩

姜伟|CloudPilot AI Tech Lead


集群自动扩缩容常被视为一个“已解决”的问题,然而,单纯依赖 Pod 的资源请求来做扩容决策,往往导致节点资源配置不合理,计算能力浪费,甚至引发不必要的成本开销。举个例子,一个简单的 “Hello World” 应用,最终却被调度到了搭载 3.5GHz+ 高性能 x86 CPU 的节点上——显然远超其所需的性能,这种错配正暴露了传统自动扩缩容方案的核心短板。


为此,我们基于 Karpenter 构建了一套智能化、自定义的自动扩缩容架构,专注于做出更聪明、更具性能感知的扩容决策。我们通过扩展 Karpenter 实现了以下能力:


  • 成本感知调度:根据工作负载的稳定性需求,在昂贵的非抢占式实例与廉价的抢占式实例之间动态权衡选择。

  • 性能感知选型:根据虚拟机的 CPU、I/O 等能力与应用性能画像进行匹配打分,实现最优适配。

  • 架构感知优化:自动识别支持 ARM 架构的工作负载,优先选择成本更低的 Graviton 实例部署。


本演讲面向希望突破基础集群扩缩容方案的工程师与架构师,展示如何利用 Karpenter 的可扩展性,构建更智能、更贴合业务目标的弹性调度系统——无论你是运行一个简单微服务,还是管理大规模数据处理流水线。


HAMi 如何更好提升 AI 推理算力效率

陈文|密瓜智能 技术负责人


随着大模型在搜索、推荐、智能驾驶、语音识别等领域的深度渗透,AI 企业正面临日益严峻的 GPU 资源管理挑战。如何高效盘活 GPU 资源、降低算力成本、提升推理效率,已成为各行业突破发展瓶颈的关键课题。


然而,传统 Kubernetes 集群中,GPU 资源多采用独占式分配模式,不仅导致资源利用率低下、多任务混布困难,更造成严重的算力碎片化问题,极大制约了 AI 业务的规模化推进。为此,HAMi 应运而生,针对性破解这一系列痛点。


本次分享将结合多个真实案例,深入解析 HAMi 在金融、智能驾驶、公有云智算及生成式 AI 等典型场景中的实践成效,通过这些案例,我们将全面展现 HAMi 在不同场景下的技术适配性与价值创造能力。


DLRover 在大规模分布式LLM预训练中的生产实践

马介悦|蚂蚁集团高级专家


伴随 Scaling Law 驱动下的大规模预训练,其稳定性问题随着规模呈指数级增长,导致大量GPU浪费闲置。如何实现训练异常的快速发现和容错成为提升训练效率的关键。


本次演讲基于DLRover开源软件方案,以有效训练时长作为核心指标牵引,介绍我们应对训练稳定性挑战的踩坑经历。


Zadig 平台工程模式,提升产研发布效率,降低事故发生率

MinMin|Zadig 架构师


产研效能提升常被视为「流程优化问题」,然而,单纯堆砌 DevOps工具链,往往产生系统孤岛效应、交付链路断裂,甚至引发高频生产事故。为此,Zadig 基于平台工程理念构建了智能化的产研 DevOps 平台,专注于实现端到端自主交付。


本演讲面向受困于交付效率与质量平衡的技术决策者和工程师,将深入解析 Zadig 平台工程模式在多行业的落地实践,展示如何通过平台工程重构软件交付链路——无论是管理简单的微服务、还是千节点车联网系统,Zadig 可以让每次发布都成为一个可观测、可回溯、可复用的价值创造过程,同步实现产研发布效率的跃升与事故率的大幅下降。


03/

惊喜好礼

8月23日,模速空间见!

【声明】内容源于网络
0
0
上海模速空间大模型创新生态社区
“模速空间”是全国首个大模型专业孵化和加速载体,立足徐汇滨江,基于“十百千万”目标,打造数据、算力、评测、金融、综合等功能平台,赋能各通用大模型、垂类大模型、大模型应用创新初创企业汇聚上海、引领全国、扬帆世界。
内容 597
粉丝 0
上海模速空间大模型创新生态社区 “模速空间”是全国首个大模型专业孵化和加速载体,立足徐汇滨江,基于“十百千万”目标,打造数据、算力、评测、金融、综合等功能平台,赋能各通用大模型、垂类大模型、大模型应用创新初创企业汇聚上海、引领全国、扬帆世界。
总阅读110
粉丝0
内容597