大数跨境

服务600+客户的3D生成AIGC公司如何实现GPU成本降低70%?

服务600+客户的3D生成AIGC公司如何实现GPU成本降低70%? 云妙算
2024-12-20
2
导读:让企业将精力集中在业务扩展上,而非基础设施管理

点击上方卡片,关注「CloudPilot AI」

5分钟,降低50%云成本

原文链接:

https://aws.amazon.com/cn/solutions/case-studies/omi-eks-case-study/

编译:CloudPilot AI


总部位于巴黎的视觉生成初创公司 Omi 提供基于人工智能的 3D 图像渲染解决方案,帮助品牌生成高质量的产品视觉内容。Omi 始终将性能效率和成本优化放在首位。早在生成式 AI 兴起之前,该公司便利用 Amazon Elastic Kubernetes Service (Amazon EKS) 开发了其 3D 渲染解决方案。


为了进一步优化性能、速度和成本,Omi 借助 Karpenter 来自动匹配适合的计算资源,以处理基于 Kubernetes 的 GPU 工作负载。通过这项改进,Omi 不仅将基础设施成本降低了 70%,还将照片渲染时间从 5 分钟缩短至 1.5 分钟,提升了可扩展性,同时优化了员工的工作效率。



01/

利用 Amazon EKS 优化 Omi 的 AI 图像建模


Omi 成立于 2020 年,旨在满足一项核心业务需求:以更少的时间和更低的成本制作高质量的视觉内容。Omi 利用 AI 提供 3D 图像和视频建模服务,打破了传统的生产限制,大幅降低了制作成本,并通过 3D 技术与生成式 AI 实现了高效便捷的定制内容生产,覆盖了所有营销渠道。


目前,Omi 的业务遍布全球 17 个国家,服务超过 600 位客户和 1,000 个品牌,每日活跃用户超过 5,000 人,用户主要为电子商务、社交媒体和广告渠道制作内容。通过 Omi 的解决方案,客户在营销视觉内容的制作上显著减少了时间和成本。


从一开始,Omi 就致力于打造一款快速高效的解决方案,用于生成社交媒体照片、3D 动态图像以及视频,并适配电商网站和其他渠道的使用需求。


最初,Omi 在本地完成内容创建,并通过远程服务器实现照片级逼真的渲染。然而,随着对快速、低成本服务需求的增长,公司不得不将生成式 AI 功能集成到其解决方案中。这一集成对计算和 GPU 资源提出了巨大的要求,同时需要 Omi 采用新的方法来管理可扩展性,并在控制成本的同时保持高可用性。


Omi 的联合创始人 Paul Borensztein 表示:“对我们来说,构建能够提供卓越性能的基础设施非常重要,但我们也必须确保成本不会过高。”


最初,Omi 的基础设施团队有 60%–70% 的时间被用于优化 GPU 的扩展速度和成本管理。公司面临诸多 IT 运维挑战,例如由于 Docker 镜像过大导致的容器启动时间缓慢,以及涉及多种自动扩展组和实例类型的扩展复杂性。


传统的集群自动扩展器(Cluster AutoScaler)在管理生成式 AI 工作负载的可用区和实例类型时表现乏力,导致无法及时满足计算需求,进而让客户等待时间变长。



为了解决这些问题,Omi 采用了 Karpenter,这是一款开源的 Kubernetes 节点自动扩缩容工具,通过弹性伸缩 Kubernetes 集群,平衡应用程序的可用性、性能和成本。Omi 的高级后端开发工程师兼 SRE 工程师 Elliot Maincourt 表示:“使用 Karpenter 后,我们显著缩短了实例启动时间,这帮助我们的应用程序将照片的平均渲染时间从 5 分钟减少到 1.5 分钟,这无疑是一个巨大的提升。”


02/

引入 Karpenter,降低 70% 成本并缩短渲染时间


在过去管理 Kubernetes 集群时,Omi 团队曾遇到不少挑战。为此,他们决定采用 Amazon EKS,这是一项托管服务,可用于启动、运行和扩展 Kubernetes 集群。为了进一步优化基础设施并解决运维难题,Omi 引入了 Karpenter,这款工具能够快速、自动适应应用负载和资源需求的变化,并智能选择跨可用区的低成本实例。


CloudPilot AI (www.cloudpilot.ai)在 Karpenter 的基础上对节点选择功能进行智能化升级。在选取实例的过程中,除了价格因素外,还将网络带宽、磁盘 I/O、芯片类型等因素纳入考虑范围内,通过智能算法选出兼顾成本和性能的实例类型,以减少资源浪费,增强应用稳定性。



另一个降低成本的手段是充分利用 Spot 实例,因为这一实例类型的价格为 On-demand 实例的 1-2折。此外,CloudPilot AI 采用自研的 AI 算法,能提前精准预测 Spot 实例中断时刻。将默认2分钟的中断通知延长至2小时,同时在检测到 Spot 实例即将中断之后,帮助用户安全、高效、自动地完成 Spot Fallback,为运维团队减负,保障应用平稳运行。



目前,CloudPilot AI 提供30天免费试用,点击下方卡片,回复关键词【试用】获取试用权限:


Borensztein 表示:“Amazon EKS 和 Karpenter 在处理我们工作负载的扩展方面表现非常出色,有时 GPU 实例能在几分钟内从 1 个扩展到 250 多个,同时仍然有效控制了成本。”


Omi 的解决方案可以快速扩展至 1,000 个 GPU 实例,并且包括 CPU 实例在内,能够在 Amazon EKS 上同时运行超过 1,500 台机器。(参见下方图 1 和图 2)


图1 总体集群负载


图2 Ratio/On-Demand Ratio


通过结合使用 Karpenter 的节点生命周期管理和成本优化实例,Omi 成功将整体成本降低了 70%。Omi 利用 Karpenter 管理其 Amazon EKS 节点组,在 24 小时内扩展至 3,500 多个 Pod。这种快速扩展能力帮助 Omi 满足了客户的需求。Borensztein 表示:“在 AWS 上使用 Karpenter,我们在不到两个月的时间内就取得了巨大改进,包括在部署和调优方面。”


此外,为了更高效地服务客户,Omi 采用了 Bottlerocket,这是一款由 AWS 专门为运行容器设计的基于 Linux 的开源操作系统。Omi 利用 Bottlerocket 的不可变操作系统(Immutable OS)从外部数据存储中预取容器镜像,然后再在只读操作系统上启动 Kubernetes Pod。


通过借助 AWS 提升解决方案性能,Omi 希望进一步加速客户体验。Omi 的集群在峰值状态下可以支持超过 1,000 个节点的运行。这些改进不仅帮助 Omi 构建了一个强大的解决方案,还减少了团队的维护时间。Maincourt 表示:“现在我们可以专注于业务扩展,而不是花时间管理基础设施。我对我们在 Amazon EKS 上的集群非常信任,它们从未出过问题,尽管我们对它们的要求非常高。”


Omi 的客户也从这些改进中受益匪浅。随着基于单个产品的灵活定价模式的引入,客户现在可以为单个产品执行大规模渲染任务,数量可达数千甚至数万次。Borensztein 表示:“通过这些年来我们在优化方面的努力,包括在这个重大项目中使用 AWS,我们为客户提供了极大的灵活性,他们几乎可以无限制地扩展渲染需求。”


03/

加速拓展新市场


在不到两个月的时间内,Omi 通过使用 Karpenter 和 Amazon EKS 实现了显著的改进,这些解决方案让公司能够将精力集中在业务扩展上,而非基础设施管理。如今,Omi 在提升渲染能力和重新评估基础设施需求上花费的时间显著减少。


Omi 的业务增长在英国和整个欧洲加速推进。公司继续利用 AWS 优化其解决方案,并计划将服务扩展到包括美国在内的新市场。在内容创作蓬勃发展的市场中,Omi 的解决方案汇聚了生成式 AI 和 3D 两大趋势的优势,具有强大的市场竞争力。


Maincourt 表示:“使用 Karpenter 和 Amazon EKS 的最大好处在于,我们显著减少了客户的渲染时间。同时,我们还将成本降低了 70%,这也是一个重要的商业目标。”


推荐阅读

Datadog发布云成本现状报告:83%的容器支出被闲置资源浪费

基于KEDA和Karpenter的K8s弹性伸缩实践方案

阿迪达斯如何降低50%的K8s集群成本?

公司介绍

CloudPilot AI 是一家全球领先的 Karpenter 托管云服务提供商,致力于通过智能化、自动化的云资源调度和编排技术,帮助企业最大化云资源利用率。我们秉持“让客户在云中花费的每一分钱都物超所值”的使命,为客户提升10倍的资源效率,同时将云成本降低50%以上。


目前,开源K8s弹性伸缩器 Karpenter 已为全球超500家知名企业在生产环境中提供服务,包括阿迪达斯、Anthropic、Slack、Figma等。CloudPilot AI 已为数十家全球顶尖科技公司提供服务,累计为客户节省超过30万美金,平均节省67%。 选择CloudPilot AI,让每一笔支出都更智慧。


免费试用,2步5分钟,降低50%云成本:

cloudpilot.ai

【声明】内容源于网络
0
0
云妙算
让您在云中花费的每一分钱都物超所值
内容 0
粉丝 0
云妙算 让您在云中花费的每一分钱都物超所值
总阅读0
粉丝0
内容0