Foundry重新定义AI云计算:分布式架构与Spot GPU优化
通过技术创新提升GPU利用率,推动AI基础设施民主化
- Foundry致力于通过Spot GPU使用和先进监控工具等创新,使最先进的AI计算资源更易访问且具成本效益。 当前GPU云利用率普遍偏低,即便是大规模模型训练也常因硬件故障和缓冲区预留导致效率下降。单纯扩大语言模型规模所需计算资源呈指数增长,促使行业探索如复合AI系统等替代方案。
- 未来AI基础设施或将从大规模互联集群转向更分布式、可组合的架构。 复合AI系统结合多个模型和方法,在可验证任务上实现高性能表现,无需依赖超大规模集群。Foundry CEO Jared Quincy Davis在其论文中探讨了基于问题可验证性构建复合系统的策略。
- 通过优化Spot GPU使用体验,Foundry显著改善AI工作负载的云经济学。其核心目标是将目前仅大型科技公司才能获取的计算资源与工具向更广泛群体开放,使亿元级AI项目降至百万级别成为可能。
Foundry本质上是一个专为AI设计的公共云平台。通过重构底层系统,其经济效益较传统GPU云提升12至20倍。该平台提供基础设施即服务(IaaS),支持弹性扩展与内存管理优化,重点关注可靠性、安全性和性价比。
当前GPU云利用率存在明显痛点:
- 即使是大规模预训练场景,实际利用率通常低于80%,极端情况甚至不足50%
- 高故障率导致团队需预留10%-20%冗余GPU作为缓冲
- H-100等高端GPU系统包含35000+组件,复杂结构导致整体系统稳定性降低
Foundry提出AI云计算应恢复原始云计算的核心价值主张:
- 弹性资源分配而非长期预订模式
- 按需扩容支持突发计算需求
- 避免要求用户提前锁定数年GPU容量
针对当前市场缺乏对冲机制的问题,Foundry正在探索商业模式与技术创新的结合路径。这种重构不仅是技术层面的改进,更是对整个AI基础设施经济模型的重新思考。
值得关注的是,Foundry近期推出的新产品采用类似停车场业务的创新定价模型,通过按使用付费机制提升资源调配效率。这标志着AI云计算正从托管服务模式向真正意义上的云计算回归。
云计算中的Spot产品与GPU容量挑战
云计算平台中的按需服务(如AWS)与停车难题存在类比。如果允许用户通过预订获取更低价格,并在不使用时将空闲资源释放供他人按需使用,有效容量可以大幅提升,同时降低成本。
Foundry云平台已围绕Spot产品推出类似机制,提高可用性的同时增加效率和经济效益。这种系统需要高度自动化和灵活性,例如管理系统自动调整资源分配以避免冲突,从而实现无缝体验。
目前GPU产能有限,特别是在互联性和集群规模上。例如Llama 3.1模型需要用到大量计算能力,而在处理预训练或批量推理等任务时,Spot机制显得尤为重要。
GPU市场动态与技术突破
Lastark的估算表明,主要公共云服务商只掌握微小比例的全球GPU容量。这些硬件设备的利用率非常低,通常不足40%。
An Ethereum network top mining capacity points to some 10 million up to 20 million equivalent GPUs' total.
iPhone 15 Pro's computing capability exceeds V100 GPU in Tflops, showing decentralized high-end compute resources worldwide outnumber centralized cloud assets.
复合AI系统的未来展望
Major cloud providers are exploring distributed solutions for large-scale training including cross-fThe destiny of artificial intelligence infrastructure now widen beyond single cluster operations into more an integrated multi-node resource utilization model known as复合AI systems.Google has been testing cross-center training patterns for key models such as PaLM2 or DiPaCo which indicated huge improvements on distribution efficiency across multiple machine learning workflows.
For instance, OpenAI tap into advanced AI development techniques by re accompany existing larger ML with newly created data clusters synthesized completely through previous NLP issuing chaseable small variants via distillation pro𝘬



