Meta在扩展AI基础设施方面面临的挑战并非独特,而是体现了整个技术行业面临的基本困难。每个追求先进AI能力的组织都必须解决五个相互关联的挑战领域。复杂性来自将众多尖端技术集成到必须可靠地协同工作的系统中,每项技术都处于当前能力的极限。容量增长意味着需求在每个资源维度上都持续超过供应,从半导体制造能力到发电到熟练劳动力。
质量和可靠性要求随着系统规模的增加而加剧,因为组件故障的概率随着系统大小而增长,但AI训练任务无法容忍中断。运营复杂性随着组织部署数十万个需要监控、维护、固件更新和协调的异构组件而成倍增加。对速度的需求贯穿于努力的各个方面,因为竞争压力要求快速部署新能力,同时保持现有系统的运营稳定性。
图16:五个机架图,每个都标有一个主要挑战领域:复杂性、容量增长、质量和可靠性要求、运营复杂性和速度需求,底部有一个标题说明行业需要完善大规模生产超级计算机的技术,带有"注意:移动传送带"Caution。
应对这些挑战需要一个充满活力的供应商、合作伙伴和协作者生态系统,为多方面的问题带来不同的专业知识。Meta确定了Open Compute Project社区可以做出基本贡献的三个关键领域。发电基础设施必须扩展以支持大约每10兆瓦生产容量部署1兆瓦的测试容量,确保昂贵的AI硬件进入生产服务之前有足够的老化和验证。系统设计、部署和运营方面的专业知识是必需的,因为AI基础设施复杂性继续显著增加,需要具有深厚技术知识和运营经验的合作伙伴来应对部署数十千兆瓦容量的挑战。
需要创造力和创新来解决系统设计各个方面的基本限制。功率密度和效率改进是必要的,以在受限的数据中心占地面积中容纳更多能力。网络带宽必须跟上计算吞吐量以避免瓶颈。FLOP密度增加对于从每平方米设施空间中提取最大工作量是必需的。Die到die接口限制需要新的封装和互连技术来克服带宽和延迟约束。测试覆盖率和可诊断性必须提高,以便在拥有数百万组件的庞大系统中快速识别和隔离故障。
图17:OCP生态系统关键贡献的三个嵌套圆圈:最外层的绿色圆圈代表发电(大约每10兆瓦生产容量1兆瓦测试容量),蓝色圆圈代表专业知识(部署数十千兆瓦的工程人才和运营能力),紫色圆圈代表创造力和创新(解决功率密度、网络带宽、FLOP密度、die到die接口和测试覆盖方面的挑战),Open Compute Project标志位于中心,三个圆形图标代表关键贡献领域。
没有单一组织拥有独自应对这些挑战所需的所有专业知识、资源和能力。Open Compute Project为将超大规模技术公司、设备制造商、组件供应商和研究机构聚集在一起开发有利于整个行业的共享解决方案提供了经过验证的模式。随着Meta和其他公司推进跨越整个区域的千兆瓦级AI部署,这个协作生态系统的强度和活力将决定行业克服当前限制并实现为全球数十亿用户服务的下一代AI能力的速度。