

Meta如何将AI基础设施扩展至数据中心区域规模

逍遥设计自动化

2025-10-25

导读：Meta的人工智能基础设施经历了显著的演变过程,从最初服务于基本的内容评估任务,发展到为数十亿日活跃用户提供复杂的AI体验。本文探讨Meta如何将AI基础设施从单个数据中心扩展到整个区域,同时应对计算

引言

Meta的人工智能基础设施经历了显著的演变过程,从最初服务于基本的内容评估任务,发展到为数十亿日活跃用户提供复杂的AI体验。本文探讨Meta如何将AI基础设施从单个数据中心扩展到整个区域,同时应对计算密度、网络和运营复杂性方面的诸多挑战[1]。

Meta面临的AI规模挑战

Meta为超过34亿日活跃用户提供服务,每天处理超过2000亿次内容推荐。这种巨大的规模带来的工程挑战远远超出传统数据中心运营的范畴。公司的AI助手Meta AI在Llama基础模型上构建,仅推出一年半就已经达到每月8亿用户。这些AI能力遍布Meta的所有应用,从Facebook和Instagram到WhatsApp,甚至包括Ray-Ban Meta智能眼镜和Meta Quest头戴设备等硬件产品。

图1：Meta运营的大规模,显示34亿日活跃用户以及每天处理的2000亿以上内容推荐,配有各种Meta应用的截图演示AI集成的位置。

用户每天交互的AI功能包括聊天界面、基于网页的助手、语音交互、图像理解能力、通过"Imagine"功能生成图像以及编辑工具。每个功能都需要大量计算资源以最小延迟运行,以提供无缝的用户体验。挑战不仅仅在于原始计算能力,而是在大规模下可靠高效地提供复杂的AI能力。

AI基础设施复杂性的演进

Meta的AI基础设施历程反映了整个行业在日益复杂的架构挑战中的进步。公司从2007年左右开始相对简单的AI工作负载,专注于内容评估、图像识别和恶意内容筛查,使用大约128个GPU的集群。随着短视频内容成为用户参与的核心,AI排名和推荐系统的要求大幅增长,推动Meta转向可以处理更复杂模型的扩展集群。

生成式AI的引入标志着基础设施需求的重要转折点。训练Llama 3需要大约24000个GPU作为一个整体运行,而Llama 4的训练预计需要大约100000个GPU。展望更远的未来,未来的模型预计需要能够容纳数百万GPU的千兆瓦级数据中心,分布在多个区域。这种规模的指数级增长伴随着系统复杂性、网络带宽需求和运营挑战的显著增加。

图2：Meta的AI历程时间线,显示从简单的128个GPU集群到扩展配置,到当前Llama 3的24000个GPU部署,Llama 4的100000个GPU预测,以及未来千兆瓦级数据中心需求的进展。

行业面临着一个严峻的现实,最近关于AI开发挑战的头条新闻中得到了体现。主要科技公司正在AI数据中心基础设施上投资数千亿美元,但报道突显了延迟、产品开发挑战以及使AI系统在规模上可靠工作的固有困难等持续问题。Meta本身也面临关于开发时间表和技术障碍的公众审视。这些挑战凸显了一个基本事实,即AI行业必须面对:需要完善大规模生产超级计算机的技术。

图3：AI开发面临的挑战,包括关于谷歌AI进展、OpenAI开发挑战、Meta的Llama延迟以及预测数据中心容量增长的报道。

构建大规模集群

从小型集群到数据中心规模部署的进展代表了现代计算中最重要的基础设施挑战之一。Meta的路线图显示了一条清晰的轨迹,从128个GPU集群开始,扩展到2000个,然后是4000个,再到数据大厅规模的8000个GPU配置。到2023年,公司成功部署了跨越整个数据中心的24000个GPU集群。2024年的里程碑涉及129000个GPU的区域规模集群,而2025年及以后的预测预计将有数百万GPU部署,分布在多个区域。

图4：可视化集群规模的进展,代表2023年的128、2000、4000、8000个GPU集群,以及24000个GPU数据中心规模集群。

图5：2024年部署的129000个GPU区域规模集群增长轨迹。

图6：2025年及以后规划的大规模,支持Meta目标所需的无数集群,最终达到数百万GPU的多区域规模集群。

进展中的每一步都引入了新的架构约束和工程挑战。小型集群可以用相对简单的互连拓扑设计,但随着集群增长,网络fabric变得呈指数级更复杂。在较小规模下有效的电力传输系统变得不足。冷却系统需要根本性的重新设计。在管理数十万台机器时,在数百台机器上成功的操作程序会失效。

大规模基础设施项目

Meta宣布了两个体现其AI目标规模的主要基础设施计划。Prometheus项目旨在到2026年交付1千兆瓦以上的集群,代表了集中计算能力的重要里程碑。Hyperion项目采用更大的方法,目标是在未来几年内在多个站点分布5千兆瓦的容量。这些项目不仅仅是现有数据中心的扩大版本,代表了基础设施设计和部署的全新方法。

图7：大规模基础设施项目的航拍照片和建筑效果图,Prometheus显示计划于2026年建成的1千兆瓦以上集群,Hyperion显示分布在多个位置的5千兆瓦容量。

这些部署的技术复杂性令人震惊。传统的数据中心思维侧重于为相对统一的服务器部署提供可靠的电力、冷却和网络连接。AI基础设施颠覆了许多这些假设。每机架的功率密度可能超过数百千瓦,远远超出传统冷却系统的处理能力。服务器之间的网络带宽需求可能与整个传统数据中心的总吞吐量相当或超过。加速器本身在紧凑的外形因素中产生了大量的热量,需要引入自身运营复杂性的液体冷却解决方案。

硬件多样性和集成挑战

Meta的基础设施策略采用多样化的AI加速器硬件组合,而不是标准化单一供应商解决方案。公司部署多代和多种类型的加速器,包括AMD的MI300X处理器、Meta自己的MTIA(Meta训练和推理加速器)定制芯片、NVIDIA的H200和GB200平台,以及未来的GB300系统。每个平台都带来独特的能力和约束,影响机架设计、电力传输、冷却要求和网络拓扑。

图8：五种不同的机架配置,显示了Meta部署的AI加速器平台的物理多样性,包括MI300X、MTIA、H200、GB200和GB300系统,每个都有不同的内部架构和连接要求。

这种硬件多样性服务于重要的战略目的,包括减少对任何单一供应商的依赖,针对不同AI工作负载特性进行优化,以及保持采用新兴技术的灵活性。然而,在设计设施、电力系统和操作程序以适应如此多样化的要求,同时保持高利用率和可靠性方面,也使工程挑战成倍增加。

网络连接架构

现代AI训练需要与传统企业或云计算根本不同的网络架构。网络必须支持三个不同的连接域,每个域具有不同的性能特性和扩展要求。Scale-in互连处理单个服务器或加速器模块内的通信,通常使用节点内GPU或其他处理器之间的超高带宽、低延迟连接。Scale-up互连管理机架或小型集群内多个节点之间的通信,需要精心设计的拓扑来最小化延迟,同时最大化总带宽。Scale-out互连连接更大的集群和数据中心,以较低的每链路速度运行,但跨越更多的连接。

图9：三个网络连接域,图表显示单个节点内的scale-in互连、机架中多个服务器之间的scale-up互连,以及跨越整个集群和数据中心的scale-out互连。

这些域的带宽扩展要求是巨大的。单节点部署可能涉及8个加速器,互连需求相对适中。扩展到数十个节点可能需要32倍的网络带宽。扩展到数百个节点可能需要72倍的带宽。针对数千个节点的最大部署可能需要144倍或更多网络带宽,相比单节点配置。

图10：从单个节点到8倍、32倍、72倍、144倍配置的扩展进展,显示scale-up系统需要指数级更大的网络容量。

理解Scale-Up域重要性

推动更大scale-up域的动力来自现代AI模型架构的基本特征。专家混合模型在大型语言模型设计中变得越来越普遍,将计算分布在多个专门的专家网络上。每个输入token根据学习的gating函数路由到特定的专家。随着模型变得更复杂,专家数量增加,计算和通信模式变得更复杂。有效训练这些模型需要将专家计算和路由决策保持在低延迟、高带宽的scale-up域内。

芯片设计趋势也有利于更大的scale-up域。随着制造商推动chiplet集成和先进封装技术的界限,单个加速器die正在变得更大。更多计算发生在单个芯片内减少了一些通信瓶颈,但增加了功率密度和冷却挑战。随着单个芯片变得更强大,围绕构建的系统需要相应更高的网络带宽,以保持所有计算能力得到充分利用。

图11：解释了为什么更大的scale-up域很重要,显示了专家混合架构的图表,包含router、gating权重和多个专家块,以及从8倍单节点通过大于64倍、大于128倍到大于512倍配置的芯片扩展示意图,用于数十个和数百个节点,还有一个图表演示网络带宽必须与计算flops成比例扩展以保持系统设计平衡。

基本原则是网络带宽必须与计算吞吐量成比例扩展以避免瓶颈。相对于计算能力网络容量不足的系统会花费过多时间等待数据传输,浪费昂贵的加速器资源并延长训练时间。构建平衡系统需要仔细协同设计计算、内存、存储和网络子系统,在层次结构的每个级别提供适当的带宽。

机架演进和物理基础设施

向更大scale-up域的进展推动了机架设计和物理基础设施的重要变化。Meta的ORv3 HPR平台在2020年代中期投产,在单宽机架配置中支持多达72个加速器,具有电缆背板、48伏直流和正负400伏直流电力传输,以及IT和电源机架中的空气/液体冷却选项。计划于2026年第三季度推出的ORW平台将容量翻倍,在双宽机架中支持多达144个加速器,保持类似的电源和冷却选项,但需要更多的楼层空间和基础设施。

图12：从ORv3 HPR通过ORW到未来未知配置的机架演进,显示物理机架设计及其规格:ORv3 HPR最多72个加速器,电缆背板,48伏直流和正负400伏直流电源,单宽IT/电源机架中的空气和液体冷却;ORW最多144个加速器,双宽IT机架中的类似电源和冷却;以及一个问号代表未来设计,至少256个加速器,超过900千瓦功率,正负400伏直流,主要液体冷却,以及待定的机架尺寸。

展望ORW之后,未来平台预计每机架支持至少256个加速器,消耗超过900千瓦的功率。由于不可能仅用空气冷却散发如此高的功率密度,这些系统将主要依赖液体冷却。即使是机架外形因素本身在这些功率水平下也变得不确定,因为传统的19英寸或23英寸机架宽度可能无法为电力分配、液体冷却基础设施和高密度互连提供足够的空间。

物理挑战从单个机架延伸到设施设计。数据中心必须提供具有高可靠性的巨大电力容量,需要冗余公用事业馈电、备用发电和复杂的配电网络。液体冷却系统需要大量的泵送能力、散热基础设施和仔细的流体管理以防止泄漏并保持稳定的工作温度。在多个站点部署数千个这些大型机架的后勤工作创造了远超典型数据中心建设的供应链、运输和安装挑战。

网络标准化工作

Meta强烈倡导scale-up网络中的开放标准,以避免供应商锁定并实现健康的供应商生态系统。公司积极参与包括Ethernet Specification Update Network工作组、Ultra Accelerator Link联盟和Ultra Ethernet Consortium在内的计划。这些努力旨在定义标准接口和协议,允许混合和匹配来自不同供应商的组件,同时保持互操作性和性能。

图13：Meta对scale-up网络标准的承诺,三个圆形图标代表开放性优于锁定、兼容性优先和启用堆栈,以及ESUN、Ultra Accelerator Link和Ultra Ethernet Consortium组织的标志。

标准化的好处延伸到整个技术堆栈。开放规范减少了对专有解决方案的依赖,培养了推动创新和成本降低的竞争,实现了更多样化的供应商关系以提高供应链弹性,并通过允许逐步采用新功能来促进渐进的技术过渡。然而,标准化也需要重要的协调努力,在竞争利益之间建立共识,以及在灵活性和兼容性之间仔细平衡。

Disaggregation的未来

随着scale-up域越来越大,行业面临着多少功能可以集成到单个物理机架中的实际限制。Meta解决这一约束的方法涉及将大型逻辑系统分解到多个低密度机架中,通过光网络互连。未来的设计可能不是构建具有数百个加速器和复杂内部背板的整体机架,而是将计算资源分布在通过高带宽光链路连接的多个标准格式机架上。

图14：从背板电缆大fabric机架(BFR)到光互连低密度ORv3机架的过渡,显示单个大机架如何在逻辑上等效于具有光互连的多个较小机架。

这种分解方法提供了几个优势。单个机架使用更传统的技术变得更容易设计、制造、运输和部署。机架之间的光互连可以在没有电气背板物理约束的情况下扩展带宽。一个机架中的故障可以潜在地被隔离,而不会使整个scale-up域瘫痪。通过向现有集群添加机架而不是更换整个集成系统,增量容量扩展变得更加直接。

地理扩张和功率扩展

Meta的数据中心足迹在过去二十年中大幅扩展,从2007年弗吉尼亚州Ashburn的单一设施发展到分布在北美、欧洲和亚洲的二十多个主要站点。最近新增的地点包括路易斯安那州Richland Parish、南卡罗来纳州Alken、乔治亚州Stanton Springs、亚利桑那州Mesa、阿拉巴马州Montgomery、德克萨斯州Temple和明尼苏达州Rosemont等。所有这些站点的总电力容量正在迅速接近并将很快超过5千兆瓦。

图15：Meta从2007年到预计2028年的基础设施数据中心供应增长图,显示每个位置的圆形标记,绿色曲线表示累计功率容量增长达到5千兆瓦,标记的位置包括Ashburn VA、Prineville OR、Forest City NC、Lulea Sweden、Altoona IA、Fort Worth TX、Clonee Ireland、Los Lunas NM、Sarpy NE、Odense Denmark、New Albany OH、Kuna ID、Polk County IA、Dekalb IL、Gallatin TN、Stanton Springs GA、Singapore、Rosemont MN、Richland Parish LA、Huntsville AL、Montgomery AL、Mesa AZ、Eagle Mountain UT、Alken SC和Temple TX。

这种地理分布服务于多个战略目的。在可再生能源和有利电力成本附近建立数据中心提高了经济和环境可持续性。将容量分布在各个区域提供了抵御局部故障或灾难的弹性。不同的位置在冷却气候、可用的熟练劳动力、监管环境以及网络互连点的接近性方面提供了不同的优势。随着AI工作负载在地理上更加分散,这个站点网络使得利用区域规模甚至跨区域集群的新架构方法成为现实。

行业挑战和前进道路

Meta在扩展AI基础设施方面面临的挑战并非独特,而是体现了整个技术行业面临的基本困难。每个追求先进AI能力的组织都必须解决五个相互关联的挑战领域。复杂性来自将众多尖端技术集成到必须可靠地协同工作的系统中,每项技术都处于当前能力的极限。容量增长意味着需求在每个资源维度上都持续超过供应,从半导体制造能力到发电到熟练劳动力。

质量和可靠性要求随着系统规模的增加而加剧,因为组件故障的概率随着系统大小而增长,但AI训练任务无法容忍中断。运营复杂性随着组织部署数十万个需要监控、维护、固件更新和协调的异构组件而成倍增加。对速度的需求贯穿于努力的各个方面,因为竞争压力要求快速部署新能力,同时保持现有系统的运营稳定性。

图16：五个机架图,每个都标有一个主要挑战领域:复杂性、容量增长、质量和可靠性要求、运营复杂性和速度需求,底部有一个标题说明行业需要完善大规模生产超级计算机的技术,带有"注意:移动传送带"Caution。

应对这些挑战需要一个充满活力的供应商、合作伙伴和协作者生态系统,为多方面的问题带来不同的专业知识。Meta确定了Open Compute Project社区可以做出基本贡献的三个关键领域。发电基础设施必须扩展以支持大约每10兆瓦生产容量部署1兆瓦的测试容量,确保昂贵的AI硬件进入生产服务之前有足够的老化和验证。系统设计、部署和运营方面的专业知识是必需的,因为AI基础设施复杂性继续显著增加,需要具有深厚技术知识和运营经验的合作伙伴来应对部署数十千兆瓦容量的挑战。

需要创造力和创新来解决系统设计各个方面的基本限制。功率密度和效率改进是必要的,以在受限的数据中心占地面积中容纳更多能力。网络带宽必须跟上计算吞吐量以避免瓶颈。FLOP密度增加对于从每平方米设施空间中提取最大工作量是必需的。Die到die接口限制需要新的封装和互连技术来克服带宽和延迟约束。测试覆盖率和可诊断性必须提高,以便在拥有数百万组件的庞大系统中快速识别和隔离故障。

图17：OCP生态系统关键贡献的三个嵌套圆圈:最外层的绿色圆圈代表发电(大约每10兆瓦生产容量1兆瓦测试容量),蓝色圆圈代表专业知识(部署数十千兆瓦的工程人才和运营能力),紫色圆圈代表创造力和创新(解决功率密度、网络带宽、FLOP密度、die到die接口和测试覆盖方面的挑战),Open Compute Project标志位于中心,三个圆形图标代表关键贡献领域。

没有单一组织拥有独自应对这些挑战所需的所有专业知识、资源和能力。Open Compute Project为将超大规模技术公司、设备制造商、组件供应商和研究机构聚集在一起开发有利于整个行业的共享解决方案提供了经过验证的模式。随着Meta和其他公司推进跨越整个区域的千兆瓦级AI部署,这个协作生态系统的强度和活力将决定行业克服当前限制并实现为全球数十亿用户服务的下一代AI能力的速度。

参考文献

[1] D. Rabinovitsj, "Scaling the AI Infrastructure to Data Center Regions," presented at the OCP Global Summit, San Jose, CA, USA, Oct. 13-16, 2025.

END

NOTICE

软件试用申请

欢迎光电子芯片研发人员申请试用PIC Studio,其中包含：代码绘版软件PhotoCAD，DRC软件pVerify，片上链路仿真软件pSim，光电融合与光纤系统仿真软件pSim+等。更多新功能和新软件将于近期发布，敬请期待！

点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

关注我们

关于我们：

天府逍遥（成都）科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/

（点击上方名片关注我们，发现更多精彩内容）

【声明】内容源于网络

逍遥设计自动化

分享特色工艺半导体（PIC/MEMS/Power/3D IC）设计自动化解决方案及行业技术资讯，与广大客户、专家共同交流、共同进步！

内容 1743

粉丝 0

逍遥设计自动化分享特色工艺半导体（PIC/MEMS/Power/3D IC）设计自动化解决方案及行业技术资讯，与广大客户、专家共同交流、共同进步！

总阅读892

粉丝0

内容1.7k