大数跨境
0
0

大模型算力基础设施关键挑战分析以及对北京的发展建议

大模型算力基础设施关键挑战分析以及对北京的发展建议 北国咨公司
2024-08-14
1
导读:北 国 咨 观 点



 北 国 咨 观 点

当前生成式人工智能技术,尤其是大模型的快速发展,标志着人工智能进入了前所未有的新时代。大模型训练和推理的底层算力硬件架构演进到新型GPGPU/DSA领域专用架构为主的新架构体系,显存带宽限制导致的“内存墙”问题加速了高带宽内存HBM的发展,卡间互联、服务器间互联以及集群互联技术的重要性与日俱增。随着大模型训练算力起点从千卡集群向万卡集群乃至更大规模演进,对所需的算力基础设施也提出了更多全新的挑战。我们认为,算力性能、高带宽内存、高速互联是北京应对大模型算力基础设施关键挑战上亟待突破的重要技术领域,应加快“扬长补短”全面布局,保障北京大模型算力基础设施重点项目顺利推进,夯实北京在人工智能和大模型领域的全球引领优势。

一、大模型算力基础设施的关键挑战和解决路径

根据浪潮发布的报告显示,当前多模态、长序列和混合专家(MoE)模型已经成为大模型架构演进的确定性趋势,其中多模态、长序列模型侧重在模型能力侧的提升,混合专家(MoE)模型兼顾模型能力的提升和算力利用效率的优化。随着大模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,万卡甚至超万卡集群已成为竞赛入场券(见表1)。由此可见,模型架构和规模的演进同时带来了更巨量的算力、存力需求以及更复杂的互联需求,对现有算力基础设施带来更大挑战。

表1  美国大模型企业的训练集群规模(H100)以及算力卡储备情况

表格信息来源:北国咨根据公开信息整理

关键挑战一:算力性能瓶颈

随着大模型在全球的规模化涌现,算力需求正呈现爆发式增长态势。清华大学集成电路学院吴华强、尹首一等专家撰文指出,芯片的算力性能由数据互连、单位晶体管提供的算力(通常由架构决定)、晶体管密度和芯片面积共同决定。目前主流提升算力的方式主要依赖于摩尔定律指引下的工艺制程进步和计算架构改进。但随着器件尺寸逼近物理极限,芯片集成度遵循摩尔定律发展的趋势逐渐变缓,加之我国自主的先进工艺产业受限等因素,基于新型计算架构和基于芯粒技术的算力提升路径将成为我国突破算力性能瓶颈的优选路径。

计算架构的优劣影响了芯片单位晶体管能提供的算力水平,是决定芯片算力的本质因素。CPU、GPU等传统计算架构在通用性和高效性间难以满足未来大模型的需求,因此加入张量核心的新型GPGPU架构、DSA领域专用架构正逐渐成为主流。此外粗粒度可重构架构、近存和基于忆阻器等存储介质的存算一体架构,也都成为不依赖先进工艺而实现计算性能提升的可选架构。

芯粒技术被认为是未来实现算力芯片性能提升的关键支撑。由于单一芯片面积受制于光罩尺寸极限(极限面积为800平方毫米),制约晶体管的总数量。采用芯粒技术,将多颗芯粒通过先进封装技术在基板上进行2.5D/3D集成,将突破单芯片的面积限制,形成算力性能的提升。此外,由于我国在集成电路先进装备、材料、EDA以及先进成套工艺等方面被限制,导致我国短期内难以持续通过尺寸微缩来实现算力提升。芯粒技术提供了一条利用自主集成电路工艺研制跨越1—2个工艺节点性能的技术路线。

关键挑战二:“内存墙”问题

在大模型的训练过程中,模型参数、梯度、中间状态、激活值都需要存放在内存中,并且需要频繁地传输参数和梯度信息以进行参数的更新。内存带宽越大,越可以加快参数和梯度数据的传输速度,从而提高参数更新的效率,加速模型收敛的速度。但在过去20年间芯片的算力峰值以每2年3倍的速度增长,而内存的带宽增长速度只有1.6倍。“存力”的性能提升速度远低于“算力”的性能提升速度,这就出现了“内存墙”问题,存力成为提高整体计算效率和能力的最大瓶颈。据公开报道,GPT-4训练使用的硬件资源利用率一直在32%—36%之间,其根本原因就是内存带宽限制了芯片算力的发挥,即“内存墙”问题。随着算力需求持续增加、算力规模持续扩大,由“内存墙”导致的算力利用效率问题将会日益凸显。

因此,为了解决“内存墙”问题,高带宽内存HBM应运而生。HBM通过堆叠多层内存并使用硅通孔TSV或混合键合技术实现高速数据传输和带宽提升,与传统的内存相比,HBM的内存带宽和传输速率可超出10倍以上甚至更多。但由于其复杂的设计及封装工艺导致产能较低同时成本较高。

关键挑战三:跨尺度、多层次互联挑战

当前大模型的参数量以每2年410倍的速度增长、算力需求以每2年750倍的速度增长,单颗芯片算力增长速度和内存带宽及容量增长速度远远无法满足大模型训练的需求。因此,构建多芯互联集群成为大模型技术发展的必经之路,而多芯互联集群性能的实现将会受到内存带宽、卡间互联带宽、节点间互联带宽、互联拓扑、网络架构、通信库设计、软件和算法等多重因素影响,因此需要解决跨尺度、多层次的互联挑战。

片间互联的主流技术有PCIe、NVLink和CXL,其中英伟达私有互联技术NVLink市场份额最大,但CXL由于其通用性被认为更具发展前景。服务器间互联技术主要以英伟达的InfiniBand(IB)和以太网为主,高性能交换机在保障高效服务器间网络连接和数据传输方面发挥关键作用。数据中心内部的节点间互联方案已经相对成熟,但随着计算集群建设规模的不断扩大,节点间互联方案的成本和能耗也在不断提升,在中等规模集群当中占比已达15%—20%。因此,需要面向实际应用需求,平衡性能、成本、能耗三大要素,最终实现全局最优的互联方案设计。此外,大模型头部企业正在规划的具有百万卡级的集群,已经超出现有网络架构可扩展极限,而单一数据中心无法同时为如此规模的卡提供足够的电力支撑。未来,超大规模跨域无损算力网络将会是支撑更大规模模型训练的关键。

二、对北京的相关建议

随着大模型计算集群规模从千卡向万卡发展,北京亟待加强在算力性能、高带宽内存、高速互联等关键技术领域上的统筹布局,形成可持续、可获得、可扩展的高质量算力,以保障当前及未来北京大模型算力基础设施重点项目的顺利推进,加快建设具有全球影响力的人工智能创新策源地。

一是加快推动以计算架构、芯粒等新技术路径实现算力升级。积极开展可重构计算、存算一体、领域专用架构DSA等新计算架构以及芯粒技术的研发和产业化,充分利用现有产业链和研发基础,采用京内成熟制程和先进封装技术,结合可重构计算和存算一体等国内领先的新型架构,在芯粒技术基础上实现算力芯片性能升级。争取绕过“先进工艺”的供应瓶颈,实现高水平算力的自主可控和本地供给。

二是加大HBM技术研发和产业化支持,谋划HBM本地生产和封装。支持在京存储器厂商投入HBM高带宽内存产品的研发,支持在京产线升级TSV、混合键合等HBM关键工艺能力,推动其联合DRAM产线、先进封装产线合作实现HBM的本地制造和封装。支持相关企业大量备货海外厂商的内存颗粒,积极研发HBM国产控制器,短时间内形成HBM供应能力,以降低HBM禁运风险。

三是推动高速互联关键技术和产品布局,加强国产互联方案的落地部署。加强北京芯片企业在交换机芯片、高速光模块电芯片、DSP芯片等高速互联关键芯片上的研发投入。支持相关厂商跟进布局800G/1.6T高端以太网交换机产品,加强国产以太网交换机及互联方案在京内大模型算力基础设施重点项目中的落地部署和供应保障。

作 者  



朱  晶,研究员,长期关注研究集成电路、新一代信息技术领域



END


编辑:张   华 

审核:赵佳菲 

往期推荐

AI时代的政策蓝图:解码美、欧、日的发展战略


我国集成电路产业发展中的“内卷化”研究与应对建议


2024年全球及我国半导体产业发展分析与展望


【声明】内容源于网络
0
0
北国咨公司
北京国际工程咨询有限公司,成立于1985年,北京市属综合性甲级工程咨询机构,中关村发展集团成员单位。聚焦科技创新,形成以政府智库为特色、贯穿重大科技项目全过程的业务链条,兼具宏观政策设计、中观产业谋划、微观项目落地的“三位一体”服务体系。
内容 280
粉丝 0
北国咨公司 北京国际工程咨询有限公司,成立于1985年,北京市属综合性甲级工程咨询机构,中关村发展集团成员单位。聚焦科技创新,形成以政府智库为特色、贯穿重大科技项目全过程的业务链条,兼具宏观政策设计、中观产业谋划、微观项目落地的“三位一体”服务体系。
总阅读230
粉丝0
内容280