今年以来,大模型成为当之无愧的风口,据不完全统计,国内已发布的各类大模型数量超过 100 个, 呈现出“百模大战”的态势。资本也闻风赶来,天眼查 APP 显示,今年上半年与大模型直接相关的融资事件超20起。
大模型愈演愈烈,随之催生了海量的 AI 算力需求。截至 2022 年底,我国算力总规模达 180EFLOPS ,目前居全球第二位,并保持 30%的年增长率。据测算 ,2023年我国算力核心产业规模有望突破 2 万亿元。
虽然算力行业总体蓬勃发展,但面对大模型浪潮之下激增的算力需求,目前英伟达的产能有 限,加之受限于台积电的产能以及内存供应商等限制, GPU 的产能不会暴涨,旺盛的需求和GPU 的短缺,造成了行业存在巨大 AI 算力缺口,“抢卡”现象仍在持续。
如何破解大模型“算力荒”成为摆在算力服务商面前的共同命题。
“看不见”的超算,“看得见”的好用
众所周知,大模型是“烧钱”的业务,而“烧钱”的原因最主要是当前每次大模型训练所需要的 算力非常之高。
以 ChatGPT 为例,根据 OpenAI 公开数据推测,如果每秒1000 万亿次的计算,每次模型训练也需要 3640 天的计算能力。
仅单次训练任务都需要数百张甚至数千张 GPU 卡做计算加速,例如A100、A800、H800 等,同时还需要长周期、稳定可靠的计算环境来保障计算任务不中断,尽管开发者会加入很多的 checkpoint,但发生故障后在时间、精力和成本方面的代价都不小。
这样的大模型训练场景对算力提出了架构互通、高速互联的需求,考验规模性算力资源在短时 间内的计算“爆发力”。
而过去的云计算架构主要是分布式架构,主流的云计算服务器之间的网络带宽在 200Gbps,但大模型的一些训练需求服务器之间的互联网带宽一般要求达到 3200Gbps,两者相差十几倍。
过去的超算架构又主要以CPU为主,传统基础设施架构下的算力已经无法满足大模型时代的需求,只有建设大规模 GPU超算集群才可以满足大模型的算力需求。
大规模 GPU 超算集群,顾名思义,将大量 GPU 资源组成算力集群来应对极高的密集性计算,其浮点运算速度能够达到千万亿次每秒,同时具备高速互联计算网络、高性能文件存储和强劲的GPU算力。
可以说,大规模 GPU 超算集群更加贴合大模型训练场景,并行科技董事长陈健也曾公开表示:“大模型的训练本质上就是一个超大的训练任务,比如在 1000 张 GPU 卡上跑两三个月,就是一个典型的超算应用场景。”
超万 P 超算架构大模型算力“及时雨”解决“算力荒”
据 OpenAI 测算,全球 AI 训练所用的计算量呈现指数级增长,平均每 3.43 个月便会增长一 倍,过去几年计算需求量已扩大 30万倍,远超算力增长速度。
GPU 卡资源也始终紧张,大模型竞赛已经推高了市场对 GPU 的需求。尽管有一些公司即使 暂时还不需要 GPU,但由于担心未来,也会开始提前储备。相当于“对供应短缺的预期加重 了供应短缺”。
有相关人士预测至少到 2023 年底,对于要部署数百或数千的 H100/H800 的企业都会面临短缺问题,目前看来,GPU 的短缺可能会持续到 2024 年。
为缓解 GPU 卡资源紧张问题,作为超算架构大模型算力网络先行者的并行科技计划将在 2023 年底前,以“算力网络”为依托,上线超万 P 超算架构大模型算力,为大模型行业带来 GPU 资源“及时雨”。
【未来科技范】往期文章:
雅迪Q1电动车:动力强劲 娇小不娇弱
游戏笔记本:宏碁掠夺者HELIOS 300白金版
拖地机器人:云鲸居然还会洗抹布
投影仪:坚果G9图文+短视频

