导语:国内180 余家大模型企业的共同诉求
「现在是不是很多人打电话要卡?」
「这段时间确实是。」
2023 年 8 月,在青岛 2023 年CCF全国高性能计算学术年会(CCF HPC China 2023)的现场,笔者见到了北京超级云计算中心CTO甄亚楠。
算力、算法、数据被称为大模型时代的三驾马车。业界多宣传算法先进性,但算力其实是各家的大后方重要据点,很少有企业愿意将自己有多少张卡开诚布公地讲出来。提及这个问题时,甄亚楠很淡定。毫不掩饰北京超级云计算中心的实力与资源。
「数据显示中国现在有 79 家大模型公司,实际我们接触过程中,这个数字高达 180+。」
2011年11月1日正式奠基的北京超级云计算中心(以下简称北京超算)一开始就赢在了起跑线上,背后超强的CPU及GPU资源,在大模型时代显得尤为瞩目。
ChatGPT的火爆使得各大厂商对于高端算力资源的需求愈发旺盛,形成了需求与供给间的巨大鸿沟。这对于北京超算而言,既是机遇,又意味着巨大的挑战。在交流的过程中,甄亚楠也为展示了他对于这一浪潮的深度思考。
据OpenAI报告,训练一次 1746 亿参数的 GPT-3模型需要的算力约为 3640 PFlop/s-day。即假如每秒计算一千万亿次, 也需要计算 3640 天,此外目前大模型训练所需算力的增速保持在3-4个月/倍速度增长,远超摩尔定律 18-24个月/倍,如此大规模的算力需求,GPU一卡难求成为行业共识。
但与大众所认知的不一样,AI所需要的算力与传统超算其实还存在着略微的差异。在传统的超算领域里边,算力主要依托于CPU,然后以及内存来帮用户去解决科学计算的问题。但是在人工智能领域里边, 我们常常听到的都是GPU。这其实与GPU的独特性能有关。而人工智能和机器学习最流行的算法即为深度神经网络计算,其核心为超大规模矩阵计算,在这方面,GPU在矩阵计算方面十分出色,所以GPU之于AI可谓是相当契合。
「我们也是关注到了这一点,并且业内目前有非常多的科学计算的程序以及人工智能相关的一些框架,都可以支持GPU的计算加速,这样的话也可以有效得到计算结果的产出。」甄亚楠表示。
从甄亚楠的回答中,我们也能间接得出北京超算能获得众多用户青睐的原因,一方面是北京超算对于模型算力底座的持续搭建,另一方面也来自于其不断创新的商业模式,北京超算对算力进行租赁,用户只需要支付实际使用所需的计算量与计算时间,大幅度降低运营成本,成为大模型时代绝佳的算力支持。
谈到大模型的未来,甄亚楠表示,未来具有太多不确定性,但不管怎样,百模大战之下的算力需求已成肉眼可见的行业趋势,北京超算对未来的规划也十分清楚明晰。目前除了北京以外,北京超算已经在内蒙古、宁夏等地建设了大型算力中心,未来也有规划继续去扩容算力中心的地域以及规模。在面向于用户应用场景,采用了按需建设的一个算力资源建设模式,根据用户的实际业务需求来去建设匹配用户业务的算力资源。
1、大模型时代下的算力「饥渴」
2、行业变革下的应对与思考
3、暗礁之上,持续突围

