ChatGPT等大语言模型的爆发式增长对背后的算力提出了更高要求。来自英伟达的新一代芯片构建了世界上最强大的AI超级计算机,为模型的训练和调用提供了硬件基础。英伟达也借助AI的东风逆转了数据中心业务的颓势,其开发的CUDA平台用于GPU解决深度学习问题,体现了其硬软件双线布局的前瞻性。
目前国内AI服务器市场规模巨大,但芯片性能与适配性与国际龙头企业仍有明显差距。国内互联网公司已经纷纷加大对大模型训练的投入,预计未来相关业务将持续增长。
英伟达的cuLitho加速库已经极大提升了芯片制造领域计算光刻的生产效率与产品良率,也覆盖了量子计算等多领域的应用。英伟达此次重磅发布的H100 GPU和推出的云服务更预示着其成为AI领域“台积电”的野心。
目 录
一、ChatGPT背后的昂贵超算成本
二、英伟达成为AI时代最大赢家
三、国内芯片如何追赶AI大势
四、计算光刻已成造芯片趋势
五、专供ChatGPT的英伟达 H100
1.数亿美元支持的算力
五年前OpenAI提出了建立一个可永远改变人机交互方式的人工智能系统的大胆想法,这意味着AI可以创造出任何人类描述过的图片,人类可以用聊天机器人写诗、歌词、论文、邮件、菜单等。为此OpenAI需要超大规模计算支持。
微软通过倾心打造Azure云计算平台,连接几万个Nvidia A100芯片,并改造服务器机架,来构建支持OpenAI项目的超级计算机,并随时关注OpenAI需求以满足其训练AI所需。其总成本不公开,但可能达数亿美元。
2. OpenAI对基础设施的需求
微软高管表示OpenAI训练模型需要的云计算基础设施规模是业内前所未有的,网络GPU集群规模呈指数级增长。微软与OpenAI合作是相信这种规模将改变历史,为客户提供全新产品和服务。获得回报后,微软向OpenAI再次投资100亿美元,表现出突破AI超算界限的雄心。
在微软已初具规模的办公软件帝国中,ChatGPT版必应用于搜索,Viva Sales中的聊天机器人可帮助写邮件;GitHub Copilot可续写代码;Azure OpenAI 服务可访问大语言模型和Azure的企业级功能。
3. 微软与英伟达的合作
微软和Nvidia联手构建了世界上最强大的AI超级计算机之一,它基于微软的Azure云基础设施,使用数以万计的Nvidia GPU和Quantum-2 InfiniBand网络平台。该超级计算机可用于研究和加速多个生成式AI模型。研究人员能够处理更复杂的AI工作负载,从而看到了这些模型可以很好地理解细微差别和同时处理许多不同的语言任务。
更大的模型很快就会到达现有计算资源的边界。微软明白OpenAI需要的超级计算机规模有多大,除了配置GPU,还必须确保超级计算机能够长期可靠地运行,考虑冷却和电源的摆放位置等问题。
4. 依赖于超算平台的大规模AI训练
微软Azure通过构建、操作和维护数万个共置GPU的超级计算机,实现了在高吞吐量、低延迟InfiniBand网络上的大规模训练。这种规模已经远远超出了GPU和网络设备供应商测试的范围,需要大量的系统级优化。
微软开发了能够有效利用GPU和网络设备的软件技术,降低了训练和生产中提供模型的资源要求和时间,并逐步增加GPU集群的容量和发展InfiniBand网络。
微软也努力保持GPU集群运行所需的数据中心基础设施,包括冷却系统、不间断电源系统和备用发电机。微软AI平台公司副总裁表示此类优化的超算能力已可在Azure云服务中获得。
目前微软的Azure数据中心已覆盖全球60多个地区。
5. 全新虚拟机的发布
微软已在3月中旬发布全新可大规模扩展的虚拟机,这些虚拟机集成了最新的NVIDIA H100 Tensor Core GPU和NVIDIA Quantum-2 InfiniBand网络。
微软通过虚拟机向客户提供基础设施,根据任何AI任务的规模进行扩展。Azure的新ND H100 v5虚拟机可为开发者提供卓越性能和调用数千个GPU的能力。
1. 英伟达的AI算力红利
ChatGPT所展现的思维链条(Chain of Thought)和自发涌现的能力(Emergence)令人惊艳,黄仁勋评价多才多艺的ChatGPT将开启科技行业新纪元。其通识才能依托于底层大语言模型,而构建和运行大模型需要极大的算力。
据报道,OpenAI 用了10000个英伟达的GPU训练ChatGPT,可能会在一年内内为英伟达带来30亿至110亿美元的销售额。
业内人士表示大模型对GPU厂商来说是值得期待的算力红利,尤其是通用性极强的英伟达。英伟达占据了 GPU 市场约 86% 的份额,被称为生成式 AI浪潮下的潜在赢家,市场需求主要反映在迅速增长的数据中心业务。
2. AI即服务
黄透露了英伟达的新动向——英伟达正与云服务商合作提供AI即服务(AI-as-a-service),让企业可以访问英伟达的AI平台,把NVIDIA AI的每一层(超算、加速库软件或AI模型等)作为云服务来使用。
英伟达商业模式的下一个层次是帮助每个企业客户使用自己的浏览器就可以通过DGX Cloud来使用DGX AI超级计算机,该服务预计不久后也将在 Microsoft Azure等多平台上线。在软件层客户将能够访问 NVIDIA AI Enterprise以训练和部署大型语言模型等。在AI模型即服务层,英伟达将向企业客户提供NeMo和BioNeMo可定制AI 模型。
3. 英伟达业务表现
-
汽车业务:英伟达车用业务本季度表现亮眼,财年总收入增长 60%,第四季度收入创下 2.94 亿美元纪录。这些增长反映了自动驾驶解决方案的销售增长,面向电动汽车制造商的计算解决方案和AI座舱解决方案销售强劲,电动汽车和传统OEM客户的新项目也起助力作用。1月初英伟达宣布与富士康建立战略合作伙伴关系,共同开发基于NVIDIA DRIVE Orin和DRIVE Hyperion的自动驾驶汽车平台。 -
游戏业务:英伟达的游戏业务持续低迷,反映了全球宏观经济低迷和中国放开疫情管控的影响,但正在从疫情后低迷中复苏。 -
半导体:专业视觉和OEM部门的业务也大幅下降,半导体市场正在经历下行周期。
4. 英伟达如何站上风口
英伟达2006年后的转型主要是利用CUDA平台将GPU应用于深度学习等领域,这让英伟达在今天再次站上风口。
CUDA计算平台作为软件和中间件堆栈,其并行计算架构使GPU解决复杂计算问题,其发明起源于可程式化 GPU 的想法。英伟达用多年时间牺牲利润打造CUDA技术,被全世界研究人员广泛采用。
后来利用英伟达GPU运算的AlexNet神经网络出现,实现了前所未有的图像识别精度,英伟达的客户开始购买大量GPU用于深度学习。
2014年后英伟达加快布局 AI 技术,包括芯片、硬件以及一整套软件和开发系统,在GPU硬件半导体的基础上衍生出基于通用计算CUDA,得到了软件和硬件的双重规模效应。
1. 英伟达重涨,市场是否过度乐观
ChatGPT现象级爆火扭转了英伟达去年业绩的颓势,英伟达股价市值重登美股半导体板块第一。自2012年起每年全球头部训练模型所需算力增长幅度高达10倍,ChatGPT训练阶段总算力消耗约为3640 PF-days。目前用户使用ChatGPT得到的反馈主要涉及推理应用,计算时间是分钟级或者秒级,训练算力基础设施至少需要上万颗GPU A100。在此背景下英伟达的股价开始在半导体下行周期中逆势上涨。
市场上有业内人士测算未来GPT-4可能会达到100万亿参数,仅给英伟达的算力投入就是120亿美元。2022年我国人工智能算力规模已达268百亿亿次/秒,预计未来5年年复合增长率将达52.3%。
但厂商能在多大程度上受益仍值得观察,据称英伟达没有因为ChatGPT在台积电加投芯片,市场过度乐观了。
2. 国内厂商的竞争力
-
AI服务器:
ChatGPT爆火以来国内大厂纷纷跟进,这也点燃了A股的算力基础设施概念,浪潮信息等服务器产业链公司连日大涨。专注AI赛道的服务器厂商宁畅CTO赵雷认为ChatGPT为AIGC带来全新增量,模型训练所需要的算力支持带来更多市场空间。2021年中国AI服务器市场规模达350.3亿元,在全球AI服务器市场上浪潮以20.9%份额位居第一。
芯片:
-
大模型应用:
对大模型训练,商业巨头和头部研发机构如百度、智源、华为、阿里等投入规模已超百亿,大模型应用行业爆发可拭目以待。
1. 何为计算光刻
光刻是芯片制造最重要的步骤。随着半导体发展晶体管和互联间距变得越来越小,约30年前晶体管尺寸变得比光刻机激光波长还小,衍射效应导致晶体管成像变模糊,影响光刻图案的保真度。计算光刻通过软件对整个光刻过程做建模和仿真,对工艺流程做优化,能通过设计反直觉的复杂掩模板图案得到所需的光刻成像结果。
2. 计算光刻的算力需求增长
未来数据中心规模扩张速度会比摩尔定律发展速度还要快,对算力有很高要求。英伟达对此推出了cuLitho。OPC的一部分工作就是成像,其包含的大量矩阵乘运算很适用于GPU加速,这样一来也大大加速了OPC的整体工作过程。
cuLitho作为面向这一领域的加速库,其价值主要有两个方面:
其一是芯片制造生产力和效率提升,主要是掩膜板制造加速,且比现有配置节约9倍功耗。因为OPC成为芯片制造中的关键因素,cuLitho的价值不仅限于掩膜制造,而是缩短任何使用这项技术的foundry厂的整体开发周期;
其二是促进未来的芯片设计与制造,芯片需要的新技术可能在算力上有10倍的需求量,如曲线式ILT掩膜和高数值孔径EUV光刻都是cuLitho能够加速的。
cuLitho不仅用于提升效率和芯片制造良率,而且为未来的芯片制造做准备。
3. 英伟达的cuLitho
生态发展情况:台积电、ASML、Synopsys参与合作分别代表了foundry厂、设备制造商、EDA供应商的态度。台积电已经在整合cuLitho软件库,Synopsys也正将其整合到EDA软件中,ASML则与英伟达在GPU和cuLitho方面紧密合作,计划将GPU支持整合到所有的计算光刻软件产品中。这足以体现cuLitho的价值。
AI参与度:目前英伟达没有明确提及cuLitho是否用了AI,大概率是现阶段还没有用。
生产工艺:因为cuLitho就是用作提升解析力、消除衍射的计算光刻,对于存在这种需求的新旧工艺来说都适用。这还涉及成本和foundry厂的选择问题,包括cuLitho能多大程度提升良率。在某些情况下cuLitho能减少掩膜板的数量。
盈利模式:cuLitho的商业模式尚未做出说明,但起码需要英伟达GPU支持。英伟达应当也希望扩大cuLitho的影响力,吸引更多客户合作。有趣的是台积电给英伟达制造GPU,但与此同时台积电的供应商和台积电自己又在用英伟达GPU做芯片设计与制造的加速。
1. ChatGPT专用GPU的诞生
英伟达在GTC大会上重磅发布了针对ChatGPT打造的NVIDIA H100 NVLINK,针对LLM推理推出了新款Hopper GPU,配备双GPU NVLINK的PCIE H100。目前在云上唯一可以实际处理ChatGPT的GPU就是HGX A100,而搭载四对H100和双GPU NVLINK的服务器还要快10倍。
英伟达的One Architecture平台兼具加速功能和弹性,每种配置都对某类工作负载进行了优化,如AI视频、Omniverse、图形渲染以及文本转图像/视频等,能适应当下呈阶梯函数式增长的推理工作负载。
2.芯片计算光刻提速
在芯片设计和制造领域,计算光刻每年要消耗数百亿CPU小时。英伟达创造的新算法可以让计算光刻工作流程在GPU上并行执行,cuLitho不仅能使计算速度提升40倍,功耗也可以降低9倍之多。由于光刻技术已经处于物理学的极限,晶圆厂能够提高产量,为2nm制程以后的发展做好准备。
3. AI的“iPhone时刻”
ChatGPT即将掀起第四次科技革命。英伟达的DGX AI超级计算机是当前LLM实现突破的背后引擎。DGX配有8个H100 GPU模组,H100配有Transformer引擎,能处理ChatGPT这样的模型。8个模组通过NVLINK Switch彼此相连,实现了全面无阻塞通信,它们协同工作就像一个巨型的GPU。DGX超计算机将是现代AI工厂。
4. 加速计算与ChatGPT
加速库是加速计算的核心。这些加速库连接了各种应用,再连接到各行各业形成网络中的网络。经过30年开发已有数千款应用被英伟达的库加速。目前所有英伟达GPU都兼容CUDA。现有的300个加速库和400个AI模型覆盖了量子计算、数据处理、机器学习等广泛领域。
5. ChatGPT的潜力
现在ChatGPT等已经唤醒了世界对生成式AI的认知,它们能够完成各种复杂任务。黄将生成式AI定义为一种新型计算平台,与PC、互联网、移动设备和云类似。很明显生成式AI将几乎重塑所有行业。
6.AI界的“台积电”
专业公司需要代工厂,使用自己的专有数据来构建自定义的大语言模型,而英伟达将扮演该角色。NVIDIA AI Foundations云服务让客户可以定制LLM和生成式AI。模型制作服务将涉及多个领域,包括语言转文本、视觉、生物学等。
7. 企业云服务
英伟达还推出了云服务NVIDIA DGX Cloud,只需要浏览器NVIDIA DGX AI超级计算机就能即时接入每家公司,在云上可以直接解决AI端到端开发部署。企业现已可以租用DGX Cloud。Microsoft和NVIDIA正准备将元宇宙平台Omniverse带给Microsoft 365和Azure用户。英伟达的目标是做AI领域的台积电,为其他公司训练算法提供代工服务。

