
一、软件层:大模型
传统意义上的AI模型,主要分为判别式模型(Discriminative Models)和生成式模型(Generative Models)。判别式模型主要用于解决回归或分类任务,而生成式模型是一类能学习和模仿数据分布的模型。
生成式AI(AIGC)将成为未来的通用型AI(AGI)的基石,而判别式AI在视觉识别等分割的AI具体任务中也不可或缺。不同的算法和模型是各家AI最核心的设计,当前市面上的各类AI,基本均以大模型为基础。目前,大模型以Transformer架构为主,Transformer架构是推动大模型崛起的关键创新之一,它革新了序列到序列模型的设计理念。Transformer 架构很难实现大一统,和其他架构会持续演进并共存,形成多元化的技术生态。例如,Transformer架构虽然是当前主流,但新兴架构(如Mamba、RWKV、RetNet)还在不断刷新计算效率。在模型架构本身进行创新需要初创企业拥有强大的计算机科研实力,也要求所在区位具备浓厚的计算机软件业氛围和创新土壤。
除了参数规模巨大,大模型训练所需的数据量往往也极其庞大,通常以PB(拍字节,即1024TB)级别计,包含成百上千亿的词条和数据。这对数据的存储、管理和处理能力提出了极高的要求。这些数据来源广泛,涵盖互联网文本、社交媒体、百科全书、学术论文、新闻报道、书籍、音频、视频、图像等多模态内容。以自然语言处理领域为例,训练数据通常会包含了各类在线百科、书籍语料、CC-News、Stack Exchange等公开可用的大型文本数据集,以及通过网络爬虫抓取的海量网页内容。
数据标注(Labeling)是AI模型训练中至关重要的前置步骤,因为它为算法提供了学习的基础。国内数据标注厂商,广义也被叫做基础数据服务商,通常需要完成数据集结构/流程设计、数据处理、数据质检等工作,为下游客户提供训练数据集、定制化服务。
作为AI底层服务,数据标注最本质的要求就是为下游客户降本增效。而技术是降本增效的最优解决路径,持续迭代技术能力的企业将有机会脱颖而出。数据标注需要企业懂得行业know-how,能够根据客户需求,快速找到并利用与场景最为贴合的数据和人才资源。另外,数据标注仍具有飞轮效应:在技术和场景资源能力双重驱动下,数据处理能力越强,大模型标注经验越丰富,落地案例越来越多,数据处理的可扩展性和灵活性也越高。目前全球领先的大模型数据标注企业主要分布在北美,突出的特点是技术驱动导向,数据标注服务供给能力和质量较高,如Scale AI估值达130亿美金。

(一)计算的核心:处理器(Processing Unit)
AI训练核心是大规模的数组计算。人们最早进行AI模型训练主要依靠的是中央处理器(CPU),这是因为CPU是通用计算的核心,然而,CPU的串行处理架构在面对大规模并行计算需求时显得力不从心。图形处理器(GPU)因其并行计算能力和高内存带宽的优势,开始被用于AI训练。英伟达(NVIDIA)的GPU在这一领域取得了主导地位,其CUDA架构允许科学家和工程师编写并行代码,直接利用GPU的计算能力。CUDA包含了一套完整的生态系统,包括硬件抽象层、编程接口、编译器工具链和一系列高性能的数学库。因此,开发者可以利用CUDA平台直接编写程序在GPU上运算,这些程序会被编译成可以在NVIDIA GPU上运行的二进制代码,从而直接调用GPU进行高效计算。随着AI计算需求的进一步提升,专用的人工智能处理器应运而生,例如谷歌的张量处理单元(TPU)。在整个海量计算和数据传递过程中,TPU均不需要内存请求。在处理特定的AI任务时,它的性能和能效远超CPU和GPU。
虽然GPU和TPU等可以通过软件更新来优化驱动程序和提升性能,但其基本的硬件架构不会改变,其计算核心、内存布局和互连结构在制造完成后是固定不变的。为了解决以上痛点,现场可编程门阵列(FPGA)逐渐被用于AI训练和推理。FPGA是一种半定制电路,与GPU等处理器相比,其核心区别在于FPGA允许用户在硬件级别上编程和重新配置电路以适应特定的计算任务。
近年来,随着AI模型的规模和复杂度不断增大,对更高计算性能和更低能耗的需求推动了AI处理器的持续创新。新兴的处理器设计,如神经形态计算芯片、光子计算芯片,以及量子计算,都在探索AI计算的未来可能性。
1. 芯片产业链
无论是存储芯片、CPU/GPU/TPU还是FPGA,均需要尖端制程的光刻技术。制程越先进,数值越小,表明晶体管的尺寸越小,能够集成更多的晶体管在同一芯片上,从而提高芯片的性能,降低功耗,减少发热,并可能降低成本。目前,DRAM存储芯片的先进工艺位于18-15nm之间,而逻辑芯片(CPU、GPU等)最先进的工艺均已处在3nm制程的水准并向2nm突破,谷歌的TPU使用的制程也已达到7nm的水准。目前国产光刻机依然仅在28nm制程及以下具备较优的良率,14nm有关技术仍由中芯国际、华虹半导体进行探索,尚未成熟。FPGA领域,行业的国际龙头企业Xilinx已推出采用7nm FinFET工艺的FPGA产品,而国内FPGA量产产品中最为先进的仅采用了28nm的工艺制程,主流产品仍采用55nm的工艺制程。
因此,以逻辑芯片为代表的半导体产业可能成为制约AI行业的关键因素。当前我国半导体设备总体国产化率不足20%,自给率仍然处于较低水平,未来成长空间大。另一方面,科技制裁倒逼国产化加速。自2018年以来,美国先后对我国半导体行业实施多次限制,目前来看主要针对先进工艺,比如16/14nm及以下的FinFet/GAA逻辑器件,18nm以下的DRAM器件和128L以上的Flash器件。海外先进制程设备的禁运为国产半导体设备厂商让出生态位,半导体设备国产化率势必加速。芯片生产的模块工艺是由不同的单项工艺组合而来,单项工艺包括光刻、涂胶显影、薄膜沉积、刻蚀、离子注入、CMP、清洗等,其中薄膜沉积、刻蚀和光刻设备是价值量最大的三类设备。从全球市场份额来看,薄膜沉积设备行业呈现高度垄断的竞争局面,全球市场基本由应用材料AMAT、ASMI、泛林半导体Lam、东京电子TEL等国际巨头垄断。国内的厂商主要在细分领域进行差异化竞争,产品可以互补,如拓荆科技主要产品为CVD,北方华创的主要产品是PVD,微导nm的薄膜沉积设备是ALD。刻蚀方面,制程微缩引起刻蚀数量和技术难度的增加。随着国际上先进芯片制程从7-5nm阶段向3nm、2nm及更先进工艺的方向发展,当前光刻机受光波长的限制,需要结合刻蚀和薄膜设备,采用多重模板工艺,利用刻蚀工艺实现更小的尺寸,使得刻蚀技术及相关设备的重要性进一步提升。
光刻机方面,目前全球光刻机市场基本由ASML(荷兰)、Nikon(日本)和Canon(日本)三家包揽,其中高端光刻机更是由ASML垄断,ASML是全球唯一一家具备EUV设备生产能力的光刻机厂商。Canon主要提供低端光刻机产品。从市场份额来看,ASML占据95%市场份额。光刻机可以分为无掩膜和有掩膜光刻机,其中有掩膜光刻机中的投影式光刻机是主流,适用于集成电路的大规模制造。无掩膜光刻机(直写光刻机)灵活性高,可柔性制造集成电路,但是生产效率低,一般用于集成电路器件原型和研制试验制作、光刻掩模版的制作等。为了提高精度,除了使用EUV,还可引入浸没式光刻方法,从而提高成像系统的有效数值孔径,目前长春光电所、长春国科精密、国望光电、中谱科仪等均在开展相应研发。另外,华为在上海青浦建立的用于光刻机研发的全球研发中心建设进展迅速,合计占地面积2400亩,以“终端芯片、无线网络、物联网研发”为优先项目,重点开展芯片设计、封装测试、原材料和设备三大产业。
封装技术是半导体制造后续的关键步骤之一,它涉及将芯片连接到外部电路,并提供保护和散热。先进封装(Chiplet)技术是一种将芯片功能分割为多个独立的芯片模块或小片的方法。每个Chiplet模块都具备特定的功能,而这些模块之间通过高速连接互相通信和协作。这种模块化的设计理念,使得多个厂商可以独立设计和生产各自的模块,最后通过集成实现高度定制化和可拓展性的处理器解决方案。先进封装主要分为两大类,一是基于XY平面延伸的先进封装技术,主要通过RDL进行信号的延伸和互连;二是基于Z轴延伸的先进封装技术,主要是通过TSV进行信号延伸和互连。
2. 高速存储
大模型的参数量指数级增长,不仅推升了处理器的算力需求,同时也对与处理器匹配的内存系统(包括即时读写的内存和长期存储的硬盘)提出了更高的要求。内存和硬盘的最小构成单位不同。内存主要由DRAM芯片构成,数据随存随用,断电后数据消失。硬盘主要由NAND闪存(NAND Flash)颗粒构成,数据在断电后不会消失。NAND闪存是一种非易失性存储技术,由于在早期的设计中采用了类似于NAND逻辑门(与非门)的电路结构故而得名。NAND闪存基于浮栅(Floating Gate)晶体管设计,通过浮栅来锁存电荷,这意味着即使在没有电源的情况下,数据也能被保存。
为适配AI大模型的运算需求,内存技术正沿着三条主要路径进化:高带宽内存(HBM)、图形用双倍数据传输率存储(GDDR)及非易失性内存(NVMe)固态硬盘(SSD)。HBM通过堆叠DRAM芯片,实现了内存与处理器间的紧密耦合,大幅提升了数据传输速率,是处理密集型AI训练的理想选择,因其能提供低延迟和高带宽,确保了数据流的畅通无阻。GDDR原本专为图形处理器设计,现也被广泛用于AI领域,特别是在推断任务中,它能以相对经济的成本提供必要的高速数据吞吐量,是平衡性能与成本的有效方案。NVMe SSD,则聚焦于硬盘存储层次,通过PCIe接口提供高速数据访问,极大地缩短了从存储到计算单元的数据传输时间,对大规模数据集的预处理和模型持久化存储尤其关键。
简单来说,HBM和GDDR着重于加速内存至计算单元的数据流动,而NVMe SSD则优化了存储与计算间的数据传输效率。选择合适的内存路径需依据具体应用环境,如模型复杂度、数据集规模及运算任务的实时性要求来决定。
3. 高速传输:光模块和高速铜缆
AI训练及调取的巨大数据量也对数据高速高宽带传输提出了较高的要求,以光缆和铜缆为主。光缆主要应用于长距离、高带宽、低延迟场景的传输,铜缆主要用于短距离和低带宽需求的传输。
光模块是用于设备与光缆之间光电转换的接口模块,主要用于实现光电信号的转换,是现代光传输网络中的必要器件。光模块是AI投资中网络端的重要环节,其与训练端GPU出货量强相关,同时推理段流量需求爆发也有望带动需求增长,800G及以上速率的光模块将是未来发展的重点。AI驱动800G/1.6T/3.2T数通光模块快速成长,更高的互联速率+更多的互联数增长奠定了光模块广阔的市场空间。当前阶段英伟达加速卡在AI训练的垄断地位,高速光模块需求与英伟达领先的训练卡出货量高度相关。AI集群网络架构升级,光模块需求弹性大。以传统三层架构到叶脊架构的转变为例,叶脊网络架构下,光模块数量提升最高可达到数十倍。根据Yole预计,2027年的3.2T时代可插拔方案就会变得非常困难,板载封装(OBO)和CPO会成为主流;2030年的6.4T时代则CPO将会成为主流方案。目前,国内厂商已占据领先位置。10G时代以北美光模块厂商为主,40G时代,中际旭创和AOI崛起;100G时代,北美传统光模块厂商份额下滑,国内光模块企业崛起。在光模块产业链中,上游主要包括光芯片、光器件和电芯片等组件。顶级光器件大多仍取决于国外供应商;中游是光模块制造商,负责将上游组件整合成成品光模块;下游客户包括电信运营商、互联网公司和云计算企业等。
由于大规模运算必然带来发热,光模块及各类芯片需匹配冷却系统。目前主流液冷架构有两种:冷板和浸没式。 冷板路线是在服务器背后直接加装液冷板,将数据中心IT设备的热量传导到冷板上,然后通过冷板内部液体循环实现换热,再通过室外冷却塔等设备实现散热。浸没式则是直接将服务器电子元器件浸入特制具备高热传导性的冷媒中,冷媒沸点低,可以快速将服务器产生的热量传导出去,从而产生更高效的散热效果。目前冷板式液冷是最主流的液冷方案,IDC近日发布报告称,2023全年中国液冷服务器市场规模达到15.5亿美元,其中95%以上均采用冷板式液冷解决方案。随着算力需求的增加,机架功率密度将快速上升,新建机架功率20kW起步,并向60kW普及,因此,未来十年是冷板液冷技术的高速发展期,液冷数据中心占比将超过六成。英伟达日前新发布了GB200 NVL72多节点液冷机架级扩展系统,能够大幅提升大规模训练速度。
目前数据中心内部主流的交换网络连接方案主要包括三种:光模块+光缆的组合方案、AOC(有源光缆)方案以及DAC(直连铜缆)方案。光模块+光缆是当前最主流的长距离传输方案,主要应用于电信传输网、中距离接入网以及数据中心互联(DCI)和服务器架顶交换机等场景。在通信机柜内部,当互联距离在5米以内时,铜缆成为了常用的选择。直连铜缆(DAC)由镀银的铜导体和发泡绝缘芯线组成,无需光电转换模块,是成本最低的高速互联方案之一,也是目前高速线缆市场的主流产品。DAC在短距离应用中是一种替代光模块和AOC的低成本高效益的通信解决方案。当前国内高速线缆市场规模已突破百亿,国内已有以阿里巴巴和腾讯为代表的大型数据中心用户率先切入。
4. 数据中心
数据中心(IDC,Internet Data Center)是专门用于支持计算和数据处理任务的设施或物理空间,是各大AI训练和部署的物理实体,可以理解为一个大号的计算机及其支持系统。数据中心通常拥有大量高性能的服务器、GPU加速器和专门的存储系统,以提供强大的计算能力并加速深度学习;同时也配备了高速的网络设备和优化的软件框架,以支持高效的数据传输和算法训练通过这些专门的配置和优化;能够为各种规模和复杂度的AI工作负载提供可寂稳定的计算环境,并满足大规模数据存储、备份和分析的需求,为各行各业的AI应用和服务提供了强大的支持。数据中心可按算力分为云数据中心、智算中心、超算中心三种。
云数据中心面向众多应用场景和应用层级扩张;智算中心以AI专用芯片为计算算力底座,以促进AI产业化和智能化为目标,面向AI典型应用场景;超算中心主要支持科学计算和工程计算。数据中心主要组成部分由IT设备及基础设施两大类组成,IT核心设备包括网络设备(交换机、路由、连接器)、服务器(算力设备、存储设备)等,基础设施主要包括供配电设备(UPS、蓄电池、柴油发电机、配电单元)、温控设备(冷源设备、机房空调、新风系统)以及弱电布线等。
在下一期,我们将梳理AI产业的应用端场景及主要厂商情况,并简要分析潜在的颠覆式创新可能。
编辑:恽馥溢
审核:徐 澄


