大数跨境

AI相关产业链全景解析(多模态、高带宽内存、GPU集群、液冷技术、AI服务器、AI开发者工具)

AI相关产业链全景解析(多模态、高带宽内存、GPU集群、液冷技术、AI服务器、AI开发者工具) 国际项目创新平台-石化建设分会
2025-11-10
1
导读:AI相关产业链全景解析(多模态、高带宽内存、GPU集群、液冷技术、AI服务器、AI开发者工具)

从蒸汽机轰鸣开启工业时代,到电力网络重塑现代文明,到今天人工智能正以同样的力量掀起新一轮变革。


这场变革已从计算芯片延伸至存储介质,从数据中心扩散到消费终端,形成覆盖半导体、云端服务、内容创作的庞大生态网络。


在这条产业链上,芯片厂商正将生产线转向高带宽存储,以满足每月数十万片晶圆的需求;

数据中心通过液冷技术和异构架构整合算力资源,支撑着数百万开发者构建智能应用;

当前这场变革仍处于早期阶段,但其带来的影响已清晰可见:它不仅改变着技术的演进方向,更在重塑全球产业格局。


更多深度观点和产业报告,已收录到知识星球:



一、AI基建

(1)计算模块

计算模块是AI基建的核心,负责执行AI模型的训练与推理任务。

训练模型时需要反复计算调整参数,推理时需要快速响应生成结果,这两个过程都依赖强大的计算能力。

主流的计算硬件包括GPU、ASIC,GPU擅长并行计算,成为AI训练的主流选择;

ASIC则因定制化程度高,在特定推理场景中逐渐普及。

(2)存储模块

存储模块负责保存AI运行所需的所有数据,包括训练用的原始数据、模型参数数据以及推理过程中产生的临时数据。

不同于传统存储追求容量大,AI存储更看重速度快和稳定性高。

训练一个视频模型时,每秒需要调用数十GB的数据,若存储速度跟不上,会直接拖慢整个训练进程。

HBM、DRAM、NAND Flash是当前AI存储的核心硬件类型。

(3)网络模块

网络模块连接计算与存储设备,实现数据在不同硬件之间的高速传输。

在大型AI数据中心中,成百上千台计算服务器需要实时交换数据,这就要求网络具备低延迟和高带宽特性。

当多台GPU共同训练一个大模型时,网络延迟若超过10毫秒,就可能导致计算进度不同步,影响模型训练效率。

目前高速以太网、InfiniBand等技术是AI网络的主要选择。

二、AI模型

1、主流AI模型

(1)文本模型

文本是AI最早突破的领域,2018年前后,早期文本模型只能完成简单的问答任务,比如回答今天天气如何,且容易出现逻辑错误。

GPT系列模型逐渐具备复杂推理能力,2023年GPT-4能分析学术论文、撰写商业计划书;

2025年GPT-5 Pro进一步提升长上下文理解能力,可处理百万字级别的文本内容。

文本模型的升级,使得单次训练所需的计算量从早期的千万次运算跃升至万亿次运算。

(2)图像模型

图像模型的发展分为识别和生成两个阶段,早期图像模型主要用于识别图片内容,比如判断一张照片里是否有猫,这一阶段对算力的需求相对较低。

2022年后,生成式图像模型崛起,用户只需输入文字描述,如夕阳下的海边小镇,模型就能生成逼真的图片。

这类模型的训练需要处理上亿张图片数据,存储需求较识别阶段增长10倍以上;

同时生成一张高清图像需要的计算量,相当于早期文本模型处理千条文本的总量。

(3)视频模型

视频模型是当前AI领域的热点,也是对基建需求最高的模型类型。

2024年OpenAI发布初代Sora时,只能生成10秒左右的短视频,且画面容易出现物体变形;

2025年10月发布的Sora 2,不仅能生成1分钟以上的长视频,还能精准模拟物理世界的光影、运动轨迹。

杯子掉落时的破碎过程,与现实场景几乎无差别。

要实现这种高保真效果,Sora 2的训练数据量达到百亿级视频片段,单次训练所需的算力是初代Sora的5倍,存储数据量是突破PB级。

2、算力、存储、网络

(1)算力消耗激增

AI模型的精度越高,需要的计算量就越大,以视频模型为例,要让生成的画面中人物发丝随风吹动,模型需要计算每根发丝的运动轨迹、光影变化,这涉及上亿个参数的实时调整。

Sora 2生成1分钟视频的计算量,相当于全球50亿人同时用计算器完成一次复杂运算。

这种需求下,普通CPU已无法满足,必须依赖GPU集群。

一个用于训练Sora 2的GPU集群,通常包含数千台高性能GPU服务器,其计算能力是普通数据中心的100倍以上。

(2)数据存储压力

当前AI模型已从单一模态转向多模态,即同时处理文本、图像、视频、音频等多种数据。

一个多模态模型能根据用户的文字描述,生成带背景音乐的视频,这就需要同时调用文本库、图像库、音频库的数据。

多模态数据的体积远大于单一数据,一段1分钟的4K视频,大小约为1GB,而对应的文本描述仅几KB,两者相差10万倍。

为了快速调用这些数据,AI存储不仅需要大容量,更需要高速存取,HBM高带宽内存这类能实现每秒TB级传输速度的存储硬件,逐渐成为多模态模型的标配。

(3)低延迟网络

AI应用走向消费端,实时交互成为基本要求,用户用Sora生成视频时,希望输入描述后10秒内看到预览;

用AI客服咨询问题时,等待时间超过3秒就可能放弃使用。要实现这种实时性,数据在计算与存储之间的传输不能有丝毫延迟。

比如当用户输入生成雨天街头视频时,系统需要先从存储中调用雨天场景、街头行人等数据,传输到GPU进行计算,再将结果返回给用户。

整个过程中,网络延迟若超过5毫秒,就会让用户感到卡顿。

这要求AI数据中心的网络采用高速传输技术,InfiniBand网络,其延迟可控制在1毫秒以内,是普通家用宽带的1000倍。

三、算力生产、分配

1、计算芯片

(1)GPU:AI训练

GPU全称为图形处理器,早期用于电脑游戏的图形渲染,后来人们发现它擅长并行计算,即能同时处理多个相同任务,这恰好契合AI训练的需求。

英伟达是GPU领域的龙头企业,其推出的H100、H200系列GPU,是当前训练Sora 2、GPT-5 Pro等大型模型的主流选择。

GPU的优势在于通用性强,一套GPU集群既能训练文本模型,也能训练视频模型;

但缺点是能耗较高,一台高性能GPU服务器的功耗相当于10台家用空调,需要专门的散热系统。

(2)ASIC:AI推理

ASIC全称为专用集成电路,是为特定AI任务量身定制的芯片,用于手机AI拍照的芯片,只需要处理图像优化任务,不需要复杂的训练功能。

这时ASIC就能发挥优势,它的体积小、功耗低,且处理特定任务的速度比GPU快3-5倍。

谷歌推出的TPU就是典型的ASIC,主要用于自家AI模型的推理环节;

国内部分企业也在研发用于边缘设备的ASIC芯片。

ASIC的缺点是灵活性差,若AI任务发生变化,比如从图像优化转向视频生成,旧的ASIC芯片就无法使用,需要重新设计。

(3)辅助芯片:算力协同

除了GPU和ASIC,还有一些辅助芯片负责提升整体计算效率。

DPU数据处理单元专门处理数据传输中的格式转换、错误检测等任务,减轻GPU的非计算负担;

PMIC电源管理芯片则负责优化芯片的能耗,让GPU在高负载下更节能。

这些辅助芯片虽然不直接参与AI的核心计算,但能让整个计算系统的效率提升15%-20%。

2、硬件产业链

(1)芯片设计

芯片设计是产业链的源头,主要任务是绘制芯片的电路图纸、确定芯片的功能参数。

设计过程需要使用专业软件,并投入大量研发人员,一款高性能GPU的设计团队通常有上千人,研发周期长达2-3年。

英伟达、AMD等企业的核心竞争力就在于芯片设计,它们拥有大量专利技术,能在有限的芯片体积内集成更多计算单元(。

(2)芯片制造

芯片制造是产业链中技术难度最高的环节,需要在指甲盖大小的硅片上刻蚀出数十亿个晶体管。

制造过程依赖极精密的设备,能实现7纳米以下的制程,是制造高端GPU的核心设备。

制造一颗高端GPU的成本超过1000美元,其中设备折旧、原材料占比超过60%。

(3)封装测试

封装测试是芯片出厂前的最后一道关卡,封装是将制造好的芯片硅片封装在外壳中,保护芯片不受外界环境影响;

测试则是检测芯片的性能、稳定性是否达标,比如在高温、高负载环境下,芯片是否会出现故障。

对于AI芯片,测试标准更为严格,需要模拟AI训练时的高负载场景,持续测试数天甚至数周。

(4)算力设备

整机制造是将芯片、内存、硬盘等零部件组装成可直接使用的算力设备,主要包括AI服务器、边缘计算设备等。

AI服务器与普通服务器的区别在于,它会集成多颗GPU,并配备更强的电源和散热系统。

戴尔、惠普以及部分专业厂商是AI服务器的主要制造商,它们会根据客户需求定制服务器配置,比如为OpenAI定制的AI服务器,单台可支持40颗GPU协同工作,算力达到每秒千万亿次运算。

3、算力运营、调度

(1)数据中心

AI数据中心是算力的主要载体,与普通数据中心相比,它的设计更侧重高算力密度和高稳定性。

一个大型AI数据中心通常占地数万平方米,内部摆放数千台AI服务器,总算力可达到每秒百亿亿次运算。

为了支撑这些设备,数据中心需要专用的供电系统,接入高压电网,配备备用发电机,防止断电导致训练中断;

同时散热系统也至关重要,一台AI服务器每小时产生的热量相当于3个家用取暖器,需要通过液冷、新风等技术将温度控制在20-25℃,否则会影响芯片寿命。

(2)算力网络

单一数据中心的算力有限,当需要训练Sora 2这样的超大型模型时,往往需要将多个数据中心的算力连接起来,形成“算力网络”。

OpenAI在北美欧洲都建有AI数据中心,通过高速网络将这些中心的GPU集群连接,形成一个全球算力池,训练模型时可调用全球的算力资源。

算力网络的核心技术是分布式计算,它能将一个超大型任务拆分成多个小任务,分配到不同数据中心的服务器上同时计算,再将结果汇总。

这种方式能提升计算速度,还能避免单一数据中心故障导致任务中断。

(3)调度平台

算力调度平台调配整个算力网络,负责根据AI任务的需求,合理分配算力资源。

当同时有训练视频模型和处理用户推理请求两个任务时,平台会优先将高性能GPU分配给训练任务,将普通GPU分配给推理任务;

当某个数据中心的算力空闲时,平台会将其他中心的任务调度过来,避免算力浪费。

OpenAI、英伟达等企业都在开发自己的算力调度平台,部分平台还支持弹性调度,白天用户推理请求多时,自动增加推理用的算力;

夜晚用户需求少时,将空闲算力转向模型训练,算力错峰使用。

四、AI存储层

1、数据容器

(1)HBM

HBM全称为高带宽内存,是直接集成在AI芯片上的内存。

它的最大优势是速度快,数据传输速度可达每秒数TB,是普通内存的5-10倍。

AI训练时,模型需要实时调用参数数据,这些数据若存放在外部存储中,传输速度会成为瓶颈;

而HBM直接与芯片连接,能实现几乎零延迟数据调用。

英伟达H200 GPU搭载的HBM3e内存,容量达到144GB,传输速度每秒4.8TB,能满足训练Sora 2时的实时数据需求。

不过HBM的成本较高,每GB价格是普通内存的3倍以上,目前主要用于高端AI芯片。

(2)DRAM

DRAM全称为动态随机存取存储器,是AI推理阶段的主要存储类型,相当于临时储存,存放推理过程中需要临时调用的数据。

当用户用ChatGPT提问时,ChatGPT需要从DRAM中快速调取已训练好的模型参数,生成回答后再清空DRAM中的临时数据。

DRAM的优势是读写速度快,虽不如HBM,但远快于硬盘,且成本低于HBM,适合大规模部署。

2025年全球AI推理用DRAM的需求量同比增长80%,其中用于消费端AI应用的DRAM占比超过60%。

不过DRAM存在断电数据丢失的问题,需要持续供电才能保存数据,因此不适合长期存储。

(3)NAND Flash

NAND Flash是一种非易失性存储,即断电后数据不会丢失,AI数据的长期仓库,用于存放训练用的原始数据、已训练好的模型文件等。

优势是容量大、成本低,一块2TB的NAND Flash芯片价格仅数百美元,适合存储PB级的海量数据。

OpenAI用于训练Sora 2的视频数据库,就存放在由数百万块NAND Flash组成的存储系统中,总容量超过100PB。

不过NAND Flash的读写速度较慢,不适合实时调用,通常需要与HBM、DRAM配合使用,长期数据存在NAND Flash中,需要时先传输到DRAM,再加载到HBM供芯片使用。

(4)存储级内存

存储级内存是介于DRAM和NAND Flash之间的存储类型,兼具速度较快”和“容量较大特点,是数据流转的中间站。

在AI训练中,经常需要调用的高频数据,如常用的视频片段可存放在存储级内存中,既避免了NAND Flash的慢速度,又弥补了DRAM容量不足的问题。

不过,由于成本较高,存储级内存目前主要用于高端AI数据中心,尚未大规模普及。

2、存储产业链

(1)存储芯片设计

存储芯片设计厂商负责设计存储芯片的电路结构、制定技术标准,是产业链的源头。

它们不直接生产芯片,而是将设计方案交给制造厂商生产。

(2)存储芯片制造

存储芯片制造厂商负责将设计方案转化为实体芯片,需要投入巨额资金建设生产线。

由于存储芯片制造对工艺精度要求极高,全球具备大规模制造能力的企业较少。

(3)存储模组

存储模组厂商将存储芯片、电路板、外壳等零部件组装成可直接使用的存储产品,如内存条、SSD固态硬盘、存储服务器等。

它们会根据客户需求定制产品参数,比如为某数据中心生产容量为128GB的DRAM内存条,或10TB的SSD。

全球主要的存储模组厂商包括金士顿、威刚、美光旗下的Crucial等,金士顿在消费级存储模组市场的份额超过25%,在企业级AI存储模组市场的份额约15%。

3、存储需求

(1)AI训练数据指数级

AI模型的训练数据量正以指数级速度增长,2020年,训练一个文本模型需要百万级文本数据;

2023年,训练GPT-4需要十亿级文本数据;2025年,训练Sora 2需要百亿级视频数据,短短5年,数据量增长了1万倍。

这些数据不仅包括公开的互联网数据,还包括企业采购的私有数据,进一步扩大了存储需求。

据分析机构Yole统计,2024年全球AI训练用存储市场规模达到170亿美元,预计2030年将增长至980亿美元,复合年增长率达33%,远超传统存储市场的增长速度。

(2)推理阶段实时调用数据

随着AI应用走向消费端,推理阶段的存储需求快速增长,推理阶段虽然不需要存储海量训练数据,但需要实时调用已训练好的模型参数和临时数据。

Sora APP上线后,首周iOS下载量达62.7万次,每个用户生成视频时都需要调用模型参数,这就要求存储系统能同时响应数十万次数据请求。

为了满足实时性,推理用存储需要大量DRAM和HBM,2025年全球AI推理用DRAM需求量同比增长80%,其中用于移动AI设备的DRAM占比超过一半。

(3)多模态数据的特殊存储

多模态数据的存储特性差异极大,给存储系统带来新挑战。文本数据体积小,但需要高频调用;

视频数据体积大,但调用频率较低;音频数据介于两者之间。

为了高效存储这些数据,存储系统需要采用分层存储策略,高频调用的文本数据存放在HBM/DRAM中,中频调用的音频数据存放在存储级内存中,低频调用的视频数据存放在NAND Flash中。

这种分层策略虽然提升了效率,但也增加了存储系统的复杂度和成本,进一步推动了存储硬件和软件的升级需求。

五、AI生态层

1、AI开发者生态

(1)标准化开发工具

OpenAI在2025年DevDay大会上发布了AgentKit和Apps SDK等工具,大幅降低了AI应用的开发门槛。

AgentKit是一套用于构建智能体,能自主完成任务的AI程序的工具集,开发者通过拖拽式的可视化界面,就能组合逻辑节点、连接外部工具,无需编写复杂代码。

开发一个智能客服智能体,只需拖拽语音识别、文本生成、知识库查询等模块,就能快速完成搭建。

Apps SDK则允许开发者在ChatGPT中构建自己的应用,开发一个旅行规划应用,用户在ChatGPT中输入需求,就能直接调用该应用生成旅行方案。

这些工具的推出,让原本需要数月的开发周期缩短至几天。

(2)开放模型API接口

API接口是开发者调用AI模型能力的通道,OpenAI、谷歌等企业会将自己训练好的模型封装成API,开发者只需通过简单的代码调用,就能在自己的产品中使用这些模型的能力。

一家短视频平台要在APP中加入视频生成功能,无需自己训练模型,只需调用Sora 2的API,用户输入文本描述就能生成视频。

为了吸引更多开发者,这些企业还会提供免费的API调用额度,OpenAI对新开发者提供每月100美元的免费额度,足够开发小型应用;

同时随着调用量增加,API价格会逐步降低,降低开发者的成本。

(3)开发者社区

开发者社区作用是促进开发者之间的交流合作,OpenAI建立了全球开发者社区,截至2025年10月,已有400万名开发者加入,社区中会分享开发案例、解决技术问题、举办开发竞赛。

例如社区中有人分享如何用AgentKit开发智能教育助手,有人讨论如何优化API调用速度,这些内容能帮助新开发者快速上手。

此外OpenAI还提供技术支持服务,企业开发者可通过专属客服解决复杂问题,确保应用开发顺利推进。

2、落地场景

(1)消费端

消费端应用是普通用户最易接触的AI产品,主要服务于娱乐、办公、生活等需求。

除了大家熟悉的智能对话、视频生成,还有AI绘画工具、AI语音助手、AI健身教练等。这些应用的特点是用户数量多、单次使用算力需求低。

一个用户用AI绘画工具生成一幅画,所需算力仅为训练Sora 2的百万分之一。

但由于用户基数大,总算力需求依然可观,这就要求AI基建具备大规模并发处理能力,即同时响应数百万用户的请求。

(2)企业端

企业端应用主要服务于企业的办公、管理、营销等环节,帮助提升效率、降低成本。

AI智能客服能替代人工处理80%的常见问题,减少企业客服人员数量;

AI数据分析工具能快速处理企业的销售数据,生成可视化报表,帮助管理层决策;

AI邮件助手能自动筛选重要邮件、生成回复草稿,节省员工时间。

这些应用的特点是数据隐私要求高、定制化需求强,企业数据不能泄露,因此需要部署在私有AI基建中;

同时不同行业的企业需求不同,电商企业需要AI营销工具,金融企业需要AI风控工具,这就要求生态层提供定制化的开发支持。

(3)产业升级

行业端应用是AI基建价值的最大体现,它深入到工业、医疗、教育、农业等传统行业的核心环节,推动产业从传统模式向智能模式转型。

在工业领域AI质检系统通过摄像头拍摄产品,实时识别缺陷,准确率超过人工,且可24小时工作;

医疗领域,AI影像诊断系统能分析CT、X光片,辅助医生发现早期肿瘤,提高诊断效率;

教育领域AI个性化学习系统能根据学生的学习情况,定制学习计划,提升学习效果。

这些应用的特点是算力需求高、与行业流程深度融合。

工业AI质检需要处理高清摄像头的实时数据,每秒数据量达GB级,对算力和存储的要求接近AI模型训练;

同时应用需要与行业现有设备对接,这就要求AI基建具备良好的兼容性。


——END——



【声明】内容源于网络
0
0
国际项目创新平台-石化建设分会
中国国际项目管理协同创新平台发起单位由重点企业、大学和科研单位、金融单位等组成,帮助 “一带一路”沿线国家的工业、基础设施等建设。石化建设分会,是2007年在民政部注册的非盈利社团机构。
内容 0
粉丝 0
国际项目创新平台-石化建设分会 中国国际项目管理协同创新平台发起单位由重点企业、大学和科研单位、金融单位等组成,帮助 “一带一路”沿线国家的工业、基础设施等建设。石化建设分会,是2007年在民政部注册的非盈利社团机构。
总阅读0
粉丝0
内容0