

主流国产AI算力芯片全景图

是说芯语

2025-09-23

人工智能算力芯片是支撑国家人工智能战略的核心基础设施。近年来，在国产化替代和自主可控的政策引导下，国内AI芯片产业呈现蓬勃发展态势，形成了多元化的市场竞争格局。根据产业发展特点，这些企业可分为三类：专攻训练与推理的ASIC厂商（如寒武纪、天数智芯、昆仑芯）、主打CPU路线的厂商（如海光信息、壁仞科技、沐曦集成电路）以及布局全栈解决方案的厂商（如昇腾、平头哥、摩尔线程、燧原科技）。

AI 算力芯片主要包括 GPU、FPGA，以及以 VPU、TPU 为代表的 ASIC 芯片。其中以 GPU 用量最大，据 IDC 数据，2025 年 GPU 仍将占据 AI 芯片 8 成市场份额。然而，相较传统图形 GPU，通用型算力 GPU 在芯片架构上缩减了图形图像显示、渲染等功能实现，具有更优的计算能效比，因而被广泛应用于人工智能模型训练、推理领域。

AI 芯片可以分为云端 AI 芯片、边缘和终端 AI 芯片；根据其在实践中的目标，可分为训练（ training ）芯片和推理（ inference ）芯片。云端主要部署高算力的 AI 训练芯片和推理芯片，承担训练和推理任务，具体有智能数据分析、模型训练任务和部分对传输带宽要求比高的推理任务；边缘和终端主要部署推理芯片，承担推理任务，需要独立完成数据收集、环境感知、人机交互及部分推理决策控制任务。

1、性能与生态：AI算力芯片壁垒

评价 AI 芯片的指标主要包括算力、功耗、面积、精度、可扩展性等，其中算力、功耗、面积（PPA）是评价 AI 芯片性能的核心指标：

（1）算力：衡量 AI 芯片算力大小的常用单位为 TOPS 或者 TFLOS，两者分别代表芯片每秒能进行多少万亿次定点运算和浮点运算，运算数据的类型通常有整型 8 比特（INT8）、单精度 32 比特（FP32）等。AI 芯片的算力越高，代表它的运算速度越快、性能越强。

（2）功耗：功耗即芯片运行所需的功率，除了功耗本身，性能功耗比是综合衡量芯片算力和功耗的关键指标，它代表每瓦功耗对应输出算力的大小。

（3）面积：芯片的面积是成本的决定性因素之一，通常来讲相同工艺制程之下，芯片面积越小良率越高，则芯片成本越低。此外，单位芯片面积能提供的算力大小亦是衡量 AI 芯片成本的关键指标之一。

英伟达的 GPGPU 是全球应用最为广泛的 AI 芯片，决定其性能的硬件参数主要包括：微架构、制程、CUDA 核数、Tensor 核数、频率、显存容量、显存带宽等。其中，微架构即 GPU 的硬件电路设计构造的方式，不同的微架构决定了 GPU的不同性能，作为英伟达 GPU 的典型代表，V100、A100、H100 GPU 分别采用Volta、Ampere、Hopper 架构；CUDA 核是 GPU 内部主要的计算单元；Tensor核是进行张量核加速、卷积和递归神经网络加速的计算单元；显存容量和带宽是决定 GPU 与存储器数据交互速度的重要指标。

2、国产AI 算力芯片全景图

全球 AI 芯片市场被英伟达垄断，然而国产 AI 算力芯片正起星星之火。目前，国内已涌现出了如寒武纪、海光信息等优质的 AI 算力芯片上市公司，非上市 AI 算力芯片公司如沐曦、天数智芯、壁仞科技等亦在产品端有持续突破。

2.1 寒武纪

2.1.1 主打产品与技术路线

寒武纪作为中国最早专注于AI芯片的企业之一，形成了完整的云边端产品矩阵。其云端主打产品包括MLU370-X8、MLU370-S4和MLU370-X4训练加速器，以及MLU100智能云芯片；边缘端则覆盖Cambricon-1A、1H、1M系列终端智能处理器。

2.1.2 技术特点与性能分析

寒武纪的核心竞争力在于自主指令集架构（Cambricon ISA），该架构专门针对深度学习任务优化，支持动态可重构架构，可根据不同算法需求调整计算单元配置。在计算精度方面，其芯片支持稀疏计算加速和低精度量化（FP16/INT8/INT4），显著降低功耗的同时保持计算效率。

性能表现上，寒武纪产品持续迭代升级：早期Cambricon-1A（2016年）的非稀疏理论峰值性能为0.5TOPS（FP16）；第三代Cambricon-1M在1GHz主频下，8位定点AI运算峰值速度达8TOPS，16位为4TOPS，32位为1TOPS 。最新产品算力显著提升，有信息显示其芯片算力可达256TOPS，并支持高达16TOPS的性能表现但具体对应型号未明确说明。

工艺方面，寒武纪已采用7nm制程技术，并正在研发第四代智能处理器IP Cambricon 1V和5nm先进工艺物理设计技术，体现了持续的技术演进能力。

2.1.3 生态建设与应用场景

寒武纪芯片可应用于视觉、语音、自然语言处理、推荐系统、搜索、传统机器学习等多种应用领域。其产品强调高性能、低功耗、高能效比、可扩展性、自适应精度训练和小体积部署在多个行业已有实际部署案例。

2.2 海光信息

2.2.1 产品体系与市场定位

海光信息专注于高端处理器研发，产品线分为海光通用处理器（CPU）和海光协处理器（DCU）两条主线。在AI加速领域，其DCU系列（深算一号、深算二号、深算三号）是主打产品，其中"深算二号"于2023年第三季度发布，深算三号应是近期推出的新品。

2.2.2 技术架构与性能表现

海光DCU采用GPGPU架构，兼容"类CUDA"环境，能够适配国际主流商业计算软件和人工智能软件，拥有开源软件栈。这一设计极大降低了用户迁移成本，是其市场竞争的关键优势。

在计算性能方面，海光DCU支持多种精度（双精度、单精度、半精度和整型）计算，在AI训练和推理方面有专门优化。芯片内置高带宽内存芯片，提升大规模数据处理效率，具备强大的并行计算能力。虽然搜索结果未提供具体的TOPS或FLOPS数值，但多次强调其"计算性能出色"和"高能效比"的特点。

工艺方面，海光8100采用FinFET工艺，但具体制程节点（如7nm、5nm等）和详细的内存接口规格未明确披露。

2.2.3 应用生态与市场前景

海光DCU适用于AI推理、大数据处理、边缘计算、物联网等场景在商业计算领域已有广泛应用。其兼容CUDA生态的策略降低了用户学习成本，有利于市场推广和生态建设。

2.3 沐曦集成电路

2.3.1 技术路线与产品定位

沐曦集成电路专注于提供高性能GPGPU芯片及解决方案，产品瞄准数据中心、AI训练和推理等高端市场。虽然搜索结果中未详细提及沐曦的具体产品参数，但根据行业公开信息，沐曦已推出系列GPGPU产品，采用自主研发的架构。

2.3.2 性能特点与技术创新

沐曦芯片支持全线精度计算（FP32、FP16、BF16、INT8等），具备高计算密度和能效比。其架构设计注重兼容主流AI软件生态，支持多种深度学习框架，降低用户迁移门槛。

2.3.3 生态建设与发展战略

沐曦注重构建完整的软件栈和开发生态，提供基础驱动、运行时库、编译器、开发工具等全套软件支持。公司与多家服务器厂商、云计算企业和高校科研机构建立合作，推动产品落地和生态成熟。

2.4 天数智芯

天数智芯主打通用GPU芯片，其产品包括训练和推理加速卡。公司推出全自研的"洪"系列芯片，支持FP32、FP16、BF16等多种计算精度，针对AI训练和推理场景进行优化。天数智芯的 Big Island 云端 GPGPU 是一款具有自主知识产权、自研 IP 架构的 7nm 通用云端训练芯片，这款芯片达到 295TOPSINT8 算力。

2.5 壁仞科技

壁仞科技发布首款 GPGPU 芯片BR100，BR100 芯片采用 chiplet 技术，其 16 位浮点算力达到 1000T 以上、8 位定点算力达到 2000T 以上。壁仞科技芯片在FP32、FP16、INT8等精度下算力指标领先，尤其擅长大规模模型训练。

2.6 燧原科技

燧原科技专注于AI训练和推理全栈解决方案，其"云炬"系列芯片针对云计算场景深度优化。产品支持高精度浮点计算和低精度整数计算，平衡算力和能效。公司最新发布的第二代推理产品云燧 i20 是面向数据中心应用的第二代人工智能推理加速卡，采用 12nm 工艺，通过架构升级大大提高了单位面积的晶体管效率，算力可媲美 7nm GPU，达到 256TOPS。

2.7 昆仑芯

昆仑芯（原百度昆仑）起源于百度AI加速器项目，已迭代多代产品。其芯片采用自研架构，针对搜索、推荐、语音、图像等百度内部场景深度优化，同时向外部客户开放。昆仑芯算力密度高，支持混合精度计算和稀疏计算加速。软件生态与百度飞桨深度集成，同时支持其他主流框架，在互联网行业有广泛应用案例。昆仑芯新品 AI 芯片 R200 于 2022智算峰会上正式发布，基于新一代昆仑芯自研架构 XPU-R，通用性和性能显著提升，采用先进工艺。配合百度飞桨平台，获得更友好开发的环境。

2.8 平头哥

平头哥作为阿里巴巴旗下芯片企业，提供端云一体的AI算力解决方案。其AI芯片主要含端侧推理芯片和云侧加速卡，与阿里云生态深度协同。平头哥有两条研发主线，一是利用 ARM 的 IP 为阿里云数据中心研发芯片，在云端提供普惠算力，即倚天系列和含光系列；另一边集中在 RISC-V 处理器架构的研发，如玄铁系列，主要应用是在 AIoT 领域。公司技术团队由原中天微、高通、AMD、华为海思等拥有丰富研发经验的人员构成。平头哥于 2019 年 9 月发布首颗数据中心芯片含光 800，采用 12nm 工艺，性能峰值算力达 820 TOPS。

2.9 昇腾计算产业链

华为昇腾打造了芯片+硬件+软件+应用的全栈生态系统。昇腾系列芯片包括训练和推理产品，基于达芬奇架构，支持从边缘到数据中心的全面部署。华为主打 AI 芯片产品有昇腾310 和910B。310 偏推理，当前主打产品为 910B，拥有FP32 和 FP16 两种精度算力，可以满足大模型训练需求。910B 单卡和单台服务器性能对标 A800/A100。

昇腾计算产业是基于昇腾 AI 芯片和基础软件构建的全栈 AI 计算基础设施、行业应用及服务，能为客户提供 AI 全家桶服务。主要包括昇腾 AI 芯片、系列硬件、CANN、AI 计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。

2.10 摩尔线程（Moore Threads）

2.10.1 技术架构与产品矩阵

摩尔线程采用多元融合的技术路线，基于自研MUSA架构，产品覆盖AI计算加速、图形渲染、物理模拟和视频处理等多种工作负载。公司形成了从云端到终端的"云-边-端"产品布局。主要产品包括：服务器级的MCCX D800 X2（大型模型训练）、MTT S4000（智能计算加速卡）、MTT S3000（云渲染卡）、MTT S80（桌面级图形卡）以及边缘AI计算模块。公司还推出KUAE智能计算集群解决方案，目标是构建支持大规模GPU集群和达到拍瓦级浮点计算能力的平台。

2.10.2 性能指标与技术特点

MTT S4000采用第三代MUSA架构，配备48GB GDDR6内存，提供768GB/s带宽，支持PCIe 5.0 x16总线。其算力表现为：FP32算力25 TFLOPs，TF32算力50 TFLOPs，FP16/BF16算力100 TFLOPs，INT8算力200 TOPS 。作为参考，其FP32性能约为RTX 4090的30% 。

MTT S2000则拥有4096个MUSA核心，32GB显存，12TFlops单精度计算能力。整个产品线强调异构多核架构和自适应调度器设计，旨在降低功耗和提高能效。

2.10.3 生态建设与兼容策略

摩尔线程定位为全栈AI基础设施提供商其MUSA架构注重计算通用性、技术演进能力和生态兼容性。产品兼容X86、ARM和主流Linux操作系统，并通过提升CUDA兼容性来改善软件可移植性，助力中国GPU行业的自主可控进程。

2.11 厂商对比

国产AI芯片主要分为三条技术路线：专用ASIC路线（寒武纪、天数智芯、昆仑芯）、GPGPU路线（海光、壁仞、沐曦）和全栈解决方案路线（昇腾、平头哥、摩尔线程、燧原科技）。ASIC路线在能效和特定场景优化上有优势；GPGPU路线在通用性和生态兼容性上更胜一筹；全栈解决方案则强在端到端优化和系统级性能。从算力性能看，各厂商旗舰产品在INT8精度下普遍达到100-200TOPS算力水平，部分产品可达更高算力。内存带宽多在500-800GB/s范围，支持PCIe 5.0成为新代产品的标准配置。在工艺制程方面，领先企业已采用7nm工艺，5nm产品正在研发中。

3、总结

性能追赶与差异化竞争：国产芯片在绝对算力上与国际顶尖水平尚有差距，但正通过支持FP8、FP64多精度、优化HBM高带宽内存、采用** Chiplet** 先进封装等方式提升性能。在能效（如平头哥PPU）、特定场景优化（如昇腾超节点）等方面寻求差异化优势。
软件栈与开发生态：许多厂商致力构建类CUDA的软件平台（如海光DTK、沐曦MXMACA），或通过兼容主流框架（如Pytorch, TensorFlow）降低开发者迁移成本。
适配与大模型合作：积极适配国内外主流大模型（如DeepSeek、LLaMA、ChatGLM等）成为普遍策略，甚至出现芯片公司与模型公司“深度软硬协同优化”（如阶跃星辰与沐曦）。
集群级解决方案与先进互联：不止于单卡性能，万卡级集群的建设和互联技术成为竞争焦点。华为昇腾超节点、壁仞科技参与的光互连光交换GPU超节点等都体现了这一点。
应用导向与行业渗透：芯片设计更贴近实际应用场景，面向互联网、金融、政务、能源、科研等不同领域提供解决方案。
供应链自主与国产化：强调自主研发核心IP、构建国产供应链已成为众多厂商的重要目标和发展战略。

参考：智能计算芯世界转自：牧羊人的方向

加入“中国IC独角兽联盟”，请点击进入

是说芯语转载，欢迎关注分享

【声明】内容源于网络

是说芯语

关注泛集成电路行业的技术走势、热点交流、市场应用、行业分析、产业服务等信息

内容 3980

粉丝 0

是说芯语关注泛集成电路行业的技术走势、热点交流、市场应用、行业分析、产业服务等信息

总阅读1.9k

粉丝0

内容4.0k