大数跨境
0
0

主流国产AI算力芯片全景图

主流国产AI算力芯片全景图 是说芯语
2025-09-23
0

人工智能算力芯片是支撑国家人工智能战略的核心基础设施。近年来,在国产化替代和自主可控的政策引导下,国内AI芯片产业呈现蓬勃发展态势,形成了多元化的市场竞争格局。根据产业发展特点,这些企业可分为三类:专攻训练与推理的ASIC厂商(如寒武纪、天数智芯、昆仑芯)、主打CPU路线的厂商(如海光信息、壁仞科技、沐曦集成电路)以及布局全栈解决方案的厂商(如昇腾、平头哥、摩尔线程、燧原科技)。



AI 算力芯片主要包括 GPU、FPGA,以及以 VPU、TPU 为代表的 ASIC 芯片。其中以 GPU 用量最大,据 IDC 数据,2025 年 GPU 仍将占据 AI 芯片 8 成市场份额。然而,相较传统图形 GPU,通用型算力 GPU 在芯片架构上缩减了图形图像显示、渲染等功能实现,具有更优的计算能效比,因而被广泛应用于人工智能模型训练、推理领域。
AI 芯片可以分为云端 AI 芯片 、边缘和终端 AI 芯片;根据其在实践中的目标,可分为训练( training )芯片和推理( inference )芯片。云端主要部署高算力的 AI 训练芯片和推理芯片,承担训练和推理任务,具体有智能数据分析、模型训练任务和部分对传输带宽要求比高的推理任务;边缘和终端主要部署推理芯片,承担推理任务,需要独立完成数据收集、环境感知、人机交互及部分推理决策控制任务。
1、性能与生态:AI算力芯片壁垒
评价 AI 芯片的指标主要包括算力、功耗、面积、精度、可扩展性等,其中算力、功耗、面积(PPA)是评价 AI 芯片性能的核心指标:
(1)算力:衡量 AI 芯片算力大小的常用单位为 TOPS 或者 TFLOS,两者分别代表芯片每秒能进行多少万亿次定点运算和浮点运算,运算数据的类型通常有整型 8 比特(INT8)、单精度 32 比特(FP32)等。AI 芯片的算力越高,代表它的运算速度越快、性能越强。
(2)功耗:功耗即芯片运行所需的功率,除了功耗本身,性能功耗比是综合衡量芯片算力和功耗的关键指标,它代表每瓦功耗对应输出算力的大小。
(3)面积:芯片的面积是成本的决定性因素之一,通常来讲相同工艺制程之下,芯片面积越小良率越高,则芯片成本越低。此外,单位芯片面积能提供的算力大小亦是衡量 AI 芯片成本的关键指标之一。
英伟达的 GPGPU 是全球应用最为广泛的 AI 芯片,决定其性能的硬件参数主要包括:微架构、制程、CUDA 核数、Tensor 核数、频率、显存容量、显存带宽等。其中,微架构即 GPU 的硬件电路设计构造的方式,不同的微架构决定了 GPU的不同性能,作为英伟达 GPU 的典型代表,V100、A100、H100 GPU 分别采用Volta、Ampere、Hopper 架构;CUDA 核是 GPU 内部主要的计算单元;Tensor核是进行张量核加速、卷积和递归神经网络加速的计算单元;显存容量和带宽是决定 GPU 与存储器数据交互速度的重要指标。
2、国产AI 算力芯片全景图
全球 AI 芯片市场被英伟达垄断,然而国产 AI 算力芯片正起星星之火。目前,国内已涌现出了如寒武纪、海光信息等优质的 AI 算力芯片上市公司,非上市 AI 算力芯片公司如沐曦、天数智芯、壁仞科技等亦在产品端有持续突破。
2.1 寒武纪

2.1.1 主打产品与技术路线

寒武纪作为中国最早专注于AI芯片的企业之一,形成了完整的云边端产品矩阵。其云端主打产品包括MLU370-X8MLU370-S4MLU370-X4训练加速器,以及MLU100智能云芯片;边缘端则覆盖Cambricon-1A1H1M系列终端智能处理器

2.1.2 技术特点与性能分析

寒武纪的核心竞争力在于自主指令集架构(Cambricon ISA),该架构专门针对深度学习任务优化,支持动态可重构架构,可根据不同算法需求调整计算单元配置。在计算精度方面,其芯片支持稀疏计算加速和低精度量化(FP16/INT8/INT4),显著降低功耗的同时保持计算效率

性能表现上,寒武纪产品持续迭代升级:早期Cambricon-1A2016年)的非稀疏理论峰值性能为0.5TOPSFP16);第三代Cambricon-1M1GHz主频下,8位定点AI运算峰值速度达8TOPS16位为4TOPS32位为1TOPS 。最新产品算力显著提升,有信息显示其芯片算力可达256TOPS,并支持高达16TOPS的性能表现但具体对应型号未明确说明。

工艺方面,寒武纪已采用7nm制程技术,并正在研发第四代智能处理器IP Cambricon 1V5nm先进工艺物理设计技术,体现了持续的技术演进能力。

2.1.3 生态建设与应用场景

寒武纪芯片可应用于视觉、语音、自然语言处理、推荐系统、搜索、传统机器学习等多种应用领域。其产品强调高性能、低功耗、高能效比、可扩展性、自适应精度训练和小体积部署在多个行业已有实际部署案例。

2.2 海光信息

2.2.1 产品体系与市场定位

海光信息专注于高端处理器研发,产品线分为海光通用处理器(CPU海光协处理器(DCU两条主线AI加速领域,其DCU系列(深算一号、深算二号、深算三号)是主打产品,其中"深算二号"2023年第三季度发布,深算三号应是近期推出的新品。

2.2.2 技术架构与性能表现

海光DCU采用GPGPU架构,兼容"CUDA"环境,能够适配国际主流商业计算软件和人工智能软件,拥有开源软件栈。这一设计极大降低了用户迁移成本,是其市场竞争的关键优势。

在计算性能方面,海光DCU支持多种精度(双精度、单精度、半精度和整型)计算,在AI训练和推理方面有专门优化。芯片内置高带宽内存芯片,提升大规模数据处理效率,具备强大的并行计算能力。虽然搜索结果未提供具体的TOPSFLOPS数值,但多次强调其"计算性能出色""高能效比"的特点。

工艺方面,海光8100采用FinFET工艺,但具体制程节点(如7nm5nm等)和详细的内存接口规格未明确披露。

2.2.3 应用生态与市场前景

海光DCU适用于AI推理、大数据处理、边缘计算、物联网等场景在商业计算领域已有广泛应用。其兼容CUDA生态的策略降低了用户学习成本,有利于市场推广和生态建设。

2.3 沐曦集成电路

2.3.1 技术路线与产品定位

沐曦集成电路专注于提供高性能GPGPU芯片及解决方案,产品瞄准数据中心、AI训练和推理等高端市场。虽然搜索结果中未详细提及沐曦的具体产品参数,但根据行业公开信息,沐曦已推出系列GPGPU产品,采用自主研发的架构。

2.3.2 性能特点与技术创新

沐曦芯片支持全线精度计算(FP32FP16BF16INT8等),具备高计算密度和能效比。其架构设计注重兼容主流AI软件生态,支持多种深度学习框架,降低用户迁移门槛。

2.3.3 生态建设与发展战略

沐曦注重构建完整的软件栈和开发生态,提供基础驱动、运行时库、编译器、开发工具等全套软件支持。公司与多家服务器厂商、云计算企业和高校科研机构建立合作,推动产品落地和生态成熟。

2.4 天数智芯

天数智芯主打通用GPU芯片,其产品包括训练和推理加速卡。公司推出全自研的""系列芯片,支持FP32FP16BF16等多种计算精度,针对AI训练和推理场景进行优化。天数智芯的 Big Island 云端 GPGPU 是一款具有自主知识产权、自研 IP 架构的 7nm 通用云端训练芯片,这款芯片达到 295TOPSINT8 算力。

2.5 壁仞科技
壁仞科技发布首款 GPGPU 芯片BR100,BR100 芯片采用 chiplet 技术,其 16 位浮点算力达到 1000T 以上、8 位定点算力达到 2000T 以上。壁仞科技芯片在FP32FP16INT8等精度下算力指标领先,尤其擅长大规模模型训练。
2.6 燧原科技
燧原科技专注于AI训练和推理全栈解决方案,其"云炬"系列芯片针对云计算场景深度优化。产品支持高精度浮点计算和低精度整数计算,平衡算力和能效。公司最新发布的第二代推理产品云燧 i20 是面向数据中心应用的第二代人工智能推理加速卡,采用 12nm 工艺,通过架构升级大大提高了单位面积的晶体管效率,算力可媲美 7nm GPU,达到 256TOPS。
2.7 昆仑芯
昆仑芯(原百度昆仑)起源于百度AI加速器项目,已迭代多代产品。其芯片采用自研架构,针对搜索、推荐、语音、图像等百度内部场景深度优化,同时向外部客户开放。昆仑芯算力密度高,支持混合精度计算和稀疏计算加速。软件生态与百度飞桨深度集成,同时支持其他主流框架,在互联网行业有广泛应用案例。昆仑芯新品 AI 芯片 R200 于 2022智算峰会上正式发布,基于新一代昆仑芯自研架构 XPU-R,通用性和性能显著提升,采用 先进工艺。配合百度飞桨平台,获得更友好开发的环境。
2.8 平头哥
平头哥作为阿里巴巴旗下芯片企业,提供端云一体的AI算力解决方案。其AI芯片主要含端侧推理芯片和云侧加速卡,与阿里云生态深度协同。平头哥有两条研发主线,一是利用 ARM 的 IP 为阿里云数据中心研发芯片,在云端提供普惠算力,即倚天系列和含光系列;另一边集中在 RISC-V 处理器架构的研发,如玄铁系列,主要应用是在 AIoT 领域。公司技术团队由原中天微、高通、AMD、华为海思等拥有丰富研发经验的人员构成。平头哥于 2019 年 9 月发布首颗数据中心芯片含光 800,采用 12nm 工艺,性能峰值算力达 820 TOPS。

2.9 昇腾计算产业链

华为昇腾打造了芯片+硬件+软件+应用的全栈生态系统。昇腾系列芯片包括训练和推理产品,基于达芬奇架构,支持从边缘到数据中心的全面部署。华为主打 AI 芯片产品有310 910B310 偏推理,当前主打产品为 910B,拥有FP32 和 FP16 两种精度算力,可以满足大模型训练需求。910B 单卡和单台服务器性能对标 A800/A100

腾计算产业是基于腾 AI 芯片和基础软件构建的全栈 AI 计算基础设施、行业应用及服务,能为客户提供 AI 全家桶服务。主要包括腾 AI 芯片、系列硬件、CANNAI 计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。

2.10 摩尔线程(Moore Threads

2.10.1 技术架构与产品矩阵

摩尔线程采用多元融合的技术路线,基于自研MUSA架构,产品覆盖AI计算加速、图形渲染、物理模拟和视频处理等多种工作负载。公司形成了从云端到终端的"--"产品布局。主要产品包括:服务器级的MCCX D800 X2(大型模型训练)、MTT S4000(智能计算加速卡)、MTT S3000(云渲染卡)、MTT S80(桌面级图形卡)以及边缘AI计算模块。公司还推出KUAE智能计算集群解决方案,目标是构建支持大规模GPU集群和达到拍瓦级浮点计算能力的平台

2.10.2 性能指标与技术特点

MTT S4000采用第三代MUSA架构,配备48GB GDDR6内存,提供768GB/s带宽,支持PCIe 5.0 x16总线。其算力表现为:FP32算力25 TFLOPsTF32算力50 TFLOPsFP16/BF16算力100 TFLOPsINT8算力200 TOPS 。作为参考,其FP32性能约为RTX 409030% 

MTT S2000则拥有4096MUSA核心,32GB显存,12TFlops单精度计算能力。整个产品线强调异构多核架构和自适应调度器设计,旨在降低功耗和提高能效

2.10.3 生态建设与兼容策略

摩尔线程定位为全栈AI基础设施提供商MUSA架构注重计算通用性、技术演进能力和生态兼容性。产品兼容X86ARM和主流Linux操作系统,并通过提升CUDA兼容性来改善软件可移植性,助力中国GPU行业的自主可控进程

2.11 厂商对比

国产AI芯片主要分为三条技术路线:专用ASIC路线(寒武纪、天数智芯、昆仑芯)、GPGPU路线(海光、壁仞、沐曦)和全栈解决方案路线(昇腾、平头哥、摩尔线程、燧原科技)。ASIC路线在能效和特定场景优化上有优势;GPGPU路线在通用性和生态兼容性上更胜一筹;全栈解决方案则强在端到端优化和系统级性能。从算力性能看,各厂商旗舰产品在INT8精度下普遍达到100-200TOPS算力水平,部分产品可达更高算力。内存带宽多在500-800GB/s范围,支持PCIe 5.0成为新代产品的标准配置。在工艺制程方面,领先企业已采用7nm工艺,5nm产品正在研发中。

3、总结
  1. 性能追赶与差异化竞争:国产芯片在绝对算力上与国际顶尖水平尚有差距,但正通过支持FP8FP64多精度、优化HBM高带宽内存、采用** Chiplet** 先进封装等方式提升性能。在能效(如平头哥PPU)、特定场景优化(如昇腾超节点)等方面寻求差异化优势。

  2. 软件栈与开发生态:许多厂商致力构建类CUDA的软件平台(如海光DTK、沐曦MXMACA),或通过兼容主流框架(如Pytorch, TensorFlow)降低开发者迁移成本。

  3. 适配与大模型合作:积极适配国内外主流大模型(如DeepSeek、LLaMA、ChatGLM等)成为普遍策略,甚至出现芯片公司与模型公司“深度软硬协同优化”(如阶跃星辰与沐曦)。

  4. 集群级解决方案与先进互联:不止于单卡性能,万卡级集群的建设和互联技术成为竞争焦点。华为昇腾超节点、壁仞科技参与的光互连光交换GPU超节点等都体现了这一点。

  5. 应用导向与行业渗透:芯片设计更贴近实际应用场景,面向互联网、金融、政务、能源、科研等不同领域提供解决方案。

  6. 供应链自主与国产化:强调自主研发核心IP、构建国产供应链已成为众多厂商的重要目标和发展战略。



参考:智能计算芯世界  转自:牧羊人的方向



加入“中国IC独角兽联盟”,请点击进入


是说芯语转载,欢迎关注分享

【声明】内容源于网络
0
0
是说芯语
关注泛集成电路行业的技术走势、热点交流、市场应用、行业分析、产业服务等信息
内容 3980
粉丝 0
是说芯语 关注泛集成电路行业的技术走势、热点交流、市场应用、行业分析、产业服务等信息
总阅读1.9k
粉丝0
内容4.0k