国产 GPU 企业通过资本市场融资蓄力的节奏明显加快,头部企业相继迈向上市关键节点:
2020 年 7 月 20 日,寒武纪便率先登陆科创板,打响了国产 AI 芯片企业资本化的第一枪;
2025 年 9 月 26 日,摩尔线程科创板 IPO 成功过会,从申报到过会仅耗时 88 天,进度远超市场预期;
2025 年 10 月 24 日,沐曦股份也顺利通过上市委审议,拟募集 39.04 亿元投入高性能 GPU 研发及产业化。
曾长期垄断中国 GPU 市场的英伟达,因外部环境变化陷入份额 “断层”,英伟达 CEO 黄仁勋近期在采访中确认,其中国市场份额已从巅峰时期的 95% 跌至 0%。这一剧变源于 2025 年美国进一步收紧芯片出口管控,英伟达高端产品被彻底挡在中国市场之外,即便此前推出 “阉割版” 芯片并尝试降价,仍未能挽回市场;这一被动形成的市场真空,为国产 GPU 创造了前所未有的替代窗口,使得 “英伟达国产平替” 从可选变为必选项。
中国GPU/AI芯片领域已形成多元化的竞争格局。除了广为人知的头部企业,还有众多公司在各自细分领域默默耕耘并取得了显著进展。
例如景嘉微,作为国内首家成功研制并产业化国产GPU的A股上市公司,其在图形显控领域尤其是军工等特定市场积累了深厚优势。此外,寒武纪作为“国产AI芯片第一股”,在AI计算领域也持续进行研发投入。
对于新兴创业公司而言,包括沐曦集成电路(致力于为异构计算提供全栈GPU芯片及解决方案)、摩尔线程(专注于全功能GPU芯片设计)和壁仞科技(主攻高性能通用GPU)等,这些公司虽然成立时间相对较晚,但发展迅速,在产品研发和市场落地方面展现出强劲势头。燧原科技则专注于人工智能云端算力平台,提供AI训练和推理产品。
还有其他重要参与者,如天数智芯作为GPGPU云端芯片提供商,瀚博半导体注重计算机视觉及视频处理的优化,昆仑芯(前身为百度智能芯片部门)依托百度生态等,均在各自专注的方向上积极创新。同时,海光信息在GPU相关领域也有所布局。
下面我们就如下几家进行简要分析。
| 寒武纪:全栈AI芯片领导者
核心技术路线:寒武纪采用“云边端一体、软硬件协同、训练推理融合”的技术路线,专注于人工智能芯片领域的全面布局。公司掌握了智能处理器指令集、智能处理器微架构、智能芯片编程语言、智能芯片数学库等核心技术,具有壁垒高、研发难、应用广等特点。2024年,寒武纪持续推动智能处理器微架构及指令集的迭代优化,重点对自然语言处理大模型、视频图像生成大模型以及垂直类大模型的训练推理等场景进行优化。
核心产品及定位:寒武纪产品线覆盖云端、边缘端和IP授权三大领域。云端产品包括基于思元100、思元270、思元290和思元370芯片的智能加速卡系列;边缘产品主要有思元220边缘智能加速卡;IP授权则包括1A、1H、1M系列智能处理器IP。思元220自发布以来累计销量已突破百万片,寒武纪智能处理器IP产品已集成于超过1亿台智能终端设备中。公司定位为全栈AI芯片解决方案提供商,为互联网、能源、金融等行业的智能化升级提供底层算力支撑。
软件与生态策略:寒武纪打造了统一的基础软件系统平台,采用端云一体、训推一体架构,可同时支持云、边、端全系列产品。公司持续推进训练软件平台的研发改进,新增对DeepSeek系列、Llama系列、Qwen系列等主流模型训练的支持。2024年,寒武纪陆续开源了AI编译器前端Triton-Linalg和支持原生PyTorch的设备后端扩展插件Torch-MLU,帮助开发者提高集成效率。
对标企业:英伟达(AI加速器部分)、华为昇腾
| 沐曦股份:高性能通用GPU领军者
核心技术路线:沐曦股份聚焦全栈GPU产品研发,系统掌握GPU IP(指令集、微架构等)、GPU SoC、高速互连、基础软件等核心技术,突破高性能GPU技术瓶颈。公司产品基于自主统一架构,在通用性、单卡/集群性能及生态兼容性上居国内领先水平。沐曦自主研发的MXMACA软件栈构建了国内领先的全栈式GPU编程与计算平台。
核心产品及定位:沐曦股份产品矩阵精准覆盖三大场景:曦思N系列主攻智算推理,曦云C系列覆盖训推一体与通用计算,曦彩G系列(研发中)聚焦图形渲染。曦云C500系列拥有多精度混合算力,适用于向量计算、矩阵计算等计算密集型应用;曦云C600系列同样聚焦训推一体与通用计算。截至2025年3月,公司累计销量已超过25,000颗GPU芯片。
软件与生态策略:沐曦打造自主开放且高度兼容国际主流生态的软件体系,其MXMACA软件栈不仅兼容CUDA生态,支持PyTorch、TensorFlow等主流AI框架,更通过开源策略推动中国版GPU编程标准的建立。公司坚持推动MXMACA开源共享,联合龙蜥社区完成Anolis OS兼容认证,将自身在AI数据中心操作系统优化方面的成果贡献至开源生态。
对标企业:英伟达、AMD
| 摩尔线程:全功能GPU创新者
核心技术路线:摩尔线程以“全功能GPU”为核心战略,自主研发MUSA统一系统架构,在同一芯片上集成AI计算加速、图形渲染、物理仿真和科学计算四大引擎。公司硬件架构经历了从“苏堤”到“春晓”、“曲院”、“平湖”的快速迭代,2024年推出的“平湖”架构率先原生支持FP8精度计算,对提升大模型训练和推理的能效比至关重要。
核心产品及定位:摩尔线程产品线覆盖消费级和企业级两大市场。消费级产品包括MTT S80、S70等桌面显卡;企业级产品主要包括MTT S3000、S4000等服务器加速卡。旗舰产品MTT S4000搭载48GB GDDR6显存,FP32算力达25 TFLOPS,支持自研MTLink多GPU互联技术,片间带宽达240GB/s。2025年上半年,公司AI智算产品收入占比高达94.85%,成为绝对营收支柱。
软件与生态策略:摩尔线程推出musify代码迁移工具和torch_musa插件,积极拥抱PyTorch生态,显著降低开发者从英伟达平台迁移的成本。公司构建了完整的MUSA软件开发生态系统,包含MUSA Toolkit、muDNN、muBLAS等核心组件。摩尔线程展现出快速的生态适配能力,如在阿里开源Qwen3系列模型后,仅用2小时就完成适配。
对标企业:英伟达(全功能GPU模式)
| 砺算科技:图形渲染向AI计算拓展的新星
核心技术路线:砺算科技的核心竞争力源于其全栈自研的TrueGPU架构,从指令集、计算核心到软件栈均实现自主开发,摆脱了对第三方IP授权的依赖。其首款量产芯片G100采用6nm工艺,配备12GB GDDR6显存和48个计算单元,最高频率达2000MHz。
核心产品及定位:砺算科技采取“两步走”战略:在图形渲染领域,Lisuan eXtreme系列显卡已实现1080P高画质下流畅运行主流游戏,并自研NRSS动态优化技术(对标英伟达DLSS);在AI算力拓展方面,TrueGPU架构原生融合高性能图形渲染与AI推理能力,支持OpenCL 3.0等计算API,为未来进军AI训练市场奠定基础。这种“先图形、后计算”的发展路径,与英伟达早年的发展轨迹相似。
软件与生态策略:砺算科技虽然自研完整的驱动栈,但在生态建设上面临挑战。公司需在CUDA等成熟生态面前降低企业用户迁移成本,这需要持续投入和生态建设。公司的TrueGPU架构旨在同时支持图形渲染和AI计算任务,为未来生态拓展提供技术基础。
对标企业:英伟达(早期发展模式)
| 燧原科技(Enflame)
核心技术路线:燧原科技采用“训推一体”架构和“存算一体”内存架构,基于可重构计算架构设计,其核心是自研的通用可扩展神经元处理器。公司坚持全栈自研技术路径,芯片层针对AI计算负载特点优化,硬件系统采用2.5D/3D先进封装技术集成多颗芯片和高带宽内存。2025年发布的第四代L600芯片国内首创原生FP8低精度算力,拥有144GB存储容量、3.6TB/s存储带宽。
核心产品及定位:产品线覆盖训练和推理全场景,包括云燧T系列训练加速卡、云燧i系列推理加速卡,以及新一代燧原S60推理卡和云燧OGX系列计算系统。第三代产品燧原S60已实现7万卡落地规模,支持300+应用场景,参与建设五大智算集群。公司定位为全栈式AI算力解决方案提供商,为互联网、智算中心、智慧城市等多行业提供算力支撑。
软件与生态策略:打造“驭算”软件开发平台,支持PyTorch、TensorFlow等主流框架。公司积极推进超节点生态建设,从互联网、国央企、“东数西算”三个维度推进,与头部互联网企业联合定制开发万卡训练集群,与中国移动联合开发高密度节点。2025年快速适配DeepSeek模型,体現生态兼容能力。
对标企业:英伟达(数据中心GPU方向)

| 壁仞科技(Biren)
核心技术路线:专注于通用GPU(GPGPU)芯片研发,采用Chiplet异构集成技术。2022年发布的BR100芯片采用7nm工艺和2.5D CoWoS-S先进封装,单芯片峰值算力达PFLOPS级别。自研BLink互连技术实现单卡互连带宽448GB/s,支持单节点8卡全互联。创新推出异构GPU协同训练方案(HGCT),支持四种以上异构芯片千卡混合训练。
核心产品及定位:产品矩阵覆盖训练与推理全场景,包括壁砺106B/106M/166C等系列。BR100系列GPU直接对标英伟达,已在中国移动、中国电信等智算中心实现规模化部署。公司定位为世界级通用GPU提供商,致力于突破国外厂商技术垄断。
软件与生态策略:自主研发BIRENSUPA软件平台,兼容PyTorch、TensorFlow等主流框架。推出Megatron-LM-BR训练插件,支持通义千问、DeepSeek等国产大模型零代码修改迁移。2025年AI算力平台正式上线DeepSeek R1蒸馏模型推理服务,展现快速适配能力。
对标企业:英伟达(通用GPU方向)
| 昆仑芯(Kunlun Core)
核心技术路线:前身为百度智能芯片及架构部,自主研发XPU架构,聚焦于高并发AI场景的算力支撑能力建设,主力芯片产品采用先进工艺制程,具备卓越的AI算力表现。团队于2025年实现重大突破,成功打造国内规模领先的大型智算集群,并推出"超节点"整体解决方案,通过优化机柜部署密度与卡间协同能力,显著提升了整体算力效率与数据传输性能。
核心产品及定位:产品包括K100、P800等加速卡,RH800服务器及AI超节点整机。专注AI加速领域,内部应用于百度搜索、推荐、文心大模型等核心业务,部署超10万片。外部拓展智慧金融、工业质检等数百家客户,百度内部采购占比已降至20-25%。
软件与生态策略:软件栈与飞桨深度耦合,同时支持TensorFlow、PyTorch、ONNX等主流框架。凭借“大芯片+大集群+大生态”路线,在国产AI芯片中率先实现万卡级部署。2025年在中国移动AI推理服务器集采中获三个标包70%、70%、100%份额,体现生态优势。
对标企业:英伟达(AI加速器部分)
| 天数智芯(Iluvatar)
核心技术路线:专注于自主可控的通用GPU研发,产品线覆盖云端训练芯片“天垓”系列和推理芯片“智铠”系列。天垓100是国内首款7nm云端训练通用GPU芯片,支持千亿级参数大模型混合训练。智铠100支持多精度计算,峰值算力达384TOPS@int8,性价比达市场主流产品2-3倍。
核心产品及定位:定位为“云边协同、训推一体”全方案能力提供商。天垓100累计订单近2亿元,落地超200个应用场景;智铠100已应用于法律、金融等行业大模型推理业务。客户覆盖人工智能、金融、医疗、自动驾驶等多元领域。
软件与生态策略:推出DeepSpark开源社区,汇聚数百个AI和通用计算算法模型。自主研发IXCCL分布式通信技术,优化大模型训练效率,支持OPT、LLaMa等主流模型无缝迁移。通过开源策略降低开发者门槛,加速产业落地。
对标企业:国内GPU企业竞争,凭借先发量产优势占据市场
| 瀚博半导体(Vastai)
核心技术路线:基于VUCA统一计算架构,推出云端通用AI推理及视频加速卡系列产品。团队来自AMD等国际巨头,平均拥有18年以上芯片与软件设计经验,曾主导设计业界第一颗7nm GPU。已设计研发完成国产7nm云端GPU芯片。
核心产品及定位:产品包括载天VA1通用AI推理加速卡、载天VA10数据中心推理卡、载天VE1边缘AI推理加速卡及智能一体机。专注于人工智能、融合视觉、图形渲染等领域,为像素世界提供浩瀚算力。致力于为国家新基建和“东数西算”战略提供低碳、节能的“有效算力”解决方案。
软件与生态策略:凭借强大的软硬件融合开发能力,构建完整的产品生态。公司在北京、深圳、西安、成都及加拿大多伦多设立研发中心,具备全球化研发布局。2023年以100亿人民币估值入选《胡润全球独角兽榜》。
对标企业:AMD(综合型GPU企业)
是说芯语原创,欢迎关注分享

