大数跨境
0
0

沐曦 vs 寒王(武纪)vs 摩尔线程

沐曦 vs 寒王(武纪)vs 摩尔线程 Byte-哈哈摩
2025-12-13
5
导读:🚀 公司及产品概述沐曦(MetaX)专注于设计具有完全自主知识产权的高性能通用GPU芯片。

🚀 公司及产品概述

  1. 沐曦(MetaX)

    专注于设计具有完全自主知识产权的高性能通用GPU芯片。其核心团队拥有深厚的传统GPU(如图形和通用计算)研发背景,目标是构建全栈GPU产品,覆盖图形渲染、人工智能、高性能计算沐曦通过MXMACA软件栈 兼容英伟达CUDA生态,支持6000余个CUDA应用及1000多个模型原生适配,降低开发者迁移成本。同时,其芯片已与华为欧拉、麒麟OS、openKylin等国产操作系统完成适配,并联合联想、浪潮推出训推一体机方案。

    曦思N系列——智算推理GPU
    是面向云端应用的智算推理产品,采用高带宽内存,提供强大的算力和领先的视频编解码能力,可广泛应用于智慧城市、公有云计算、智能视频处理、云游戏等场景。 
    曦云C系列——通用计算GPU

    曦云C系列通用GPU(GPGPU)芯片是针对智算及通用计算的完美解决方案,沐曦自主知识产权架构提供强大高精度及多精度混合算力,可广泛应用于智算以及通用计算、教育和科研等场景。

    沐曦的通用GPU聚焦高端AI训练,曦云C600采用国产12nm工艺,显存带宽超3.35TB/s,支持多精度混合计算,FP32算力达36TFLOPS,TF32算力140TFLOPS性能全面对标英伟达H100。其MetaXLink超节点扩展技术支持64卡高速互联,通信性能提升4倍,可支撑千亿参数大模型训练

    曦彩G系列

    曦彩G系列GPU是针对图形渲染加速的解决方案,沐曦自主知识产权架构提供卓越的图形图像渲染与视频处理能力, 可广泛应用于元宇宙、云桌面、云游戏、云手机、数字孪生、XR等场景。

  2. 寒武纪(Cambricon)

    寒武纪提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。

    产品分为智能加速卡:思元370系列和思元270系列;智能边缘计算模组:思元220系列。

    其中寒武纪AIDCMLU370-X4加速卡采用思元370芯片,为7nm制程。为单槽位150w、被动散热的PCIe x16 Gen4全尺寸加速卡。可提供高达256TOPS(INT8)推理算力,和24TFLOPS(FP32)训练算力,同时提供丰富的FP16、BF16等多种训练精度,配合全新基础系统软件平台,可充分满足推训一体AI任务需求。

  3. 摩尔线程 (Moore Threads)

以全功能 GPU 为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的 AI 计算支持。产品规划覆盖图形、计算、AI、多媒体全功能,是三家中最接近“全功能GPU”定义的公司。

全功能GPU/显卡产品主要三大类,智算中心类:MTT S4000、MTT S3000和MTT S2000,游戏类显卡:MTT S80和MTT S70,专业视觉加速卡:MTT X300和MTT S50。

其中摩尔线程大模型智算加速卡 MTT S4000,采用第三代 MUSA 架构,配备了 Tensor  核心,单卡支持 48GB 显存和 768GB/s 的显存带宽。基于摩尔线程自研 MTLink 技术(是基于 MTT S4000 自研的卡间互连技术,支持 2 卡、4卡、8 卡 MTLink Bridge 互连,提升了卡间互连带宽,卡间互连 I/O 带宽达到 240GB/s,可加速集群从 64 卡到 1024 卡的训练速度以及多卡互连的线性度)。MTT S4000  可以支持多卡互联,支持千卡集群基础设施建设,加速千亿参数大语言模型计算。其中集群扩展效率如下所示:

🚀🚀 综合对比

沐曦

(MetaX)

寒武纪 (Cambricon)

摩尔线程

(Moore Threads)

核心产品

布局

通用GPU计算 (图形背景,先攻计算)

专用AI计算 (NPU智能芯片)

全功能GPU (图形与计算并重)

主要产品

形态

数据中心PCIe加速卡(无显示接口)

AI加速卡/模组(无显示接口)

独立显卡(有显示输出) + 数据中心加速卡

图形渲染

能力

当前产品,未来产品规划有

(非GPU架构)

(核心特性,支持DirectX/OpenGL/Vulkan

核心计算

场景

AI训练与推理
高性能计算

AI推理
AI训练

桌面图形/游戏
AI推理与轻训练

云图形渲染

 

软件

生态

自研计算框架、兼容CUDA生态(通过移

植层)

自研AI框(Cambricon NeuWare),与主流深度学习框架对接

自研MUSA统一系统架构,兼容CUDA生态(通过移植层),并维护图形驱动

 

优势

领域

在通用计算和AI计算领域追求高性能和高能效

AI推理性能与能效比突出,场景落地深入

图形功能完整,产品形态覆盖广,从桌面到云端


声明:本文内容均基于公开资料整理。其余产品详解参考厂商官网。

精彩推荐:







SuperNIC Cx-8方案落地实测后的深层解析&数据共享






AMD EPYC Turin平台直通P2P的实践与探索


RTX 4090 + RTX 5090的P2P通信实现


nvidia-smi 系列命令介绍


NVIDIA GPU基础环境部署


NVIDIA GPU常见报错信息分享及故障分析流程介绍


< 欢迎 点赞 评论 + 关注 >

【声明】内容源于网络
0
0
Byte-哈哈摩
你的每一次进步,都是重要的一 byte❤️
内容 25
粉丝 0
Byte-哈哈摩 你的每一次进步,都是重要的一 byte❤️
总阅读19
粉丝0
内容25