大数跨境
0
0

摩尔线程MUSA架构以及产品形态介绍

摩尔线程MUSA架构以及产品形态介绍 处理器+AI知识星球
2025-12-01
36
导读:目前已成功推出四代 GPU 架构,并形成了覆盖 AI 智算、高性能计算、图形渲染、计算虚拟化、智能媒体和面向个人娱乐与生产力工具等应用领域的多元计算加速产品矩阵,产品线涵盖政务与企业级智能计算、数据中

更多精彩,请点击上方蓝字关注我

2025年11月24日摩尔线程正式在A股上市,明天(12月02日)即将迎来首个交易日,股吧热闹非凡,”涨声“不断。交易前夕,我们来聊聊摩尔线程的产品形态。

摩尔线程成立于2020年,自成立以来,公司以自主研发的全功能 GPU 为核心,致力于为 AI、数字孪生、科学计算等高性能计算领域提供计算加速平台 。

目前已成功推出四代 GPU 架构,并形成了覆盖 AI 智算、高性能计算、图形渲染、计算虚拟化、智能媒体和面向个人娱乐与生产力工具等应用领域的多元计算加速产品矩阵,产品线涵盖政务与企业级智能计算、数据中心及消费级终端市场,能够满足政府、企业和个人消费者等在不同市场中的差异化需求。新一代架构相关产品处于研发阶段,同步推进高性能 GPU 芯片和智算集群前沿技术预研,以自主创新为核心,持续推动计算产业向通用化与智能化方向发展。  

摩尔线程的核心技术基于其自主研发的MUSA(Meta-computing Unified System Architecture)统一系统架构,这是一个融合GPU硬件和软件的全功能GPU计算加速架构。目前主要产品分为5大类:芯片、主板、一体机、集群设备和智能SoC类产品。


一、MUSA架构介绍

MUSA 架构是公司自主研发的融合 GPU 硬件和软件的全功能 GPU 计算加速统一系统架构。该架构涵盖统一的芯片架构、指令集、编程模型、软件运行库及驱动程序框架等关键要素,旨在为各类并行计算场景提供高性能计算能力。开发人员可借助 C/C++、 Triton 等编程语言,在该架构下编写并行计算程序,且同一代码能够在公司不同 GPU 产品及系统上运行,具有良好的灵活性与可扩展性。

图中全功能 GPU 是指具备功能完备性与精度完整性的 GPU。其中,功能完备性体现为在单一GPU芯片中集成了AI计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码等多种能力,满足多样化的计算需求;精度完整性体现为单一芯片支持 FP64 Vector、 FP32 Vector、 TF32 Tensor、 FP16/BF16 Tensor、 FP8 Tensor、INT8 Tensor 等不同计算精度,以满足 GPU 加速不同场景的计算需求。全功能GPU 在工作效率、生态完整多样性以及兼容性等方面更具有优势,能够更好地适应未来新兴及前沿计算加速应用场景的需求。  

基于 MUSA 统一架构技术,公司在基础软件层面同时提供了 AI 计算、图形渲染和科学计算所需的基础软件技术。在 AI 计算领域,支持 PyTorch、PaddlePaddle 等国内外主流 AI 应用开发框架,以及 Megatron、 FlagScale 等大模型分布式训练框架;在图形渲染领域,支持 DirectX、 OpenGL、 OpenGL ES 和Vulkan 等主流图形应用开发技术,为视频游戏、数字孪生、虚拟现实、工业设计和地理信息系统等行业应用提供坚实基础;在科学计算领域,支持 MUSA 通用计算编程,可广泛应用于计算物理、信号处理、生物医药等科学计算领域。


二、芯片产品

基于自主研发的 MUSA 架构,公司目前已推出四代 GPU 架构芯片(2021-2024年,一年一代):

苏堤:第一代GPU芯片,流片时间2021年,内置了全功能 GPU 的四大引擎,即拥有 AI 计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码引擎

春晓:第二代GPU芯片,流片时间2022年,在提升芯片性能的同时,针对云计算以及 GPU 虚拟化的能力进行大幅优化;并且做到了对DirectX 11 和 DirectX 12 的支持,为率先能支持 DirectX 11和 DirectX 12 的国产全功能 GPU,实现多款图形引擎的高性能适配,支持数字孪生以及工业设计、元宇宙等应用。

曲院:第三代GPU芯片,流片时间2023年,加强了 AI 训练和推理能力,公司基于该芯片搭建千卡集群智算中心.

平湖:第四代GPU芯片,流片时间2024年,增加了 FP8 精度支持,大幅提升AI 算力,公司基于该芯片支撑面向 DeepSeek 类前沿大模型预训练的万卡集群智算中心解决方案.

各代芯片的主要规格情况如下表所示:  

以春晓架构为例,该架构是产品 MTT S80 的架构。如下图所示,MP(MUSA Processor)是最小的一个整体结构,它含有128个单精度浮点运算单元 FP3232个整型/位运算单元 INT8寄存器区域及任务调度区域。除此之外还有32个单精度浮点特殊函数计算单元 SFU2个双精度浮点运算单元 FP64张量积算引擎部分 TCE(Tensor Compute Engine)。另外还有28 KB大小的局部储存器 Local Memory。

2个 MP 组成一个 MPX(MUSA Processor eXecution engine),每个 MPX 中的所有 MP 共享24KB的 L1 缓存。2个 MPX 组成一个 MPC(MUSA Processor Cluster),每个 MPC 中所有 MPX 共享512 KB的L2缓存。整个GPU封装了8个 MPC,通过大小为 16384 KB 的 L3 缓存(也叫Last Level Cache,简称LLC)连接至显存。

可以计算得到春晓GPU总共拥有单精度计算核心数目为4096=8×2×2×128

此外,公司第一代智能 SoC 芯片“长江” ,是集成了“全功能 GPU + CPU + NPU + VPU” 等异构算力单元的片上系统芯片:  


三、板卡

目前推出针对AI智算板卡、专业图形加速板卡、桌面级图形加速板卡主要三大类共九款产品。

MTT S4000,系 2023 年底推出的训推一体全功能智算卡, 是基于摩尔线程曲院 GPU 架构打造的全功能元计算卡,为千亿规模大语言模型的训练、微调和推理进行了定制优化,结合先进的图形渲染能力、视频编解码能力和超高清 8K HDR 显示能力,助力人工智能、图形渲染、多媒体、科学计算与物理仿真等复合应用场景的计算加速。后续还推出了MTT S5000, 其通过 FP8 精度支持等创新提升性能

AI 训练智算卡与 AI 推理卡作为核心计算单元,为 MoE 混合专家模型、多模态模型、世界模型等前沿模型预训练及集群化推理优化设计,具备良好的计算性能与能效比。


专业图形加速产品板卡,主要应用于工业设计、高清视频编辑、数字孪生、 AI云电脑等高端场景的 GPU 及相关产品系列,涵盖 MTT S3000/S2000/S1000 等系列显卡(表中只列出了S3000和S2000),以及基于前述显卡打造的一体机等解决方案。  

以S3000为例,MTT S3000 基于春晓芯片,物理形态为全高 3/4 长双槽。作为一款服务器端专用显卡,S3000 采用被动散热方式,整卡功耗 250W,外接供电线为标准 CPU 8pin。显卡的物理接口为 PCIE x16 并具备 PCIe Gen5 x16 的传输速率。在一个全功能的春晓芯片的支持下,S3000 的整体渲染、编解码性能相对于上一代芯片均具备明显的能力提升。


桌面级图形加速板卡:主要应用于 AI PC、游戏 PC 及办公 PC 等场景的 GPU及相关产品,包括 MTT S80/S70/S50/S30/S10/X300/X100 等系列显卡,以及基于前述显卡打造的工作站等。该类产品支持 Windows、麒麟 KylinOS、统信 UOS、openEuler 等多款国内外主流操作系统,以及 Intel、 AMD、海光、飞腾、鲲鹏等多款国内外主流 CPU 平台。  


四、一体机

为满足用户对于 AI 应用的需求,公司推出了 AI 大模型一体机,包括 MCCX D800 X1 等型号。该产品作为 AI 应用的基础设施,为用户提供了一个高度精练、系统化且可扩展的 AI 应用计算平台,可有效提升 AI 处理能力和计算效率。 以MCCX D800 X1 为例,该一体机采用 8 张 MTT S4000 高性能 GPU, 支持用户在大型语言模型、自然语言处理、系统推荐、数据分析等领域的应用需求。 AI 大模型一体机 MCCX D800 X1 的主要规格如下表所示:  


五、集群设备

夸娥(KUAE)是以全功能 GPU 为硬件核心,软硬一体化、完整的系统级算力解决方案,旨在为大规模 GPU 算力的建设和运营管理提供系统级支持。该系统主要包括以下组成部分: 以 GPU 计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型平台(KUAE ModelStudio) 等。  

以 KUAE2 为例,其主要规格如下表所示:  


六、智能 SoC 类产品  

主要应用于 AI PC、边缘智能、具身智能、智能汽车和低空经济等众多场景,包括基于 SoC 芯片的 AI 算力本-A140、 AI 模组-E300 等产品。该类产品可以广泛服务于 C 端和 B 端客户,满足上述行业对于端侧和边缘类 AI 场景的需求,同时可与公司的 AI 智算产品结合,形成云– 边– 端一体化解决方案,赋能客户实现 AI 的训练-推理需求。  

以 E300 为例,公司 SoC 模组的主要规格如表所示:

公司 AI 算力本是基于“长江” SoC 打造的产品,结合 AI 大模型与传统 PC功能,为用户提供智能化的计算终端。该产品在满足传统 PC 功能的基础上,支持 AI 应用的运行与开发,用户可进行 AI 学习和实践操作。同时, AI 算力本支持端云联动,用户可通过云端进行模型训练,将训练完成的模型下发至本地进行推理,实现个性化算力定制,满足快速、高效、隐私保护的推理需求。  

以 A140 为例,公司 AI 算力本的主要规格如下表所示:  


欢迎关注公众号,随时获取最新动态

【声明】内容源于网络
0
0
处理器+AI知识星球
计算机体系结构、RISC-V、CPU、GPU、NPU、XPU等相关知识
内容 125
粉丝 0
处理器+AI知识星球 计算机体系结构、RISC-V、CPU、GPU、NPU、XPU等相关知识
总阅读69
粉丝0
内容125