MOE架构下智算整机/AIPC体系结构的创新和变革方向思考
这是您在选购厂商进行谈判的一大优势,根据实际情况选择您所需要的,而不是被绑定在某一个特定的供应商。
在智算基础设施中允许您够跨多个智算平台进行数据调度,大批量并发访问通过多个智算单元进行调度。
采购的灵活性是鸿芯智算构建的开放性智算体系架构的重要特性。
鸿芯智算构建的新型智算体系结构具备强大的灵活性,能够在非破坏性的基础上随时引入新的横向扩展算力节点,为企业的智算基础发展下一步做好准备。
您可以平滑的纳入新的GPU算力单元,以此来扩充更大型的算力网络,还可以接入云存储或者具有竞争力的存储技术到您的智算基础设施,为庞大的训练数据和语料。
随之DeepSeek大模型优质的算法和独树一帜的MOE架构体系在全球掀起浪潮,越来越多的客户跃跃欲试。
然而,缺乏权威的碎片化信息,加之厂商对DPSK一体机的夸大营销,导致客户在花费巨资购入后并未获得良好的体验。
您需要一个专业的,优秀的AI供应商团队来设计合理GPU算力与不同尺寸模型的最佳搭配方案,要求提供多个维度的测试数据作为参考,确保承诺与交付一致。
鸿芯智算聚集了清华,北大,交大,计算所等专业的AI顾问团队,擅长在高性价比GPU与匹配不同尺寸的模型之间权衡,满足客户大规模的并发需求,同时降低投入成本,选择鸿芯智算即是获得了业内领先的AI科学家顾问团队保障。
4.更快的性能、加速您的GPU智算基础设施
有别于GPU组装服务器,鸿芯智算体系智算一体机具备自研,全国产化的GPU加速卡,迫使每组GPU聚合成为独立的智算模组,提供大规模算力的同时,突破传统PCIe带宽极限,GPU to GPU互联可轻松突破500GB;
同时GPU加速卡提供一体机的智算组网特性,可横向扩展GPU算力网络,以应对大尺寸模型的集群训练需求。
5.可提供一站式交付的人工智能完整运行环境
在当今人工智能产业快速的变革中,企业需要迅速的做出反应,通过拥抱人工智能带来的关键优势,降低运营成本,提高生产力,以此来提升企业在经济市场的竞争力。
然而,以通用算力构建的私有云向人工智能的战略性转型总是面临着各种问题,例如现有资产的利用率、设计人工智能基础设施的复杂度、如何确保国产化的自主可控、引入国产GPU与模型和框架的适配、以及智算架构的可扩展性为了应对企业不断发展的业务需求等等。
HCP-48是鸿芯智算基于创新理念“Hybrid-Computing Platform”打造企业级私有云智算节点。通过HCP系统,耦合了以处理器为核心的通用算力来构建私有云平台,还包含了以GPU为核心的高性能智算体系,符合全国产化设计,让智算基础设施高效运行的同时更加自主可控。
提供国产+ 英伟达 等主流算力,用户选择更自由。
开“箱”即用,涵盖AI开发全流程,包含数据集、模型开发、训练、管理、部署功能,可灵活使用其中一个或多个功能。企业从人工智能入门到扩展大型算力需求,横向扩展能力始终伴随人工智能同一个GPU服务器内部可以支持不同厂家的国产GPU卡, 业务的发展。
6.提供一套简单的工具,基于Workflow与RAG知识库
我们知道许多的客户仍然在人工智能的探索阶段,尚未具备完善的私有化应用程序。鸿芯智算AIOS提供一套简单的,易用的应用程序作业平台,具备深度优化的Workflow(工作流),Ai Agent工具,以及甄选具备最佳性能的结构化数据库,旨为让该平台的RAG推理结果更加精准及高效。
大规模训练的语料数据,RAG知识库,检索数据库等场景,对存储性能,可扩展性提出了更苛刻要求。结合鸿芯智算自研的S160存储加速卡(仅限于HCP系列)与AIOS软件系统,可把GPU智算节点内部磁盘设置成超高缓存的大容量存储池,同时具备跨智算节点的分布式特性。
另外,鸿芯智算自研的AIOS支持广泛的NAS存储协议与Object对象协议,接入企业现有的外部存储装置。
7.具备大量的测试样本、旨为“表里如一”的产品交付
2025年之初我们便接到了大量客户需求:“他们期望快速获得匹配
DeepSeek模型的算力设备”。我们并未急切的追赶这波营销浪潮,而是夜以继日的压测数据,例如:联合伙伴天数智芯提供的GPU(每个型号),分别匹配DeepSeek发布的7个模型尺寸,以获取“多个并发基准”场景下对Tokens的处理能力和成绩;每次结果的返回都将花费多达数百个小时,而与我们紧密合作的GPU厂商接近10家,从而涉及将近50个型号的GPU算力卡...
这些多维度的,海量测试数据样本积累,联合鸿芯智算独树一帜的国产加速平台,主要致力于两点:让更加专业的客户在智算设备选型与匹配模型尺寸之间获得更加权威的,立体化的数据参考标准。另一面,使还在人工智能探索阶段的客户从碎片化的信息茧房中摆脱出来,匹配更加贴合自身使用场景的算力设备,过滤那些夸大,投机取巧的营销。
8.GPU+CPU全国产化、有助于构建长久的智算战略
随之国际贸易摩擦,地缘政治不稳定,以及对NVIDIA反垄断调查...
构建全国产GPU智算体系、实现自主可控而非依赖美国NVIDIA,具有深远的战略意义,尤其在当前全球科技博弈加剧的背景下。
技术安全与自主权
美国对华出口管制日益严格,限制高性能GPU(如NVIDIA A100/H100)进入中国市场。依赖国外芯片意味着关键算力基础设施可能随时被“卡脖子”,影响AI、大数据、自动驾驶等核心产业发展。自主可控的GPU体系可保障国家信息安全、科技独立性与战略稳定性。
算力基础设施的战略地位
AI、大模型、自动驾驶、金融科技等领域对GPU算力依赖极高。
已出台政策支持采购国产GPU,推动智算中心建设,目标是到2027年实现软硬件全栈自主可控。GPU是AI算力的核心,国产替代不仅是技术问题,更是国家基础设施建设的关键。
打破生态壁垒
NVIDIA不仅强在硬件,还拥有CUDA等软件生态系统,形成技术护城河。
国产GPU要实现替代,必须构建自己的软件生态,如华为的MindSpore、寒武纪的基础平台等。构建开放、多元、可持续的国产生态,是实现“好用”而非仅“可用”的关键。
企业需要确保智算基建具备长久,稳定的发展战略!鸿芯智算构建CPU+GPU全国产化的智算体系是您智算基础建设构建长期战略的不二之选。尤其在DeepSeek基于MOE优质算法加持之下,利用广泛的国产厂商GPU去构建大规模的训练与推理场景时机已然就绪!
“科普:对于训练后的模型,由于显卡类型和支持位宽等因素的限制,需要将模型原始权重转化为更合适部署的数值精度。确实,将模型从较高精度(如 BF16)转换为更低精度(如 Int4)是一种常见的模型量化策略,用于降低部署成本、减少内存占用、加速推理速度,尤其在边缘设备或大规模部署场景中非常有价值。但这种转换也伴随着一些副作用和权衡:
1. 精度下降,Int4只能表示16个离散值,远低于BF16的表示能力。
2. 模型收敛性问题
3. 兼容性与部署复杂性,并非所有硬件都支持 Int4 运算
4. 梯度消失或爆炸风险(训练阶段),极低精度下,数值表达能力受限,可能导致梯度计算不稳定。
最终:声称可以交付满血运行671B智算环境供应商,客户必须清楚知道该供应商提供模型参考的精度是多少?同时还要确保基于该精度有效并发是多少?最后,上下文长度基准和Token/s/user。每一个维度都对人工智能应用程序生成结果至关重要,而非是单纯的一句:我们提供的算力可以满血运行671B模型。”
在人工智能飞速发展的时代,模型规模不断突破,算力需求日益多元。无论是轻量级推理任务,还是百亿级大模型训练,企业与科研机构都面临着前所未有的算力挑战。
鸿芯智算,以前瞻性的架构设计与全球领先的硬件创新,为不同场景提供最适配的智算解决方案。
🖥️ 桌面级智算:灵活部署,即插即用
AWS-P2:支持扩展至 2 张标准尺寸 GPU,适配 DeepSeek 32B 等中型模型推理任务。紧凑设计,静音运行,适合办公环境与边缘部署。
AWS-P4:支持最多 4 张 GPU,轻松应对 DeepSeek 70B 等大型模型推理。双电源热插拔设计,具备数据中心级稳定性。
无主板架构 + 模块化设计,让桌面级设备也能拥有数据中心级性能。
SLM(小语言模型)需求,乃至70B模型尺寸,基于BF16原始精度模型的GPU算力环境,您都无需占用昂贵的数据中心资源。
🧠通智融合:HCP-48混合算力平台
HCP-48:4U 机架式设备,融合通用计算与 AI 智算,适用于多任务并行处理与模型训练。
支持多种 GPU 类型与异构资源调度,满足企业级混合负载需求。
通算 + 智算一体化,打破传统算力边界,释放更高效的资源利用率。
🚀超大规模扩展:MGP系列全球首创
MGP-410:4U 机架式服务器,支持最多 10 张 GPU,专为大模型训练与推理而生。
MGP-820ls:更大规模的 GPU 扩展能力,支持异构多品牌 GPU 热插拔,全球首创技术。
无论是 NVIDIA、AMD,还是其他品牌 GPU,MGP 系列都能灵活适配,实现真正的异构融合。
AGC-64F 高性能超节点:
融合“AGC架构 + 低延迟全对称高速互连 + 风冷”技术,单机系统可支持多达64张GPU,支持CUDA兼容,采用3D Mesh互联拓扑架构,为超大规模AI模型提供高性能、高能效、低TCO的智算解决方案。
🌐多样化设备形态,精准匹配算力需求
从桌面级轻量部署,到数据中心级混合算力,再到超大规模 GPU 集群,鸿芯智算构建了覆盖全场景的智算产品矩阵。无论您面对的是 7B、32B、70B,甚至更大规模的模型,鸿芯智算都能根据您的具体需求,提供最合适的设备形态与算力配置。
算力不设限,模型无边界。鸿芯智算,为每一次智算突破保驾护航。
10.解决国产GPU使用的最后一公里障碍
在 AI 模型日益复杂、算力需求不断攀升的背景下,国产 GPU 的崛起为行业带来了新的选择。然而,长期以来,国产 GPU 在易用性、兼容性和生态支持方面存在“最后一公里”的障碍,制约了其在实际应用中的广泛落地。
鸿芯智算联合晓软工研院 AI 团队,率先攻克这一难题,打造出一套深度优化的国产 GPU 模型框架,真正实现“即插即用”的国产算力体验。
深度优化模型框架,全面适配国产算子
l 构建类 CUDA 的并行化模型编辑平台,兼容主流 AI 框架与工具链
l 精准适配国产 GPU 厂商的核心算子(如寒武纪、壁仞、摩尔线程等)
l 支持通用型模型(如 LLaMA、DeepSeek)与私有化模型的快速部署与推理
无需重构,无需等待,国产 GPU 也能拥有媲美 NVIDIA 的开发体验。
模型部署更高效,国产算力更易用
l 提供标准化部署流程与自动化工具链
l 支持多种模型格式转换与优化(ONNX、TorchScript、FP16 等)
l 实现从训练到推理的全流程国产化闭环
让国产 GPU 不再只是“硬件选项”,而是真正可用、好用、值得信赖的算力平台。
全天候技术支持,让部署无忧
l 专业 AI 工程师团队 7×24 小时响应
l 提供远程协助、现场调试、定制优化等服务
l 持续更新适配库与性能补丁,保障长期稳定运行
技术支持不止于上线,更贯穿整个模型生命周期。
11.保护企业投资,降低部署成本
开放性架构体系,释放智算潜能
鸿芯智算采用高度开放的架构设计,充分考虑企业在算力部署中的多样化需求,确保最大程度兼容现有通用GPU产品。
整机全部采用全高、全长、双宽的扩展槽位设计,支持主流GPU卡的灵活安装,无需额外改造即可无缝集成,真正实现“即插即用”。
这一设计不仅让用户能够充分复用已购GPU资源,显著降低算力升级成本,更在当前全球供应链不确定的大环境下,有效保护企业的前期投资,提升资产利用率与部署灵活性。
出厂预置推理框架,开箱即用即高效
为进一步提升用户体验,出厂即预置了深度优化、广泛适配的AI推理框架,涵盖主流模型结构与应用场景,支持TensorRT、vLLM、PaddlePaddle等多种推理引擎,并针对国产GPU架构进行底层性能调优。
用户无需繁琐配置,即可快速部署图像识别、自然语言处理、语音识别等AI应用,真正实现开箱即用、即刻高效运行,大幅缩短项目上线周期,提升研发与运营效率。
面向未来的智算平台
鸿芯智算倡导的开放架构不仅是兼容性的体现,更是平台面向未来的战略选择。无论是接入国产GPU加速卡,还是部署异构算力集群,平台都具备良好的扩展性与适配能力,为企业构建自主可控、灵活演进的智算体系奠定坚实基础。
12.自动的资源调度策略、能够更好的权衡性能与成本
灵活策略配置与智能资源调度,为并发而生
平台支持手动配置访问策略,允许用户根据业务需求将特定的访问请求精准分配至指定的GPU或模组,实现任务级别的算力绑定与资源隔离。这一机制特别适用于多租户环境、模型多样化部署或对算力敏感的应用场景,确保关键任务获得稳定、可控的算力支持。
同时,系统内置多维度资源调度策略,支持在多个GPU之间,乃至跨整机GPU节点之间进行自动负载均衡。调度引擎可根据实时访问压力、GPU利用率、任务优先级等指标动态调整资源分配,最大限度提升整体算力利用率与响应效率。
这一设计专为大规模并发访问场景打造,适用于AI推理服务、在线推荐系统、图像处理平台等高吞吐、高并发的业务需求,确保平台在面对海量请求时依然保持稳定、高效、可扩展的运行状态。
13. 保护企业投资、缩短“退役”周期
公开资料显示,传统GPU在高强度计算环境中通常面临 1–3年报废周期,主要原因在于 长时间满负载运行、高温环境、晶体管老化 等因素,导致硬件性能迅速衰退,算力投资回报周期缩短,运维成本居高不下。
鸿芯智算推出的创新型GPU大型智算一体机,在架构设计上突破传统,专为算力稳定性与硬件寿命优化而生:
智能变频调控系统
根据任务负载动态调整GPU频率与功耗,避免长时间满频运行,降低热应力与电流冲击。

多级负载感知机制
精准识别计算任务强度,自动切换至低功耗模式或进入休眠状态,实现“按需唤醒”,有效减少晶体管通断次数。
主动散热与热管理优化
采用分区液冷+风冷混合系统,保持GPU核心温度在安全区间,延缓硅晶体老化过程。
算力调度平台集成
搭载自研算力调度系统,可根据业务优先级智能分配任务,避免资源冗余与无效计算。
投资回报效益
GPU使用寿命延长 50–80%,有效降低硬件更换频率
单位算力成本下降 30%以上,提升整体ROI
支持多租户与弹性算力服务,适配AI训练、推理、渲染等多场景应用
绿色节能设计,符合国家“双碳”战略与数据中心能效标准
鸿芯智算一体机不仅是一台设备,更是一套面向未来的算力资产管理解决方案。通过软硬协同设计,让每一颗GPU都在最合适的状态下运行,实现 性能与寿命的双重最优解。
14.多种国产化通用算力体系可选、提供灵活的CPU选型
在当前信创体系快速发展的背景下,行业用户在算力平台选型时,往往面临多重考量——既要满足业务系统的兼容性,又需契合行业标准与政策导向。尤其在金融、电信、能源、政务等关键领域,私有应用程序的稳定运行与国产软硬件的深度融合成为核心诉求。
多体系兼容,灵活选型
C86-海光体系 兼容x86架构生态,适用于对传统软件兼容性要求较高的行业,如金融、制造、交通等。具备高性能、高稳定性特点,支持主流数据库、中间件与操作系统。
ARM-飞腾体系 面向新兴应用场景,具备低功耗、高并发优势,适用于云计算、边缘计算、移动政务等领域。飞腾平台已通过多项信创认证,生态成熟度高。
龙芯自主体系 完全自主知识产权,代表国产CPU核心技术突破。适用于对信息安全与自主可控要求极高的场景,如军工、政务、科研等。支持国产操作系统与编译环境,构建可信算力底座。
甚至包含了日益强大的RISC-V 处理器体系
架构优势与生态融合
软硬协同适配:支持统信UOS、麒麟、中标麒麟等主流国产操作系统,保障应用无缝迁移
应用兼容性验证:已完成对主流行业软件的兼容性测试,支持定制化适配服务
统一调度平台:通过鸿芯智算算力调度系统,实现跨架构资源统一管理与智能分配
信创生态联动:与多家国产芯片、操作系统、数据库厂商建立战略合作,打造开放协同生态圈
面向未来的国产算力平台
鸿芯智算不仅提供硬件产品,更致力于构建一个 安全、稳定、可持续发展的国产算力生态体系。通过多架构融合与灵活选型,帮助用户在信创转型过程中实现 技术自主、成本可控、性能最优 的战略目标。
15.AWS系列,您无法拒绝的性价比
在广泛的入门级的智算需求中,很多的客户会倾向选购2-4颗NVIDIA Geforce 4090,然后搭配1台企业级GPU服务器。
NVIDIA 4090受益于DeepSeek优质的算法,人工智能以更低的成本走进千家万户,导致市场价格极具不稳定,多次大幅上涨。通常2万1颗4万的采购成本,加之普遍4万1台的企业级GPU服务器,那么2*GPU+X86-Server理论总体成本8万。鸿芯智算推出的AWS 模型一体机的可以覆盖更低的成本而算力几乎高于前者30%。后者还内置了开箱即用的鸿芯智算AIOS可视化模型调度与管理平台。
推理不必上架,性能就在桌面
传统AI推理部署往往依赖机架式服务器,成本高、噪音大、部署复杂。而AWS系列一体机打破这一局限,以桌面形态呈现强大算力。无需机房,无需上架,插电即用,轻松部署于办公桌、实验室甚至家庭工作站。推理性能不再受限于空间与预算,真正实现“随处部署,即刻推理”。

AWS系列:国产GPU的最佳舞台
AWS系列专为国产GPU量身打造,已适配多款主流国产显卡,充分释放其推理性能。无论是寒武纪、燧原、沐曦、天数智芯、摩尔线程...还是其他新兴国产算力平台,AWS系列都能稳定运行、深度优化。在国产化浪潮中,AWS系列不仅是硬件平台,更是国产AI生态的加速器。
静音桌面,澎湃算力
高性能不等于高噪音。AWS系列采用优化散热设计与静音风扇系统,即使在满载运行下也能保持低噪音水平。无需机房隔音,无需担心干扰办公环境。在安静的桌面空间里,你将拥有媲美服务器级别的推理算力,真正做到“静中有力”。
从机架到桌面,AI部署的革命!
AWS系列以极具诱惑的入门级别算力产品被广泛的企业,科研院所,高校,医疗大健康等机构所推崇,正在颠覆传统智算行业在入门级算力产品体系的细分领域。
16.可规避潜在的业务风险、别让消费级GPU拖垮你的AI业务
我们留意到部分客户选择NVIDIA Geforce系列消费级,或称为发烧级的GPU系列,一个主要区别于企业级的标准则是制造工艺带来苛刻环境长期运行的稳定性。
由于不合时宜的用于企业级环境,除了面临厂商特定的性能降级之外,还要进行DIY改造其散热系统,破坏原有的工业设计,增加在人工智能业务场景的不稳定因素。在AI推理场景中,算力设备的稳定性不仅关乎性能,更关乎业务连续性与数据安全。我们注意到部分客户选择了NVIDIA Geforce等消费级GPU,试图以较低成本构建推理平台。但这种选择,往往隐藏着巨大的业务风险。
消费级GPU的隐患:
制造工艺非为长时间高负载设计:消费级GPU主要面向游戏与图形渲染,缺乏企业级环境所需的耐久性与稳定性
性能降级机制:厂商为保护硬件寿命,在高温或高负载下自动降低性能,影响推理效率
散热系统需DIY改造:为了适应企业级运行环境,用户不得不自行更换风扇、加装散热片,破坏原有工业设计,增加故障概率
不稳定因素增加:在AI推理场景中,任何硬件不稳定都可能导致模型崩溃、数据丢失或业务中断
坦白的讲,国产GPU厂商很少出品消费级的产品,普遍是基于企业级的制造工艺,并且由于DeepSeek全球浪潮的推动带来的出货量增加,价格进一步下调,基本与NVDIA消费级的GPU持平。那么,企业是否仍然有需要,把核心智算业务运行在消费级的GPU之上?
国产GPU:企业级制造工艺,稳定性与性价比兼得
与之相比,国产GPU厂商普遍采用企业级制造标准,即使在高负载、长时间运行的环境下也能保持稳定性能。更重要的是,随着DeepSeek等大模型的广泛应用,国产GPU出货量激增,价格持续下调,已基本与NVIDIA消费级GPU持平。
为什么选择国产GPU:
企业级工艺设计:专为人工智能场景打造,稳定性远超消费级产品
无需改造,即插即用:原生支持推理任务,无需额外散热改装
价格优势明显:在性能相当的前提下,成本更低
国产化战略加持:符合数据安全与自主可控要求,适配国产AI生态
企业级智算,不能靠“发烧级”硬件撑场
企业是否真的愿意将核心AI业务运行在消费级GPU之上?面对日益复杂的模型与持续增长的推理需求,稳定性、可维护性、长期成本才是决策的关键。
选择国产GPU,不仅是规避风险,更是拥抱未来。在DeepSeek浪潮推动下,国产GPU已不再是“备选项”,而是主力军。
17.免主板设计的小盒子、更加便于维护
过去,AI推理部署意味着高昂成本、复杂布线与专业运维。AWS系列一体机重新定义部署方式——桌面即是算力中心。
无需机架、无需冗余组件,嵌入式国产化设计让部署更轻、更快、更安全。这不仅是硬件形态的转变,更是AI基础设施的范式革命。
全国产化设计,广泛的兼容性
AWS系列采用全国产化嵌入式板卡设计,涵盖CPU、内存、存储等核心组件,保障数据安全与供应链自主。同时,系统已广泛适配国产GPU:天数智芯、摩尔线程、沐曦、登临、寒武纪…并兼容NVIDIA与AMD等国际主流显卡,实现全球算力平台的无缝融合。国产化与国际化,在AWS系列中不再对立,而是协同共进。
-
即插即用:无需机架部署,快速上线推理服务 -
国产化嵌入式架构:CPU、内存、磁盘全国产化,安全可控 -
极致性价比:相较传统服务器组装方案,成本更低,效率更高 -
广泛兼容性:已适配主流国产GPU,同时支持NVIDIA与AMD显卡 -
桌面形态设计:静音运行,节省空间,适合办公室、实验室等多种环境
-
嵌入式FPGA + ASIC协同设计:提升稳定性与能效 -
模块化卡片结构:更换、升级、维护一插即达 -
无主板=无复杂布线=无故障隐患
-
桌面形态,静音运行:适合办公环境与边缘部署 -
即插即用,无需机架:部署周期从“周”缩短到“小时” -
国产化嵌入式架构:安全可控,适配国产算力生态

