大数跨境

AI 智算体系架构革新者,1台=4台的性能,1台成本可节约88%

AI 智算体系架构革新者,1台=4台的性能,1台成本可节约88% 诺亚鸿云
2026-06-06
0
导读:全信创整机64颗48G显存芯片,最大单台支持3TB显存,1台 =4台。
你敢相信吗?除非你做好了“硬碰硬的准备”,直接与产品对比、设备对比。

➢那么第一原则:你需要学习更丰富的、更专业的、行业知识!而不是普遍的非系统化的碎片讯息(这是现代人普遍混淆的)。 

➢包含:深入了解(那些)基于Intel x86 + Nvidia GPUs +尺寸模型的性能,深入了解那些基于鲲鹏+ 昇腾GPUs +尺寸模型的性能。 

➢性能是多维度指标:模型下载地址(这就获取了模型尺寸/精度/文件格式)、首Tokens延迟、并发、上下文长度、及Tokens/s/user; 所以一旦掌握上述经验,那么“硬碰硬”便不是问题。随之储备经验越多,你会诧异发现:“8颗昇腾300I Duo 共768GB显存,在 DeepSeek-R1-Distill-Llama-70B环境中,并发100基准下,4.4 /Tokens/s/User、而First Token/s -49s”...这个性能就是来搞笑的好吗? 同样的模型环境,同样的成绩我们采用4颗国产GPU共256GB显存,即可达到。再强调一次“4.4/Tokens/s/User”是无法接受的成绩。 另外,基于上述环境:8颗昇腾300I Duo 共768GB显存(2)个并发基础上Tokens/s/User 10.4、性能算是可以接受,但体验不佳。 而我们家4颗国产GPU共256GB显存:(4)在并发基础上Tokens/s/User 11.2、刚刚满足体验。所以,有捕捉到“第一原则”的重要性吗?

  挑战之:巨大的显存需求

ØDeepSeekR1/V3全尺寸的模型体积,仅仅是FP8就需要800GB的显存空间占用(未涵动态量化),虽然在模型尺寸与显存需求之间的统计工作是复杂的系统工程,然而FP16精度在推理场景轻松突破1300GB显存是众所周知(未涵动态量化)。

Ø那么,DPSKR1 /V3在保障高精度性能基础上对显存容量硕大需求,导致市场上很难获得单台GPU设备来承载,普遍采智算集群。

  挑战之:智算组网与延迟

ØDeepSeekR1/V3全量,全尺寸的部署需要整体模型分布在多个智算节点,会带来显而易见的网络延迟。

ØNVIDIANVswitch基于INFINIBAND技术,行业内智算组网普遍采用高带宽的以太网互联(如RoCEv2),由于跨节点,分布式带来的延迟是大模型难以接受的,会影响Token/s输出能力,模型参数之间的交互带宽瓶颈

Ø最终结论:由于全尺寸模型对大量显存的需求迫使模型不可避免的分布在多GPU整机,而由于整机组网带来不可避免的网络延迟又需要更多节点提供并发需求,更多节点又需要更多网络互联,更多的延迟..😒

DeepSeek,战略义在大尺寸型不强依赖规格GPU,而这恰是迎了性还不足Nvidia国产GPU利用大量的低算力规格的GPU降部署本,加更GPU/内存使其必跨络而合在个超密度20卡统平台。

这种全方位均衡的智算方案使:全寸、精度大并DeepSeek私有部署以更成本实现同时促进了我们的高密算力平台MPG-820ls/AGC64F在市场的推广速。另GPU供售后服务保障,而且面临着联网即频或断的险。


回归正题:

我们的全信创整机64颗48G显存芯片,最大单台支持3TB显存,1台 =4台。

以16GB*64颗芯片为例对比如下

图片

行业参考:
赛意信息 X 华为昇腾|全面接入DeepSeek助力PCB行业智能跃升
华为官方文件:
图片


【声明】内容源于网络
0
0
诺亚鸿云
专注于全信创鸿芯智算大模型一体机、HX-IPU数据加速单元/分布式存储、HX-DataCore超融合/双活/全闪存存储、云桌面/云终端、等自主可控系列硬件产品及企业数智化转型晓软AI+软件产品的集成、研发、运维、咨询服务。
内容 11
粉丝 0
诺亚鸿云 专注于全信创鸿芯智算大模型一体机、HX-IPU数据加速单元/分布式存储、HX-DataCore超融合/双活/全闪存存储、云桌面/云终端、等自主可控系列硬件产品及企业数智化转型晓软AI+软件产品的集成、研发、运维、咨询服务。
总阅读1
粉丝0
内容11