➢那么第一原则:你需要学习更丰富的、更专业的、行业知识!而不是普遍的非系统化的碎片讯息(这是现代人普遍混淆的)。
➢包含:深入了解(那些)基于Intel x86 + Nvidia GPUs +尺寸模型的性能,深入了解那些基于鲲鹏+ 昇腾GPUs +尺寸模型的性能。
➢性能是多维度指标:模型下载地址(这就获取了模型尺寸/精度/文件格式)、首Tokens延迟、并发、上下文长度、及Tokens/s/user; 所以一旦掌握上述经验,那么“硬碰硬”便不是问题。随之储备经验越多,你会诧异发现:“8颗昇腾300I Duo 共768GB显存,在 DeepSeek-R1-Distill-Llama-70B环境中,并发100基准下,4.4 /Tokens/s/User、而First Token/s -49s”...这个性能就是来搞笑的好吗? 同样的模型环境,同样的成绩我们采用4颗国产GPU共256GB显存,即可达到。再强调一次“4.4/Tokens/s/User”是无法接受的成绩。 另外,基于上述环境:8颗昇腾300I Duo 共768GB显存(2)个并发基础上Tokens/s/User 10.4、性能算是可以接受,但体验不佳。 而我们家4颗国产GPU共256GB显存:(4)在并发基础上Tokens/s/User 11.2、刚刚满足体验。所以,有捕捉到“第一原则”的重要性吗?
① 挑战之一:巨大的显存需求
ØDeepSeekR1/V3全尺寸的模型体积,仅仅是FP8就需要800GB的显存空间占用(未涵动态量化),虽然在模型尺寸与显存需求之间的统计工作是复杂的系统工程,然而FP16精度在推理场景轻松突破1300GB显存是众所周知的(未涵动态量化)。
Ø那么,DPSKR1 /V3在保障高精度性能基础上对显存容量硕大需求,导致市场上很难获得单台GPU设备来承载,普遍采用智算集群。
② 挑战之二:智算组网与延迟
ØDeepSeekR1/V3全量,全尺寸的部署需要整体模型分布在多个智算节点,会带来显而易见的网络延迟。
Ø除了NVIDIANVswitch基于INFINIBAND技术,行业内智算组网普遍采用高带宽的以太网互联(如RoCEv2),由于跨节点,分布式带来的延迟是大模型难以接受的,会影响Token/s输出能力,模型参数之间的交互带宽瓶颈。
Ø最终结论:由于全尺寸模型对大量显存的需求迫使模型不可避免的分布在多个GPU整机,而由于整机组网带来不可避免的网络延迟又需要更多节点提供并发需求,更多节点又需要更多网络互联,更多的延迟..😒
DeepSeek的问世,战略意义在于大尺寸模型不在强依赖高规格算力的GPU,而这恰是迎合了性能还不足以媲美Nvidia的国产GPU。利用大量的低算力规格的GPU降低部署成本,叠加更多的GPU/内存,使其不必跨网络而聚合在一个超高密度的20卡系统平台。
这种全方位均衡的智算方案使:全尺寸、高精度、大并发的DeepSeek私有化部署得以更低成本的实现。同时,促进了我们的高密度算力平台MPG-820ls/AGC64F在市场的推广速度。另外,摆脱因贸易摩擦导致的供货不稳定也很关键。那么被禁用的GPU智算卡或整机根本无法提供售后服务保障,而且面临着联网即降频或中断的风险。
回归正题:
我们的全信创整机64颗48G显存芯片,最大单台支持3TB显存,1台 =4台。
以16GB*64颗芯片为例对比如下:

