

CS5698H3实测：每秒1500 tokens，让670亿参数模型跑出新速度

浪潮计算机

2025-05-29

导读：深度测评AI服务器CS5698H3→

浪潮计算机新款AI服务器CS5698H3的性能、能耗以及安全可靠性究竟如何？如何支撑千亿级大模型推理部署？如何助力不同规模的企业智能化转型？知名IT博主深度测评CS5698H3后这样说：

视频原文：

如今DeepSeek应用已经深入到了各行各业，不少用户也希望找到一款算力出众的平台。今天，我们就要为大家介绍一台面向千亿级大模型推理部署，能够应对科研级复杂任务与高精度推理需求的产品。它就是我手边的这一台浪潮计算机最新推出的AI服务器CS5698H3。这款服务器采用了标准机架式设计，整体线条硬朗、简约大气，搭配了最新一代的C86处理器，支持24条64GB的DDR5 内存，并在6U的空间内支持8颗开放加速模块，具备高性能、高扩展、高能效和开放生态等优点，也成为大模型训练和推理的神兵利器。

打开服务器，我们就可以看到它的内部结构十分精妙，上下抽屉式的设计，最大限度利用了机身的空间，8个开放加速模块全互联拓扑连接，通过每秒数百 GB的高效传输，其节点内OAM芯片互联带宽最高可以达到每秒896GB，再配合8个400G NDR或者RoCE高速网络接口，就算是再多再大的数据都传得又快又稳。无论是单机运行还是扩展成多机分布式集群都不在话下。

这么强大的一款性能巨兽，对供电和散热会不会也有特殊的需求，用户又会不会有额外的成本支出呢？其实为了达到更好的散热效果，也为了让算力的价值最大化，浪潮计算机的工程师们也费了不少心思，通过精细化分区、智能散热调控与风道解耦设计等创新型设计，在不额外增加成本的情况下，让这款AI服务器的能效比提升了20%，加量不加价，节能更环保。

在看过了CS5698H3的外观与特色架构之后，相信大家对其性能也充满了期待。下面，我们就针对大模型应用进行详细的测试。首先是BF16精度高性能场景下的表现，这里我们基于Deep Seek-R1/V3 671B大模型，测试长短上下文场景下的性能表现。

最终结果显示，在4096长上下文任务中，4机32卡部署的CS5698H3可以实现每秒1500 tokens以上的总吞吐能力，还支持64路并发。这种表现非常适合包括自然语言处理、生物药物研发、金融分析等需要强大推理和高并发处理能力的场景，也覆盖了当下大模型应用的核心区。而在256 tokens短上下文优化下，CS5698H3的1024路并发吞吐量更是飙升到了每秒3700 tokens以上，效率与国际一线产品不相上下。这样也适合包括智能客服、实时翻译、信息检索等场景，能够显著提升用户的体验。

最后，我们再来看看在高性价比场景下，也就是INT8量化下的表现能力。这里CS5698H3 AI服务器的双机16卡集群，在4096上下文下依然保持了每秒1400 tokens以上的高吞吐，而且显存的占用降低了54%，仅有709 GB，性能快，资源占用率还很低，这样就能大幅度节省客户的硬件成本，适合包括在线教育在内的多并发任务。

由此看来，本次浪潮计算机发布的CS5698H3 AI服务器非常适合当下的大模型应用，尤其能够支持从满血版到蒸馏版的全栈适配。那些对于性能要求极高的大客户，可以选择满血版，充分发挥服务器的极致性能。而对于成本敏感的中小企业则可以选择蒸馏版，这样在满足基本业务需求的同时，还能够有效的节省成本。

总结起来，CS5698H3 AI服务器，最大的亮点就是全栈基于安全架构，从 CPU、OAM模组到BMC芯片等核心部件均实现了安全可靠，尤其在如今复杂的国际形势下，数据安全和供应链稳定至关重要。在保证了根本性的安全之后，CS5698H3还凭借其独特的外观、精妙的内部结构、领先的技术特性，在不同场景测试中都取得了优异的成绩，覆盖了当下热门的大模型应用场景，为国内 AI算力注入新动能，推动安全可靠应用迈上新台阶，更成为了引领行业发展的先行者。

往期推荐

【声明】内容源于网络

浪潮计算机

算力世界，因潮澎湃。浪潮创新技术产品及方案，赋能数字时代新动能。

内容 348

粉丝 0

浪潮计算机算力世界，因潮澎湃。浪潮创新技术产品及方案，赋能数字时代新动能。

总阅读268

粉丝0

内容348