大数跨境
0
0

一览众山小:毅伯智算再次提升R1满血版一体机TORA3000性能,最高吞吐达7442TPS

一览众山小:毅伯智算再次提升R1满血版一体机TORA3000性能,最高吞吐达7442TPS 毅伯智算
2025-03-21
0

近期以来,基于DeepSeek模型的一体机成为行业焦点,产品层出不穷,各方对其性能指标各执一词,但往往脱离测试方法(参数设置)、脱离成本、脱离对标机型谈性能,令市场眼花缭乱。针对上述问题,毅伯智算通过自研的DeepSeek 8卡一体机的性能表现,尽量为企业理性选择一体机提供一个全方位的评估标准。

毅伯智算一周前向市场全新推出搭载满血版DeepSeek-R1-671B8卡推理一体机TORA3000该机基于AMD新一代Instinct OAM GPU单颗GPUHBM3e显存容量高达192GB,总计达1.5TB,搭载毅伯智算自研的针对DeepSeek MOE(混合专家模型)的软硬一体解决方案,采用DeepSeek原生精度FP8(杜绝量化后精度下降导致性能虚标),实现了硬件、组网、功耗的综合成本最优,并可以开箱即用。

日前,毅伯智算在原有性能基础上再次进行优化,在典型企业应用场景下的性能实测吞吐量达到7442TPS,最高并发数支持到900,可以同时支持2000+员工流畅使用


本次优化方案使用的推理框架为毅伯智算自研的TORA-vLLM2.0,结合了vLLMSGLang两种框架各自的优势,在底层GPU硬件上大幅优化了卡间通信以及全自动化的并行策略等,最终使其综合性能为英伟达H20 (HBM 141G型号)性能的1.8倍,达到业界一机8卡部署满血版R1模型的同类产品的绝对高度。

毅伯智算凭借其软硬件一体化的综合优势,提供最具性价比的一体机解决方案:

1)降低客户硬件成本:18卡即能实现上述性能,相比16卡机型方案,成本大幅降低;

2) FP8精度的支持:原生支持 DeepSeek-R1-671B 所采用的FP8 精度,兼容FP64/32/16INT8,在保证推理精度的同时有效降低部署成本;

3)对算子、算法、推理框架协同优化:通过全自研的算子库、编译技术、推理框架等技术手段,实现更快计算效率、长文本和高并发请求支持、更高推理性能。

4)动态专家路由技术MoE模型专家切换效率提升

一文读懂如何选择合适的企业级一体机

如何客观测试一体机性能?准确评估一体机的性能需要科学的测试方法,其中参数设置至关重要,设置不当会导致性能数据失去实际价值。以下设置可以作为企业用户在典型的业务场景下的测试参考:1)输入Token1K-16K,输出Token恒定在1K2)并发数为8-32。最后,建议采用开源数据集和开源测试工具以确保结果可复现,避免某些极端设置下的纸面高性能误导用户。

DeepSeek推理一体机选择满血版还是蒸馏版?满血版与蒸馏版本质上是教师-学生模型架构体系,即前者是知识输出者,后者通过知识蒸馏过程继承前者的知识接收者。满血版可深度处理代码生成、知识图谱构建等高复杂度任务;而蒸馏版作为学生模型,受限于知识压缩与固定架构,仅适用于应用特别定义且相对简单场景。对于大中型企业,至少需配置满血版一体机作为核心引擎,以支撑业务迭代与高密度推理需求。

什么机型成本最优?GPU硬件性能的限制,市场上满血版推理一体机存在单机、双机甚至四机等多种部署方案,但是双机方案相对单机方案的硬件成本和功耗会都会翻倍,四机则更高,并增加额外的组网和运维成本:

DeepSeek原生FP8精度下,一体机(8卡)要流畅运行满血模型,单卡显存需>120G(整机显存>1000GB,显存不足则必须采用多机部署。同时,部分GPU不支持FP8运算,只能量化为INT8FP16模型,但INT8精度下,推理精度会所有下降;FP16会导致所需显存和节点数量翻倍。

为降低部署成本、简化部署复杂性并保证性能,1台标准8服务器上部署原生FP8精度的DeepSeek-R1-671B模型是最优选择,但此方案要求GPU支持FP8精度且单卡显存超过120GB,而目前市场上仅有毅伯智算的TORA3000和英伟达H20-141G可以满足。

关于毅伯智算

作为国内少数实现全栈自研的软硬协同算力解决方案提供商,毅伯智算团队凝聚了超百人的AI工程师,其中核心成员在人工智能与超算领域拥有超10年的研发经验。过去三年,团队始终致力于全栈式AI训推平台的研发,并于2024年依托新组建的毅伯智算主体,推出了全栈式AI训推平台。20253月,毅伯智算进一步推出搭载DeepSeek模型的自研8卡推理一体机TORA3000

邮箱地址:business@ambreai.com



【声明】内容源于网络
0
0
毅伯智算
毅伯智算致力于提供业界领先的全栈式人工智能解决方案。
内容 2
粉丝 0
毅伯智算 毅伯智算致力于提供业界领先的全栈式人工智能解决方案。
总阅读0
粉丝0
内容2