大数跨境
0
0

打破算力瓶颈!起底百度智能云高性能存储加速系统如何让昆仑芯3万卡集群火力全开

打破算力瓶颈!起底百度智能云高性能存储加速系统如何让昆仑芯3万卡集群火力全开 百度Geek说
2025-05-14
13
导读:100个计算节点并发加载10 GiB的文件仅需1秒

引言

大模型的训练与推理本质上是海量数据处理过程。强大的算力集群不仅依赖高性能AI加速卡和RDMA网络,更离不开高性能存储系统的支撑。

在当前大模型训练的数据读取、Checkpoint加载,以及推理任务中的快速分发和镜像加载等场景中,数据规模从几十GiB到数百TiB,甚至可达数PiB。存储速度越快,算力空闲时间越短。因此,亟需一套能够支持大规模算力集群和海量数据场景的高性能存储加速系统。

RapidFS存储加速集群

在Create 2025大会上,昆仑芯3万卡集群正式发布。为满足其大规模数据读写需求,我们部署了数百台国产CPU服务器构建RapidFS存储加速服务,集群设计总吞吐接近10 TiB/s。

通过部分资源开展的性能测试显示:20个RapidFS存储节点可稳定提供302 GiB/s吞吐;70个节点则达到1.03 TiB/s吞吐。单台节点可提供15 GiB/s吞吐,相当于每TiB裸容量支持300 MiB/s,展现出优异的线性扩展能力。

得益于软硬一体协同优化,RapidFS充分发挥了国产CPU性能与软件加速优势。在70个存储节点加速下,100个计算节点并发加载10 GiB文件仅需1秒,真正实现“数据随叫随到”。

RapidFS产品简介

RapidFS是一款近计算存储加速工具,依托对象存储BOS作为数据湖底座,构建出容量与性能解耦、冷热分层、透明流转的高性能存储方案。通过POSIX挂载和HDFS协议,为上层计算应用提供统一文件访问入口,显著加速AI训练与推理、海量数据处理分析及数据分发等业务场景的存储访问效率。

性能测试详细说明

4.1 服务器配置

本次测试基于昆仑芯3万卡集群环境,百度智能云RapidFS以全托管模式部署于国产CPU服务器,作为近计算存储加速服务运行。

4.2 测试规模

分别对20个和70个存储节点规模的RapidFS集群进行性能测试。

4.3 测试方法

模拟DeepSeek V3模型文件,构造160个4.3 GiB文件(总计688 GiB),导入对象存储BOS并加载至RapidFS集群。每个计算节点启用8个进程持续从RapidFS读取模型文件,压测时长600秒。

4.4 测试结果

测试集群A:20个RapidFS存储节点

测试集群B:70个RapidFS存储节点

测试结果表明,RapidFS存储加速集群具备出色的线性扩展能力和高吞吐表现。百度智能云RapidFS用实际数据验证了国产算力基础设施的技术突破潜力,实现了存储性能与算力需求的“同频共振”,成为大模型高效训练与推理的关键支撑。

【声明】内容源于网络
0
0
百度Geek说
1234
内容 347
粉丝 0
百度Geek说 1234
总阅读3.5k
粉丝0
内容347