大数跨境

DeepSeek 开源周收官,3FS 与 Smallpond 为 AI 数据处理带来革新

DeepSeek 开源周收官,3FS 与 Smallpond 为 AI 数据处理带来革新 元龙数字智能科技
2025-03-01
3



DeepSeek 开源周收官

3FS 与 Smallpond 为 AI 数据处理带来革新


在人工智能迅猛发展的当下,数据处理与存储已成为制约其进一步突破的瓶颈。DeepSeek 在开源周的最后一天,隆重推出 Fire - Flyer File System(3FS)和基于它构建的数据处理框架 Smallpond,为 AI 训练和推理中的数据难题呈上创新解法。

3FS,即萤火超算文件系统,是专为 AI 工作负载定制的高性能分布式文件系统。它采用并行文件系统架构,摒弃传统的单一服务器集中存储模式,将数据分散在多个节点,让 AI 算法和数据管道能同时访问数据,互不干扰,大幅提升数据处理的并行性。3FS 充分发挥 SSD 和 RDMA 网络的优势,SSD 的高速读写极大缩短数据访问时间,RDMA 技术使数据在机器间直接通过内存传输,绕开 CPU,实现低延迟和高吞吐量。

从设计看,3FS 分离存储和计算,保障数据一致性,提供标准文件接口,还有 KVCache 功能,在 AI 推理时存储已处理词语,避免重复计算,提升推理效率,尤其适用于聊天机器人这类实时 AI 应用。性能测试中,在拥有 180 个存储节点和 500 多个客户端节点的大型集群里,3FS 峰值读取吞吐量达 6.6TB/s;在 GraySort 基准测试中,25 个存储节点和 50 个计算节点的集群,30 分 14 秒完成 110.5TB 数据排序,平均吞吐量 3.66TB / 分钟,展现出强大的大规模数据处理能力。

Smallpond 是基于 DuckDB 和 3FS 构建的轻量级数据处理框架。DuckDB 作为内存数据库,数据存储于内存,处理速度极快。Smallpond 结合 DuckDB 的速度与 3FS 的存储能力,成为便捷的大数据集处理工具。它能借助 DuckDB 特性快速分析转换数据,操作简便,无需长期运行服务,还提供 Python 和 SQL 接口,方便用户处理数据。在 GraySort 基准测试中,50 个计算节点和 25 个存储节点的集群,30 分 14 秒排序 110.5TB 数据,平均吞吐量 3.66TB / 分钟,效率极高。

DeepSeek 开源周的一系列项目在 AI 社区反响热烈。3FS 和 Smallpond 作为压轴项目,将开源热潮推向顶点。3FS 堪称最适合 AI 的数据存储方案,开源后将推动国内开源存储技术发展,助力 AI 自主创新,为全球开发者提供有力工具。但企业应用 3FS 时也需注意,其面向超千节点集群的稳定性尚未经大规模验证,企业要强化存储在加密、访问控制等方面的能力,还要考虑自身个性化存储需求及异构 IT 环境下的兼容问题。

市场上虽有成熟的高性能并行文件系统,如曙光智存 ParaStor,但 3FS 和 Smallpond 凭借独特优势为企业和开发者提供了新选择。DeepSeek 开源周意义非凡,通过开放技术,深耕技术优化,拥抱开源生态,为 AI 生态注入新活力。随着更多企业投身开源,技术壁垒将被打破,我们有望迎来更创新多元的 AI 生态。

-END-

【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读1.3k
粉丝0
内容901