CCF中国存储大会特别报道｜焱融科技双技术突破，为 “人工智能 +” 筑牢存储根基

焱融科技

2025-09-02

导读：焱融高性能 AI 训推存储为“人工智能+”行动按下“加速键”

2025 年 8 月 28 日至 30 日，第二届 CCF 中国存储大会在武汉隆重举行，众多院士、顶级专家教授、学者及企业代表等汇聚一堂，共同探讨智能时代下存储技术的前沿发展与产业应用，是我国信息存储与计算领域高规格、极具影响力的年度盛会。其中，焱融科技凭借全闪存储与 YRCache 两大核心技术，及其在 AI 训推全流程加速领域的实践成果，成为大会关注焦点。

会上，焱融科技 CTO 张文涛受邀出席 “面向智能时代的数据存储” 论坛，并发表《面向大模型的新一代存储解决方案》主题演讲。他指出，随着人工智能技术加速演进与 “人工智能 +” 行动深入推进，数据存储正面临新要求与新挑战；同时结合行业现状，深入分析当前 AI 数据处理与存储的核心难题，并分享了焱融科技在 AI 存储领域的技术创新成果，以及焱融存储方案在加速 AI 训练与推理中的落地实践案例。

政策与产业双向驱动

AI 存储成 “人工智能 +” 核心刚需

人工智能正从试验探索迈向价值创造阶段，驱动经济社会各领域的深刻变革。就在大会前两天，国务院印发《关于深入实施“人工智能+”行动的意见》（下称《意见》），明确将人工智能定位为新时代的生产力引擎，强调其是重塑人类生产生活方式的核心力量。该文件的发布，为我国人工智能产业发展注入强劲动力，意义重大且影响深远。

在这一轮 AI 技术浪潮中，大模型无疑是最鲜明的特征。大模型训练、推理和多模态学习等场景持续爆发式增长，对底层算力、存储和网络等基础设施提出了极高要求。在存储方面，AI 业务具有数据规模大、访问性能要求高、吞吐与延迟敏感等特点，传统存储系统难以满足其高效处理和智能调度需求。尤其在推理场景中，响应速度直接影响用户体验，而 PB 级 KV 缓存数据的高频访问是影响速度的重要因素。存储同样在其中发挥重要作用：借助存储性能，弥补 KV 计算带来的算力和时间损耗，实现成本、性能与效果的平衡。

高性能、高吞吐、低延迟、易扩展的存储系统，已成为支撑“人工智能+”落地的重要基石。为千亿级参数的大模型训练提供稳定、高效的数据供给，加速推理场景下的 KVCache 数据存储与访问，实现训练与推理资源的统一管理等已成为 AI 产业发展的重要推动力。

全闪存储突破训推性能瓶颈

加速 AI 推理流程

针对 AI 训推的性能需求，焱融科技推出新一代全闪存储一体机 F9000X。该产品基于自主研发的高性能分布式文件存储系统 YRCloudFile，专为 AI 场景设计，从架构到性能全面适配 AI 工作负载。

在技术架构上，F9000X 采用先进设计：全面搭载 PCIe 5.0 NVMe SSD，同时支持 NVIDIA NDR 400 InfiniBand/400GbE RoCE 高速网络，从硬件底层突破数据读写瓶颈，具备极高的读写速度与低延迟特性；在场景适配层面，其能高效支撑海量小文件、高频高并发读写等 AI 核心工作负载，确保数据持续、流畅地输入计算单元，避免因存储卡顿导致算力闲置，充分释放 GPU 等计算资源的潜能，从根本上提升 AI 训练与推理的整体效率。

焱融全闪存储性能实力也多次在国际权威的 AI 存储基准测试中得到验证——连续两年在 MLPerf Storage Benchmark 表现卓越，斩获多项世界第一。在今年 8 月初发布的 MLPerf Storage v2.0 测试中，F9000X 在 3D-Unet 模型测试中，3 节点存储集群带宽突破 513GB/s，刷新全球纪录，用硬核数据证明了其在 AI 训推场景中的领先地位。

推理时代存储创新突围

焱融 YRCache 实现降本增效双赢

当前，AI 产业正加速迈入 “推理时代”，如何在提升推理效率的同时降低成本，成为企业普遍面临的核心痛点。基于在 AI 存储领域的长期业务实践，焱融科技实现了 KV Cache “以存代算” 的技术创新突破，推出 YRCache 推理加速方案，以优化 KV Cache 数据管理为核心，结合多种缓存加速技术，为推理场景提供了全新解决方案。

YRCache 核心优势

PB 级缓存空间：将 GPU 显存无缝扩展至外部高性能共享存储池，存储容量达 PB 级，极大扩展推理上下文，支撑复杂推理任务处理；
分级缓存策略：采用多层缓存架构，通过智能分级缓存调度算法实现 KV Cache 数据的精细化管理，大幅提高 KV 数据命中率，进一步提升推理效率；
共享存储池设计：构建统一的高性能 KV Cache 共享存储池，支持 GPU 对缓存空间的共享访问，提升系统资源调配的灵活性与资源利用率；
降本增效双重价值：以 “存” 代 “算” 释放的宝贵 GPU 显存，可用于处理更多核心计算任务 —— 同等算力资源下，系统支撑的并发请求数量显著增长，在提升吞吐能力的同时，大幅降低推理成本。

这一方案的落地效果已在实际场景中得到验证：在某大型互联网医疗平台的 AI Agent 项目中，YRCache 将推理性能提升 65%，同时显著降低 GPU 资源消耗，使平台在同等算力下的并发能力提升超过 2 倍，既改善了用户使用体验，又为企业节省了大量硬件成本，实现了业务效益与成本控制的双赢。

深耕 AI 存储赛道

持续为“人工智能+”注入存储动能