大数跨境
0
0

华为Flex:ai开源,算力资源平均利用率仅30%的行业痛点,正被华为Flex:ai的技术突破打破

华为Flex:ai开源,算力资源平均利用率仅30%的行业痛点,正被华为Flex:ai的技术突破打破 通信干货
2025-11-21
84
导读:华为Flex:ai开源,算力资源平均利用率仅30%的行业痛点,正被华为Flex:ai的技术突破打破

上海练秋湖研发基地,华为在21日举办的“2025 AI容器应用落地与发展论坛”上,正式宣布开源AI容器软件Flex:ai。这项创新技术通过将单张算力卡切分为多份虚拟算力单元,实现了算力资源平均利用率提升30% 的突破。


当前,AI产业高速发展催生海量算力需求,但全球算力资源利用率偏低的问题日益凸显。行业内算力资源的平均利用率仅为30%至40%,甚至低于30%。小模型任务独占整卡导致资源闲置,大模型任务单机算力不足难以支撑,大量缺乏GPU/NPU的通用服务器更是处于算力“休眠”状态。


一、AI算力利用率低下,行业痛点催生新机遇


容器技术作为一种轻量级虚拟化技术,可以将模型代码、运行环境等打包成一个独立的、轻量级的镜像,实现跨平台无缝迁移,解决模型部署“环境配置不一致”的痛点。


根据Gartner的报告,目前AI负载大多都已容器化部署和运行,据预测,到2027年,75%以上的AI工作负载将采用容器技术进行部署和运行。


华为公司副总裁、数据存储产品线总裁周跃峰指出,传统容器技术已无法完全满足AI工作负载需求,AI时代需要AI容器。


大型语言模型(LLM)的容器镜像轻松突破10GB,多模态模型镜像甚至可达TB级别,传统容器无法支持超大镜像的快速拉起。同时,传统容器主要针对CPU、内存等通用计算资源进行管理与调度,无法对异构智算资源做到算力细粒度切分与智能调度。


二、Flex:ai的三大核心技术突破


Flex:ai作为基于Kubernetes容器编排平台构建的XPU池化与调度软件,通过三项核心技术突破,实现对AI工作负载与算力资源的“精准匹配”。


1. 算力资源切分


针对AI小模型训推场景中“一张卡跑一个任务”的资源浪费问题,华为与上海交通大学联合研发XPU池化框架,可将单张GPU或NPU算力卡切分为多份虚拟算力单元,切分粒度精准至10%。


这一技术实现了单卡同时承载多个AI工作负载,且通过弹性灵活的资源隔离技术,可实现算力单元的按需切分,“用多少,切多少”,使此类场景下的整体算力平均利用率提升30%,提高单卡服务能力。


2. 跨节点算力资源聚合


针对大量通用服务器因缺乏智能计算单元而无法服务于AI工作负载的问题,华为与厦门大学联合研发跨节点拉远虚拟化技术。该技术将集群内各节点的空闲XPU算力聚合形成“共享算力池”。


Flex:ai独有的“拉远虚拟化”技术,可以在不做复杂的分布式任务设置情况下,将集群内各节点的空闲XPU算力聚合形成“共享算力池”。此时不具备智能计算能力的通用服务器通过高速网络,可将AI工作负载转发到远端“资源池”中的GPU/NPU算力卡中执行,实现通用算力与智能算力资源融合。


3. 多级智能调度


面对算力集群中多品牌、多规格异构算力资源难以统一调度的痛点,华为与西安交通大学共同打造Hi Scheduler智能调度器。


该调度器可自动感知集群负载与资源状态,结合AI工作负载的优先级、算力需求等多维参数,对本地及远端的虚拟化GPU、NPU资源进行全局最优调度,实现AI工作负载分时复用资源。


即便在负载频繁波动的场景下,也能保障AI工作负载的平稳运行,让每一份算力都“物尽其用”。




三、Flex:ai对比英伟达Run:ai的独特优势


在AI容器领域,英伟达旗下Run:ai公司的核心产品正是基于Kubernetes构建的软件平台,用于调度GPU的计算资源。然而,华为Flex:ai在虚拟化、智能调度等方面具备独特优势。


与英伟达旗下Run:ai只能绑定英伟达算力卡不同,华为AI容器技术Flex:ai通过软件创新,可实现对英伟达、昇腾及其他第三方算力资源的统一管理和高效利用,有效屏蔽不同算力硬件之间的差异。


在智能调度方面,Flex:ai的智能资源和任务调度技术,可自动感知集群负载与资源状态,结合AI工作负载的优先级、算力需求等多维参数,对本地及远端的虚拟化GPU、NPU资源进行全局最优调度。


例如,Flex:ai可以帮助优先级较高的AI工作负载,获得更高性能算力的资源支持。在出现算力资源被全部占满的情况下,Flex:ai能直接抢占其他任务资源,确保最重要的任务能够完成。


四、开源共建,推动AI走向平民化


周跃峰在论坛上宣布,Flex:ai将在发布后同步开源在魔擎社区中。Flex:ai将与华为此前开源的Nexent智能体框架、AppEngine应用编排、DataMate数据工程、UCM推理记忆数据管理器等AI工具共同组成完整的ModelEngine开源生态。


“AI容器软件一定要和更多模型生态和多样性算力生态进行适配、对接以及调优。我们希望通过开源共建让AI真正走向平民化。”周跃峰表示,目前,该容器软件已在教育、医疗和金融等行业试点应用。


不同行业、不同场景的AI工作负载差异较大。通过开源,Flex:ai可提供提升算力资源利用率的基础能力和部分优秀实践,与业界一道结合行业场景完成落地探索。


此外,华为还希望通过开源推动形成以AI容器技术为载体的资源高效利用新范式。开源的Flex:ai可以在产学研各界开发者的参与下,共同推动异构算力虚拟化与AI应用平台对接的标准构建,形成算力高效利用的标准化解决方案。



五、利好这些A股上市公司


华为Flex:ai的开源发布,将对A股市场中多家布局算力产业链的公司形成直接利好,尤其是算力调度、服务器制造、算力芯片等关键环节的龙头企业。


1. 算力调度与池化领域


中科曙光(603019):作为全国首个跨8省算力调度平台的承建商,实现了“四算合一”(通算+智算+超算+量算)。公司与华为昇腾联合推出“兆瀚”AI服务器,在算力调度领域具有先发优势,2025年智算中心订单超50亿元。


直真科技(003007):电信AI运维领军者,中标郑州航空港9.02亿元算力集群项目,深度参与“东数西算”调度平台建设。公司与华为昇腾合作开发算力调度平台,预计2025年Q3商用,覆盖80%省级智算中心。


品高股份(688227):公司已适配英伟达、昇腾、江原、沐曦等国内外主流算力芯片,支持构建混合异构的AI芯片集群。其Bingo AI Infra平台通过驱动级GPU切割,实现算力精细化分配与全局池化共享,技术与Flex:ai高度契合。


2. 服务器与硬件基础设施


工业富联(601138):全球服务器制造龙头,是英伟达AI服务器的重要代工厂商。2025年前三季度公司CSP客户GPU AI服务器收入同比增长超300%,深度受益于算力资源优化带来的服务器需求增长。


浪潮信息(000977):国内服务器龙头,拥有全系列AI服务器产品,并与英伟达保持长期战略合作关系。公司2025年AI服务器出货量同比增长300%,液冷产品占比提升至45%。


紫光股份(000938):与英伟达合作800G交换机代工,为阿里云提供智算网络解决方案。2025年800G交换机出货量同比增长27倍,网络设备收入占比76%。


3. 算力芯片与光模块


寒武纪-U(688256):AI芯片设计龙头,思元系列芯片覆盖云端训练/推理。与DeepSeek模型完成适配,实测性能超英伟达A100 35%。2025年前三季度营收46.07亿元,同比暴增2386.38%。


海光信息(688041):国产高端处理器领军企业,AI协处理器(DCU)兼容CUDA生态。2025年DCU销量同比增长210%,国产AI芯片市场份额超30%。


中际旭创(300308):全球光模块领军企业,800G产品出货量全球领先,深度绑定国际顶级云厂商和英伟达。2025年前三季度净利润75.70亿元,同比增长95.52%。


新易盛(300502):高速光模块核心供应商,产品涵盖800G/1.6T系列。绑定微软、Meta供应链,2025年海外收入占比83%,前三季度净利润同比增长284.38%。


Flex:ai的发布与开源,不仅是华为在AI底层软件领域的一次重要突破,更是对整个AI算力产业生态的重塑。通过软件创新最大化释放硬件潜能,Flex:ai有望为AI在千行百业的落地提供更加高效、经济的算力支撑。


正如周跃峰所言:“此前AI行业化落地的时候,医院的某一个科室往往买8张卡,最多是16张卡。这样小集群就很难进行粗放的GPU或NPU利用和调度。能不能把一张卡虚拟化成多张卡,以更小的算力单元进行调度,让每一张卡的算力能力能够充分释放出来,让AI能够平民化,这是Flex:ai软件希望解决的问题。“

【声明】内容源于网络
0
0
通信干货
1234
内容 3247
粉丝 0
通信干货 1234
总阅读31.9k
粉丝0
内容3.2k