大数跨境

MoE万亿参数大模型的训练推理瓶颈

MoE万亿参数大模型的训练推理瓶颈 DataFunSummit
2026-04-17
4

10 亿瓦级 AI 工厂突破训练与推理瓶颈的核心技术 长期上下文记忆存储 AI 基础设施设计与实践思路一体基础设施中的通信软件超大规模GPU集群智算底座

构建MoE(混合专家模型) 虽然驱动大模型规模跨越了万亿门槛,但也带来了一场基础设施性能的“噩梦”:专家并行引发的通信风暴、GPU 内存的带宽枯竭、多轮推理的延迟溢出, 以及多智能体 KV 缓存对存储的疯狂吞噬。当模型变得更“聪明”的同时,传统的基础设施已不堪重负。

这不再是单点优化能解决的问题,而是一场系统级的基础设施重构,这就需要从网络、存储到通信库的协同设计来构建大规模 AI 工厂,从而突破性能瓶颈,降低训练和推理的综合成本,并优化综合能效。

4月24日,14:00-18:00,上海圣诺亚皇冠假日酒店,“China AI Infra Day —— NVIDIA 网络技术赋能 10 亿瓦级 AI 工厂”论坛,将深度解析 GTC 2026 最新技术发布,带您直击 NVIDIA 在构建超大规模 AI 工厂的先进技术、最佳实践与参考设计。

活动详情:

【声明】内容源于网络
0
0
DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
内容 692
粉丝 0
DataFunSummit 北京鸿润嘉诚企业管理咨询有限公司 DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
总阅读18.5k
粉丝0
内容692