大数跨境
0
0

中国移动:云智算技术白皮书(2025)

中国移动:云智算技术白皮书(2025) 求数科技
2025-09-16
2
为应对 AI 开发周期长、AI 开发门槛高等难题,中国移动通过云原生 AI 底 座技术,提升数据、训练、推理和智能体全链路效能,压缩模型或应用的构建周 期;基于代码大模型内核等 AI 工具链技术,通过拖拉拽或者对话式开发模式降 低 AI 开发门槛,使业务人员也能参与模型构建。
数据处理为大模型提供基础燃料,存在跨模态数据整合难、部分行业数据缺 失、标注工作耗时耗力等痛点,聚焦 AI 场景,创新大模型预训练数据清洗、AIGC 多模态数据整合、数据合成、智能标注等技术,为模型迭代提供合规、多样化的 数据燃料,推动自动驾驶、医疗影像等垂直领域 AI 应用落地。 
面向近期,为 AI 提供高质量数据燃料。数据合成技术突破真实数据瓶颈, 通过模拟生成多样化场景数据支撑模型训练;多模态数据整合,利用全模态大模 型融合文本、图像、音频等,增强跨领域泛化能力;AI 驱动自动化标注,提升 数据清洗效率并优化标注质量;通过动态血缘追踪、数据版本管理,确保数据集 可追溯、无偏见及合规性。
面向中远期,将围绕智能化、实时化与生态协同深化发展。基于 AI 实现全 链路血缘追踪与异常根因定位,推动数据治理从被动转向动态自愈;通过元数据 驱动跨系统数据动态整合,支持多模态数据与实时流批处理的统一管理,破除数 据孤岛;结合多模态大模型实现自动化数据标注、清洗与洞察生成,赋能业务敏 捷迭代;通过联邦学习、边缘节点算力优化实现数据“可用不可见”,保障敏感 场景合规性。
模型训练存在混合并行效率低、低精度训练不稳定等多重挑战。中国移动通 过训练并行优化降低混合并行复杂性,完善 FP8 混合精度训练框架,基于故障容 错提升训练稳定性,通过构建可支撑万亿级参数模型训练的高效框架,加速产业 智能化向超大规模、超复杂场景持续突破。
模型规模突破万亿参数,引发动态负载失衡、多节点显存分配不均衡等问题。 通过建立自动搜索系统实现不同节点规模的最优参数组合。通过动态分析计算图 中的算子特征与硬件资源约束,智能分配计算与通信任务,提升万卡级训练算力 利用率(MFU)。 
面向近期,实现并行策略自动搜索系统。通过解析大模型网络结构并建立算 子级统计指标库,结合专家经验与多目标优化算法,量化评估集群的显存占用与 通信效率,输出兼顾资源利用率与训练速度的并行配置方案,最终在超万卡集群 中实现模型训练 MFU 超 50%。 
面向中远期,研发算子级自动并行框架,动态分析计算图中的算子特征与硬 件资源约束,智能分配计算与通信任务,从而在超万卡规模的集群中实现模型训 练的 MFU 突破 60%。
免费下载PDF文件,请点击以下小程序,搜索:中国移动

【声明】内容源于网络
0
0
求数科技
科技、人工智能、网络安全、科学、工业软件信息资讯
内容 662
粉丝 0
求数科技 科技、人工智能、网络安全、科学、工业软件信息资讯
总阅读517
粉丝0
内容662