大数跨境
0
0

业界首个全栈高精度大模型集群训练模拟器!

业界首个全栈高精度大模型集群训练模拟器! 云深知网络
2025-05-27
1
导读:Scale Up/Scale Out架构探索的利器

论文摘要

训练单个大语言模型(LLM)所需的大量GPU严重阻碍了新设计、调优和优化的验证过程,亟需高效模拟器的出现。然而,现有模拟器仅针对整个训练过程的特定粒度,本质上导致模拟结果不够精确。

本文提出SimAI,一个旨在精准高效模拟大规模LLM训练过程的统一模拟器。通过将训练框架、内核计算和集合通信库选择性地高保真集成到模拟流程中,SimAI实现了高精度仿真。该系统进一步采用多线程加速和无锁全局上下文共享技术提升执行速度。

性能验证表明,SimAI在不同测试场景下平均达到98.1%的实测吻合度,证实了其从小规模实验室到大规模工业环境的稳健性和适应性。SimAI为新硬件设计及参数配置提供有价值的指导方针,直接有益于实际生产中的LLM训练。我们还分享了SimAI演进过程中积累的经验与启示。

方案介绍

SimAI是阿里开源的

全栈高精度大模型集群训练模拟器



包含计算、网络
通信库等非常全面的工具
SimAI已经是个标准数字孪生工具

五千万D轮融资,SDN鼻祖押注数字孪生网络



NS-3-ALIBABACLOUD的增强:


QP逻辑支持:基于实际RDMA逻辑实现QP的创建与销毁,允许一对QP承载多条消息;


网卡拥塞控制配置:支持按IP或按QP的细粒度设置,增强配置灵活性;


优化调度逻辑:遵循Max-Min原则,解决网络资源利用率不足与分配不公平问题;


CC模块解耦:实现更高模块化程度与运行效率;



SimAI 是探索Scale-Up
和Scale-Out网络架构的利器

数字孪生大有可为
SimAI期待更多大厂参与

SimAI 相关信息获取及交流移步星球。

相关阅读:


P4可编程SDN交换机

P4教程 P4应用 P4论文

Tofino1 | Tifino 2 |Tofino 3

基于可编程交换机的网络仿真平台

【声明】内容源于网络
0
0
云深知网络
“可能是中国最好的OPEN网络公众号” “嗯,必须是的”
内容 1315
粉丝 0
云深知网络 “可能是中国最好的OPEN网络公众号” “嗯,必须是的”
总阅读1.1k
粉丝0
内容1.3k