

业界首个全栈高精度大模型集群训练模拟器！

云深知网络

2025-05-27

导读：Scale Up/Scale Out架构探索的利器

论文摘要

训练单个大语言模型（LLM）所需的大量GPU严重阻碍了新设计、调优和优化的验证过程，亟需高效模拟器的出现。然而，现有模拟器仅针对整个训练过程的特定粒度，本质上导致模拟结果不够精确。

本文提出SimAI，一个旨在精准高效模拟大规模LLM训练过程的统一模拟器。通过将训练框架、内核计算和集合通信库选择性地高保真集成到模拟流程中，SimAI实现了高精度仿真。该系统进一步采用多线程加速和无锁全局上下文共享技术提升执行速度。

性能验证表明，SimAI在不同测试场景下平均达到98.1%的实测吻合度，证实了其从小规模实验室到大规模工业环境的稳健性和适应性。SimAI为新硬件设计及参数配置提供有价值的指导方针，直接有益于实际生产中的LLM训练。我们还分享了SimAI演进过程中积累的经验与启示。

方案介绍

SimAI是阿里开源的

全栈高精度大模型集群训练模拟器

包含计算、网络

通信库等非常全面的工具

SimAI已经是个标准数字孪生工具

五千万D轮融资，SDN鼻祖押注数字孪生网络

NS-3-ALIBABACLOUD的增强：

QP逻辑支持：基于实际RDMA逻辑实现QP的创建与销毁，允许一对QP承载多条消息；

网卡拥塞控制配置：支持按IP或按QP的细粒度设置，增强配置灵活性；

优化调度逻辑：遵循Max-Min原则，解决网络资源利用率不足与分配不公平问题；

CC模块解耦：实现更高模块化程度与运行效率；