大数跨境
0
0

Dragonfly 论文入选 IEEE TON:AI 领域海量镜像与大模型分发的解决方案

Dragonfly 论文入选 IEEE TON:AI 领域海量镜像与大模型分发的解决方案 蚂蚁技术AntTech
2025-10-21
0


作者:容器镜像与存储团队


随着生成式人工智能(AIGC)等技术不断演进,海量镜像与大模型的分发成为AI领域的一项关键挑战。这些挑战包括:海量分片(数百万个)高并发拉取需求严格的延迟要求,以及动态的网络环境等。如何在兼容 OCI 等主流格式,并且无需侵入性的实现动态、高效、可扩展的大规模镜像与模型文件分发系统,已是云原生应用与 AI 服务的迫切需求。


为了解决这些问题,蚂蚁集团与大连理工大学合作设计了一套动态、高效、可扩展的大规模镜像与模型文件分发系统。近日,由蚂蚁集团与大连理工大学共同撰写关于该系统的论文被 IEEE Transactions on Networking (TON) 期刊录用。TON 是由 IEEE 认可的高影响力学术期刊,在网络与系统领域具有重要影响力。本论文的录用标志着研究成果对行业发展具有前瞻性和创新性。








简介


论文设计构建了一个高效、可扩展的 P2P 模型分发系统,该系统是对 CNCF 孵化项目 Dragonfly 的增强,通过多层次设计实现了资源优化与数据同步的有机结合,旨在解决传统 P2P 文件分发系统在面对 AI 大模型(如千亿参数模型)分发的特定挑战时表现不佳的问题



论文链接: https://ieeexplore.ieee.org/document/11152005


项目官网:https://d7y.io


技术方案与创新方法


传统的集中式镜像/模型中心(Container/Model Registry)在并发下载高峰期常遭遇单点带宽瓶颈,导致拉取速度下降、任务延迟增加。另一方面,单纯依赖内容分发网络(CDN)或私有链路虽能缓解部分热点问题,却无法充分利用集群内部节点的空闲带宽资源,同时引入额外的成本开销。


图 1: 文件分发系统架构图


应对这些问题,本方案引入了该方案引入了三个关键设计:首先,引入轻量级的网络测量机制,通过主动探测网络延迟和推断带宽,实时预测网络信息。其次,设计了可扩展的调度框架,通过将推理与调度解耦,提升了调度系统的资源利用率和响应速度。最后,Trainer 模块采用异步模型训练与推理方法,结合图学习算法,实现了基于突发性任务的增量学习。


图 2: 三个关键设计的调度算法


如图 2 所示,轻量级的网络测量机制确保在有限的可用网络资源下对集群中的每个节点进行高效探测。可扩展的调度框架确保足够的可用资源执行调度任务。异步模型训练和推理方法让算法结合节点特性参数进行聚合,以捕捉集群内的相似性,从而提升带宽预测效果。


性能成果


性能评估表明,相较于主流系统和算法,本系统在总加载完成时间上实现了至少 10% 的缩减,同时将节点平均带宽利用率提升约 20%。此外,所提出的轻量级探测机制通过减少探测频率和计算复杂度,相比现有网络探测方法有效降低了资源开销。该系统不仅能满足 AI 对大规模模型分发的高并发、低延迟需求,还能更高效地利用集群资源,希望可以为行业提供参考。


关于我们


我们是蚂蚁集团容器镜像与存储团队,主要参与 Dragonfly(https://github.com/dragonflyoss/dragonfly)、Nydus(https://github.com/dragonflyoss/nydus)、Harbor(https://github.com/goharbor/harbor)和ModelPack(https://github.com/modelpack/model-spec) 等开源项目在内部的开发落地和上游项目的维护。我们致力于打造业内顶尖的容器镜像服务,并推动云原生场景下 AI 模型和镜像分发的社区标准化。

【声明】内容源于网络
0
0
蚂蚁技术AntTech
科技是蚂蚁创造未来的核心动力
内容 1081
粉丝 0
蚂蚁技术AntTech 科技是蚂蚁创造未来的核心动力
总阅读1.3k
粉丝0
内容1.1k