10月28日,由趋境科技与清华 KVCache.AI 团队共同开源的高性能异构推理框架 KTransformers,宣布已完成对昇腾NPU 的全面适配支持。
通过双方协作,本次更新深度优化了CMake构建系统、流管理与底层算子实现,使开发者能够在单卡昇腾卡+鲲鹏CPU上高效运行 DeepSeek-R1/V3-671B 等千亿级参数大模型。
在华为Atlas 300I A2 推理卡上的实测数据显示,运行 DeepSeek-R1 671B 大模型时,单卡单并发 Decode 速度达到 14.9 tokens/s。
通过以下多项系统级优化,KTransformers 在大模型推理中实现了显著的性能提升与资源占用优化,显存占用降低百分之九十以上:
CPU-NPU 异构协同:基于计算强度实施精准负载分配策略,将混合专家模型中计算强度较低的路由专家层参数卸载至容量更大的CPU内存,而将计算密度最高的多层潜在注意力层保留在昇腾NPU上执行;
NUMA 优化:针对多NUMA架构的本地内存分配与线程调度优化,降低访问延迟;
数学库专项加速:结合鲲鹏数学库(KML)对大模型矩阵乘法实现专项加速;
专家延迟计算:采用专家延迟计算技术有效重叠通信与计算过程,提升硬件利用率。
KTransformers 此前已在 GitHub 获得广泛社区关注,此次更新是 KTransformers 首次实现昇腾NPU算力方案的完整适配,为AI软硬件生态提供了高性能、低门槛的推理解决方案,也为广大开发者提供了更灵活、高效的异构推理新选择。
https://github.com/kvcache-ai/ktransformers/blob/main/doc/zh/DeepseekR1_tutorial_zh_for_Ascend_NPU.md
https://github.com/kvcache-ai/ktransformers/pull/1525
◆往期推荐◆


