大数跨境

昇腾管推理、鲲鹏管 Agent,Agentic AI 让 CPU 重回舞台中央

昇腾管推理、鲲鹏管 Agent,Agentic AI 让 CPU 重回舞台中央 AI前线
2026-05-31
12
导读:是否实现全域内存统一编址和内存语义?
作者 | 褚杏娟

DeepSeek-V4 模型首发适配昇腾芯片,标志着中国 AI 生态发展迈入新阶段。通过芯模协同,昇腾超节点全系列产品已支持 DeepSeek-V4 系列模型,推动中国大模型产业从依赖海外 GPU 与 CUDA 生态,转向由国产芯片、基础软件、编程框架及系统架构共同支撑的新格局。

在鲲鹏昇腾开发者大会 2026 上,中国计算产业呈现三大趋势:大模型能力逼近全球顶级闭源水平;Token 消耗量跻身全球前列;国产大模型与芯片的协同从“可用”迈向“好用、稳用、经济用”的深水区。

在此进程中,昇腾聚焦智能计算底座,解决大模型训练推理、KV Cache、长上下文及吞吐等算力问题;鲲鹏则承担通用计算底座角色,支撑 Agent 编排、工具调用、沙箱执行及安全隔离等企业级 IT 基础设施需求。二者分工明确,共同构建 Agentic AI 时代的完整算力与系统底座。

昇腾超节点:面向 Agentic AI 的算力新范式

Agentic AI 对算力基础设施提出了全新挑战。不同于传统大模型推理,Agent 工作负载涉及多轮规划、工具调用、记忆检索及多 Agent 协同等复杂过程,导致超大 KV Cache、超长上下文、低时延响应及碎片化调度需求激增。传统单卡或松散集群架构已难以适配。

昇腾超节点通过芯片、互联与系统架构的协同创新,旨在让大规模 AI 集群像“一台计算机”般高效运作。

在芯片层面,昇腾持续演进架构,支持 FP8、MXFP8、MXFP4 等低精度格式以提升效率,并兼容 SIMD 与 SIMT 双编程模型,平衡高密度计算与灵活调度。

在互联层面,采用灵衢互联技术实现总线级全连接与平等互联,支持 NPU 与 CPU 直接通信,单跳时延低至 200ns,有效减少碎片化调度中的阻塞。

在系统层面,采用 Clos 与 Mesh 混合拓扑,强调无损、无阻塞及动态负载均衡。华为特别指出,全域内存统一编址和内存语义是衡量超节点架构的关键标准。通过全局单一虚拟地址空间,NPU 和 CPU 可直接以虚拟地址访问任意数据,实现无需改代码、路由或拷贝的 load/store 访问。

这一机制对大模型推理至关重要。统一内存编址实现了 KV Cache 全局共享,不仅易于扩展超长上下文,更显著提升了 Token 生成效率。结合 HBM 与 DDR 分层池化能力,资料显示在 LLM 等场景中,查询时延可降低 3 至 4 倍,训练和推理吞吐提升同等幅度。

昇腾 950 支持 SIMT,首创 SIMD 与 SIMT 混合编程能力

在最新的 950 代际产品中,昇腾加入对 SIMT 的支持,首创 SIMD 与 SIMT 混合编程能力。开发者可根据计算阶段特点灵活选择范式:规则计算部分利用 SIMD 发挥高吞吐优势,不规则控制部分借助 SIMT 提升灵活性。例如在 MoE init routing 算子中,该能力显著提升了开发效率与整体性能,尤其适用于大模型时代的不规则计算与稀疏调度场景。

此外,昇腾致力于提升通信算子编程易用性。通过 SHMEM 编程接口,将通信编程转化为类似访存读写的方式,配合 AIcore 直驱技术绕过传统 CPU 调度,使下发时延优化 30 倍。推出的通信与计算融合 CATLASS 模板库,可屏蔽复杂拓扑差异,使相关算子开发周期缩短 50%,性能提升 30%。

开发者易用性升级:从“能用”走向“好用”

除底层硬件外,昇腾正系统性升级开发者易用性,重点回应底层能力开放、编程友好度及生态兼容等诉求。主要举措包括 CANN 开源开放与分层解耦、深度支持第三方主流开源生态,以及 Mind 系列软件架构演进。

CANN 作为昇腾软件底座,已完成分层解耦开源,开放运行时与算子编译等接口,支持组件独立升级。目前已有 50 多个源码仓开源,赋予开发者在生态接入、分层调用及源码创新上更高灵活性,使其能深入参与底层性能调优。

针对不同开发者需求,昇腾提供多样化编程支持:面向追求极致性能的算子工程师,提供 AscendC 及 CATLASS 模板库,支持细粒度控制;面向注重快速创新的算法工程师,支持 TileLang、Triton 等主流 Tile 编程生态及 PyPTO,以更接近算法表达的方式描述计算。

顺应 Python 成为 AI 开发主流语言的趋势,昇腾全面拥抱 Python 生态。PyAsc 基于 AscendC 增加 Python 接口,使底层并行与访存能力表达更友好;新增基于 Python 的 CATLASS 模板库,将复杂指令序列沉淀为易用模板;PyPTO 则原生支持 Python,可将高层次 Tensor 计算图转换为并行 Tile 计算,通过 MPMD 调度获得高性能。

CPU 重回舞台中央,操作系统迎来新机会

若昇腾超节点解决 AI 算力底座问题,鲲鹏与操作系统则直面 Agentic AI 带来的系统级挑战。随着 Agent 工作负载复杂性增加,CPU 正成为 AI 集群容量规划的独立约束,其规划占比从传统的 10% 提升至 40% 以上,未来甚至可能达到与 NPU/GPU 1:1 的配比。

Agent 执行中的异步分支、常驻控制流、工具调用及状态管理等任务天然适合 CPU 处理。在部分场景中,工具调用时延占比高达 90%,CPU 相关吞吐瓶颈超过 50%。系统热点正重新分布,CPU 从边缘走向中央。

从 Prompt 工程到 Context 工程,再到 Harness 工程阶段,AI 负载逐渐从加速器扩散至整个系统。在 Harness 阶段,CPU 开始主导任务编排,NPU/GPU 更像被调度的 Worker。性能瓶颈也随之从 NPU/GPU 转向 CPU 和操作系统。

CPU 侧内存与存储,正在成为 Agent 的记忆层

除了计算调度,CPU 侧的内存和存储正演变为 Agent 的记忆层。面对持续膨胀的上下文窗口(未来或达百万级 token),将所有推理状态置于 NPU/GPU 显存既不现实也不经济。

更合理的方案是协同 HBM、DDR 与 SSD:最热数据存于 NPU/GPU 侧,具备复用机会的 prefetch cache 及记忆结构存于 Host 侧 DDR,冷数据放入 SSD。通过 CPU 统一管理,形成多层级 Agent 记忆体系,支撑更长上下文与更大规模并发。

异构融合 OS:从资源池化走向 Agent Infra

基于 openEuler 超节点的异构融合 OS,已在池化设备管理、异构融合子系统等方面完成适配,契合 Agentic AI 负载需求。例如,通过主机自适应隔离提升推理吞吐,利用 remote fork 实现全内核快照以加速沙箱启动,或通过内存借用加速 KV Cache 访问。

面向 Agentic AI,操作系统需经历范式变革:从单纯资源管理转向调度智能体完成业务目标。未来或需引入类似“思程”的新抽象,封装模型、Memory 及工具调用等能力,实现 Agentic Scaling。操作系统也将建立多 Agent 启停、编排及全生命周期管理的新能力。

鲲鹏面向 Agent 的三大系统能力:沙箱、记忆与安全

沙箱是 Agentic AI 的基础能力。针对个人助手类 Agent 需长时间运行、强化学习类任务需快速重置等不同需求,华为主张通过 Sandbox SDK 统一不同沙箱方案,提供灵活选择。

为支持 Agentic Scaling(模型通过尝试不同路径解决问题),系统需提供快速快照、回滚及状态隔离能力,避免错误扩散。华为推出 Conch 方向,旨在通过超节点能力减少资源重复,为 Agent 多路径试错提供可控、安全、可回滚的执行环境。

在记忆能力方面,最佳实践显示将信息以文本形式存储于文件系统并通过高保真访问重组,正成为趋势。操作系统原生记忆能力有望解决上下文过载、意图漂移及资源浪费问题,带来系统级质变。

安全则是 Agent 进入企业场景的前提。智能体需具备可控、可知、可恢复的特性,其可信链条必须建立在操作系统与硬件可信根之上,构建可信执行环境。

鲲鹏超节点:Agent 系统智能底座

华为致力将鲲鹏超节点打造为面向 Agent 的系统智能底座。硬件上,凭借双线程灵犀核、CCA/TrustZone 安全能力及灵衢互联优势,支撑高效并发与安全可信;系统上,异构融合池化系统提供全局资源视图,演化为包含资产管理、沙箱、原生记忆及安全保障的 Agent Infra。

综上所述,AI 基础设施的竞争已是芯片、互联、内存、操作系统及开发生态的整体协同。昇腾与鲲鹏的分工协作,代表了华为对 Agentic AI 基础设施的深刻理解,二者正以系统级架构承接复杂负载,扮演关键角色。

【声明】内容源于网络
0
0
AI前线
面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
内容 8541
粉丝 0
AI前线 面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
总阅读125.9k
粉丝0
内容8.5k