关注“电子工程专辑”加小编微信
现已开放地区群,请发送消息【深圳】【上海】【北京】【成都】【西安】到公众号
安谋科技(Arm China)以往的“周易”系列NPU IP,电子工程专辑都有报道过:比如2023年发布的周易X2 NPU IP。最近安谋科技正式发布了“周易”X3 NPU IP——官方标称其AIGC大模型能力提升10倍,CNN模型性能提升30-50%,算力规模在8-80 FP8 TFLOPS间灵活可配
本次发布会也让我们首次有机会,近距离了解在生成式AI大行其道的今天,“周易”NPU IP由内到外、从硬件到软件与生态的构建逻辑,并预见未来2年国产端侧/边缘NPU的走向。
周易X3 NPU IP总览,及其目标应用
安谋科技产品研发副总裁刘浩在发布会上说, “周易”X3 NPU IP已经是“周易”系列的第六款产品。如下图所示,X3应当是目前“周易”系列NPU IP中最高算力的产品。从CNN(卷积神经网络)时代的“周易”Z1, Z2 NPU IP,到Transformer结构的小模型涌现,Z3, X1, X2出现...

2023年以后,AI模型规模持续扩增,安谋科技产品总监鲍敏祺在演讲中说,“‘周易’X3 NPU主要就是针对大模型的计算范式,做出更多优化调整后推出的产品。”所以我们在活动现场看到的演示,基本都是大模型推理方向的,这就与过去几代产品产生了显著不同。
抛开带宽、架构细节不谈,安谋科技标称“周易”X3 NPU IP的大致规格包括:支持的算力范围8-80 FP8 TFLOPS,支持LLM(大语言模型)/VLM(视觉大模型)/MoE(混合专家),支持CNN/Transformer,支持W4A8/W4A16,10倍AIGC大模型能力提升、多核算力高度线性(PPT给出的数字是“实测多核算力线性度”70%-80%)、优化的多任务QoS调度、优化的系统能力,160+算子与270+模型支持...
在偏应用层面的具体性能方面,安谋科技在发布会上给出的信息不多——比较有参考价值的这组数据是,在10 TFLOPS算力、64GB/s带宽的情况下,推理Llama2 7B模型,TTFT(首token时延)447.8ms,TPS(每秒token数)20 tokens/s。这是个对于端侧应用而言,相当理想的结果。
这里安谋科技还给到了两个数字:“Prefill利用率”72%,“Decode有效带宽利用率”>100%。鲍敏祺谈到,这两个数字达成了“AI的新标杆”。因为“客户总是希望每一分算力与带宽投入都能得到充分利用,这是X3 NPU给出的答卷”。

硬件架构:DSA+DSP,专用+通用
本文尝试从硬件与软件两个方向,来看看“周易”X3 NPU IP能带来什么。硬件能力方面,鲍敏祺总结“周易”X3 NPU的特点包括:齐全的tensor计算能力、灵活的vector可编程性、高效的硬件加速单元、自定义运算单元、多任务调度器、高带宽支持——后文会对每一点做解析,帮助我们看清当代的端侧边缘NPU究竟长什么样...
总体上,“周易”X3 NPU IP仍基于DSP+DSA架构:DSP提供灵活性,DSA强调特定计算类型的性能与效率。标称的算力与存储带宽规格上,这次安谋科技给出的数字包括256GB/s的单core带宽——4倍扩充,也是大模型推理时代必需的;算力8-80 FP8 TFLOPS——不主打INT8 TOPS,而是谈FP8 TFLOPS,主要是因为X3强调“从定点转向浮点计算”,强调对于浮点计算在大模型推理计算中的价值。

上面这张图是“周易”X3 NPU IP硬件架构的高层级抽象框图。安谋科技NPU产品线负责人兼首席架构师舒浩博士说,X3是“面向CNN&Transformer、诸多主流大模型全面升级的第二代多核DSP+DSA融合架构”。
TEC基于DSP的通用向量加速器,提供灵活性;AIFF就是基于DSA的AI加速器,对主流AI模型提供专门的加速能力;SM即共享存储部分。Core与不同组件“通过可扩展互联总线连接”,最上层还有个L2 memory存储,“层次化内存结构减少对外部DDR的使用”。左侧的硬件调度器(scheduler)“实现多任务、多优先级调度,实现对特定场景的加速”;“在host侧还有软件调度器,联合实现层次化、软硬协同的多层调度系统”。

矩阵计算方面,舒浩给出的数据是“单核矩阵算力提升2倍”——“单核算力提升能够有效减少核数,进而提升NPU的面效比;也能做到更好的数据复用,提升计算效率”。
除了端侧主流精度的支持——尤其“从定点转向浮点计算”强调FP8, FP16, BF16的支持;鲍敏祺特别谈到对于当前主流W4A16, W8A16, W8A8,及未来趋势W4A8的支持。舒浩表示权重部分使用整型,激活值使用浮点,“保证activation精度的情况下,对于weight使用低bit,缓解大模型对于存储容量与带宽的需求,提升整体计算效率。”

而在向量(vector)处理能力方面,一方面“通用向量计算能力——由TEC实现”;另一方面,还有“专用向量加速能力——融合在AIFF里面”——“与专用矩阵加速紧密耦合,针对传统模型与主流大模型进行计算加速”。舒浩还提到了“10倍Softmax提升”,“通过TEC与AIFF的高效协同,以主流大模型Softmax算子为例,实现10倍性能提升”;“TEC+AIFF的融合实现,也保证了对于未来网络演进与算子的灵活支持。”
因为X3的灵活性主要依托向量处理单元实现,X3的“vector处理器是图灵完备的,支持1200+条VLIW指令”;精度支持方面也涵盖INT8, INT16, INT32, FP16, BF16, FP32;基于OpenCL的“高效编程模型,让开发者能够尽快把计算资源用起来”。
X3还有一些固化的硬件加速单元,包括面向“传统模型”的硬化加速单元实现ROI/MIN/MAX/Average/Pooling/Resize等操作;针对“大模型”硬化加速单元,包括针对Softmax和Layernorm等。另外,为应对激活函数不断演进的趋势,X3开放了“自定义运算单元,帮助客户去做各种自定义超越函数,让客户灵活应对算法非线性函数的变化”。
调度方面,如前文所述X3 NPU之中有个硬化的多任务调度器,在0.5% CPU负载开销之下,让“NPU自己去运行”;从硬件层面支持QoS管理,支持高低优先级切换调度,“用户基于模型自定义切换时间,实际硬件开销3μs内”;另外开放软件接口,在更复杂的优先级需求之下,用户可以“构建自己的差异化、满足不同场景的调度方案”。

存储与互连系统也是X3的升级重点。存储带宽方面,规格总览中提到了256GB/s的单core带宽。新的L2 memory能够“有效减少DDR访存”,“提高多核性能线性度”;搭配无损压缩权重——安谋科技自研的权重数据无损压缩技术(WDC),获得更高的等效带宽,实现15%-20%的有效带宽提升。
Compass软件平台:标准模板+差异化
说完NPU硬件本身,再来谈谈配套的SDK“Compass”。下面这张图的蓝色部分,给出了该软件平台的主要构成。作为“端到端软件栈”,“经过图编译器(NN Compiler)转化为我们的图结构,映射到底层算子去跑;OpenCL/C编译器则用于编译用户自定义的算子”; 用于性能与功能调优的profiler和debugger之外,还有个simulator——在没有FPGA资源的情况下,就能提前做软件开发。
面向AI应用时,NPU上层配套的NPU驱动、runtime自然也是完备的,“不管是何平台,都能轻松porting...整体上体现“端到端的工具链部署支持”。

模型支持层面,如规格总览中提到的,周易NPU支持市面上大部分CNN模型与主流大模型——包括各种LLM/VLM/VLA/MoE的适配,如通义千问、Deepseek、Llama、智谱、stability.ai、文心一言、Phi、百川大模型等。
会上列出的模型“都真实地在我们的emulation平台上跑起来,做了支持和适配”,为此“我们投入了非常多的人力”,包括传统CNN模型也在持续优化,“相比上一代有30%-50%的提升”。

Compass SDK现在也支持“Hugging Face模型一键部署”——主要通过SDK之中的端到端部署工具“AIPULLM”直接支持Hugging Face格式——“标准网络通过AIPULLM工具,就能直接生成可执行文件”,最终可在simulator或硬件上部署。
舒浩介绍说,AIPULLM之中的关键技术点包括“完备的图优化”“完整的算子库”,另配有“后端编译器”与“推理引擎”,所以AIPULLM能够让“一键部署”不需要额外的工作量。
在扩展性上,“AIPULLM以源码形式提供,客户基于源码可做进一步自定义开发,实现各种功能”,“可将其视作reference去做进一步的扩展”;“我们也为进阶用户提供了客制化接口:图、算子、推理引擎层面,都让用户能够在标准模型之上再做调优。”
除dump中间IR支持用户与硬件感知的图优化,鲍敏祺特别提到其中自定义算子开发与调试的流程也很简单:自定义算子源码“经过DSL/CL编译器,以及(NN Compiler)插件就能产生binary,并跑在simulator或NPU上,用户因此能够快速做算法迭代”。
另关于其中的NN编译器、主流量化算法的支持、性能优化算法等组成部分实则都相关于计算效率提升,亦为Compass SDK的重要组成部分,受限于篇幅不再做单独介绍。

值得一提的是,作为“开放的软件平台”,包括开放IR规格,开源解析器、TVM前端、量化算法,以及下层的runtime/driver,也是“赋能客户产品差异化设计”的基础。比如说解析器的开源,令客户可做模型的白盒调试;量化算法开源则便于加入客户自研的算法;runtime/driver开源令周易NPU能够跑在不同的SoC平台上...
“周易”的未来发展
舒浩总结“周易”X3 NPU IP计算架构的卖点主要在4个方面:(1)通用+专用的融合架构;(2)灵活可获展,可扩展多核与层次化存储互联架构,覆盖不同应用场景;(3)软硬协同的任务调度,通过层次化的调度与资源管理,硬件调度器面向优先场景做高效支持,基于软件的调度则灵活应对复杂使用场景;(4)丰富的开源生态资源,主要就是本文第三部分提到的软件与工具。
实际上鲍敏祺在从硬件到软件的“全生命周期的支持”之外,还提到了安谋科技在售后支持方面的人力投入,也可以视作“周易”X3 NPU IP的市场价值组成部分——“All in AI”思路之下,构建起“硬件+软件+技术服务”的total solution。受限于篇幅,本文不再多做介绍。
展望未来,随着计算架构的持续演进,在通用+专用架构的基础上,“我们会融入更多流派的计算架构”,同时基于端侧AI对效率的要求,“还需要先进计算范式的支持”——比如“我们和部分leading customer尝试在3DIC、近存计算、存内计算上合作,还在光计算、类脑计算领域进行讨论”——“未来这些计算范式成熟以后,我们会将其融入到计算框架之中。”
另外由于AI模型技术还在发展,“不排除未来出现比‘attention’更高效的网络结构”。故而“我们还会继续演进通用计算能力,令其更高效,支持更多更灵活的量化算法,以及更多样的网络结构”;同时“对软件部署的各种技术做出支持,比如flash attention, paged attention,还有像是Deepseek提出的一系列网络部署的优化技术,都会纳入考量”。
加上更强的计算扩展能力——即更大的算力规模,乃至尝试多die、多chip协同;支持更多数据格式,包括时下很热的话题FP4, 1.58bit, OCP-MX等;更高效的软件使用界面,“定义更友好的编程模型,设计高效的DSL语言,提供层次化、完备的软件接口”;
生态层面,尝试“更开放的生态与合作模式”:“未来客户能够更多参与到模型的部署、调优,以及生态的建设中来;更多合作伙伴,包括研究机构也能参与进来”;“通过软硬件协同、客制化界面,与客户紧密合作,为每个垂直领域定制具备差异化竞争优势的解决方案与系统”。
最后用舒浩对安谋科技“周易”NPU IP的定位做结:“相信AI终有一天会进入我们每个人的生活,对每个人都产生价值。”这需要边端侧AI技术走向普惠,而“边端侧的AI产品对成本、效率的要求很高,因为它关乎我们每个人:我们总是想以更低的成本获得更好的体验。”
“所以安谋科技希望成为NPU领域的领航者:我们愿意成为基石,让每个人都能以很低的成本来获取AI的能力。”
THE END
关注“电子工程专辑”加小编微信
现已开放地区群,请发送消息【深圳】【上海】【北京】【成都】【西安】到公众号


