大数跨境
0
0

Next Decade AI Performance, Power, Area with Co-optimization

Next Decade AI Performance, Power, Area with Co-optimization NeuralTalk
2025-07-09
0
导读:后摩尔时代,传统依赖晶体管缩放的 PPA 优化面临挑战,IRDS预测2034年将达极限。为突破此限制,AI 系统需通过多学科 AI 协同优化实现系统级创新,核心方向包括内存中处理、异构集成和边缘智能传

关键词:Artificial Intelligence, Machine Learning, Deep Neural Network, PPA, Heterogenous Integration, system-on-chip, system-of- chips/chipletsco-design

  • System-level Innovatiton for the Next Decade AI Performance, Power, Area with Co-optimization
  • 本文 1914 字,阅读需 7 分钟,播客 6 分钟如下

功耗、性能和面积(PPA)是传统片上系统设计优化中的三个关键参数。

在后摩尔定律时代,面向芯片系统/芯粒(一种新的“片上系统”)的系统级 PPA 改进,依赖于跨全栈创新的多学科人工智能协同优化,包括存内处理、边缘智能传感和异构集成。

unsetunset本文目录unsetunset

  • 本文目录
  • 一、引言
  • 二、系统级创新
    • A. 存内处理(PIM)
    • B. 异构集成(HI)
    • C. 边缘智能传感
  • 三、结论
  • 参考文献
交流加群请在 NeuralTalk 公众号后台回复:加群

unsetunset一、引言unsetunset

近年来,人工智能(AI)取得了显著进展,这得益于机器学习算法的丰富进步、大型数据集可用性的提高以及计算能力的指数级增长[1,2]。

高效人工智能系统设计中的一个关键挑战是,在不同算法、架构和技术上实现【有原则】的性能、功耗和面积利用率(PPA)之间的平衡。

目前,由于大多数与人工智能相关的计算仍部署在传统的基于片上系统(SoC,指将多个功能模块集成在单一芯片上的系统)的处理器上,通过晶体管缩放(指不断缩小晶体管尺寸以提升性能的技术)可以实现显著的 PPA 改进,从而获得更好的系统性能[3]。

然而,这种直接通过技术缩放实现的 PPA 提升正变得具有挑战性,根据国际器件与系统路线图(IRDS)预测,其有望在 2034 年达到极限[4,5]。

unsetunset二、系统级创新unsetunset

在后摩尔定律时代,面向芯片系统/芯粒(一种新的“片上系统”)的系统级 PPA 改进应运而生。

如图 1 所示,这种新“片上系统”的 PPA 优化依赖于跨多学科的人工智能协同设计,涵盖从器件、电路到整体系统集成的各个层面。虽然芯片级的 PPA 改进受到互补金属氧化物半导体(CMOS,一种常用的半导体制造工艺)缩放的限制,但系统级创新,包括存内处理(PIM)、异构集成(HI)和边缘智能传感,已展现出在未来十年释放人工智能全部潜力的广阔前景。

A. 存内处理(PIM)

指在存储器内部实现数据处理功能,减少数据在存储器和处理器之间的移动

尽管人工智能系统正迈向异构计算时代(指将不同类型的计算单元组合起来处理不同任务的计算模式),即计算功能由特定领域加速器而非通用中央处理器(CPU)执行,但以计算为中心的加速器(包括图形处理器(GPU)和人工智能加速器)仍被广泛使用。由于存储器和处理单元之间的数据移动能耗相对高于执行操作本身的能耗,这些以计算为中心的加速器在高效执行不同存储层级之间的频繁数据移动(以支持深度神经网络(DNN)等应用)方面表现不佳

如图 2 所示,存内处理在缓存、主存储器和/或存储设备中集成了处理能力,能够显著提升系统级性能和能效。

然而,存内处理仍存在一些亟待解决的挑战,包括:

  1. 现有的存内处理加速器架构设计缺乏来自实际制造过程的真实器件/电路参数
  2. 由于内部总线带宽有限,需要灵活数据访问模式(包括非本地访问或集合操作)的工作负载仍受数据移动瓶颈的影响;
  3. 需要软件栈的支持——因为许多编译器/库无法利用存内处理的优势
  4. 潜在的系统性能下降,因为当前的存内处理设计在实现完整应用方面缺乏灵活性,且需要与处理器进行内存共享或细粒度同步。

B. 异构集成(HI)

指将不同工艺、不同功能的芯片或模块集成到一个系统中的技术

依赖特征尺寸缩小(维度缩放)的传统半导体技术正接近其物理极限。为在先进封装中实现具有成本效益的系统,越来越需要将“超越摩尔定律”的异构集成与“摩尔定律”的传统晶体管缩放相结合,这对下一代人工智能计算至关重要[8]。

根据 IEEE 异构集成路线图[9]和半导体研究公司(SRC)微电子与先进封装技术路线图[6],异构集成人工智能协同设计将是未来 10-15 年高性能计算的关键推动因素,但跨芯片系统/芯粒的整体人工智能协同设计方法和架构仍需建立在更明确的三维标准和设计工具之上。

表 I 总结了异构集成人工智能协同设计的关键行业投资领域[6]。

C. 边缘智能传感

未来十年,“智能社会”(包括智能工厂、智能城市和智能汽车)将产生海量数据。

这种“从感知到行动”——即高效处理这些边缘传感数据——要求边缘传感器在本地执行更好的信号处理和后续决策,而非将数据传输到云端,并实现大于   的模拟到信息压缩比,以缓解模拟数据洪流

图 3 展示了一个具有本地和分层智能传感的“从感知到行动”系统示例[5],旨在提高能效和系统性能

unsetunset三、结论unsetunset

为充分释放上述人工智能协同设计的潜力,通过算法-硬件的 PPA 协同优化是解决存内处理、异构集成和智能传感相关问题的关键,具体措施包括:

  1. 研究适用于存内处理/边缘传感的前景工作负载,并提取应由存内处理/边缘传感实现的一组基本操作/指令
  2. 引入具有高带宽互连的合适芯粒,并提出静态和动态的智能调度方案
  3. 更好的异构集成,将**存内处理和其他芯粒整合到多个层级的存储/计算体系中,并通过整体设计流程将任务分配到适当的层级**[6,7]。

unsetunset参考文献unsetunset

交流加群请在 NeuralTalk 公众号后台回复:加群

【声明】内容源于网络
0
0
NeuralTalk
关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署,v: zhushi202409
内容 517
粉丝 0
NeuralTalk 关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署,v: zhushi202409
总阅读734
粉丝0
内容517