点击上方蓝色字体关注我们
人工智能(AI)应用中,新型存储器相关的研究正在不断深入,在AI加速器等方向有很多顶尖研究团队。最近美国佐治亚理工大学的Shimeng Yu教授团队在2024年1月的顶级期刊-自然-自然综述杂志上面,介绍了用于人工智能硬件加速器的新兴高速存储器的最新进展。其中对于铁电存储器技术在该方面的应用也进行了重点的讨论。以下为文中重点内容:
人工智能(AI)应用需要能够高效处理数据密集型和计算密集型 AI 工作负载的 AI 硬件加速器(架构如图一所示)。AI加速器需要两类存储器:权重存储器及缓冲存储器。权重存储器用来存储人工智能模型参数,而缓冲存储器用来存储计算部分人工智能模型时存储中间输入或输出的数据。除了传统的静态随机存取存储器 (SRAM),以下候选器件都可以用在这个领域:基于无电容增益单元的嵌入式动态随机存取存储器 (eDRAM)、铁电存储器(FRAM)、自旋转移力矩磁性随机存取存储器 (STT-MRAM) 和自旋轨道力矩磁性随机存取存储器 (SOT-MRAM)。
人工智能(AI)硬件(例如张量处理单元(TPU))中的全局缓冲器传统上以静态随机存取存储器(SRAM)为基础,这种存储器的硅基底面昂贵,待机漏电功率高。具有高速度和高耐用性的新兴存储器可以取代 SRAM 作为全局缓冲器。无电容双晶体管(2T)增益单元是嵌入式动态随机存取存储器(DRAM)的一种实现方式,它使用非晶氧化物半导体作为通道材料,允许较长的数据保留时间。铁电存储器等新型存储器可以通过技术创新来提高其循环耐久性,使其成为可行的全局缓冲器候选器件。三维集成将新兴存储器及其存取晶体管全部堆叠在生产线后端(BEOL),为高密度全局缓冲器解决方案铺平了道路,其密度甚至超过前沿节点 SRAM。
对于云中的人工智能硬件而言,前沿节点 SRAM 仍然是一种具有竞争力的高性能技术,而新兴存储器则在边缘人工智能硬件中表现出更多优势,因为在边缘人工智能硬件中,待机漏电功率最小化至关重要。
图1. 张量处理中使用的数字MAC引擎的架构及可取代SRAM的新型存储技术
图1显示了类 TPU 架构中使用的数字 MAC 引擎的通用架构。在层次结构的每一级,中间数据(即 DNN 的输入或输出特征图)都暂时存储在缓冲存储器中。在层次结构的顶层,有一个容量为 1-100 MB 的全局缓冲区,在传统设计中,该缓冲区由静态随机存取存储器(SRAM)缓存实现。SRAM 凭借其快速访问(小于几纳秒)、无限擦写次数(大于1016个周期)以及与前沿节点逻辑工艺(如今的 3 纳米节点及更高节点)的卓越可扩展性,被广泛用作 CPU 或 GPU 的主流片上缓冲存储器。然而,SRAM 是一种昂贵的技术(硅基底面的集成密度相对较低,每平方毫米只有几十兆位),而且待机漏电功率很高(每比特几十到几百皮瓦)。因此,为全局缓冲区探索其他高速存储器候选方案很有意义。虽然在寄存器文件(RF)等需要亚纳秒级访问的低级缓冲区中,竞争技术要取代 SRAM 技术具有挑战性,但在速度普遍较慢的全局缓冲区中,新型存储器技术(如铁电存储器等)的机会却很广阔。
选择缓冲存储器的标准是写入和读取访问速度(<10 ns)和循环耐久性(>1012个循环)。读取访问速度是指读取内存存储状态的时间,写入访问速度是指将内存写入所需状态的时间。访问速度标准是根据末级高速缓存 SRAM 速度(约 10 ns)假定的。循环耐久性定义为每个存储单元在变得不可靠之前允许的写入次数。假设有 150 个训练历时,在 50,000 个 CIFAR-10 训练图像中,每个存储单元的写操作总数为 3.75 × 107;在 100 万个 ImageNet 训练图像中,每个存储单元的写操作总数为 7.5 × 108。CIFAR-10 和 ImageNet 数据集是常用于训练图像识别机器学习模型的图像集合。考虑到 16 颗 TPUv2 芯片可在 2 小时左右完成一次训练(因此一颗 TPUv2 芯片训练一次所需的时间略少于 32 小时,即 10 年内可训练 2,737.5 次),一颗 TPU 芯片可在 10 年内不间断地在 ImageNet 上训练数千次。因此,我们建议设备的耐用性标准(>1012次循环)应支持在设备生命周期内至少进行数千次训练。即使在云 TPU 中,从头开始训练具有挑战性的任务(例如 ImageNet)也不是每天都进行的,因此这一耐用性标准足以在大多数情况下维持训练强度。在这种情况下,现有工业平台上的一些新兴存储器,如相变存储器(PCRAM)和电阻式随机存取存储器(RRAM),由于速度慢(约 100 ns)、循环耐久性低(106-109个循环)和能耗大(写入时>1 pJ /bit),并不符合这些标准。
关于FeRAM(铁电存储器)和FEFET(铁电场效应管)


铁电存储器的进展得益于2011年在掺杂氧化铪(HfO2)薄膜(<10 nm厚度)中的铁电性,这与目前使用原子层沉积的半导体制造技术兼容。铁电存储器利用铁电材料的极化性来实现记忆状态。在铁电存储器(FeRAM)中,金属-铁电-金属(MFM)电容器连接到接入晶体管的漏极(图2c)。在铁电场效应晶体管中,铁电层取代了传统晶体管的栅极电介质(图2b)。
最先进的FeRAM得益于先进的材料和设备工程技术,实现了~1012循环的高循环耐久性。另外,FeRAM的双模式操作可以大幅减少缓冲存储器操作期间破坏性读出的频率。在双模工作期间,频繁更新的数据以易失性类似于eDRAM(嵌入式DRAM)模式存储,而寿命较长的数据则以非易失性FeRAM模式存储。由于在类eDRAM模式下不需要回写以恢复原始极化状态,因此利用双模操作可以降低FeRAM缓冲存储器对于读写循环次数的需求。
索尼公司报告了 130 nm 节点 64 kbit FeRAM macro的开发情况,其中包括低于 500 °C 的 TiN/HfZrOx (HZO)/TiN 堆栈 MFM 电容器。法国CEA-Leti 报告了基于 HZO 和掺硅 HfO2堆栈的 130 nm 节点的类似 FeRAM 宏。台湾工研院最近的工作重点是提高 FeRAM 的可靠性,并建议在铁电电容器的电极中使用 TiON 作为阻挡金属,以减轻电容器的疲劳。此外,还发现金属后退火可进一步抑制疲劳。报告的 4 kb 1T1C FeRAM macro显示了高良率(>98%)和无唤醒特性,耐久性超过 1012次循环。中科院的研究人员展示了基于 HZO 的 9 Mb 非易失性 FeRAM macro,并介绍了旨在提高芯片性能以实现量产的电路设计。(作者注:舜铭存储已经使用HfOx 材料在180 nm和110nm节点上面实现量产,为全球首家实现量产的新型铁电厂商,其推出的32Kb-2Mb的铁电存储器产品及IP macro由于其出色的性价比和可靠性,在消费,工控,耗材,电力等领域得到商业化认证。)
开发AI硬件加速器的新型缓冲存储器,可能会对许多云和边缘人工智能应用产生突破性影响。如果要取代人工智能硬件中基于 SRAM 的全局缓冲器,对新兴存储器的要求是具有快速存取速度(<10 ns)和高耐用性(>1012周期),并应在 BEOL 上制造或利用逻辑技术按比例缩小。铁电(FeFET 和 FeRAM)和磁性(STT-MRAM 和 SOT-MRAM)存储器的持续工业投资为其广泛应用创造了机会。这些存储器件适用于处于边缘的人工智能硬件,待机场景可从低漏电功耗中获益。它们的写入能量如果可以得到进一步降低,将在云中的人工智能硬件中更具竞争力。
参考链接
https://www.nature.com/articles/s44287-023-00002-9
舜铭存储
微信号:SmartmenSMTC
扫码关注查看更多内容
点击下方在看,你最好看

