大数跨境

SIICFM Insights | 存算一体产业地图研究

SIICFM Insights | 存算一体产业地图研究 上实资本科技基金
2023-05-09
3
作者 | 范维光

目录



一、存算一体概述

产生的背景;发展史;存算一体的优势

二、存算一体技术路径

技术分类;存储介质

三、存算一体产业情况分析

主要应用场景;市场规模;产业链

四、存算一体产业地图

商业模式;国内外发展现状;国内外主要玩家


01

存算一体概述


1.存算一体产生的背景
(1)冯诺伊曼架构瓶颈:内存墙与功耗墙
当前最先进的计算机采用的都是冯诺依曼架构。在这种架构下,中央处理器CPU负责数据处理,存储器负责数据存储,二者相分离。
随着半导体产业的发展,在用户需求的驱动下,处理器向更高的处理速度发展,存储器向更大的容量和更低的功耗发展。
然而,随着存储器存储密度与存储容量的增大,从存储器中提取数据的时间和能耗也随之增加,导致存储器的带宽速度跟不上处理器的运行速度。这违背了冯诺依曼理论模型的重要假设之一,即计算与存储速度相当。
因此,即使CPU的处理速度越来越快,CPU每个核能够使用的存储资源实际上越来越少,存储器带宽成为运算速度的限制因素,形成内存墙问题。
此外,有研究表明,自2012年以来,AI训练任务的算力需求每3.5个月就会翻倍,这个数字远超过摩尔定律的18月。
在人工智能技术爆发的后摩尔时代,数据在计算机处理器与存储器之间高频传递带来了巨大的能耗问题。以数据中心为例,百亿亿次(E级)的超级计算机成为各国比拼算力的关键点,以现有技术研制的E级超算功率高达千兆瓦,需要一个专门的核电站来给它供电。
计算机处理数据的能耗大部分在数据搬运过程中产生,数据搬运功耗是计算功耗的1000倍。2018年,谷歌在对其产品耗能情况的调研中也发现,系统能耗的62.7%浪费在CPU和内存的读写传输上。
因此,在冯诺依曼存算分离架构下,功耗墙问题也亟需解决。
图 1 冯诺依曼瓶颈

(2)后摩尔时代的高研发成本与芯片性能天花板

在如今的后摩尔时代,芯片的迭代速度已明显放缓,无法达到摩尔定律中每18个月进行一次迭代的速度。
尤其是当芯片进入10纳米以下后,大约两三年进行一次迭代,未来的迭代速度可能进一步放缓至每四五年一代。并且随着摩尔定律放缓,每一代芯片的性能提升非常有限,有研究指出迭代的平均性能提升仅10%。
然而,研发成本却随着性能的提升急剧增长,5纳米芯片相较7纳米芯片研发成本增加50%以上。
对于成本驱动的半导体行业来说,唯有足够大的场景下单个品类才能支撑摩尔定律的发展,但事实上大部分场景难以做到。


2.存算一体发展史

存算一体是一项诞生于实验室的新兴技术,这一概念的提出最早可追溯至20世纪60年代,斯坦福研究所的Kautz等人于1969年提出了存算一体计算机的概念。由于芯片设计复杂、制造成本高昂、算力需求匮乏,早期的存算一体并未进入实际应用阶段,仅停留在研究阶段。

随着半导体产业的发展,冯诺依曼架构下内存墙与功耗墙的问题逐渐凸显,学术界和产业界进行了多种方法的探索。其中,较容易实现的方法是近存计算,即通过缩短内存和处理单元的距离提高内存带宽。例如,利用3D封装技术实现3D堆叠,将多层DRAM堆叠而成新型内存。

然而,虽然广义上近存计算也是存算一体的一种,其本质上只是对冯诺依曼结构的优化,而并未实现对冯诺依曼架构的突破,因此也将面临技术走到极限的问题。

近年来,半导体制造技术进一步发展,为存算一体提供了技术基础。

与此同时,AI、元宇宙等高算力场景快速崛起成为存算一体发展的驱动力,从需求侧拉动了存算一体的发展。

2010年,惠普实验室的Williams教授团队利用忆阻器实现了简单布尔逻辑功能,让忆阻器实现了数据处理和储存应用两重功能。

2016年,美国加州大学圣塔芭芭拉分校的谢源教授团队提出使用RRAM构建存算一体架构的深度学习神经网络PRIME。

相较传统的冯诺依曼架构,PRIME功耗降低至传统方案的约1/20,速度提升约50倍,在深度学习神经网络加速器领域具有广阔的应用前景。

如今,众多海内外知名院校均开展了存算一体相关研究。

在国外,杜克大学、普渡大学、斯坦福大学、马萨诸塞大学、新加坡南洋理工大学等院校均已发布测试芯片原型;在国内,中科院微电子所刘明教授团队、北京大学黄如教授与康晋锋教授团队、清华大学杨华中教授与吴华强教授团队、中科院上海微系统所宋志棠教授团队、华中科技大学缪向水教授团队等,也相继发布相关器件和芯片原型。

与此同时,产业界也正积极展开研究。

在2017年微处理器顶级年会Micro 2017上,英伟达、英特尔、微软、三星等企业都推出了他们的存算一体系统原型。

在国内,专注存内计算赛道的新兴公司,如知存科技、九天睿芯、智芯科、后摩智能、苹芯科技等相继获得融资,加速在该领域的早期市场布局及商业落地。


3.存算一体的优势
(1)更优的性能

存算一体通过存储和计算单元之间数据搬运的减少,可以大幅缩短系统响应时间,提高数据的处理速度,并且存储单元参与逻辑计算意味着可以在面积不变的情况下规模化增加计算核心数。

因此,存算一体架构的性能天花板远高于当前的传统方案,在特定领域算力可达1000TOPS以上。

(2)更高的能效

存算一体技术基于底层架构的创新,可以大幅降低数据传输的能量损耗,提升了能效比。

有研究发现,存算一体芯片每瓦能提供的算力相比传统冯诺依曼架构下的芯片可以得到2-3个数量级(>100倍)的提升。

(3)更低的成本

业内解决大算力芯片的内存墙问题还有另一种常用方案,即采用GDDR或HBM内存方案。

然而,除了冯诺依曼架构下明显的性能天花板外,该方案的成本较高。

若不依赖于GDDR或HBM而采取存算一体架构做大算力AI芯片,可以将芯片成本降低50%-70%。


02

存算一体技术路径


1.技术分类

(1)近存计算 (Computing near Memory)

近存计算在广义上可被纳入存算一体,但本质上未突破冯诺依曼架构。

计算部分通过存储芯片外部的计算部分完成,通过缩短计算芯片与存储芯片的距离,降低数据移动造成的延迟与功耗。

这种架构设计的代际设计成本较低,适合传统架构芯片转入。

近存计算技术成熟较早,已被广泛应用在各类CPU和GPU上。例如,阿里达摩院2021年研发的基于DRAM的3D键合堆叠存算一体芯片采用的就是近存计算技术,在特定AI场景中,其性能提升10倍以上,效能比提升300倍。

图 2 近存计算原理示意

(2)存内计算 (Computing in Memory)

存内计算技术中,计算单元和存储单元位于同一芯片,但计算单元和存储单元的电路设计相分离,计算操作通过存储芯片/区域内部的独立计算单元完成,这种路线一般用于算法固定的场景算法计算。
例如,三星在2021年发布的HBM2-PIM采用的是存内计算技术,其中具有计算功能的DRAM die内部集成了计算逻辑单元,即将AI引擎引入每个存储子单元,可实现高达1.2TFLOPS的计算能力。
此外,采用存内计算的典型代表的公司还有Mythic、千芯科技、闪亿、知存、九天睿芯等。

图 3 存内计算原理示意

(3)查存计算 (Computing with Memory)

查存计算技术中,存储单元和计算单元相融合,计算操作通过存储器颗粒上嵌入的算法完成,因此没有独立的计算单元,通过在存储芯片内部查表来完成计算操作。
GPU中对于复杂函数就采用了这种计算方法,是早已落地多年的技术。
例如,2010年惠普实验室Williams教授团队利用忆阻器实现简单布尔逻辑,以及2016年美国加州大学圣塔芭芭拉分校的谢源教授团队提出利用RRAM构建基于存算一体架构的深度学习神经网络(PRIME),均通过查存计算技术实现。

图 4 查存计算原理示意

(4)存内逻辑 (Logic in Memory)

存内逻辑技术是通过在内部存储中添加计算逻辑,直接在内部存储执行数据计算,该存算技术较新。
在这种架构下,数据传输路径最短,同时能满足大模型的计算精度要求。
例如,台积电的研究人员在ISSCC 2021会议上公布了一种改良的SRAM存储器阵列采用了存内逻辑技术,该SRAM阵列采用22nm工艺,功率效率为89TOPS/W,运算密度为16.3TOPS/mm2。

图 5 存内逻辑原理示意

2.存算一体的存储介质
(1)成熟存储器
目前成熟存储器有NorFLASH、SRAM、DRAM。
知存科技认为,在容量密度方面,Flash>DRAM>SRAM;在电路设计难度方面,DRAM>SRAM>Flash;在量产难度方面,DRAM>Flash>SRAM。

①NorFlash

优点:器件工艺成熟,研发成本低,可靠性和使用寿命较优。

缺点:工艺节点受限,难以突破14nm。

适用场景:小算力、端侧、低成本、待机时间长的场景。

应用案例:恒烁半导体推出基于NorFlash的存算一体AI推理芯片,聚焦边缘计算领域,适用于物联网终端设备;知存科技基于NorFlash的存算一体SoC芯片实现量产,可应用于智能可穿戴设备、智能安防等端侧小算力场景。

②SRAM

优点:器件工艺成熟,存取速度是成熟存储器中最接近CPU的。

缺点:容量密度较小,精度随读取时虽开启的字线数增加而降低,价格昂贵。

适用场景:数字模式下SRAM适用于大算力、云计算、边缘计算场景;模拟模式下SRAM适用于小算力、端侧、不要求待机功耗的场景。

应用案例:后摩智能基于SRAM的存算一体大算力芯片,已成功点亮并跑通算法模型;苹芯科技开发实现多款基于SRAM的存内计算加速单元并实现流片,目前处于外部测试和demo阶段,可应用于图像识别、无人机等领域。

③DRAM

优点:器件工艺成熟,所用元件少,集成度高,成本低。

缺点:读取速度慢,需要不断刷新,刷新时不能进行读写。

适用场景:适用于大算力AI芯片,且由于对于架构的改变最小,适合现有冯氏架构向存算过渡。

应用案例:阿里达摩院基于DRAM的3D键合堆叠存算一体AI芯片,应用于自身生态。

(2)新型存储器

新型存储器有ReRAM、MRAM、PCRAM等。其中,非易失存储器ReRAM和MRAM在存储密度上可以做得很大,且在性能上是目前非易失存储器中公认最好的,因此业内普遍认为二者为未来发展趋势。

①ReRAM

优点:结构简单,性能好,功耗低,与CMOS工艺兼容性高,可并行处理大量数据,与神经网络运算的适度高。

缺点:还处于研究阶段,需要时间调试。

应用案例:亿铸科技基于RRAM研发“全数字存算一体”大算力芯片,通过减少数据搬运提高能效比,同时利用数字存算一体保证运算精度,适用于云端AI推理和边缘计算。

②MRAM

优点:性能好,开关速度极快,功耗低,无限写入次数。

缺点:结构复杂,对材料要求高,成本高。

应用案例:2022年,三星研究团队成功开发了一种能演示内存内计算架构的MRAM阵列芯片,命名为“用于内存内计算的磁阻内存交叉阵列”。

③PCRAM

优点:抗辐射特性好,可满足航天需求。

缺点:有很多难点待攻克。

应用案例:2018年,IBM在Nature期刊发表的论文提出了全新芯片设计的方案,通过PCM存储技术来加速全连接神经网络的训练。


03

存算一体产业分析


1.存算一体主要应用场景

(1)小算力与大算力场景概述

存算一体的主要应用场景可以根据算力需求的大小分为两大类,小算力场景和大算力场景。
小算力场景下,存算一体技术面向端侧,主要需求是低功耗与高能效比;大算力场景下,存算一体技术面向云侧,主要需求是大算力与高能效比。
目前实现落地的场景集中在小算力低功耗场景中,如智能可穿戴设备、智能安防、AR/VR等。
数据显示,80%的存算公司优先布局小算力场景,中国存算一体公司在端侧小算力场景中已有三家实现小规模量产,分别是知存科技、九天睿芯、闪易半导体。
由于技术复杂性以及对通用性的强调,面向云侧大算力场景的存算一体还未在落地上做到优势明显。
随着新型存储器技术的进一步发展,以及完成工具链的逐步形成,存算一体技术将走向更大算力的场景,如智能驾驶等。
事实上,待技术进一步成熟后,存算一体在云侧的竞争力影响将远大于端侧的竞争力影响。
有研究者估算,存算一体技术在端侧的竞争力影响约占30%,而在云和边缘的大算力领域的竞争力影响可达约90%。

2.小算力场景细分领域

①智能可穿戴设备

智能可穿戴设备指应用穿戴式技术对人们的穿戴进行智能化配置,将各种传感、识别、连接和云服务等,植入到人们的眼镜、手表、手环等日常穿戴中。

该应用领域的主要特征是总是处于工作、待机或可存储状态。

因此对于低功耗需求强烈,待机时间是产品竞争力的核心。

一般来说,所需存算一体芯片的储存空间约2MB,算力约100GOPS。

芯片技术是智能可穿戴设备发展的核心,芯片的技术成熟度会影响可穿戴设备的性能。

存算一体技术能够减少不必要的数据搬运,功耗相较传统的芯片降低10-20倍,符合可穿戴设备对低功耗的需求。

在极低功耗的基础上,存算一体在人工智能加速上比当前芯片的效率提升几十到几百倍不等。代表产品有九天睿芯的ADA100(功耗为同类芯片1/10)、Syntiant的NDP102(与当前基于MCU的架构相比,效率和性能提高了100倍)。

②智能安防

智能安防指基于智能视觉、多维感知、组网协同等技术,打造前段智能体系。

该应用领域的主要特征是智能安防作为偏视觉类的垂直场景,算法已相对稳定,对于初创公司来讲能够以较小的成本突破传统大厂的生态壁垒。

一般来说,所需存算一体芯片的储存空间约32MB,算力约16TOPS。

存算一体的高并行计算能力使得计算的实时性比传统芯片高出很多。代表产品有闪易半导体的闪锌石HEXA01(计算效率比同类芯片提升10倍)。

③移动终端

移动终端指具备通信功能的微型计算机设备。

该应用领域的主要特征是移动终端的云端推理可能因网络延迟带来用户体验的问题,并且受制于手机电池容量,因此对芯片的功耗有严格限制。

一般来说,所需存算一体芯片的储存空间约64MB,算力约32TOPS。存算一体在视觉信号处理上可以达到端侧产品低功耗要求。

④AR/VR

AR/VR通过处理相机,激光雷达,ToF和音频传感器协同操作,为游戏等娱乐场景提供最佳体验。

该应用领域的主要特征是AR需要处理目标识别、定位、跟踪和建模等人工智能和计算机视觉问题,且计算量大。

此外,AR/VR眼镜中的电池小、散热差,对低功耗都有较高的要求。因此,在SoC设计方法上需要做出改变以同时满足高性能和低功耗的需求。

一般来说,所需存算一体芯片的储存空间约128MB,算力约64TOPS。

轻薄是AR/VR眼镜的必然趋势,在电池技术没有突破的情况下,芯片功耗需要大幅下降,因此存算一体非常适合嵌入到SoC当中。

同时,AR/VR场景中会涉及较多的人工智能交互(如语音识别,手势识别),存算一体在计算效率和实时性上的优势也可以得以发挥,为用户提供更真实通畅的交互场景。

代表产品有Mythic的Mythic AMP(拥有四个模拟矩阵处理器,AI计算性能达100TOPs,支持多达3.2亿个权重,以低于25W的功率处理复杂的AI工作负载)。

(3)大算力场景细分领域

自动驾驶指无需人类操作即能感测其环境及导航,通过雷达、光学雷达、GPS及电脑视觉等技术感测环境。

该应用领域的主要特征是对芯片的散热、实时性及可靠性有高要求。

一般来说,所需存算一体芯片的储存空间在512MB及以上,算力在256TOPS及以上。

存算一体技术低功耗和低延迟的特性能够很好地匹配自动驾驶的需求,可以在较低的成本下把算力做大。

此外,自动驾驶场景的算法演进没有那么快,对于初创公司来说能够以较小的代价突破芯片大厂的生态壁垒。

代表产品有后摩智能的首款芯片(样片算力达20TOPS,可扩展至200TOPS,计算单元能效比高达20TOPS/W,在相同功耗下提供10倍算力)。


2.存算一体市场规模

现阶段,存算一体行业内公司的主要发展方向大多集中在容易落地的小算力场景,满足端侧对低功耗小算力的需求。
目前小算力场景下,存算一体芯片产品的定位大多是替代性产品。
然而,长期来看,存算一体芯片还有巨大的发展潜力,将在市场需求的驱动下,随着技术的不断成熟,不仅在小算力场景下快速发展,还将逐步扩展到整个AI芯片领域。
根据量子位智库的测算,存算一体的市场规模在2025年预计达到125亿元,主要源自小算力场景;到2030年预计达到1136亿元,其中,1069亿元源自小算力场景,67亿元源自大算力场景。

图 6 我国存算一体芯片市场规模估算

(资料来源:量子位智库)

(1)2025年-存算一体商业化转折点

存算一体技术从实验室研究成果走向小规模量产一般需要5年,进一步需要再约10年可以有机会实现大规模量产。

国内存算一体初创公司的成立时间主要在2017-2020年间,因此预计将在2025年前后迎来存算一体行业的商业化转折点。

在此期间内,增长来源主要为定制开发费用和SoC芯片销售费用。

在2025这一转折点上,预计在我国将有3-5家存算一体公司实现小规模量产,应用场景仍旧以小算力场景为主,但将从现阶段应用最多的语音识别、唤醒类小算力场景(如麦克风、智能手表和TWS耳机等)拓展到视觉处理类小算力场景(如智能安防、移动终端和AR/VR等)。

(2)2030年-存算一体规模化转折点

存算一体产品从进入市场得到市场验证到进一步实现标准化产品的打造一般也需要5年。

标准化产品的实现意味着可以基于产品的通用性逐步从小规模量产走向大规模量产,因此预计到2030年存算一体产业将迎来规模化转折点。

在这一转折点上,存算一体将在小算力场景实现完全替代,并在大算力场景开始崛起,覆盖大数据检索、蛋白质/基因分析、数据加密、图像处理等。

从小算力场景拓展到大算力场景,一方面需要NPU架构和编译器做一定修改以支持更通用的场景,另一方面也需要新型存储器作为支撑来进一步提高芯片性能,目前新型存储器,如RRAM等,距离工艺成熟还需2-5年。


3.存算一体产业链

目前,存算一体产业链处于未成熟阶段。存算一体行业的发展需要芯片生产各环节都进行相应的技术调整,存算一体初创公司受限于现阶段存算一体较小的市场规模,无法让各环节公司单独为其进行配套工具与软件的研发生产。
因此,上游的存算一体公司往往依赖于全栈自研。除流片与代工厂合作外,需要具备编译工具开发、算法开发等自研能力。
中游的存算一体公司主要负责芯片设计,在芯片制造和分测方面可与代工厂合作。
我国存算一体产业链生态有待进一步巩固完善。
一方面,在工具链和EDA设计软件方面,国内外存算一体公司目前都选择在已成熟工具链和EDA软件上改造的模式,专门针对存算一体技术的工具链和EDA设计软件还有待开发。

另一方面,我国存算一体公司的存储技术大多来自对国外IP的购买,未来可能面临IP授权问题。

图 7 存算一体产业链上游分类


图 8 存算一体产业链中游分类


图 9 存算一体产业链下游分类

(资料来源:量子位智库)


04

存算一体产业地图


1.商业模式

目前,存算一体行业的商业模式主要有三种。

一是定制开发或联合开发。

由于目前存算一体技术产品的通用性还难以达到大规模量产标准化产品,一部分下游终端客户或芯片大厂选择找存算一体公司定制开发存算一体芯片,还有一部分大公司选择与存算一体初创公司合作研发。

此外,现阶段许多小算力低功耗场景都需要定制的SoC芯片来满足特定场景的需求。

二是IP授权。

做存储器出身的存算一体公司倾向于选择IP授权的方式,其主要竞争力在于存储器技术的先进性与成熟性。

存算一体技术在各环节都具有较高的研发门槛,且突破难度大,只要学术界和产业界能够持续投入,在突破核心技术后,围绕存算一体技术的IP授权将成为存算公司的一大营收来源。

三是出售自主SoC芯片。

以电路设计或芯片架构设计出身的存算一体公司倾向于选择出售自主SoC芯片,其主要竞争力在于通过芯片设计规划能力提供高性能SoC芯片。


2.国内外发展现状

国内外芯片大厂均积极研发或参与合作研发存算一体技术,如三星电子、SK海力士、台积电、美光、IBM、英特尔等都在进行存算一体技术的研究,其中有明显进展是三星电子、SK海力士。

此外,国内外均出现了不少存算一体初创公司。

国外头部初创公司有Mythic、Syntiant、d-Matrix、Crossbar等;国内头部初创公司有九天睿芯、阿里达摩院、后摩智能、知存科技、苹芯科技、千芯科技、恒烁半导体、杭州智芯科、闪易半导体、新忆科技、中科声龙、亿铸科技等。

在成立时间上,国外的存算一体初创公司成立时间普遍比国内早5年左右。

在融资方面,国外的存算一体公司集中在C轮和D轮;国内头部存算一体初创公司中,知存科技目前在B1轮,其余均在A轮前后。

在技术路径的选择上,大厂往往优先选择容易落地的近存计算,以满足客户需求或自身生态系统中应用场景的发展需求;初创公司则更多愿意优先确保技术先进性,选择研发存内计算。

在存储器的选择上,2015年左右成立的存算一体公司往往选择当时已经成熟的NorFlash;2020年左右成立的公司则更多选择技术逐渐成熟的SRAM作为存储器;随着新型存储器技术的进步,还有初创公司,如亿铸科技,直接选择基于新型存储器件RRAM做存内计算研发。


3.国外主要玩家

(1)三星电子

企业简介:1938年于韩国成立,是韩国最大的电子工业企业,同时也是三星集团旗下最大的子公司。

产品及解决方案——HBM-PIM芯片:

将AI引擎引入每个存储库,从而将处理操作转移到HBM,减轻在内存和处理器之间搬运数据的负担。

可以提供2倍的系统性能,同时能耗降低了70%以上。

MRAM阵列芯片通过用新的“电阻和”存内计算架构替换标准的“当前和”存内计算架构来演示存内计算,解决了MRAM器件低电阻的问题。

(2)SK海力士

企业简介:海力士即原现代内存,2001年更名为海力士,是世界第三大DRAM制造商。

产品及解决方案——GDDR6-AiM:

将计算功能添加到数据传输速度为16Gbps的GDDR6内存产品中。

与传统DRAM相比,将GDDR6-AiM与CPU、GPU相结合的系统可在特定计算环境中将计算速度提高16倍,且可使功耗降低80%。

(3)Mythic

企业简介:Mythic成立于2021年,是一家专注于研发深度学习的神经网络芯片的公司。借助Mythic的集成开发环境,人工智能开发人员甚至可以快速部署最复杂的深度神经网络,并确信它们将从数据中心到边缘设备有效执行任务。

产品及解决方案1——M1076 Mythic AMP™:

在单芯片中提供高达25TOPS,适用于高端边缘AI应用,集成了76个AMP块,可存储多达80M的权重参数并执行矩阵乘法运算,无需任何外部存储器。

这使得M1076能够提供桌面GPU的AI计算性能,同时消耗仅1/10的功率。

4通道PCIe 2.1接口,带宽高达2GB/s。

Mythic的AI工作流程如下图所示,先在Mythic模拟矩阵处理器(Mythic AMP TM )上部署在Pytorch、Caffe和TensorFlow等标准框架中开发的DNN模型。

模型经过优化后,从FP32量化到INT8,再针对Mythic模拟计算引擎(Mythic ACE TM )进行再训练,通过Mythic强大的图形编译器进行处理,然后将生成的二进制文件和模型权重编程到Mythic AMP中进行推理。

开发人员还可以使用经过预审的模型来快速评估Mythic AMP解决方案。

图 10 Mythic的AI工作流程

产品及解决方案2——Mythic MP10304 Quad-AMP PCIe卡:

四个M1076 Mythic AMP™,支持多达3.2亿个片上权重,AI计算性能高达100 TOPs,4通道PCIe 3.0,带宽高达3.9GB/s。

图 11 Mythic MP10304 Quad-AMP PCIe卡

融资情况:2021年5月,Mythic在C轮融资中筹集了7000万美元,由美国云服务供应商慧与科技和美国投资管理机构贝莱德领投。自成立以来,Mythic的总融资额已达到1.652亿美元。

(4)SST

企业简介:Silicon Storage Technology, Inc. (SST)成立于1989年,是SuperFlash®技术的创造者,该技术是一种创新、高度可靠和通用的NOR闪存。

SST是MicrochipTechnology Inc.的全资子公司,专注于将嵌入式非易失性存储器(NVM)技术授权给代工厂、集成设备制造商(IDM)和无晶圆半导体公司,用于汽车、安全智能卡、物联网(IoT)、人工智能(AI)、工业和消费市场。

产品及解决方案——memBrain™神经形态内存产品:

基于SuperFlash ®技术以计算用于神经网络推理的向量矩阵乘法(VMM),通过模拟内存计算方法改进了VMM的系统架构实现,增强了边缘的AI推理。

memBrain神经形态产品将突触权重存储在浮栅存储器内,以显着改善系统延迟。

图 12 memBrain™工作原理

(5)d-Matrix

企业简介:d-Matrix成立于2019年,由数字模拟混合信号和数字信号处理领域的世界知名专家创立,他们在Inphi、Broadcom、英特尔、朗讯、德州仪器等公司拥有长年的经验。

d-Matrix着眼的是价值数十亿美元的AI数据中心基础设施市场,试图为其中的各类推理工作负载构建和部署世界上第一个受大脑启发的AI计算引擎,提高客户计算效率。

产品及解决方案1——Nighthawk芯片:

基于小芯片架构,一种使用存内计算技术和小芯片级横向扩展互连进行数据中心AI推理的新方法。

产品及解决方案2——AI计算平台:

结合了智能ML工具和无摩擦软件方法,并结合类似乐高形式的小芯片,将多个编程引擎集成到一个通用封装中。

融资情况:2022年4月,d-Matrix获得4400万美元的A轮融资,由美国风险投资公司Playground Global主导,M12(微软风险基金)和SK海力士也参与其中。


4.国内主要玩家

(1)亿铸科技

企业简介:亿铸科技成立于2021年,据称是目前国内唯一能自主设计并量产基于忆阻器(ReRAM)的“存算搜一体”算力芯片的供应商。

亿铸基于ReRAM的路线来实现大算力的存算一体芯片,以解决现有技术方案中遇到的功耗墙和内存墙的问题,这将使挑战现有AI芯片行业格局成为可能。

该公司拥有世界顶级的科研、工程及顾问团队,为数据中心和自动驾驶等领域打造能效比十倍于现有技术的解决方案。

其研发能力覆盖从存算一体底层器件,芯片设计到AI软件栈。

产品及解决方案:

  • 大算力、高能效比、高精度、易编译的存算一体PCIe加速卡

  • 高性价比、确定性时延自动驾驶存算一体Chiplet模组

  • 首套针对存算一体架构的软硬件协同EDA设计工具和应用开发平台

融资情况:2021年12月获得超亿元天使轮融资,投资方为中科创星、联想之星、汇芯投资(国家5G创新中心)。

(2)千芯科技

企业简介:千芯科技成立于2019年,是可重构存算一体AI芯片的领导者和先驱,在国内最早提出可重构存算一体芯片架构。

基于“算法-芯片-存储-计算协同”的前沿理念,千芯科技为各行各业提供先进的“AI+商业算法”芯片和解决方案。

核心团队成员来自AMD、瑞萨、联发科、长江存储等国际领先企业,在存算一体和AI计算加速以及5nm和7nm芯片量产方面拥有丰富经验。

产品及解决方案1——AI推断计算卡(CloudCard):

先进存算架构,深度优化存储墙与编译墙,提供更强更高效的大模型(例如推荐模型)支持。

能效比超过10-100TOPS/W,优于GPU 10-40倍,且具备灵活的算子可变能力,高度兼容易用的深度学习部署环境。

图 13 AI推断计算卡产品参数

图 14 AI推断计算卡应用场景

产品及解决方案2——边缘AI计算板卡(EdgeCard):

以成本效益和低功耗的AI推断为目标,为各类边缘计算提供强大算力支持。

支持边缘计算的灵活算法部署与客户自定义算子,为多模态多场景边缘计算提供创新支持。

图 15 边缘AI计算板卡产品参数

产品及解决方案3——AI计算IP核(IP Core):

多种内存IP核解决方案,以支持针对不同AI内存约束(带宽、容量、缓存一致性)的高效架构。

支持4种算法和4种数据类型,采用7/12/16纳米制程。

可满足各个市场上多种多样的处理、内存、连接和安全性要求。

图 16 AI计算IP核产品参数

产品及解决方案4——AI加速工具包(tinyAI):

AI加速工具包面向硬件工程师提供一站式部署,支持3-500倍AI性能的提升,友好兼容开源生态。

支持ARM/ RISC-V/x86平台和自有算法的平滑迁移。

融资情况:2021年3月,千芯半导体完成了数千万人民币天使+轮融资,本轮投资方为前海融华汇金和NW投资。

(3)后摩智能

企业简介:后摩智能成立于2020年底,由吴强博士与多位国际顶尖学者和芯片工业界资深专家联合组建。

后摩智能以存算一体技术和存储工艺,致力于突破智能计算芯片性能及功耗瓶颈,加速人工智能普惠落地。

其提供的大算力、低功耗的高能效比芯片及解决方案,可应用于无人车、泛机器人等边缘端,以及云端推荐、图像分析等云端推理场景。

后摩智能旨在用颠覆性技术去打造具有“十倍效应”的AI芯片,满足真正的人工智能时代超大算力需求,用无限算力去改变世界。

产品及解决方案——第一代芯片:

基于SRAM的大算力、高能效比的智能计算芯片。

第一代芯片基于SRAM-CIM技术快速构建存算一体核,并以此核搭建存算一体芯片,在相同功耗下提供10倍算力。

产品及解决方案——第二代芯片:

基于RRAM等先进存储工艺的大算力、高能效比的智能计算芯片。

第二代芯片基于先进的RRAM等存储工艺,继续扩充模型容量,进一步降低功耗,增加算力,最终可实现单芯片算力1000TOPS。

融资情况:2022年4月,后摩智能完成数亿元人民币Pre-A+轮融资。本轮融资由经纬创投和金浦悦达汽车基金联合领投,国家中小企业发展基金联想子基金和天创资本等跟投,现有投资方启明创投、和玉资本继续追加投资。

(4)中科声龙

企业简介:中科声龙成立于2009年,是一家专注于高通量芯片研发生产的高新技术企业,2021年发布了存储一体高通量算力芯片。

中科声龙在基于3D异质集成的大规模存算一体芯片领域处于世界先进水平,同时正在快速成长。

依托存算一体核心技术,中科声龙致力于发展通用型高端处理器,将全面支持各类算法及应用,为数字经济时代的到来提供强力保障,实现“成为全球高通量芯片领导者”的愿景。

公司计划2024年于北京证券交易所上市。

产品及解决方案1——茉莉X4 高通量mini矿机:

该产品存储容量为5GB,算力为65MH/s,足以媲美高端显卡,但功耗只有30W左右。
芯片规模为384×384×512,支持384个计算核心与384个片内缓存之间的高通量数据通路,总线宽度为512位,主频为800MHz-1GHz,最大带宽为24TB/s。
该芯片还支持规模扩展或缩减,适用云与数据中心、区块链应用、深度学习和人工智能、自动驾驶等领域的计算需求。

产品及解决方案2——茉莉X4 高通量1U矿机:

该产品算力520MH/s±10%,功耗240W±10%,存储容量5GB。
支持ETHASH算法,可对ETC,ETH等区块链网络进行算力支持。

产品及解决方案3——茉莉X4 高通量1U-C (ETC) 矿机:

算力450MH/s±10%,功耗240W±10%。

融资情况:2022年9月,中科声龙顺利完成A轮融资,本轮融资由英特尔资本(Intel Capital)独家战略投资,融资规模数千万美元。

(5)闪易半导体

企业简介:闪易半导体成立于2017年,是一家研发高性能、低功耗、低成本的存算一体化AI芯片的集成电路公司,团队成员分别毕业于清华大学和北京大学,分别在中美两国的电路设计生产、人工智能开发企业担任研发负责人。

公司计划在三年内完成第一代语音产品在家电和物联网领域的推广和量产,同时设计和开发好第二代产品,用于图像识别及安防领域。

闪亿所使用的新型存储器PLRAM具有高精度(8-10比特),高线性度,高能效的特点,是第一种可以大规模量产的精度超过8bit的忆阻器,可以赋能存算一体化计算架构。

基于新型忆阻器技术,可实现深度神经网络的模拟计算,在未来物联网生态的端侧和边缘侧中将发挥出重要作用。

产品及解决方案——闪锌石HEXA01:

首款集成PLRAM忆阻器阵列的芯片产品,其算力功耗比可达到10TOPS/W,而成本却比传统AI芯片下降一半以上。
在智能家电、智能音箱、安放监控以及便携式可穿戴设备中发挥语音和图像识别的应用,还可用于工业IoT、医疗监护、通讯基带和自动驾驶中的专用信号处理。

图 17 闪锌石HEXA01技术指标

融资情况:2021年4月完成A轮融资,投资方为张江集团。

(6)知存科技

企业简介:知存科技创立于2017年,拥有业内领先的存算一体技术。

知存拥有多种适合存内计算的非易失性存储器工艺研发经验,构建了WTIN Mapper编译器、工具链、存内计算电路设计、多核运算等完善的存算一体开发生态。

知存的存算一体技术创新使用Flash存储器完成神经网络的储存和运算,解决AI的存储墙问题,提高运算效率,降低成本。

WTM系列芯片用于低功耗AIoT应用,如可穿戴设备和智能终端设备。

产品及解决方案1——WTM2101:

AI算力50Gops,功耗5uA-3mA,最大模型参数1.8M。

片内包含Timer、WDT、RTC、VAD以及电源管理(PMU)等功能模块;

外围接口上,具备多种常见外围接口,包括UART、SPI、I2C、I2S、PWM以及GPIO;

采用WLCSP极小封装,非常适合小体积、功耗要求苛刻的离线语音识别产品。

产品及解决方案2——WTM8000:

针对视频增强处理的一款高性能低功耗的存算一体AI处理芯片。

具备高算力、低功耗、高能效、低成本的核心优势。

可实现基于AI的各种视频增强处理;

为视频显示提供4K/8K@60/120FPS的插帧、超分、HDR宽动态和降噪能力;

为AI-ISP提供4K@60FPS的高能效NPU及高清视频增强能力,例如HDR宽动态、降噪处理等。

融资情况:2022年1月,知存科技完成2亿元B1轮融资,本轮融资由领航新界领投,天堂硅谷、瑞芯投资跟投,老股东讯飞创投、清控招商、普华资本、科宇盛达基金继续跟投,指数资本继续担任独家财务顾问。

(7)九天睿芯

企业简介:九天睿芯是一家人工智能芯片研发商,专注于神经拟态感存算一体芯片研发,提供人工智能系统高效低耗运行的新解决方案,广泛应用于AIoT等对低功耗延时需求强烈的领域,为用户提供面向声音端和视觉端的AI芯片。

产品及解决方案1——ADA100:

超低功耗低算力传感器处理芯片。

等效算力1Gops,应用于可穿戴/ARVR/AIoT设备如无线智能相机门铃,门锁,86开关等智能家居产品。

2021年11月量产,2022年批量出货。

图 18 ADA100实景图

产品及解决方案2——ADA200:

低功耗中低算力视觉协处理器。

算力1~2Tops,应用于低功耗无线摄像头/ARVR/手机平板。

2022年底量产。

图 19 ADA200实景图

产品及解决方案3——ADC芯片:

自主研发高性能ADC。

500msps-14bit-四通道,3Gsps-14bit-双通道,应用于车载激光雷达等场景。

2021年11月投片。

图 20 ADC芯片实景图

融资情况:2021年9月,九天睿芯完成亿元级A轮融资,由韦豪创芯和浦东科创联合领投,华义创投、磐缠投资以及上海物枢跟投。

(8)恒烁半导体

企业简介:恒烁半导体(合肥)股份有限公司成立于2015年,是一家主营业务为存储芯片和MCU芯片研发、设计及销售的集成电路设计企业。

恒烁半导体专注研发高性能、低功率SPI NOR FLASH存储器芯片。

自2019年起,开始研发基于NOR Flash架构的存算一体人工智能AI芯片(CINOR)。

同时,公司还在致力于开发基于NOR闪存技术的存算一体终端推理AI芯片,并提供边缘计算的完整解决方案。

产品及解决方案——CiNOR存算一体AI推理芯片:

通过Flash阵列的模拟计算来高度并行化完成矩阵计算。
该产品还未发布,目前已经成功流片并且搭载该芯片现场演示了一个人脸识别的深度学习算法。

融资情况:2022年8月29日于科创板上市。

(9)新忆科技

企业简介:北京新忆科技有限公司成立于2018年,是一家拥有核心技术和自主研发能力的创新型高科技公司,致力于成为国内新型存储器技术及应用的领军企业。

公司主营业务为新型阻变存储器(RRAM)及其周边产品,包括独立式存储器、嵌入式存储器和周边的SOC产品,应用领域涵盖物联网,消费电子,医疗电子,网络通信设备,汽车电子和工业控制设备等。

公司原始技术及创始团队均来源于清华大学新型存储器团队,联合创始人包括清华大学多位知名教授在内。

产品及解决方案——IM25RWQxx系列芯片:

该系列芯片提供SOP8,TSSOP8,USON8和DFN6等多种封装,满足各类封装的设计需求。
在芯片功能和管脚封装上与现有的SPI EEPROM和SPI NOR Flash完全兼容,可以直接替代现有的EEPROM和NOR Flash产品,无须重新设计系统板。
读能耗只有传统SPI NOR Flash的三分之一,写能耗只有SPI NOR Flash的六分之一,写速度比常规的SPI NOR Flash快三倍。
深度掉电模式下静态电流低至1uA以下,数据保持时间超过20年。
宽工作电压、极低的功耗和超小的封装尺寸使其非常适合应用在物联网、可穿戴等对功耗和产品尺寸要求严苛的嵌入式应用场景,能够有效延长电池的使用寿命。

融资情况:2018年6月,新忆科技完成天使轮融资,投资方为启迪之星、太和投资、清华创投。

(10)智芯科

企业简介:杭州智芯科微电子科技有限公司成立于2019年,是一家由外商投资,专注边缘计算芯片设计的初创公司。

公司产品实现涉及从芯片架构到软件开发到硬件实现的全流程,将人工智能、模拟芯片技术以及传感器技术结合在一起,极大的降低了人工智能芯片功耗。

产品应用领域包括,手机,可穿戴设备,智能家居,AIoT,智慧城市等等。

产品及解决方案——AT660x:

一颗基于低功耗技术的深度学习语音识别芯片,内置神经网络硬件加速模块NPU,标准ARM处理器Cortex-M0,集成多种控制和通信接口。
智芯科AT660x可以运行多种神经网络模型,在有噪声干扰的近场和远场情况下,支持离线语音唤醒词、命令词识别,并支持用户声纹在终端侧自助录制和离线快速训练。
该芯片具有低功耗、低延时、高性能、小尺寸等特点,适用于AIoT及智能穿戴设备等。
尤其适用于电池供电的产品。

融资情况:2021年7月,智芯科完成近亿元的天使轮融资,本轮融资由SIG海纳亚洲领投、将门创投等联合投资。

(11)苹芯科技

企业简介:苹芯科技成立于2021年,专注于存内计算技术的研究与应用,并希望为合作伙伴打造差异化解决方案。

团队核心成员由来自清华大学、上海交通大学、北京大学、北京航空航天大学、新竹清华大学、匹兹堡大学、杜克大学等国内外知名院校的硕士、博士及国家重点实验室科研人才组成。

截至目前,苹芯科技已开发实现多款基于SRAM的存内计算加速单元,致力于为人工智能行业提供了低成本、高效率、低能耗、高性能的芯片解决方案。

产品及解决方案1——PIMCHIP-S200:

该产品以图像或视频为数据入口进行本地智能推理。
该产品首次将工业芯片带入28nm时代。
其特点是输入数据量大,神经网络规模较大,运算实时性要求高。
以低功耗和高的运算效率为智慧城市、智能家居、工业物联网,以及各类智慧终端、可穿戴设备、自主无人系统等行业赋能。

图 21 PIMCHIP-S200产品参数

产品及解决方案2——PPIMCHIP-S100:

该产品以语音为数据入口进行本地智能推理。
28nm SRAM,能效比为4.0TOPS/W。
该产品在一个小的封装中提供高精度的唤醒字、命令字和事件检测,功耗几乎为零。

图 22 PIMCHIP-S100产品参数

融资情况:2022年8月,苹芯科技完成千万级美元A轮融资,由春华创投领投,红点中国、红杉中国、真格基金等老股东全部跟投。


参考资料:

《存算一体是啥新趋势?值得教授学者纷纷下海造芯》,2022年8月

《存算一体与存内计算计算杂谈》,2022年7月

《存算一体技术是什么?发展史、优势、应用方向、主要介质》,2022年6月

《存算一体芯片赛道企业收录》,2022年7月

《火爆的存算一体芯片,机会在哪儿?挑战何解?》,2021年9月

《存算一体AI芯片的发展现状》,2021年6月

《存算一体-智能驾驶AI芯片的下一个战场》,2022年5月

《全球存算一体技术研究及量产情况最新进展》,2022年5月

《存算一体——后摩尔时代的AI芯片架构》,2022年2月

《前景可观的存算一体技术,到底有多难商用?》,2020年3月


免责声明:本报告仅代表作者个人研究观点,不代表所在公司观点及投资建议;报告内容所引用内容版权归原作者所有,如有侵权,请联系删除。

【声明】内容源于网络
0
0
上实资本科技基金
创新绿色未来
内容 747
粉丝 0
上实资本科技基金 创新绿色未来
总阅读1.9k
粉丝0
内容747