大数跨境

技术洞见 | UCIe封装与异构算力集成详解

技术洞见 | UCIe封装与异构算力集成详解 牛芯半导体
2024-09-12
2
导读:本文转载自智能计算芯世界,转载文章仅供学习和研究使用。

本文转载自智能计算芯世界,转载文章仅供学习和研究使用。

Universal Chiplet Interconnect Express (UCIe) 是一个开放的行业互连标准,可以实现小芯片之间的封装级互连,具有高带宽、低延迟、经济节能的优点。能够满足整个计算领域,包括云端、边缘端、企业、5G、汽车、高性能计算和移动设备等,对算力、内存、存储和互连不断增长的需求。UCIe具有封装集成不同Die的能力,这些Die可以来自不同的晶圆厂、采用不同的设计和封装方式。
实现Chiplets封装集成的动机有很多。为了满足不断增长的性能需求,芯片面积不断增加,有些设计甚至会超出掩模版面积的限制,比如具有数百个核心的多核CPU,或扇出非常大的交换电路(Switch)。即使在设计不超过面积限制的情况下,改用多个小芯片集成封装的方式也更有利于提升良率,实现芯片的跨市场复用。另外,多个相同Die的集成封装能够适用于大规模的应用场景。
图1:UCIe开启开放式封装级生态系统交付平台
实现Chiplet封装集成的另一个动机是为了从产品和项目的角度降低整体投资组合成本,并抢占产品市场。例如,图1所示的处理器核心可以最先进的工艺节点,用更高的成本换取极致的节能性能,而内存和I/O控制器功能可以复用已经建立好的旧工艺节点(n-1或n-2)。采用这种划分方式,可以减小Die的面积,从而提高产量。跨工艺节点的IP移植成本很高,而且随着工艺节点的进步,该成本增长非常迅速。若采用多Die集成模式,由于Die的功能不变,我们不必对其IP进行移植,便可在节省成本的同时实现抢占市场的可能。Chiplet封装集成模式还可以使用户能够自主选择Die的数量和类型,从而针对不同的产品类型做出不同的权衡。例如,用户可以根据自己的具体需求挑选任意数量的计算、内存和I/O Die,并无需针对具体需求进行Die的自主设计,这有利于降低产品的SKU成本。
Chiplet的封装集成允许厂商能够以快速且经济的方式提供定制解决方案。如图1所示,不同的应用场景可能需要不同的计算加速能力,但可以使用同一种核心、内存和I/O。Chiplet的封装集成还允许厂商根据功能需求对不同的功能单元应用不同的工艺节点,并实现共同封装。例如,内存、逻辑、模拟和光学器件可以被应用不同的工艺技术,然后和Chiplet封装到一起。由于相比板级互连,封装级互连具有线长更短、布线更紧密的优点,因此,像内存访问这种需要高带宽的应用场景都可以以封装级集成的方式实现(例如HBM,High Bandwidth Memory)。
UCIe是封装互连的战略性成果,它以前瞻性的方式渗入各种应用模型,并蓄势待发,志在扭转行业未来。
UCIe的In package本质就是将整个芯片封装视作主板,在基板上组装大量的芯粒,包括各种处理器、收发器,以及硬化的IP。整体而言,UCIe是一个基于并行连接的高性能系统接口,主要是面向PCIe/CXL设备(芯片)的“ 组装”,如CPU、GPU、DSA、FPGA、ASIC等的互联。随着人工智能时代的到来,异构计算已经是显学,原则上,只要功率密度允许,这些异构计算单元的高密度集成可以交给UCIe完成。
UCIe的In package本质就是将整个芯片封装视作主板
除了集成度的考虑,标准化的Chiplet也带来了功能和成本的灵活性,对于不需要的单元,在制造时不参与封装即可——而对于传统的处理器而言,对部分用户无用的单元常常成为无用的“暗硅”,意味着成本的浪费。一个典型的例子就是DSA,如英特尔第四代可扩展至强处理器中的若干加速器,用户可以付费开启,但是,如果用户不付费呢?这些DSA其实已经制造出来了。
UCIe 包括协议层(Protocol Layer)、适配层(Adapter Layer)和物理层(Physical Layer)。协议层支持PCIe 6.0、CXL 2.0和CXL 3.0,也支持用户自定义。根据不同的的封装等级,UCIe也有不同的Package module。通过用UCIe的适配层和PHY来替换PCIe/CXL的PHY和数据包,就可以实现更低功耗和性能更优的Die-to-Die互连接口。
UCIe 对两种封装的划分
UCIe考虑了两种不同等级的封装:标准封装(Standard Package)和先进封装(Advanced Package),凸块间距、传输距离和能耗将有数量级的差异。譬如对于先进封装,凸块间距(Bump Pitch)为25~55μm,对应的是采用硅中介层为代表的2.5D封装技术的特点。以英特尔的EMIB为例,当前的凸块间距即为50μm左右,未来将向25μm,甚至10μm演进。台积电的 InFO、CoWoS也会有类似的规格和演进。而标准封装(2D)的规格对应的是目前应用最为广泛的有机载板。
英特尔先进封装的凸块间距演进
不同封装的信号密度也是有本质差异的,如标准封装模块对应的是16对数据线(TX、RX),而高级封装模块包含64对数据线,每32个数据管脚还提供2个额外的管脚用于Lane修复。如果需要更大的带宽,可以扩展更多的模块,且模块的频率是可以独立的。
UCIe规划了两种等级封装的性能目标
当然,UCIe没有必要急于跟进封装技术的极限,更高密度的键合通常还是为私有(协议)接口准备的,典型的如存储器(SRAM、HMB、3D NAND)的内部。UCIe能够满足通用总线的连接需求即可,如PCIe、UPI、NVLink 等。值得一提的是,UCIe对高速PCIe的深度捆绑,注定了它“嫌贫爱富”的格局。
实际上,SoC(System on Chip)是一个相当宽泛的概念,UCIe面向的可以看作是宏系统集成(Macro-System on Chip)。而在传统观念中适合低成本、高密度的SoC可能需要集成大量的收发器、传感器、块存储设备等等。再譬如,一些面向边缘场景的推理应用、视频流处理的IP设计企业相当活跃,这些IP可能需要更灵活的商品化落地方式。既然相对低速设备的集成不在UCIe的考虑范围内,低速、低成本接口的标准化尚有空间。


往期推荐

01

牛芯半导体荣获国家级专精特新“小巨人”企业认定

▲ 点击阅读

02

牛芯半导体DDR技术的发展与创新

▲ 点击阅读

03

牛芯半导体自研JESD204接口方案,助力成都华微高速转换器芯片国产化

▲ 点击阅读


牛芯半导体(深圳)有限公司(简称“牛芯半导体”)成立于2020年,聚焦接口IP的开发和授权,并提供相关整体解决方案,致力成为全球领先的IP供应商。


基于自主可控的核心技术,牛芯半导体在主流先进工艺布局SerDes、DDR等中高端接口IP,产品广泛应用于消费电子、网络通信、数据存储、人工智能、汽车电子、医疗电子等领域。


未来,牛芯半导体持续响应IP国产化需求,适应不断演进的接口技术和日益拓展的接口互联场景,赋能数智时代下的千行百业。

【声明】内容源于网络
0
0
牛芯半导体
牛芯半导体,专注于高速互联技术的研发和持续创新,拥有完全自主可控的知识产权,提供全栈式接口IP授权和高速互联芯片的定制方案,赋能芯片国产化;已服务客户超百家,涵盖智能驾驶、人工智能、特种计算等领域,致力成为全球领先的高速互联半导体公司。
内容 0
粉丝 0
牛芯半导体 牛芯半导体,专注于高速互联技术的研发和持续创新,拥有完全自主可控的知识产权,提供全栈式接口IP授权和高速互联芯片的定制方案,赋能芯片国产化;已服务客户超百家,涵盖智能驾驶、人工智能、特种计算等领域,致力成为全球领先的高速互联半导体公司。
总阅读0
粉丝0
内容0