英特尔率先打造了由 47 个芯片组成的显式解耦式芯片设计,其面向人工智能和高性能计算应用的 Ponte Vecchio 计算 GPU 便是其中之一。该产品至今仍保持着多芯片设计数量最多的纪录。如今,英特尔晶圆代工计划推出更为极致的多芯片封装方案:在八个基础芯片上集成至少 16 个计算单元和 24 个 HBM5 内存堆栈,整体光罩尺寸可达当前最大 AI 芯片的 12 倍,远超台积电规划的 9.5 倍。
先进制程与封装技术
该概念性 2.5D/3D 多芯片封装采用英特尔 14A 及更先进的 14A-E 工艺(1.4nm 级)制造 16 个大型计算单元,如 AI 引擎或 CPU。这些单元基于第二代 RibbonFET 环栅晶体管和改进型 PowerVia 背面供电技术,实现高性能与低功耗。
计算单元部署于八个采用 18A-PT 工艺(1.8nm 级)的基础芯片之上,后者通过硅通孔(TSV)和背面供电增强性能,可承担辅助计算任务或提供大容量 SRAM 缓存。
芯片间互连采用超高密度铜对铜混合键合技术(间距低于 10 微米),结合 Foveros Direct 3D 封装技术,实现高带宽、低延迟的数据传输,代表英特尔晶圆代工当前最先进的封装能力。
互联架构与扩展能力
基础芯片之间及与 I/O 芯片的横向连接采用 EMIB-T(增强型嵌入式多芯片互连桥)技术,集成 TSV 并搭配 UCIe-A 接口,支持最多 24 个 HBM5 内存堆栈。
值得注意的是,英特尔提议使用基于 UCIe-A 的定制接口连接 HBM5 模块,而非标准 JEDEC 接口,旨在提升性能与容量灵活性。此举虽非强制设计要求,但展示了其集成定制化高带宽内存的能力。
整个封装还可集成 PCIe 7.0、光引擎、224G SerDes、非相干结构、安全专用加速器以及 LPDDR5X 内存,进一步增强系统级扩展性与功能多样性。
量产前景与行业挑战
英特尔展示了两种概念设计:一种为含四个计算单元和 12 个 HBM 堆栈的“中等规模”版本,已具备可量产条件;另一种为含 16 个计算单元和 24 个 HBM5 堆栈的“极端规模”版本,预计本十年末实现。
实现该目标需完善 18A 和 14A 制程节点,并攻克 Foveros Direct 3D 技术的量产难题。若成功,英特尔将与台积电在先进封装领域并驾齐驱。台积电亦计划于 2027–2028 年推出类似晶圆级集成方案。
此外,此类封装尺寸最大可达 10,296 平方毫米,接近智能手机面积,带来严峻的热管理与机械形变控制挑战。如何确保长期运行下的稳定性,是英特尔乃至整个半导体行业亟待解决的关键问题。
(来源:编译自 tomshardware)
*免责声明:本文由作者原创。文章内容系作者个人观点,转载仅为了传达一种不同的观点,不代表对该观点赞同或支持,如有异议,欢迎联系半导体行业观察。

