大数跨境

技术洞见 | DDR5的改进

技术洞见 | DDR5的改进 牛芯半导体
2025-05-23
1
导读:本文转载自系统级SIPI设计与仿真,转载文章仅供学习和研究使用。

本文转载自系统级SIPI设计与仿真,转载文章仅供学习和研究使用。

目前主流的内存颗粒为DDR5和DDR4,DDR5作为DDR4的下一代内存技术,在多个方面进行了显著改进,以满足不断增长的高性能计算需求。以下从性能、架构、功耗等多个维度介绍DDR5相比DDR4的改进:


DDR5的改进


性能提升
数据传输速率:DDR5起始速率为3200MT/s,最高可达8400MT/s,而DDR4最高仅为3200MT/s。更高的数据传输速率意味着在相同时间内,DDR5能够传输更多的数据,大幅提升了系统的数据处理能力。例如,在处理大型文件、进行高分辨率视频编辑或运行复杂的游戏时,DDR5能够更快地加载和处理数据,减少等待时间。
内存带宽:DDR5采用了子通道架构,每个DIMM(双列直插式内存模块)使用2个40位子通道(32位数据+8位ECC),而DDR4使用72位通道(64位数据+8位ECC)。这种设计使得DDR5在数据传输上更加高效,进一步提高了内存带宽,从而提升了系统的整体性能。
架构优化
电源管理:DDR5在DIMM上添加了电源管理集成电路(PMIC),而DDR4的PMIC在主板上。这种改变使得DDR5能够更精细地管理电源,为每个内存芯片提供独立的电源控制,提高了电源利用效率。同时,DDR5的工作电压从DDR4的1.2V降至1.1V,降低了功耗,减少了发热,延长了设备的续航时间,对于笔记本电脑等移动设备尤为重要。
内存容量:DDR5支持单根UDIMM(无缓冲双列直插式内存模块)最大128GB的容量,而DDR4单根UDIMM最大为32GB,内存容量提升了4倍。这使得DDR5能够满足对内存容量需求极高的应用场景,如数据中心、服务器、专业工作站等,支持更复杂的多任务处理和大规模数据存储。
SPD Hub:DDR5利用具有额外集线器功能的串行存在检测(SPD)EEPROM,提供了更多的配置信息和管理功能。这使得系统能够更好地识别和管理内存模块,优化内存性能,提高系统的稳定性和兼容性。
片上终端(ODT):DDR5的CA/CK/CS网络包括片上终端(ODT),相比DDR4仅在DQ信号上有ODT,DDR5在更多信号线上实现了ODT功能。ODT能够有效减少信号反射,提高信号完整性,确保数据传输的准确性和稳定性。
回环模式:DDR5增加了回环模式,可将接收的信号/数据反馈到外部接收器进行特性分析、测试和测量。这一功能为内存的调试和故障排查提供了便利,有助于提高内存系统的可靠性和可维护性。
信号处理增强
数字前端均衡器(DFE):DDR5在接收器的所有数据(DQ)上添加了4抽头决策反馈均衡器(DFE)。由于DDR5的数据传输速率更高,码间干扰(ISI)增加,DFE能够有效改善信号完整性,补偿信号失真,确保在高速数据传输下的数据准确性。
DDR5在性能、架构和信号处理等方面相比DDR4都有了显著的改进,能够更好地满足现代计算机系统对高性能、大容量、低功耗内存的需求。随着技术的不断发展和成本的逐渐降低,DDR5将逐渐取代DDR4,成为主流的内存技术。


DDR5的均衡


DDR5内存为应对更高的数据传输速率和复杂的信号环境,引入了均衡器技术,尤其是决策反馈均衡器(DFE),其对DDR5内存系统的信号完整性、数据传输能力等多方面产生了重要影响:
改善信号完整性
补偿码间干扰(ISI):随着DDR5数据传输速率大幅提升,信号在传输过程中容易受到码间干扰的影响,即前一个数据位的信号会对后续数据位的信号产生干扰,导致信号失真。DDR5在接收器的所有数据(DQ)上添加了4抽头决策反馈均衡器(DFE),该均衡器能够根据接收到的信号历史信息,预测并补偿码间干扰,使信号波形更加清晰,眼图张开度更大,从而提高信号的质量和可靠性。
减少反射影响:在DDR5内存系统中,信号传输线上的反射是影响信号完整性的另一个重要因素。DFE可以在一定程度上对反射信号进行处理和补偿,降低反射信号对有效数据信号的干扰,确保数据能够准确无误地传输。
如下图所示为一个2DpC的内存系统,两个内存条之间布线长度10mm,内存条上布线长度30mm。红色箭头所示为末端的内存条反射信号到达靠近控制器的内存条的路径。通过计算反射信号延时与6.4Gbps DDR5信号一个UI的比值,来确定4 tap DFE是否可以handle反射的影响。
Stub长度的影响:在内存接口的通道中,如果存在过长的Stub(分支线路),会导致信号反射加剧,ISI增加。尽管DFE能够对一定程度的信号失真进行补偿,但当Stub过长时,4抽头DFE的补偿能力会受到限制。例如,在下图所示的4 RDIMM的系统中,由于其结构特点存在更长的Stub,在高速数据传输时,DFE难以完全补偿信号失真,从相关的S参数示意图(蓝色S21图)可以看出通道响应不佳。
多DIMM系统的挑战:每个通道增加更多的DIMM会使通道负载加重,信号传输环境更加复杂。在高速情况下,要实现4 DIMM系统将非常困难,几乎不可能仅依靠DFE来保证信号的质量和数据的准确传输。因为随着DIMM数量的增加,信号反射和ISI会显著增加,超出了DFE的有效补偿范围。


DDR5设置guideline


DDR5的设计需要综合考虑信号完整性、电源分配网络、散热等多方面因素,以下是一些DDR5设置的准则:
信号完整性方面
过孔设计
  • 减少过孔Stub:过孔Stub会引入反射和信号失真,应尽量使用盲孔或埋孔来减少过孔Stub的长度。例如在DDR4中,研究表明过孔Stub长度与眼图塌陷密切相关,DDR5数据速率更高,对过孔Stub的控制要求更严格。
  • 过孔数量匹配:线路中匹配的过孔数量要相同,因为过孔在Z方向代表额外的长度,不同数量的过孔会导致信号传输延迟不一致。
  • 重视返回路径:返回路径对DDR5更为重要,建议使用3D模拟器来考虑其对信号的影响,确保信号有良好的电流返回路径。
    下图所示的布线穿过密集过孔趋于,返回路径被打断,在TDR上可以清晰的看到阻抗突变。
阻抗控制
  • 选择合适材料:使用更好的层压材料,要求损耗因子(Df)小于0.015,以降低信号传输过程中的损耗。同时要确保控制好阻抗失配,避免因阻抗不匹配导致信号反射。
  • 通常单端信号如DQ、CMD、ADDR控制40ohm阻抗;
  • 差分信号如CK_P/N、RDQS_P/N、WCK_P/N控制差分80ohm阻抗。
信号参考与长度匹配
  • 以地为参考:建议所有信号(DQ和CA)都以地为参考,确保信号走线下方有坚实的电流返回路径,减少信号干扰。
  • 长度匹配:即使DDR5对字节通道中各比特之间的偏斜有一定限制,仍建议在主板上进行长度匹配,并使用蛇形走线。要注意进行电气长度匹配(以ps为单位),而不是简单的以密耳为单位的走线长度匹配。
串扰控制
  • 关注仿真:在设计中使用仿真来关注串扰问题,过孔转换是主要的串扰源。随着电压降低和通道速度增加,眼图会变小,对串扰更加敏感。
  • 满足隔离度要求:根据美光DDR5设计指南,建议在高达两倍奈奎斯特频率的情况下,远端串扰功率和不超过-20dB。
电源分配网络(PDN)设计方面
PDN阻抗要求
  • 满足不同频率需求:PDN需要满足不同电压和频率下的阻抗要求,以减少电源噪声对信号的干扰。例如在高频情况下,要保证PDN的低阻抗特性,为内存提供干净的电源。


其它内存架构


LPDDR
LPDDR和DDR都是常见的内存技术,它们在应用场景、性能特点、功耗等方面存在明显区别。
  • 功耗:LPDDR内存专为低功耗设计,在满足移动设备性能需求的同时,最大程度降低能耗,延长电池续航时间。其功耗比DDR内存低很多,如 LPDDR5工作电压1.05V,DDR5为1.1V,更低的电压意味着更低的功耗 。
  • 电压:LPDDR工作电压通常低于DDR。早期LPDDR3工作电压1.2V,LPDDR4的工作电压1.1V,LPDDR4X降至0.6V,LPDDR5进一步降低到0.5V;DDR3工作电压1.5V,DDR4为1.2V,DDR5为1.1V。较低的工作电压可减少能耗,还能降低芯片发热。
  • 成本:LPDDR内存因应用于移动设备,需在较小芯片面积内集成多种功能,且对功耗控制要求高,制造成本较高;DDR内存面向桌面电脑和服务器等,产量大且技术成熟,成本相对较低。
  • 尺寸:LPDDR内存芯片尺寸小,适合移动设备紧凑的内部空间;DDR内存芯片尺寸较大,用于桌面电脑和服务器主板时,空间不是主要限制因素。
GDDR
GDDR(Graphics Double Data Rate)是专门为图形处理单元(GPU)等高速数据处理场景设计的动态随机存取存储器(DRAM),在图形渲染、游戏、高性能计算等领域发挥着关键作用。
发展历程:从GDDR1发展到GDDR6,每一代都在数据传输速率、带宽、功耗、功能特性等方面实现了显著提升。GDDR1开启了图形内存高速化进程,后续版本不断改进,如GDDR5在近10年成为高性能应用的重要支撑,而GDDR6则代表了当前的先进水平。
技术特点
  • 双倍数据率机制:与DDR一样利用时钟信号的上升沿和下降沿进行数据传输。
  • 不断提升的传输速率与带宽:数据传输速率持续攀升,从GDDR5的最高约9Gb/s/pin发展到GDDR6的16Gb/s及以上,带宽相应大幅增加,能够满足GPU对海量纹理、图像数据快速读写的需求。
  • 功耗优化:随着技术进步,制造工艺和电源管理技术不断改进,如采用新的电压标准,实现动态电压和频率调整,有效降低了功耗。
  • 增强的可靠性技术:集成先进的错误检测和纠正机制,像循环冗余校验(CRC)和奇偶校验等,确保数据在传输和存储过程中的准确性和完整性。
关键技术演进
(以GDDR5到GDDR6为例)
  • 电路与架构改进:GDDR6在保持与GDDR5和GDDR5X基础设施兼容性的基础上,增加了双通道(2x16)操作支持,改进了片上终端和输出驱动器特性,提升了信号对称性和与PCB通道的匹配度。
  • 沿用与拓展的技术:继承并拓展了从GDDR4到GDDR5的多种技术,如数据总线反转(DBI)降低信号噪声和功耗、判决反馈均衡(DFE)补偿通道损伤、锁相环(PLL)过滤抖动等,还增加了对PLL操作和时钟灵活性的规范扩展。
  • 数据预取与操作模式优化:GDDR5X通过双倍数据预取和支持DDR、QDR模式提升数据传输能力,GDDR6在此基础上进一步优化,同时在输出驱动和接口校准等方面进行改进,保障高速稳定的数据传输。
HBM——高带宽内存
(High Bandwidth Memory)
技术原理:
  • 3D堆叠技术:HBM采用3D封装技术,将多个DRAM芯片垂直堆叠在一起,利用空间效率,使内存模块能在占用更小空间的同时提供更高性能。
  • 硅通孔(TSV)技术:是一种高密度的垂直电气连接方式,能够连接堆叠在一起的多个硅芯片,在HBM中极大地缩短了信号传输距离,减少延迟和功耗,提高了带宽。
  • ubump互连:与TSV相结合,作为将各层芯片连接起来的细微接触点,为数据传输提供了更高的速率和更低的延迟。
特点优势:
  • 高带宽:通过宽接口和多通道设计,以及增加引脚数量达到每颗HBM 1024bit内存总线等方式,实现了高数据吞吐量,能满足AI、高性能计算等对大量数据快速处理的需求。
  • 低功耗:减少了信号传输路径长度,并优化电路设计,工作电压通常为1.2V或更低,比GDDR显著节能。
  • 节省空间:采用2.5D或3D封装,将DRAM芯片垂直堆叠并通过硅中介层连接到处理器,显著减少了PCB面积,适用于空间有限的设备。
  • 低延迟:缩短了数据传输路径,再加上优化的电路设计等,有助于提升系统响应速度,让数据的读写更加迅速。
应用领域:
  • 人工智能:在AI训练和推理中,尤其是训练过程需要处理海量数据,对内存的带宽和容量要求极高,HBM能够提供强大的支持,如英伟达的A100、H100等AI训练芯片都采用了HBM。
  • 高性能计算:超级计算机、数据中心等进行大规模科学计算、数据分析等任务时,HBM可帮助提高计算效率和数据处理速度。
  • 图形处理:高端显卡在处理复杂的图形渲染、图像视频编辑等工作时,需要快速传输大量的图形数据,HBM可以满足其高带宽需求。


往期推荐

01

牛芯半导体成功入围2024年度深圳高成长企业TOP100

▲ 点击阅读

02

牛芯DDR5 IP取得突破性进展

▲ 点击阅读

03

牛芯半导体荣获2024年度深圳市集成电路产业双奖

▲ 点击阅读


牛芯半导体(深圳)有限公司(简称“牛芯半导体”)成立于2020年,聚焦接口IP的开发和授权,并提供相关整体解决方案,致力成为全球领先的IP供应商。


牛芯半导体在主流先进工艺布局SerDes、DDR等中高端接口IP,产品广泛应用于消费电子、网络通信、数据存储、人工智能、汽车电子、医疗电子等领域。


未来,牛芯半导体持续响应IP市场需求,适应不断演进的接口技术和日益拓展的接口互联场景,赋能数智时代下的千行百业。

【声明】内容源于网络
0
0
牛芯半导体
牛芯半导体,专注于高速互联技术的研发和持续创新,拥有完全自主可控的知识产权,提供全栈式接口IP授权和高速互联芯片的定制方案,赋能芯片国产化;已服务客户超百家,涵盖智能驾驶、人工智能、特种计算等领域,致力成为全球领先的高速互联半导体公司。
内容 96
粉丝 0
牛芯半导体 牛芯半导体,专注于高速互联技术的研发和持续创新,拥有完全自主可控的知识产权,提供全栈式接口IP授权和高速互联芯片的定制方案,赋能芯片国产化;已服务客户超百家,涵盖智能驾驶、人工智能、特种计算等领域,致力成为全球领先的高速互联半导体公司。
总阅读84
粉丝0
内容96