

专访 MPS “AI 三剑客”（上）：如何打造强大的 AI 能源核心？

MPS芯源系统

2024-04-17

导读：如何提升AI算力？如何实现高效、低耗、稳定的AI供电？今天，MPS AI领域的专家来帮忙答疑解惑，并为大家分享MPS在AI应用中的市场定位与产品支撑！一起来围观本期精彩视频吧~

点击标题下「MPS芯源系统」可快速关注

随着生成式 AI 持续从实验室走入现实，2023 年也成为了 AI 发展史的一个转折点，活跃的开源环境和多模态模型一同推动了 AI 研究的进步。

那么，到底什么是 AI ？我们该如何提升 AI 的算力呢？今天，我们邀请到 MPS AI 领域的专家帮忙答疑解惑，并为大家分享 MPS 在 AI 应用中的市场定位与产品支撑！点击下方视频，一起来围观吧~

立即观看视频

AI算力提升，高能耗和难散热问题如何突破？

随着 AI 技术的广泛应用，从智能手机到自动驾驶汽车，从智能家居到工业自动化，AI 供电芯片的需求量正呈爆炸式增长。它不仅为 AI 系统提供稳定的电力供应，确保系统的正常运行，而且还肩负着节能减排、降低能耗的重任。

然而，算力需求的提升凸显出 AI 设备的能耗、散热等问题，这无疑给 AI 供电芯片带来了新的挑战，如何实现高效率、低功耗、持续稳定的供电成为了业界关注的焦点。

能耗“突飞猛进”：算力比拼加速，能耗日益攀升

算力核心设备由传统的 CPU 向 GPU 的转移，不仅提升了计算效率，更使得复杂的数据处理和深度学习模型得以实现。然而，高性能往往伴随着高能耗。在追求更快计算速度的同时，GPU 的能耗也在不断上升，给数据中心和服务器带来了巨大的能源压力。荷兰数据科学家 Alex de Vries 在专注能源研究的学术期刊《Joule》上发表的一项研究显示，按照当前趋势，到2027 年，整个人工智能行业每年将消耗 85 至 134 太瓦时的电力（1太瓦时=10亿千瓦时）。

散热“力不从心”：高性能AI芯片的烫手难题

高性能的AI芯片在运行过程中会产生大量热量，如果不能及时有效地散热，不仅会影响设备的稳定运行，还可能缩短其使用寿命，制约AI算力的进一步增长。未来，单颗高性能AI芯片的热设计功耗将突破1000W，达到了传统风冷散热的极限。因此，各大公司纷纷投入研发，探索更有效的散热解决方案，例如行业巨头们正在推进的液冷技术等。

可靠性“摇摆不定”：大模型训练，AI芯片一损俱损

AI 应用对芯片的性能与可靠性要求非常高。为了完成一个大模型的训练任务，通常需要几千张甚至几万张计算卡进行级联，提供充足的算力。如果有一张卡出了问题，那么整个大模型的训练都会受到影响。如何定位到失效的板卡也是非常费时费力的工作，严重影响训练的效率。

MPS AI电源解决方案的四大突破，助力化解上述难题

MPS 深耕计算领域多年，从笔记本、台式机到自动计算平台，再到数据中心服务器，与各大平台都有紧密的合作。随着传统数据中心通过集成AI技术来实现智能化升级，MPS 也在快速迭代电源方案，为行业和客户提供高品质、可靠的AI电源解决方案，适用于 AI 推理卡、训练卡、边缘计算设备、超算服务器等各类应用场景。

图1：MPS AI硬件电源解决方案

图2：MPS典型AI电源应用

突破一

体量更紧凑、功率密度更高、配电损耗更低

MPS 的 AI 电源方案采用创新设计，体量更紧凑，配电损耗更低，使数据中心在给定机柜范围内的计算能力得以提升。

相比竞争对手的方案，MPS 的功率转换技术在主板上占用的空间更小，这样所有处理器能更紧密地结合为一体，在更小的空间内实现更强的计算能力。下图是 MPS 新型开放式框架电源模块 Intelli-Module™的3D 概念图，展现了高度集成的数字多相电源模块。

图3：高度集成的Intelli-Module™

MPS 专注改善数据中心的功率密度，因为数据中心面临着人工智能等新计算应用的更大功率需求。以创新手段提升功率密度意味着减小配电损耗，从而降低数据中心的总运营成本、单次计算输出的总成本以及碳排放。而机柜数量减少后，数据中心的物理占用空间也能最大限度地缩减。

130A、两相、非隔离式降压电源模块 MPC22167-130 是 MPS Intelli-Module™ 系列的最新产品，它将 DrMOS、电感和其他无源元件集成到单个封装中，不仅占位面积小，功率密度还提高了 2.5 倍。而且，它允许将多相稳压器（VR）放置在更靠近处理器的位置，从而减少了配电网络（PDN）的损耗（见图4）。