2025年超节点峰会合集
DeepSeek R1系列模型的发布推动产业摆脱唯算力规模论,促使人工智能算力发展从硬件堆叠的规模扩张阶段迈入增效提质阶段。新的算力技术创新模式将聚焦芯片级性能突破和系统架构整合优化两大维度,形成以芯片为基础硬件,数据中心为终端的全栈式创新格局。
此格局下,以系统架构整合优化的数据中心为大规模训练与推理提供主要支撑。系统架构各个层面的核心技术优化与协同将决定整体算力的能效表现。基于此,本研究报告选取在系统架构创新的五大关键技术(异构计算、互连技术、液冷技术、供电技术、系统管理与控制)作为算力知识产权分析的切入点,以揭示产业升级的技术突破口,并提供专利布局的参考路径。
异构计算:革新人工智能算力架构范式
随着摩尔定律失效,传统CPU性能提升速度放缓,难以满足AI、大数据、图形处理等应用对于算力和能效需求的爆炸式增长,迫使计算架构转向异构计算。异构计算成为极具潜力的发展方向,它突破传统单一处理器架构局限,在单一系统中整合并协同运用CPU、GPU、ASIC、FPGA、NPU等不同类型处理器,构建多元化、高效能计算生态。异构协同模式能依据任务性质与需求,精准调配计算资源,实现性能与效率双重优化,全方位满足多样化计算需求。
当前,中国市场“CPU+GPU”的异构计算方式是人工智能异构计算主流组合,广泛应用于各类场景,推动行业技术进步创新。中国异构计算发明专利申请呈持续上升态势,2023年中国异构计算发明专利年度申请数量超过1.6万件。
异构计算方向的有效授权发明专利数量排名中,浪潮信息和英伟达分别位居中国第一和第二。
互连技术:驱动算力集群迈向高效协同
随着人工智能的发展,单机硬件性能逐渐逼近物理极限,大模型对于算力芯片的大规模互连提出了高带宽、低时延、高可靠的要求。在此背景下,Scale-Up(纵向拓展)和Scale-0ut(横向拓展)两种互连架构快速发展。
Scale-Up升级单节点硬件资源(如CPU、内存、存储等),侧重于强化单体设备的处理能力,并满足Al训练推理时的高带宽和低时延需求。Scale-Up的核心在于突破了传统网络架构在带宽、时延、可靠性上的瓶颈。在技术多样性、场景差异化、生态竞争及标准化需求等多重因素驱动下,行业内涌现出诸如PCle、UALink、OISA、NVLink、CXL等互连协议。
Scale-Out强调分布式弹性扩展,通过增加集群内的节点数量提升系统整体的硬件性能与容错能力。在云计算、大数据处理、分布式数据库等场景中,Scale-Out架构通过多轨多平面拓扑连接实现快速扩容,并根据负载分担和拥塞控制算法达到高带宽和低时延。
RDMA是Scale-Out架构中节点间高速通信的核心技术支撑。RDMA具有“零拷贝”直接内存访问、绕过CPU内核和减少协议栈处理等技术优势,可将节点间通信延迟降至微秒级,带宽提升至数百Gbps,同时释放CPU资源用于计算任务。RDMA存在多种协议实现,如InfiniBand、RoCE、iWARP等,需根据场景选择适配协议。
在中国,众多企业在互连技术领域积极开展技术创新并推动标准制定。中国互连技术发明专利申请呈持续上升态势,2023年中国互连技术发明专利年度申请数量超过1.4万件。
由中国移动牵头推出的OISA(Omni-directional Intelligent Sensing Express Architecture,全向智感互联)协议,旨在提供GPU卡间高速互连标准,包括大规模GPU对等互连、极致报文格式、数据层流控和重传以及高效物理传输等解决方案。OISA Gen1支持128张GPU通过8个Switch芯片互连,任意卡间互连带宽达到800GB/s,每个Switch芯片支持128个端口、交换容量达到51.2Tb/s。
在互连技术方向的有效授权发明专利数量排名中,浪潮信息和华为分别位居中国第一和第二。
液冷技术:助力人工智能算力绿色低碳转型
液冷技术已成为新型数据中心建设的能效最优解。随着Al芯片功率密度的持续攀升,传统风冷散热已无法满足高密度算力需求,液冷技术凭借传热效率比空气高6倍、蓄热量高1000倍的散热优势,正在成为主流散热方案。另一方面,在“双碳”战略的大环境下,数据中心绿色低碳和可持续发展也成为“不可逆”的大趋势。
液冷技术可分为非接触式液冷和接触式液冷两大类。非接触式液冷主要指冷板式液冷,相比传统风冷散热技术可实现60??90??能耗降低;接触式液冷包括浸没式液冷和喷淋式液冷,其中浸没式液冷可完全去除散热风扇,换热能力强,节能效果好。
中国液冷技术发明专利申请数量增长迅猛。发明专利申请量从2015年的400+增至2023年的2900+,增长超过6.5倍。数据表明液冷技术越来越成为未来技术创新和产品落地的发展趋势。
在液冷技术方向的有效授权发明专利数量排名中,浪潮信息和百度分别位居中国第一和第二。浪潮信息提出"All in液冷"战略,围绕液冷技术的安全性、高密度部署、节能降耗、运维便捷性四大核心价值,构建了系统化的"专利群落"布局。百度在液冷技术领域推出了全球首款支持OCP OA标准和液冷的Al计算平台X-MAN 4.0。
供电技术:重塑能源应用,构筑算力基石
服务器机柜更新迭代加速、性能持续提升的同时,系统能耗激增,亟需供电技术革新。目前,单卡GPU功耗在250W到1200W之间,服务器单机柜功率从原来10kW攀升至100kW以上,未来将达到1MW以上。
这种高功率密度需求对电源效率、供电架构等方面都提出了前所未有的挑战。
近十年间,中国在人工智能算力基础设施供电技术方向发展迅速,相关企业积极开展专利布局。2024年,中国供电技术方向发明专利申请数量已超过1.2万件,较2015年增长了3倍。
在供电技术方向的有效授权发明专利数量排名中,浪潮信息和台达电子分别位列第一和第二。浪潮信息的供电技术从单个服务器的电源模块延伸到了整个数据中心的供电架构、能效管理和故障应对。台达电子深耕芯片、服务器和数据中心等供电产品及解决方案,有效提升了算力基础设施的供电效率和可靠性。
系统管理与控制:破解多元算力管理难题
多元算力时代下,大规模的异构算力设备面临如何兼容多种处理器架构、多种设备协议、不同管理芯片的系统设计层的挑战。在异构算力设备中,构建覆盖“硬件-软件”的RAS(可靠性、可用性、可维护性)体系,通过故障预警、容错设计、快速修复功能,提升多元算力集群的抗风险能力和运维效率尤为重要。
在计算机系统底层架构中,BMC(基板管理控制器)和BIOS(基本输入输出系统)是计算机系统管理与控制的重要组成部分。BMC是在服务器中嵌入的复杂而独立SOC系统,是数据中心集中运维管理IT设备的核心组件,对服务器安全可靠运行、远程集中管理和控制部署至关重要。BIOS是刻在主板ROM芯片上不可篡改的启动程序,BIOS固件在计算机启动过程中发挥着不可或缺的作用,是提高系统稳定性、扩展硬件适配性、修复BUG的关键部分。二者协同支撑算力基础设施从启动到运行的稳定与高效。
系统管理与控制方向的专利申请整体呈上升趋势,2022年申请量超过3800件。在系统管理与控制方向的有效授权发明专利数量排名中,浪潮信息和联想分别位居中国第一和第二。
更开放先进的BMC固件发展之路——OpenBMC。传统BMC固件存在着诸多问题,且随着数据中心规模的不断增长,运维需求愈发朝着精细化、定制化的方向发展,业界开始探索更开放先进的BMC固件发展之路——OpenBMC顺势而生。OpenBMC是一个Linux基金会项目,其目标是为BMC生成一个可定制的开源固件堆栈。
浪潮信息在布局专利的同时,也在积极拥抱OpenBMC,且连续多年在OpenBMC社区开源代码贡献排名中保持全球第5位和中国第1位,构建了稳定、可靠、安全的开放架构通用服务器产品矩阵。浪潮信息通过分层解耦、模块化设计的OpenBMC方案,在BMC层面实现了软硬件的标准设计,支持服务器产品的快速、稳定迭代,从而更快、更好的满足用户资产信息管理、故障预警、远程管理和批量自动部署等需求。
联想服务器通过BIOS和BMC的协同工作,构建了一个从本地硬件初始化到远程智能监控的完整管理生态。
为了打造极致的可靠性,联想推出“双子星”BMC去耦设计,通过双BMC模块实现冗余,主备模块自动切换,确保管理可靠性;通过XClarity Essentials工具,管理员可本地或远程高效配置BMC,提升运维效率。联想ThinkSystem服务器采用XClarity Controller(XCC)作为新一代管理控制器,其整合服务处理器、超级I/O、视频控制器等功能,支持HTML5和可通过XClarity Mobile进行访问等。
相关阅读:
————本文完毕————
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

