9月25日,备受瞩目的2024数据存算生态大会暨AI大模型生态与算力峰会将在北京国家会议中心隆重举办。以“AINative,生成未来”为主题,本次大会不仅是技术交流的平台,更是产业赋能的关键时刻。大会将汇聚来自各行各业的精英,围绕大模型的开源闭源策略、应用落地、智能运维及生态构建等热点议题展开深入剖析与对话。维云科技总经理袁欣应邀参会并发表了【智能时代的基石:高性能服务器运维助力AI大模型创新】的主题演讲,分享了维云在AI大模型应用的观察、思考、战略和实践。

维云科技总经理袁欣发表主题演讲
AI正引领着一场深刻的变革,随着AI大模型的迭代,GPU用量也在不断增长。据有关机构预测,未来三年,在生产经营环节应用AI大模型的企业占比将提高到80%以上,庞大的超算系统迎来了可靠性和运行方面的巨大挑战。因此,GPU服务器的运维也成为热门的话题。在超算领域,有一句古老的谚语:[ 大规模系统唯一可以确定的事就是发生故障 ],所以如何应对和解决GPU的故障是大模型企业要深刻思考的问题。客户在大模型训练过程中往往会遇到这几个问题:
GPU服务器故障率是CPU的120倍以上
这一结论基于Meta发布的报告数据,该报告指出在大规模AI训练及GPU集群环境下,故障频发已经成为AI训练面临的一大痛点。大模型训练的故障率是个不容小觑的问题,据统计,GPU故障率是CPU的120倍以上!GPU问题是最大的类别,占到了 58.7% 的比例。
GPU服务器对散热要求高
训练过程中,GPU需要处理大量的并行运算,功耗是传统服务器的10倍以上,运行中会产生大量热能,因此通常需要配备更为强大的散热系统以保证正常运行。由此可见,GPU服务器对散热的要求高。
GPU服务器价格高,精细化运维的价值更高
一台GPU服务器的价格高达几百万甚至上千万,日常维护不好造成损坏,维修的费用不菲,更会造成业务中断的巨大损失,因为花大价钱保障GPU的稳定运行物超所值。
GPU的运维时间周期长
受到美国管制的影响,国内使用的英伟达GPU产品一旦出现故障,只能报关返厂维修,造成企业长时间的业务中断。
综上所述,大模型应用中GPU的重要性和脆弱性对运维的要求会更高,而维云科技深谙AI服务器的运维之道,从各个细节全方位做到行业最优。

我们始终以客户需求为导向,从分析客户真实需求,结合客户的项目预算,到方案的定制化开发,再到高效、规范的运维服务的落地实施,维云以一站式全链路服务器运维解决方案为用户排忧解难。在探索AI服务器运维的征途上,我们迈出了坚实的步伐,并取得了令人瞩目的成果。截止目前,维云在保GPU服务器数量已突破10000台,相当于每天有3.5个最强AI大模型在维云的运维下安全运行。
随着技术的不断发展和应用场景的不断拓展,维云科技将继续加深行业洞察,布局更多海内外服务网点,为更多AI、互联网行业的客户提供优质服务。

