随着 AI 基础设施的规模和复杂性不断增加,数据中心运营商需要持续了解性能、温度和功耗等因素。这些洞察使数据中心运营商能够主动监测和调整大规模分布式系统中的数据中心配置,从而确保这些系统以最高效率和可靠性运行。
NVIDIA 正在开发用于可视化和监测 NVIDIA GPU 集群的软件解决方案,为云合作伙伴和企业提供洞察仪表板,帮助他们提高整个计算基础设施的 GPU 正常运行时间。
该服务由客户选择、自行安装和控制,用于监测 GPU 使用情况、配置和错误。它将包含一个开源客户端软件智能体,这是 NVIDIA 持续支持开放、透明软件的一部分,旨在帮助客户最大限度的发挥其 GPU 系统的性能。
通过这项服务,数据中心运营商将能够:
追踪功耗峰值,在不超出能耗预算的前提下最大化单位功耗性能。
监测整个集群的利用率、内存带宽和互连运行状况。
及早发现热点和气流问题,以避免过热降频和组件过早老化。
确认软件配置和设置一致,以确保结果可复现以及运行可靠。
发现错误和异常情况,及早发现故障部件。
这些功能可以帮助企业和云提供商可视化其 GPU 集群、解决系统瓶颈并优化生产力,从而提高投资回报。
此可选服务提供实时监测,让每个 GPU 系统与外部云服务通信和共享 GPU 指标。NVIDIA GPU 没有硬件跟踪技术、终止开关和后门。
以上为摘要内容,点击“阅读原文”或扫描下方二维码阅读完整内容:

