点击蓝字关注我们
思科首席解决方案工程师 蒋星
随着人工智能(AI)和大型语言模型(LLM)技术的飞速发展,企业对 AI 工作负载的部署和管理需求日益增长。然而,AI POD 环境的复杂性,包括分布式计算、高性能 GPU、海量数据存储和复杂的网络互联,给其性能监控、成本优化和故障排除带来了巨大挑战。思科 Splunk Observability Cloud for AI POD 解决方案旨在应对这些挑战,为企业提供全面的可见性和智能洞察。
核心痛点解决
该解决方案专注于解决 AI POD 运营中的核心痛点:
1.性能瓶颈识别:快速定位 AI 模型推理和训练过程中的性能瓶颈,如高延迟、GPU 利用率低下或过高、以及 Token 生成速度慢等问题。
2.资源成本优化:有效管理和优化 AI 基础设施的资源消耗,特别是 GPU、存储和网络资源,以及 LLM 的 Token 使用成本(即“Tokenomics”)。
3.复杂环境的可视化:将分散的 AI 基础设施组件(如计算主机、网络、存储、容器平台)统一到一个平台进行监控,消除盲点。
4.快速故障排除:通过实时数据和智能告警,加速问题诊断和解决,减少 AI 服务的停机时间。
端到端的监控能力
Splunk Observability Cloud for AI POD 解决方案整合了多项关键技术和专用模块,提供端到端的监控能力:
◎ AI POD Overview:提供 AI POD 整体健康状况和关键性能指标的概览,如当前运行的请求数量。
◎ Tokenomics:针对 LLM 工作负载的核心模块,监控 Token 的使用效率和成本。它详细展示了总输入 Token、总输出 Token、峰值提示 Token / 秒、峰值生成 Token / 秒等指标,帮助用户理解和优化 LLM 的运行成本和吞吐量。
◎ Intersight:与 Cisco Intersight 集成,用于监控和管理底层的 Cisco UCS 服务器和 HyperFlex 超融合基础设施,确保计算资源的稳定性和效率。
◎ Nexus Switches:监控 Cisco Nexus 数据中心交换机的网络性能,保障 AI POD 内外部数据传输的低延迟和高带宽,这对于处理大量数据的 AI 应用至关重要。
◎ Storage:提供对存储系统性能的深度洞察,包括 I/O 延迟、吞吐量和容量使用情况,确保 AI 模型训练和推理所需数据的快速存取。
◎ AI POD Hosts & AI POD GPUs:专注于 AI 计算核心——主机和 GPU 的性能。监控 GPU 的关键指标,如 KV Cache 利用率,以及 GPU 的整体健康状况和性能表现。
◎ Red Hat OpenShift:支持对运行在 OpenShift 容器平台上的 AI 应用进行监控,确保容器化 AI 服务的稳定运行和资源调度效率。
◎ 针对 NVIDIA LLM 推理微服务的特定监控,优化 LLM 的推理性能,包括关注如首次 Token 生成时间(TTFT)和每 Token 输出时间(TPOT)等关键延迟指标。
Splunk Observability Cloud for AI POD 解决方案为企业提供了一个统一、智能的平台,以应对 AI 时代复杂的运维挑战,确保 AI 投资能够转化为实实在在的业务价值。
自助演示网站:https://cisco-full-stack-observability.navattic.com/2sk0bvw
欢迎关注--思科渠道微情报
获取更多信息

