导语 | 在云原生与大模型快速演进的时代,业务稳定性的挑战日益加剧。腾讯云可观测平台围绕“全链路问题定位”、智能分析”,“业务可用性”推出10期实战直播,面向研发、运维、SRE、架构与业务负责人,为大家带来腾讯云可观测平台的全新升级内容,以及从问题发现、定位到治理的最佳实践。欢迎各位预约。
一. 本期直播介绍
直播介绍:
本次分享聚焦 LLM 应用可观测性的工程化实践,介绍如何基于 OpenTelemetry 协议实现 LLM 应用的链路追踪、指标量化与成本治理。平台整合 LLM Agent 核心指标,支持性能分析和故障定位,并结合真实案例展示监控效果的显著提升。分享还将探讨监控、评估、提示词管理的完整体系规划,助力 LLM 应用从"黑盒推理"走向"数据驱动"的生产级部署。
直播大纲:
1. LLM 可观测性的必要性
LLM 应用的黑盒问题:不确定性、高成本、难调试
传统 APM vs LLM Observability 的差异
2. 基于 OpenTelemetry 的 LLM 可观测实践
技术原理
核心指标
多语言支持
3. 实战案例
4. 建立覆盖 LLM Agent 开发全生命周期的工程化平台
从「黑盒推理」到「链路透明」:实现 LLM Agent 全链路监控
从「量化」到「优化」:LLM 评估助力打造更可靠的 Agent
从「硬编码」到「热更新」:提示词管理加速 Agent 快速迭代
三. 十期直播计划
腾讯云可观测平台(Tencent Cloud Observability Platform,TCOP)是集指标、链路、日志于一体的全栈智能观测平台。结合强大的可视化和告警能力,为您提供一体化、智能化监控解决方案。可以满足客户全链路、端到端的统一监控诉求,帮助用户提高运维排障效率,为业务的健康和稳定保驾护航:

Prometheus 监控:开箱即用的 Prometheus 托管服务;
应用性能监控 APM:支持无侵入式探针,零配置获得开箱即用的应用观测能力;
云拨测 CAT:利用分布于全球的监测网络,提供模拟终端用户体验的拨测服务;
前端性能监控 RUM:Web、小程序、APP等页面质量和性能监测;
终端性能监控 RUM Pro:专注为客户端应用Android、iOS、鸿蒙、Windows、Flutter 等提供全面的崩溃分析、性能监控、异常告警能力;
Grafana 可视化服务:提供免运维、免搭建的 Grafana 托管服务;
云压测 PTS:模拟海量用户的真实业务场景,全方位验证系统可用性和稳定性;
云监控 CM:腾讯云基础云产品资源的指标监控、Dashboard、以及告警功能;
......等等
如有任何疑问,欢迎扫码进入官方交流群👇

