支持大模型与AI Agent的运行监控与分析
随着大模型与 AI Agent 逐步进入生产系统,系统形态正在发生根本变化:系统不再只是代码与服务的组合,而开始包含具备决策与推理能力的 AI。
这也带来了一个新的现实问题:传统可观测性体系,已无法完整覆盖 AI 系统的运行行为。正因如此,BPC(Business Performance Center)产品正在积极拓展 AI 可观测性(AI Observability)方向,致力于覆盖大模型(LLM)及 AI Agent 的运行监控与分析场景。
从“模型调用”到“AI 运行系统”
在下一代 BPC中,一次 LLM 调用不再被视为孤立的 API 请求,而被定义为一笔完整的运行交易(Transaction),其执行过程被纳入统一的工程视角进行观测,包括:
AI Gateway / Router
Prompt 与上下文预处理
模型推理执行
后处理与结果返回
相关依赖服务(缓存、鉴权、策略组件等)
我们的目标是让每个环节的时延、成功率、Token 使用、错误分布与成本影响都可观测,形成完整的调用级 Trace 与调用关系图。
多维度AI运行分析,而非单一指标
AI 系统的问题,往往并不体现在“平均值”上。
BPC 在 AI 可观测性场景中,支持按多维度对运行行为进行分析,包括:
模型 / 版本
AI 任务或交易类型
调用来源与用户
返回码与异常类型
Client / Server 视角
时间区间与趋势变化
从而支持对以下问题进行工程化分析:
性能问题来自模型,还是来自调用链路?
是模型差异,还是请求特征导致的波动?
成本与时延异常,发生在哪个运行阶段?
面向AI Agent智能体的可观测性探索
随着 AI Agent 开始具备多步决策、工具调用与任务编排能力,
系统运行已不再是线性的请求—响应关系。
BPC 正在探索面向 AI Agent 智能体的可观测性方向,期望为企业的 AI Agent 场景提供基础支撑,包括:
Agent 任务执行过程的运行拆解
多模型、多组件协同下的链路可观测
Agent 行为对性能、稳定性与成本的影响分析
这将为后续更复杂的 Agent 运行治理与决策分析奠定工程基础。
下一代BPC
随着即将到来的下一代 BPC ,我们将进一步扩展:
更细粒度的 AI / Agent 运行行为建模
面向多 Agent 协作场景的可观测分析
结合历史行为的异常识别与趋势洞察
为 AI 系统的自动化治理与决策提供运行基础
这些能力将与 BPC 原有的业务性能与系统可观测体系深度融合,逐步形成面向 AI 系统的完整可观测性框架。
工程化,是AI系统长期运行的前提
我们并不将 AI 可观测性视为一个“新概念”,
而是将其视为 可观测性工程在 AI 时代的自然演进。只有当 AI 的运行行为可观测、可诊断、可复盘,AI 系统才能真正进入企业级、规模化、长期运行阶段。
欢迎联系我们了解更多详情。
关于天旦公司
Netis天旦是领先的AI可观测性与运维AI智能体产品与技术提供商,致力于帮助企业保障可靠性、抵御新技术带来的风险、实现智能化运维,交付工程化的AI能力。

