10 月 26 日,亚马逊云科技 2025 Community Day 在深圳圆满举办。作为本次大会的赞助方之一,观测云受邀参加此次技术圈盛会,与参会者共同探讨“AI 与大数据”时代下的技术趋势与应用实践。
在下午「创造风暴:当 AI 遇上大数据」分论坛上,观测云产品技术总监黄小龙带来了主题演讲——《AI 时代下云应用可观测性解决方案》。
一、从“看不见”到“看得懂”:可观测性的本质
“当用户投诉系统慢、下单卡、服务异常时,谁该为问题负责?”
这正是每一个工程师、运维人员在复杂架构中都会遇到的“罗生门”时刻——应用?数据库?还是中间件?
黄小龙指出,监控(Monitoring)和可观测性(Observability)最大的区别在于:前者告诉你‘发生了什么’,后者让你知道‘为什么发生’。
“监控像血压计,而可观测性更像 B 超。”
通过分析系统外部输出(日志、指标、链路追踪等),我们才能真正理解系统内部运行状态。
二、“看得见”:全域数据采集的第一公里
可观测性的第一步,是“看得见”。
黄小龙分享了观测云在数据采集层的实践经验:“这一步听起来简单,但它是整个体系的第一公里,也是最容易掉链子的地方。”
观测云通过自研的 DataKit 实现多源数据的统一采集与格式化,解决了多语言、多环境下的兼容与性能挑战。无论是云主机、容器、微服务还是边缘节点,都能在低成本、低性能损耗的前提下实现高保真采集。这为后续的全链路分析与 AI 诊断提供了坚实的数据基础。
三、“看得远”:端到端的全链路追踪
在现代云架构中,业务链路往往横跨多个服务层。
观测云的全链路可观测体系能够实现从前端用户行为 → 后端调用链路 → 中间件 → 基础设施的完整追踪,并支持代码层级剖析与性能瓶颈定位。
黄小龙特别提到观测云对 AI 应用场景的扩展能力:“我们不仅追踪业务调用链,也追踪模型推理链路。”
通过 LLM Trace、Prompt Management、模型评估(Evaluation) 等能力,观测云让开发者能“看见”每一次 Prompt 的执行延迟、模型响应差异和输出异常,帮助团队快速定位 AI 应用中的问题根因。
四、“看得准”:AI Everywhere,让问题定位更智能
AI 不只是被观测的对象,也可以成为“观测者”。
黄小龙展示了观测云的 Obsy AI 智能体,通过内置大模型能力,让监控分析从“被动查询”变为“主动诊断”:
AI 告警收敛:自动识别并聚合相似告警,降低噪音;
AI 日志解析:自动提取异常模式,定位根因;
AI 错误分析:基于上下文联动指标、链路、日志进行根因推断;
AI 智能建议:针对性能瓶颈提出优化方向。
这不是把 AI 当噱头,而是让 AI 真正落地到可观测的每个环节。
从问题检测、原因分析到自动响应,观测云让“AI Everywhere”成为现实。
五、高质量数据是 AI 可观测的基石
演讲最后,黄小龙谈到构建一个“能力齐全”的可观测性平台的最大挑战:不是算法,也不是算力,而是数据质量。
他以实例展示了观测云如何通过标签化与上下文关联分析,让日志、链路、主机、容器、Session 等数据实现多维度关联——实现从一个 trace_id 追溯到完整用户体验,从一个 version 分析金丝雀发布效果,从一个 order_id 回看业务健康度。
正如他所说:“没有高质量的数据,就没有智能的分析。”
观测云正在构建一个有生命力的全球化可观测平台,目前已在全球部署 10+ 节点,可为 60+ 国家和地区提供服务。
从“看得见”到“看得远”,再到“看得准”,
观测云正以持续创新的方式,帮助更多企业在 AI 时代实现系统的稳定、智能与高效。
什么是观测云?
观测云作为一款现代化监控观测产品,全面覆盖从 App、Web 到基础设施及云平台的完整监控方案,支持500+流行云服务和技术栈的集成,是能够提供全球化监控(metrics、logs、trace、events)的强大数据接入与分析平台。其以更为合理的计费方式协助全球工程师与开发者更好地了解应用程序的运行状态,优化用户体验并提升系统可靠性。观测云致力于为用户提供统一,智能,安全,高效的监控体验。
关注「观测云」公众号,获取可观测性领域的前沿洞察和创新实践。
点击 阅读原文了解观测云![]()


