大数跨境

DevOps Agent正式可用!全生命周期,全天待命!

DevOps Agent正式可用!全生命周期,全天待命! 亚马逊云科技
2026-04-02
28
导读:可跨环境快速排查故障、主动预防问题,优化应用可靠性与性能,高效处理各类SRE任务

Amazon DevOps Agent正式上线,作为全天候智能运维助手,支持跨亚马逊云科技、多云及本地环境,快速排查故障、主动预防问题,优化应用可靠性与性能,高效处理SRE任务。

运维团队常因繁琐排障、多工具数据比对和告警分类耗费大量时间,挤占创新精力。该产品能像资深工程师般排查问题,适配应用架构,整合监控、代码及部署数据统一分析。

预览版数据显示,客户平均故障修复时间(MTTR)缩短75%,排查速度提升80%,根因定位准确率达94%,故障解决效率提升3至5倍。

目前众多行业企业已将其融入运维流程,对接CloudWatch及Datadog、Dynatrace等主流工具。正式版新增Azure、Azure DevOps、PagerDuty、Grafana原生支持,后续将持续拓展集成能力。

Amazon DevOps Agent工作原理

作为新一代自主系统,Amazon DevOps Agent可独立达成目标、大规模并行处理多任务。它持续运行无需人工值守,覆盖故障从检测、排查、恢复到预防的全生命周期。

故障自动响应

告警触发时即时启动排查,无论凌晨两点或业务高峰,有效缩短平均修复时间(MTTR),快速恢复应用至最佳状态。

Amazon DevOps Agent故障响应排查日志

故障主动预防

推动团队从被动“救火”转向主动运维优化。通过分析历史故障规律输出针对性建议,防范后续问题,提升系统稳定性。

预防控制台:按类别展示风险防范建议

按需处理SRE运维任务

基于对运行环境的深入理解,不仅能响应查询,还可分析应用环境、创建并分享自定义图表与报告

带对话式AI助手的按需SRE聊天界面,可直接查询基础设施信息

正式版更新亮点

新增更多使用场景

  • Azure支持:排查Azure工作负载故障,跨多云部署关联数据,为混合环境提供统一故障响应。
  • 本地环境支持:借助模型上下文协议(MCP)分析指标与日志,构建完整架构拓扑,实现跨云及本地环境统一排查。
  • 按需执行SRE任务:通过自然语言查询应用架构、系统健康状况及部署历史,即时获取分析结果并生成自定义报告。
  • 分诊Agent:自动评估故障严重程度,标记重复工单减少干扰,使团队聚焦核心故障。

智能能力升级

  • 技能学习:学习企业排查模式与系统架构,长期使用后更高效解决专属运维难题。
  • 技能自定义:添加内部运维知识与流程,一次创建即可复用于同类故障排查。
  • 代码索引:为代码仓库建立索引,识别潜在缺陷并在修复建议中提供代码级方案。

全新集成能力

除已有Datadog、Dynatrace等集成外,新增:

  • PagerDuty:收到告警后直接触发自动响应流程。
  • Grafana:对接任意Grafana实例,采集Prometheus、Loki等开源监控数据。
  • Azure DevOps:追踪Azure环境中的部署记录与代码变更。
  • Amazon EventBridge:通过事件输出构建自定义自动化工作流。

适合企业级使用的功能

  • 区域扩展:覆盖北美欧洲及亚太六大亚马逊云科技区域,满足数据驻留要求并降低操作延迟。
  • 专用MCP连接:通过私有MCP服务器安全对接内部工具,避免机密数据经公网传输。
  • 安全能力:支持客户托管密钥,集成Okta、Microsoft Entra ID等身份验证系统。
  • 本地化支持:自动适配浏览器语言,全球团队可用偏好语言交互。

客户成功案例

西部州长大学(WGU)

在线教育机构WGU通过与Dynatrace原生集成,实现故障工单自动转发排查。在一次服务中断中,将原本预计2小时的修复缩短至28分钟,MTTR提升77%,精准定位Lambda配置问题。技术运营总监Angel Marchena表示:“它直接找到关键证据,对提升整体组织效率价值巨大。”

Zenchef

餐饮技术平台Zenchef在黑客松活动期间突发问题,监控系统无明确异常。团队仅输入问题描述,Agent便排除认证因素,通过ECS部署记录定位至IAM配置错误,耗时20-30分钟(效率提升75%)。平台工程经理Theo Massard评价:“在人力紧张时,它提供了前所未有的前瞻性分析能力。”

T-Mobile

美国无线运营商T-Mobile作为设计合作伙伴全程参与开发。其技术运营高级副总裁Aravind Manchireddy指出:“Agent能与本地Splunk无缝集成,跨复杂多云环境高效分析日志,显著提升根因定位速度。”

Granola

AI记事本工具Granola将Agent接入故障响应流程,自动启动排查。产品工程师Eddie Bruce称:“它在PostgreSQL日志分析及RDS性能问题挖掘上表现突出,已成为故障管理的核心组件。”

快速上手

快速入门步骤

  • 创建Agent空间:登录亚马逊云科技管理控制台,创建首个Agent空间。
  • 对接监控工具:连接Datadog、Grafana等现有工具获取监控数据。
  • 执行首次排查:配置自动响应或手动排查,通过反馈优化Agent技能。
  • 复盘近期故障:重析过去30天故障,直观验证耗时与准确率提升。

加速落地见效

  • 遵循最佳实践:参考部署指南集成至运维流程。
  • 量化实施效果:跟踪MTTR、排查耗时及准确率等核心指标。
  • 逐步扩展应用:先单团队试用验证效果,再推广至更多场景。

定价

按Agent执行任务的实际耗时秒级计费,无预付费用。购买亚马逊云科技技术支持服务的客户,可按支持套餐比例获得月度抵扣额度。

总结

Amazon DevOps Agent已正式上线,助力企业优化运维效率。如需了解详情,可查阅官方用户指南。

【声明】内容源于网络
0
0
亚马逊云科技
各类跨境出海行业相关资讯
内容 4074
粉丝 0
亚马逊云科技 各类跨境出海行业相关资讯
总阅读18.3k
粉丝0
内容4.1k