

大模型时代的智能运维，华为、蚂蚁、字节等3家企业实践案例

沙丘社区

2024-06-12

导读：华为、蚂蚁集团、字节跳动大模型+智能运维实践案例

IT运维必须始终掌握对服务和网络的可见性，传统运维管理人工及被动响应方式，已经无法支撑业务灵活、快速的发展。因此，越来越多的企业开始依靠智能运维，通过数据驱动的方式确保最佳的可观察性，使IT运维从过去的被动响应转为主动治理，并缩短故障处理时间。

这也推动了企业IT运维部门在AI技术以及生成式AI技术方面的投入。通过增强AlOps并最大程度缩短故障修复时间，大模型将改善企业IT运维效率。

沙丘智库长期跟踪调研大模型技术的发展，旨在帮助企业快速了解大模型最新、最全面的落地情况。

当前，大模型在智能运维领域的落地还处于早期阶段，但大模型所表现出的理解、生成、调度等优秀能力，在与运维数据结合后，将加速智能运维的落地进程，在智能问答、自动控制、辅助分析等场景均有应用前景。

一些技术领先企业正在积极探索大模型在智能运维领域的应用，沙丘智库选取了其中3家典型企业（包括华为、蚂蚁集团、字节跳动）的实践案例，为其他企业探索“大模型+智能运维”提供参考。

▎案例1：华为基于大小模型协同的网络智能运维实践

华为搭建了基于大小模型协同的网络智能运维系统，统一自然语言交互界面，用户输入问题，运维工具输出自然语言答案。

对于已知的可以用现成能力解决的问题，通过运维专用小模型进行健康度报告、健康度查询、故障闭环推荐等，对于未知问题，调用知识检索能力。

结合大小模型的输出结果，使用大模型的逻辑推理与总结归纳能力，辅助进行多源数据的关联分析，降低运维人员的理解与操作闭环难度。

▎案例2：蚂蚁可观测Mpilot智能助手实践

蚂蚁将大模型用于可观测平台，重点选取与产品深度融合且高频使用的场景，建设了可观测Mpilot智能助手，通过三个助手Agent提供服务，分别为时序助手、日志助手和告警助手。

• 时序助手：时序助手重点用于监控指标分析，进行业务指标探索，通过定制化SQL模型的方式，允许用户以自然语言的方式快速检索监控内部的数据源；

• 日志助手：日志助手用于解读应用错误日志，并对应用报告给出分析性建设和解决方案；

• 告警助手：告警助手主要用于告警应急处理，以及告警之后的辅助故障面计算、关联告警查询、初步根因定位、应急处置流程查询等场景。

▎案例3：字节跳动智能运维场景AI Agent实践

字节跳动在智能运维场景中实践AI Agent，通过对话方式利用大模型的规划、反思和工具使用能力，实现复杂任务的自治完成。

落地实践中，AI Agent在故障排查和运维知识问答方面展现出高效性，通过固定流程和并发反思提升排查效率和自学习能力。未来，AI Agent和大模型的持续增强将推动更智能的运维自动化。

*有任何需求可咨询客服微信：zimu738

【声明】内容源于网络

沙丘社区

数字化研究与服务机构

内容 672

粉丝 0

沙丘社区数字化研究与服务机构

总阅读300

粉丝0

内容672