大数跨境
0
0

云原生下运维管理实践

云原生下运维管理实践 众安工程效能
2023-07-13
2
导读:在保障服务稳定运行的情况下实现运维自动化、提升资源利用率,已成为企业推进数字化转型成功的重要因素。


随着云原生技术的快速发展,越来越多的企业加大了对云原生技术的投入,选择在生产环境中大规模得深入应用,将核心业务从原有部署在稳态的IT架构迁移到更灵活、可扩展性、更高的敏态IT架构,这就造成主要靠人工处理的传统运维模式已经无法满足新架构下的需求,资源浪费问题也越发明显。在保障服务稳定运行的情况下实现运维自动化、提升资源利用率,已成为企业推进数字化转型成功的重要因素。


一、传统运维面临的挑战

传统运维模式在运维效率、整体稳定性、资源成本精细化运营等方面面临巨大的挑战,主要包括:

1. 发布效率低

为实现业务快速迭代,传统的依赖人工半自动的方式已较大程度上影响了应用发布的整体效率,如何提升验证以及上线的时效、降低发布失败的风险成为重点要解决的问题。

2. 故障处理成本高

随着云原生环境下资源数量的快速增长、配置及依赖链路更加复杂,原有监控体系已无法迅速捕获系统的异常变化,出现问题后排查难度大、定位时间久、影响面和损失呈指数级增长,传统运维模式已经难以应对。

3. 资源浪费

人为无法预估服务资源配额,导致主机配额占用不均衡、服务实例资源冗余。闲置服务实例无人处理,长期占用主机资源。IT团队没有对资源使用率的考核KPI,缺乏针对成本的数据度量。


二、众安基于云原生技术提供全方位运维保障

众安研发运维一体化平台支持服务的自动化运维体系,覆盖快速发现问题、自动解决问题、辅助排查以及定位问题等多种运维能力,提供监控、日志、告警、健康检查、弹性伸缩、服务回滚、智能调度、发布策略等功能,并且为提升资源利用率、降低闲置资源成本消耗、优化资源合理利用提供依据。

1. 资源配额智能推荐

提供智能配额推荐机制,根据过去服务过的实际的内存、CPU使用率动态计算推荐值,从而避免用户盲目配置导致冗余量过大的情况。

2. 服务实例自动回收

提供服务实例自动回收机制,比如长时间闲置服务的回收、服务发布上线后对于之前开发环境的资源的自动回收。



3. 资源弹性伸缩

预先设置CPU、内存使用率阈值以及实例范围。当负载过大超过阈值时系统会自动扩容,当负载小时则自动缩容,避免资源浪费。



4. 应用策略灵活可配

支持配置多种灰度策略和调度策略,确保应用运行的稳定性。提供流量灰度、内容灰度、灰度组等多种灰度组合策略,满足业务多种A/B测试场景所需,降低线上发布失败率。



5. 问题实时发现和快速定位

实时业务告警,主动发现线上问题。允许用户从业务视角定义所需的监控指标,并针对指标来配置告警规则以及触达方式,实现对业务健康度的实时监听。通过应用日志和pod事件记录,帮助开发、运维人员快速定位根因。


配置告警规则

异常记录


6. 服务及时恢复

故障自恢复,减少线上访问失败次数。提供服务健康检查策略,对异常服务主动进行摘流和重启,服务恢复后自动加回流量负载,有效避免请求失败。平台记录了应用历史版本镜像、编排以及配置,用户也可通过回滚稳定版本进行服务的恢复。

7. 资源使用数据度量

提供资源使用数据度量能力,包括收集数据、数据建模以及可视化展示,用于分析总体资源使用情况,为资源成本精细化运营提供依据。

【声明】内容源于网络
0
0
众安工程效能
众安工程效能为客户提供DevOps研发运维一体化平台,包括项目管理、CI/CD、质量测试、监控告警、效能度量等产品,打造业务数字化升级的坚强基石
内容 34
粉丝 0
众安工程效能 众安工程效能为客户提供DevOps研发运维一体化平台,包括项目管理、CI/CD、质量测试、监控告警、效能度量等产品,打造业务数字化升级的坚强基石
总阅读17
粉丝0
内容34