大数跨境
0
0

故障自愈组合套餐:复杂故障的自动化处理方案

故障自愈组合套餐:复杂故障的自动化处理方案 嘉为蓝鲸
2019-03-07
1
导读:今年小A研究了蓝鲸监控和故障自愈,针对往年常出现的故障,设置好了监控->自愈的恢复链路。Ping告警刚产生没几分钟,故障自愈就已经从资源池中拉取了备用机替换了故障机,保障了业务的正常运行。下面就给大家


关注嘉为科技,获取运维新知



重磅惊喜:组合套餐

  • 自愈套餐新增支持将原子套餐组装成组合套餐,解决复杂故障处理场景。

  • 场景:大年三十晚上与家人团聚的时候,运维小A突然收到服务器Ping告警,往年遇到这种情况时,解决问题得花一段时间,团圆饭就基本泡汤了。

    今年小A部署了蓝鲸智云社区版,研究了蓝鲸监控和故障自愈,针对往年常出现的故障,设置好了监控->自愈的恢复链路。Ping告警刚产生没几分钟,故障自愈就已经从资源池中拉取了备用机替换了故障机,保障了业务的正常运行,小A也愉快地在家里度过新年

    下面就给大家分享小A的故障自愈组合套餐配置方法。(如果担心全自动的故障恢复有风险,或者流程上不允许,还可以考虑使用带有审批功能的故障自愈组合套餐https://docs.bk.tencent.com/fta/Advanced_Features/Approval_of_ping_alarm_combination_package_access_process.html)

PING不可达故障替换组合套餐

场景:A模块是重要模块,出现PING不可达告警,首先要校验A模块是否真的故障,如果真的故障,接下来是从资源池中获取备机..故障替换等等,期间每个环节都有可能出错,那就要考虑异常分支的场景。

需要提前准备:

  1. 需要蓝鲸平台上部署故障自愈的前后端

  2. 需要配置好通知渠道,通知方式可采用邮件/短信/企业微信(配置方法可联系蓝鲸助手)


第一步:准备好组合套餐中每个原子(节点)的套餐。 

1. 配置ping检测的原子套餐,可以在作业平台写个简单的ping检测脚本,再去故障自愈中配置ping检测的自愈套餐。


2. ping检测没有异常,则发送正常通知。如ping检测异常,则使用获取备机套餐,自动获取备机,前提是空闲机池中有空闲机。

2.1 配置ping检测正常通知

2.2 配置自动获取备机套餐

 

3. 成功获取备机后,拷贝故障机属性到备机,后续处理对象故障机与备机互换,然后初始化业务,启动进程通知故障替换成功,以上步骤失败都加一个失败通知。

3.1『快捷』配置平台拷贝故障机属性到备机、『快捷』后续处理对象故障机与备机互换,都是快捷套餐,只要选择就好,这里就不展开了,后面初始化业务请根据企业的初始化流程来配置初始化套餐,启动进程也是一样,因为这里只是模拟所以仅用通知代替。


第二步:配置组合套餐,并接入故障自愈,接入故障自愈这里选择REST默认分类是为了方便触发告警,实际应用选择ping不可达告警类型。


第三步:触发告警,完成自愈

1. 触发告警,由于这里是做测试,用REST API可以更方便的产生告警,完整流程请参照REST API推送

2. 回到故障自愈中,查看自愈详情,也可以点击状态,查看执行详情。



惊喜二:标准运维套餐

  • 自愈套餐新增标准运维套餐,支持调用标准运维流程处理故障,标准运维是拥有可视化的图形界面,并进行任务流程编排和执行的系统,通过标准运维,可在单个流程内调用平台的众多原子,解决故障。


1. 创建标准运维故障处理流程


2. 在故障自愈创建自愈套餐,选择自愈流程 


3. 接入自愈,简单3步即可完成标准运维套餐的使用




惊喜三:通知套餐

  • 自愈套餐新增通知套餐,可以调用不同的接口发送自定义的通知内容。(发送微信失败会改为短信,发送短信失败则发微信,邮件通知接口调用失败将不做处理)



惊喜四:审批套餐

  • 自愈套餐新增审批套餐,重要告警发送到企业微信等平台,需人工确认才能进行下一步处理。

    • 需要先配置企业微信,注册链接:https://work.weixin.qq.com/,注意:开启微信端口80、443

    • 需要在企业微信后台创建故障自愈APP




惊喜五:新增3种告警源集成

  • 目前已支持处理来源于AWS、Icinga 2、邮件中的告警 。



惊喜六:预警自愈

  • 频繁故障的资源,除了接入自愈之外,还可以选用预警自愈,配置预警自愈策略,每天早上8点回溯自愈处理过的告警,分析潜在风险并处理。可在健康诊断页面找到分析出的健康事件。



惊喜七:自愈小助手

  • 在没有接入自愈的时候,故障自愈也会检测监控工具是否有在产生告警,当检测到有未接入自愈的告警时候,自愈小助手就会根据推荐模型,自动关联告警和处理套餐,一键启用,减少了人工配置的成本。



温馨提示:

1. 蓝鲸智云社区版5.0下载入口 

  (https://bk.tencent.com/download/)

2. 故障自愈产品白皮书 

  (https://docs.bk.tencent.com/fta/)


蓝鲸智云平台试用Tips

蓝鲸社区版

如果您想先简单了解蓝鲸研发运营一体化平台,或者企业规模较小但想用更为先进的自动化运维管理方式进行IT运维管理,推荐您先试用蓝鲸社区版。

蓝鲸社区版已经开源,您可以登录蓝鲸智云官网免费下载。网址:

http://bk.tencent.com/download


蓝鲸企业版

当然,蓝鲸企业版拥有更为丰富的功能,更适合企业级客户使用。如您有需要试用或者测试,联系嘉为吧!



关于我们

嘉为科技 —— 成立于2001年,IT解决方案与服务领先者,腾讯蓝鲸智云全国首家授权技术合作伙伴,拥有嘉为蓝鲸、基础架构、嘉为软件、云服务四大业务,致力于提升客户信息化水平和市场竞争力,助力客户的业务发展。历经18年的发展和积累,嘉为已成为备受客户赞誉的行业翘楚。

嘉为蓝鲸 —— 嘉为科技十几载企业运维经验累积、基于腾讯蓝鲸智云技术体系打造的研发运营一体化解决方案,能够满足企业复杂多变的运维场景,帮助客户落地真正自主可控的研发运营一体化平台,逐步实现自动化、数据化以及智能化IT运营。


【声明】内容源于网络
0
0
嘉为蓝鲸
嘉为蓝鲸服务中心,为用户提供最新服务。
内容 758
粉丝 0
嘉为蓝鲸 嘉为蓝鲸服务中心,为用户提供最新服务。
总阅读295
粉丝0
内容758