大数跨境
0
0

vSphere故障排查思想

vSphere故障排查思想 云容灾备份安全治理
2018-03-13
4

1、故障排查思维逻辑

故障排查涉及到整体的排错方法论,总体而言,故障排查需要遵循一个工作逻辑:

• 确认问题状况

o 确认问题所在

o 收集故障相关问题 

• 确认导致故障的原因 

o 确认什么原因导致的问题 

o 诊断问题的根本原因是什么 

• 解决问题 解决问题

o 制定可能的解决方案 

o 评估数据安全风险 

o 执行最佳解决方案

2、故障排查逻辑图示(流程及细节)

图示说明:

• 软件配置问题、软件 Bug、硬件故障是三种最为常见的软件bugbug 示例

o 在 ESXi 5.5 u1或 中存在这样一个常见的软件 Bug :网卡原因紫屏事件 :

硬件故障示例:

o 若主机 若主机 HBA 卡电池出问题,可能会在写上面有很差的表现。

3、vSphere常规故障分层

4、故障解决E2E

5、案例流程 - 故障状态(示例)

6、案例流程 - 日志搜集(收集日志信息,用于进行故障分析)

7、案例流程 - 可能性分析

利用结构化思维来进行故障分析,可以有效提高排错效率;

根据问题的提示,按照下图所示排错流程来进行排错。

图示说明:

• 自上而下进行排错 

• 自下而上进行排错 

• 从中间环节排错

8、案例流程 - 查找问题的根源

通过反复测试,来确认问题的根源所在,例如:VM无响应的排错逻辑:

图示说明:

如果仅是单台虚拟机无响应,建议自上而下

若涉及很多虚拟机响应慢,建议从中间环节

存在告警,建议从下而上

8、案例流程 - 解决问题

完成问题根源定位之后,评估可能带来的影响 

o 较大影响 - 立即解决 

o 一般影响 - 条件许可的情况下解决 

o 较小影响 - 有空解决

制定解决问题的方案

头疼医头- 立刻就事论解决问题

头疼医脚 - 避免同一个问题再次发生

长远考虑  - 整体考虑,从未来的思路触发去执行问题处理

9、vSphere常规故障排查流程 - 追根溯源(图示)

图示说明:

• 此处以 vMotion  为例,其它故障与此类似为例,

10、vSphere排错组件归纳


【声明】内容源于网络
0
0
云容灾备份安全治理
分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
内容 2171
粉丝 0
云容灾备份安全治理 分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
总阅读3.8k
粉丝0
内容2.2k