
1、故障排查思维逻辑
故障排查涉及到整体的排错方法论,总体而言,故障排查需要遵循一个工作逻辑:
• 确认问题状况
o 确认问题所在
o 收集故障相关问题
• 确认导致故障的原因
o 确认什么原因导致的问题
o 诊断问题的根本原因是什么
• 解决问题 解决问题
o 制定可能的解决方案
o 评估数据安全风险
o 执行最佳解决方案
2、故障排查逻辑图示(流程及细节)

图示说明:
• 软件配置问题、软件 Bug、硬件故障是三种最为常见的软件bugbug 示例
o 在 ESXi 5.5 u1或 中存在这样一个常见的软件 Bug :网卡原因紫屏事件 :
硬件故障示例:
o 若主机 若主机 HBA 卡电池出问题,可能会在写上面有很差的表现。
3、vSphere常规故障分层

4、故障解决E2E

5、案例流程 - 故障状态(示例)

6、案例流程 - 日志搜集(收集日志信息,用于进行故障分析)

7、案例流程 - 可能性分析
利用结构化思维来进行故障分析,可以有效提高排错效率;
根据问题的提示,按照下图所示排错流程来进行排错。

图示说明:
• 自上而下进行排错
• 自下而上进行排错
• 从中间环节排错
8、案例流程 - 查找问题的根源
通过反复测试,来确认问题的根源所在,例如:VM无响应的排错逻辑:

图示说明:
如果仅是单台虚拟机无响应,建议自上而下
若涉及很多虚拟机响应慢,建议从中间环节
存在告警,建议从下而上
8、案例流程 - 解决问题
完成问题根源定位之后,评估可能带来的影响
o 较大影响 - 立即解决
o 一般影响 - 条件许可的情况下解决
o 较小影响 - 有空解决
制定解决问题的方案
头疼医头- 立刻就事论解决问题
头疼医脚 - 避免同一个问题再次发生
长远考虑 - 整体考虑,从未来的思路触发去执行问题处理
9、vSphere常规故障排查流程 - 追根溯源(图示)

图示说明:
• 此处以 vMotion 为例,其它故障与此类似为例,
10、vSphere排错组件归纳


