一、 问题发现
HUAWEI CLOUD Stack 8.2.1虚拟机重启之后进入pxe状态。

二、分析过程
1. 跟客户确认问题背景,是同一个系统镜像发了同一批虚拟机,概率性的出现这个问题现象,有些能重启正常,有些就会有问题。
2. 由于是前一天出现的问题,登陆问题虚机所在主机节点,cd /var/log 查看转储日志 logdump-*.tar.gz 根据日期查询相关日志。

3. 根据虚拟机id找到对应虚机,vim进入其当日的日志信息


qemu日志中显示虚拟机内部不断下发重启命令(guest-reset)
4. 然后界面再次尝试重启虚拟机,复现一下故障,然后到后台回到上一级目录vim libvirtd.log,找到虚机id对应的日志


排查虚拟化libvirt日志无异常事件或报错
5. 然后cd /var/log/ vim messages


排查系统日志无异常报错
6. 然后找到一台正常的虚拟机,登陆后台查看系统版本


发现系统大版本在兼容性列表里,但是内核版本不在,所以最终确认是现场使用的虚拟机系统不在兼容性列表里,所以导致了不可预测的问题,并且建议联系系统侧同事进一步排查处理。
三、解决方案
建议客户建议找系统侧工程师排查虚拟机OS,并且建议使用平台测试通过的,内核版本兼容的系统
四、问题影响
虚拟机会发生无法预测的问题,比如目前遇到的重启后反复pxe无法正常使用
五、问题根因
排查系统日志无异常报错,排查虚拟化libvirt日志无异常事件或报错,qemu日志中显示虚拟机内部不断下发重启命令(guest-reset),建议找系统侧工程师排查虚拟机OS,并且同时平台侧查询得知该系统版本的内核版本不在兼容性列表里,未测试适配,所以有无法预测的问题存在。
不在兼容性列表里,意思是云平台没有做过兼容性测试,因此不能保证是否正常运行。

