知识关系

所属体系: 数据中心与基础设施 / 运行稳定性与排障 主题节点: 异常宕机BMC日志无参考价值时的排障思路 推荐前置: Linux技巧【持续更新】 相关主题: 服务器稳定性及基准测试方法 / 关于DELL PowerEdge报错Correctable memory error logging disabled for a memory device的说明 原始来源: source/_posts/异常宕机BMC日志无参考价值时的排障思路.md 从旧博客迁移;已按知识图谱结构重新归档。


巡检发现异常宕机,带外日志仅有一条热复位的记录

BMC日志如下:

SYS_Restart 系统启动/重新启动 开始热复位 - 触发

仅有一条热复位记录,无物理按键记录,无操作系统发起重启记录

排障思路命令
排查启动日志`journalctl -b
排查内核缓冲区dmesg --level=err,warn
排查是否有内核崩溃转储文件ls -la /var/crash/
排查是否有硬件错误`journalctl -k
排查watchdog是否触发`journalctl -k
排查过热日志`journalctl -k
检查内存不足事件`journalctl -k
检查 CPU 或 I/O 阻塞sar -q -f /var/log/sa/sa10
检查内存错误计数`dmidecode -t memory
检查电源日志`journalctl -k