知识关系
所属体系: 数据中心与基础设施 / 运行稳定性与排障 主题节点: 异常宕机BMC日志无参考价值时的排障思路 推荐前置: Linux技巧【持续更新】 相关主题: 服务器稳定性及基准测试方法 / 关于DELL PowerEdge报错Correctable memory error logging disabled for a memory device的说明 原始来源:
source/_posts/异常宕机BMC日志无参考价值时的排障思路.md从旧博客迁移;已按知识图谱结构重新归档。
巡检发现异常宕机,带外日志仅有一条热复位的记录
BMC日志如下:
SYS_Restart 系统启动/重新启动 开始热复位 - 触发
仅有一条热复位记录,无物理按键记录,无操作系统发起重启记录
| 排障思路 | 命令 |
|---|---|
| 排查启动日志 | `journalctl -b |
| 排查内核缓冲区 | dmesg --level=err,warn |
| 排查是否有内核崩溃转储文件 | ls -la /var/crash/ |
| 排查是否有硬件错误 | `journalctl -k |
| 排查watchdog是否触发 | `journalctl -k |
| 排查过热日志 | `journalctl -k |
| 检查内存不足事件 | `journalctl -k |
| 检查 CPU 或 I/O 阻塞 | sar -q -f /var/log/sa/sa10 |
| 检查内存错误计数 | `dmidecode -t memory |
| 检查电源日志 | `journalctl -k |