记录一次分析[服务器SSD报故障随后自行恢复正常现象]
日常巡检时发现带外出现INTEL SSD故障告警,随后又自行恢复,间隔约30分钟,无人工介入。
smartctl -a /dev/sda
故障原因推测 | 排障思路 |
---|---|
硬盘背板接触问题 | 检查smartctl中ID 199 UltraDMA CRC Error Count 的值,是否存在CRC校验错误 |
NAND闪存寿命是否不足 | 检查smartctl中ID 233 Media Wearout Indicator 的值 |
是否存在坏扇区 | 检查smartctl中ID 5 Reallocated sector ct 的值 |
硬盘备用空间是否不足 | 检查smartctl中ID 232 Available Reservd space 的值 |
实例:
1 | Media Wearout Indicator: 当前值0 临界值100 - 健康 |