知识关系

所属体系: 数据中心与基础设施 / 存储与数据可靠性体系 主题节点: 记录一次分析[服务器SSD报故障随后自行恢复正常现象] 推荐前置: 关于服务器硬盘故障但带外没有错误日志的排障与报修笔记 相关主题: DELL服务器硬盘IO告警排障思路 / 服务器稳定性及基准测试方法 原始来源: source/_posts/记录一次分析-服务器SSD报故障随后自行恢复正常现象.md 从旧博客迁移;已按知识图谱结构重新归档。


日常巡检时发现带外出现INTEL SSD故障告警,随后又自行恢复,间隔约30分钟,无人工介入。

smartctl -a /dev/sda

故障原因推测排障思路
硬盘背板接触问题检查smartctl中ID 199 UltraDMA CRC Error Count的值,是否存在CRC校验错误
NAND闪存寿命是否不足检查smartctl中ID 233 Media Wearout Indicator的值
是否存在坏扇区检查smartctl中ID 5 Reallocated sector ct的值
硬盘备用空间是否不足检查smartctl中ID 232 Available Reservd space的值

实例:

Media Wearout Indicator: 当前值0 临界值100 - 健康
Reallocated Sector Count: 当前值0 临界值75 - 健康
Available Reservd Spare: 当前值0 临界值100 - 健康