知识关系
所属体系: 数据中心与基础设施 / 存储与数据可靠性体系 主题节点: 记录一次分析[服务器SSD报故障随后自行恢复正常现象] 推荐前置: 关于服务器硬盘故障但带外没有错误日志的排障与报修笔记 相关主题: DELL服务器硬盘IO告警排障思路 / 服务器稳定性及基准测试方法 原始来源:
source/_posts/记录一次分析-服务器SSD报故障随后自行恢复正常现象.md从旧博客迁移;已按知识图谱结构重新归档。
日常巡检时发现带外出现INTEL SSD故障告警,随后又自行恢复,间隔约30分钟,无人工介入。
smartctl -a /dev/sda
| 故障原因推测 | 排障思路 |
|---|---|
| 硬盘背板接触问题 | 检查smartctl中ID 199 UltraDMA CRC Error Count的值,是否存在CRC校验错误 |
| NAND闪存寿命是否不足 | 检查smartctl中ID 233 Media Wearout Indicator的值 |
| 是否存在坏扇区 | 检查smartctl中ID 5 Reallocated sector ct的值 |
| 硬盘备用空间是否不足 | 检查smartctl中ID 232 Available Reservd space的值 |
实例:
Media Wearout Indicator: 当前值0 临界值100 - 健康
Reallocated Sector Count: 当前值0 临界值75 - 健康
Available Reservd Spare: 当前值0 临界值100 - 健康