hackerbs's Blog - 探索知识的宇宙
hackerbs是hacker brainstorm的缩写,意为:黑客头脑风暴
人生价值的体现从来就不是个体利益,人生的价值是集体利益
人生的价值取决于你能为全人类带来什么
而知识,就是全人类的瑰宝
🌍 Need shipping from China? Visit Halbyte Logistics
IT场景专业术语表
用于各IT场景的专业术语的中英文对照
工单场景
| 英文 | 英文全称 | 中文 | 释义 |
|---|---|---|---|
| TC | Ticket Created | 新建工单 | 工单已在系统中被成功创建,并进入待处理队列 |
| PR | Pending Report | 等待报告 | 工单处理因等待(用户、第三方或系统提供的)额外信息、日志或报告而暂时挂起 |
| SM | Self-Maintenance | 自行维护 | 问题由用户自行解决或无需运维团队介入(如过保服务器),随后工单可被关闭 |
| R | Resolved | 已解决 | 问题已被运维团队成功修复,该工单处理完毕 |
| IW | In Warranty | 在保内 | 表示设备或服务处于保修期内,维修通常由供应商免费提供 |
| OOW | Out of Warranty | 已过保 | 表示设备或服务已超出保修期,维修通常需要付费 |
| TPM | Third-Party Maintenance | 第三方维保 | 表示设备由原厂之外的第三方服务商提供维护支持 |
日常运维场景
关于服务器硬盘故障但带外没有错误日志的排障与报修笔记
情况说明
收到系统发出IO占用率和IO延迟的告警,登录带外排查无任何错误日志,随后进入操作系统使用脚本批量排查smartctl日志,发现存在错误计数,因smartctl并非厂家带外的告警日志,所以特此向Inspur、H3C、Lenovo、DELL进行了咨询,其中提到了一些日志参数的告警,目前已收到H3C、Inspur的回复
厂商对日志中以下内容的告警表示认可并作为报修依据
| 硬盘类型 | 参数 | 翻译 | 说明 | 来源 |
|---|---|---|---|---|
| SSD | ID 5 Reallocated_Sector_Ct | 重分配扇区计数 | 因坏块被重新分配的扇区数量,值越高健康状况越差 | 新华三 |
| SSD | ID 197 Current_Pending_Sector | 当前待处理扇区计数 | 有潜在读写错误、待重新映射的扇区数量(>100更换) | 浪潮/新华三 |
| SSD | ID 187 Reported_Uncorrect | 已报告的不可纠正错误 | 硬盘向主机报告的读/写过程中发生的不可恢复错误次数(>10更换) | 浪潮 |
| HDD | Total uncorrected errors | 总无法纠正错误 | 所有无法纠正的读/写错误之和 | 浪潮/新华三 |
| HDD | Verify total uncorrected errors | 校验无法纠正错误 | 硬盘控制器自检时无法通过ECC纠正的错误总数,高值表示可靠性下降 | 新华三 |
| HDD | Read total uncorrected errors | 读无法纠正错误 | 读取/写入IO时无法通过ECC纠正的错误总数,高值表示可靠性下降 | 新华三 |
| HDD | Elements in grown defect list | 已增长缺陷列表中的元素 | 硬盘运行中登记的坏块数量,用于追踪坏块增长 | @Icenowy于清华TUNA协会技术群组内回复 |
以下是辅助日志,作为协助排障参考,不作为直接依据
| 硬盘类型 | 参数 | 翻译 | 说明 | 来源 |
|---|---|---|---|---|
| SSD | Reallocated Sector Count | 重分配扇区计数 | 记录因物理损坏被替换到备用扇区的次数,数值增加说明介质退化(>500为不可靠) | 浪潮 |
| SSD | CRC Error Count | CRC 错误计数 | 记录主机与硬盘之间传输数据时发生的 CRC 校验错误次数,常见原因包括数据线接触不良、电磁干扰或接口问题,单盘较多则可能为该盘本体故障,多个硬盘则进一步筛查是否位于同一个硬盘背板或同一个SAS端口 | 浪潮 |
| HDD | Non-medium error count | 非介质故障 | 与上方SSD的是一样的意思 | 浪潮 |
DELL服务器硬盘IO告警排障思路
服务器稳定性及基准测试方法
异常宕机BMC日志无参考价值时的排障思路
记录一次分析[服务器SSD报故障随后自行恢复正常现象]
日常巡检时发现带外出现INTEL SSD故障告警,随后又自行恢复,间隔约30分钟,无人工介入。
smartctl -a /dev/sda
| 故障原因推测 | 排障思路 |
|---|---|
| 硬盘背板接触问题 | 检查smartctl中ID 199 UltraDMA CRC Error Count的值,是否存在CRC校验错误 |
| NAND闪存寿命是否不足 | 检查smartctl中ID 233 Media Wearout Indicator的值 |
| 是否存在坏扇区 | 检查smartctl中ID 5 Reallocated sector ct的值 |
| 硬盘备用空间是否不足 | 检查smartctl中ID 232 Available Reservd space的值 |
DELL报错The PERC1 battery is low
关于DELL iDRAC日志中PERC报错问题的记录及解答
报错信息如下
Sun Jul 06 2025 07:24:49 The PERC1 battery is operating normally.
Sun Jul 06 2025 06:50:13 The PERC1 battery is low.
Mon Apr 07 2025 04:22:23 The PERC1 battery is operating normally.
Mon Apr 07 2025 04:20:18 The PERC1 battery is low.
报错内容为PERC电量低,随后又恢复正常,错误复现周期为3个月
Python实现自动将GFWList规则转换为Clash规则
环境介绍
代理客户端为Clash Verge Rev
机场为狗狗加速
使用邀请码享注册优惠pGwFvdKk
高性能海外机场,免费试用,优惠套餐,解锁流媒体,全球首家支持 Hysteria 协议。
海外团队,无跑路风险,高达 50% 返佣
集群负载均衡设计,高速专线(兼容老客户端),极低延迟,无视晚高峰,4K 秒开
全球首家 Hysteria 协议机场,现已上线更快的 Hysteria2 协议(Clash Verge 客户端最佳搭配)
解锁流媒体及 ChatGPT
| 套餐 | 流量 | 详情 |
|---|---|---|
| 标准套餐 | 160G | 限速150M,无审计,年付9折 |
| 高级套餐 | 200G | 不限速,无审计,年付8折,最新Hysteria协议 |
| 豪华套餐 | 500G | 不限速,无审计,2年付6折,最新Hysteria2协议,东南亚节点,微信客服技术支持 |
开发环境
Python 3.13.2