hackerbs's Blog - 探索知识的宇宙

hackerbs是hacker brainstorm的缩写,意为:黑客头脑风暴
人生价值的体现从来就不是个体利益,人生的价值是集体利益
人生的价值取决于你能为全人类带来什么
而知识,就是全人类的瑰宝
🌍 Need shipping from China? Visit Halbyte Logistics

用于各IT场景的专业术语的中英文对照

工单场景

英文 英文全称 中文 释义
TC Ticket Created 新建工单 工单已在系统中被成功创建,并进入待处理队列
PR Pending Report 等待报告 工单处理因等待(用户、第三方或系统提供的)额外信息、日志或报告而暂时挂起
SM Self-Maintenance 自行维护 问题由用户自行解决或无需运维团队介入(如过保服务器),随后工单可被关闭
R Resolved 已解决 问题已被运维团队成功修复,该工单处理完毕
IW In Warranty 在保内 表示设备或服务处于保修期内,维修通常由供应商免费提供
OOW Out of Warranty 已过保 表示设备或服务已超出保修期,维修通常需要付费
TPM Third-Party Maintenance 第三方维保 表示设备由原厂之外的第三方服务商提供维护支持

日常运维场景

阅读全文 »

情况说明

收到系统发出IO占用率和IO延迟的告警,登录带外排查无任何错误日志,随后进入操作系统使用脚本批量排查smartctl日志,发现存在错误计数,因smartctl并非厂家带外的告警日志,所以特此向Inspur、H3C、Lenovo、DELL进行了咨询,其中提到了一些日志参数的告警,目前已收到H3C、Inspur的回复

厂商对日志中以下内容的告警表示认可并作为报修依据

硬盘类型 参数 翻译 说明 来源
SSD ID 5 Reallocated_Sector_Ct 重分配扇区计数 因坏块被重新分配的扇区数量,值越高健康状况越差 新华三
SSD ID 197 Current_Pending_Sector 当前待处理扇区计数 有潜在读写错误、待重新映射的扇区数量(>100更换) 浪潮/新华三
SSD ID 187 Reported_Uncorrect 已报告的不可纠正错误 硬盘向主机报告的读/写过程中发生的不可恢复错误次数(>10更换) 浪潮
HDD Total uncorrected errors 总无法纠正错误 所有无法纠正的读/写错误之和 浪潮/新华三
HDD Verify total uncorrected errors 校验无法纠正错误 硬盘控制器自检时无法通过ECC纠正的错误总数,高值表示可靠性下降 新华三
HDD Read total uncorrected errors 读无法纠正错误 读取/写入IO时无法通过ECC纠正的错误总数,高值表示可靠性下降 新华三
HDD Elements in grown defect list 已增长缺陷列表中的元素 硬盘运行中登记的坏块数量,用于追踪坏块增长 @Icenowy于清华TUNA协会技术群组内回复

以下是辅助日志,作为协助排障参考,不作为直接依据

硬盘类型 参数 翻译 说明 来源
SSD Reallocated Sector Count 重分配扇区计数 记录因物理损坏被替换到备用扇区的次数,数值增加说明介质退化(>500为不可靠) 浪潮
SSD CRC Error Count CRC 错误计数 记录主机与硬盘之间传输数据时发生的 CRC 校验错误次数,常见原因包括数据线接触不良、电磁干扰或接口问题,单盘较多则可能为该盘本体故障,多个硬盘则进一步筛查是否位于同一个硬盘背板或同一个SAS端口 浪潮
HDD Non-medium error count 非介质故障 与上方SSD的是一样的意思 浪潮

阅读全文 »

系统报IO告警,在带外无异常的情况下,在操作系统中进行排障

故障现象

监测平台报障IO占用率和延迟过高

初步排障

登录带外观察是否有故障日志,无论是否有故障日志,均需要进一步进行二次核对

JBOD直通无RAID排障

阅读全文 »

测试项

CPU基准测试

测试项 测试工具 参考业务场景 测试方式
双精度浮点运算 float64 HPL 该项测试为HPC行业标准,TOP500超级计算机排行榜均采用该方式评估 测试3次取均值

内存基准测试

阅读全文 »

巡检发现异常宕机,带外日志仅有一条热复位的记录

BMC日志如下:

SYS_Restart 系统启动/重新启动 开始热复位 - 触发

仅有一条热复位记录,无物理按键记录,无操作系统发起重启记录

阅读全文 »

日常巡检时发现带外出现INTEL SSD故障告警,随后又自行恢复,间隔约30分钟,无人工介入。

smartctl -a /dev/sda

故障原因推测 排障思路
硬盘背板接触问题 检查smartctl中ID 199 UltraDMA CRC Error Count的值,是否存在CRC校验错误
NAND闪存寿命是否不足 检查smartctl中ID 233 Media Wearout Indicator的值
是否存在坏扇区 检查smartctl中ID 5 Reallocated sector ct的值
硬盘备用空间是否不足 检查smartctl中ID 232 Available Reservd space的值
阅读全文 »

关于DELL PowerEdge R740XD iDRAC报内存设备的可纠正内存错误日志记录已禁用问题的说明及解答

巡检发现:iDRAC报错Correctable memory error logging disabled for a memory

致电800-858-0613核实BIOS固件版本低于2.10,固件过旧,属于遗留问题

关于该报错的解释为:BIOS关闭了对于ECC纠错记录的保存,仅仅是没有记录进行了ECC纠错,实际上并不影响使用,可能存在的风险为:无法知晓ECC进行了多少次纠错。

2025-9-4已致电DELL800-858-0613核实,该信息可信

关于DELL iDRAC日志中PERC报错问题的记录及解答

报错信息如下

Sun Jul 06 2025 07:24:49 The PERC1 battery is operating normally.
Sun Jul 06 2025 06:50:13 The PERC1 battery is low.
Mon Apr 07 2025 04:22:23 The PERC1 battery is operating normally.
Mon Apr 07 2025 04:20:18 The PERC1 battery is low.

报错内容为PERC电量低,随后又恢复正常,错误复现周期为3个月

阅读全文 »

环境介绍

代理客户端为Clash Verge Rev

直达官方github仓库

机场为狗狗加速

直达官网

使用邀请码享注册优惠pGwFvdKk

  • 高性能海外机场,免费试用,优惠套餐,解锁流媒体,全球首家支持 Hysteria 协议。

  • 海外团队,无跑路风险,高达 50% 返佣

  • 集群负载均衡设计,高速专线(兼容老客户端),极低延迟,无视晚高峰,4K 秒开

  • 全球首家 Hysteria 协议机场,现已上线更快的 Hysteria2 协议(Clash Verge 客户端最佳搭配)

  • 解锁流媒体及 ChatGPT

套餐 流量 详情
标准套餐 160G 限速150M,无审计,年付9折
高级套餐 200G 不限速,无审计,年付8折,最新Hysteria协议
豪华套餐 500G 不限速,无审计,2年付6折,最新Hysteria2协议,东南亚节点,微信客服技术支持

开发环境

Python 3.13.2

阅读全文 »