hackerbs's Blog - 探索知识的宇宙

hackerbs是hacker brainstorm的缩写,意为:黑客头脑风暴
人生价值的体现从来就不是个体利益,人生的价值是集体利益
人生的价值取决于你能为全人类带来什么
而知识,就是全人类的瑰宝
🌍 Need shipping from China? Visit Halbyte Logistics

情况说明

收到系统发出IO占用率和IO延迟的告警,登录带外排查无任何错误日志,随后进入操作系统使用脚本批量排查smartctl日志,发现存在错误计数,因smartctl并非厂家带外的告警日志,所以特此向Inspur、H3C、Lenovo、DELL进行了咨询,其中提到了一些日志参数的告警,目前已收到H3C、Inspur的回复

厂商对日志中以下内容的告警表示认可并作为报修依据

硬盘类型 参数 翻译 说明 来源
SSD ID 05 Reallocated Sector Count 重分配扇区计数 因坏块被重新分配的扇区数量,值越高健康状况越差 新华三
SSD ID 197 Current Pending Sector Count 当前待处理扇区计数 有潜在读写错误、待重新映射的扇区数量 新华三
HDD Total uncorrected errors 总无法纠正错误 所有无法纠正的读/写错误之和 新华三
HDD Verify total uncorrected errors 校验无法纠正错误 硬盘控制器自检时无法通过ECC纠正的错误总数,高值表示可靠性下降 新华三
HDD Read total uncorrected errors 读无法纠正错误 读取/写入IO时无法通过ECC纠正的错误总数,高值表示可靠性下降 新华三
HDD Elements in grown defect list 已增长缺陷列表中的元素 硬盘运行中登记的坏块数量,用于追踪坏块增长 @Icenowy于清华TUNA协会技术群组内回复
HDD Write total uncorrected errors 写入无法纠正错误总数 实际日志中无此项,参考上方总无法纠正错误即可 浪潮
SSD Reported Uncorrectable Errors 已报告的不可纠正错误 硬盘向主机报告的读/写过程中发生的不可恢复错误次数(>10更换) 浪潮
SSD Current Pending Sector Count 当前待处理扇区计数 检测到潜在读写错误、等待重新分配的扇区数量(>100更换) 浪潮
SSD Offline Uncorrectable 离线不可纠正错误 硬盘在离线自检/后台扫描时检测到的不可恢复错误次数(>0更换) 浪潮

以下是辅助日志,作为协助排障参考,不作为直接依据

硬盘类型 参数 翻译 说明 来源
SSD Reallocated Sector Count 重分配扇区计数 记录因物理损坏被替换到备用扇区的次数,数值增加说明介质退化(>500为不可靠) 浪潮
SSD CRC Error Count CRC 错误计数 记录主机与硬盘之间传输数据时发生的 CRC 校验错误次数,常见原因包括数据线接触不良、电磁干扰或接口问题,单盘较多则可能为该盘本体故障,多个硬盘则进一步筛查是否位于同一个硬盘背板或同一个SAS端口 浪潮
HDD Non-medium error count 非介质故障 与上方SSD的是一样的意思 浪潮

阅读全文 »

系统报IO告警,在带外无异常的情况下,在操作系统中进行排障

故障现象

监测平台报障IO占用率和延迟过高

初步排障

登录带外观察是否有故障日志,无论是否有故障日志,均需要进一步进行二次核对

JBOD直通无RAID排障

阅读全文 »

测试项

CPU基准和稳定性测试

测试项 测试工具 参考业务场景 测试方式
双精度浮点运算 float64 HPL 该项测试为HPC行业标准,TOP500超级计算机排行榜均采用该方式评估 测试3次取均值
稳定性 Stress-NG CPU、内存、IO全面压力测试 正常压测

内存基准和稳定性测试

阅读全文 »

巡检发现异常宕机,带外日志仅有一条热复位的记录

BMC日志如下:

SYS_Restart 系统启动/重新启动 开始热复位 - 触发

仅有一条热复位记录,无物理按键记录,无操作系统发起重启记录

阅读全文 »

日常巡检时发现带外出现INTEL SSD故障告警,随后又自行恢复,间隔约30分钟,无人工介入。

smartctl -a /dev/sda

故障原因推测 排障思路
硬盘背板接触问题 检查smartctl中ID 199 UltraDMA CRC Error Count的值,是否存在CRC校验错误
NAND闪存寿命是否不足 检查smartctl中ID 233 Media Wearout Indicator的值
是否存在坏扇区 检查smartctl中ID 5 Reallocated sector ct的值
硬盘备用空间是否不足 检查smartctl中ID 232 Available Reservd space的值
阅读全文 »

关于DELL PowerEdge R740XD iDRAC报内存设备的可纠正内存错误日志记录已禁用问题的说明及解答

巡检发现:iDRAC报错Correctable memory error logging disabled for a memory

致电800-858-0613核实BIOS固件版本低于2.10,固件过旧,属于遗留问题

关于该报错的解释为:BIOS关闭了对于ECC纠错记录的保存,仅仅是没有记录进行了ECC纠错,实际上并不影响使用,可能存在的风险为:无法知晓ECC进行了多少次纠错。

2025-9-4已致电DELL800-858-0613核实,该信息可信

关于DELL iDRAC日志中PERC报错问题的记录及解答

报错信息如下

Sun Jul 06 2025 07:24:49 The PERC1 battery is operating normally.
Sun Jul 06 2025 06:50:13 The PERC1 battery is low.
Mon Apr 07 2025 04:22:23 The PERC1 battery is operating normally.
Mon Apr 07 2025 04:20:18 The PERC1 battery is low.

报错内容为PERC电量低,随后又恢复正常,错误复现周期为3个月

阅读全文 »

环境介绍

代理客户端为Clash Verge Rev

直达官方github仓库

机场为狗狗加速

直达官网

使用邀请码享注册优惠pGwFvdKk

  • 高性能海外机场,免费试用,优惠套餐,解锁流媒体,全球首家支持 Hysteria 协议。

  • 海外团队,无跑路风险,高达 50% 返佣

  • 集群负载均衡设计,高速专线(兼容老客户端),极低延迟,无视晚高峰,4K 秒开

  • 全球首家 Hysteria 协议机场,现已上线更快的 Hysteria2 协议(Clash Verge 客户端最佳搭配)

  • 解锁流媒体及 ChatGPT

套餐 流量 详情
标准套餐 160G 限速150M,无审计,年付9折
高级套餐 200G 不限速,无审计,年付8折,最新Hysteria协议
豪华套餐 500G 不限速,无审计,2年付6折,最新Hysteria2协议,东南亚节点,微信客服技术支持

开发环境

Python 3.13.2

阅读全文 »

本次部署的目的是利用本地高性能的计算资源和云服务器畅通无阻的公网,实现无公网环境也可正常部署业务。

本文所用到的技术如下

名称 作用 软件
单向异地组网 将云服务器和本地服务器组成局域网,因本地服务器没有公网,所以由云服务器建立UDP连接实现组网 WireGuard
反代 将对云服务器发起的访问根据配置的业务转发到本地服务器进行处理 Nginx
网络转发 配合wireguard实现对网络流量的路由和转发,确保组网的通畅 iptables
阅读全文 »

很多时候从其他机器拿过来的盘通常是没有经过格式化的,这样就会出现一些残留的lvm信息,导致无法正常使用。

出现该残留lvm的原因是因为设备映射器device mapper正在管理该磁盘,所以wipefs -a -f和dd if=/dev/zero of=/dev/disk命令无法清除该lvm

1
2
3
4
5
6
7
8
9
# lsblk显示如下
nvme0n1 disk
└storage-data lvm

# ls -l /dev/mapper查询device mapper管理的磁盘信息
lrwxrwxrwx 1 root root 7 Nov 28 18:04 storage-data ->../dm-0

#dmsetup remove删除
dmsetup remove /dev/mapper/storage-data