SMART概述
要说Linux用户最不愿意看到的事情,莫过于在毫无警告的情况下发现硬盘崩溃了。诸如RAID的备份和存储技术可以在任何时候帮用户恢复数据,但为预防硬件崩溃造成数据丢失所花费的代价却是相当可观的,特别是在用户从来没有提前考虑过在这些情况下的应对措施时。
硬盘的故障一般分为两种:可预测的(predictable)和不可预测的(unpredictable)。后者偶而会发生,也没有办法去预防它,例如芯片突然失效,机械撞击等。但像电机轴承磨损、盘片磁介质性能下降等都属于可预测的情况,可以在在几天甚至几星期前就发现这种不正常的现象。
对于可预测的情况,如果能通过磁盘监控技术,通过测量硬盘的几个重要的安全参数和评估他们的情况,然后由监控软件得出两种结果:“硬盘安全”或“不久后会发生故障”。那么在发生故障前,至少有足够的时间让使用者把重要资料转移到其它储存设备上。
好了,工具上场,WGCLOUD是国人开源的优秀运维监控系统,基于java,性能非常好,核心模块包括:主机监控,ES集群管理,CPU监控,CPU温度监控,内存监控,数据监控,docker监控,网络流量监控,服务接口心跳检测,应用进程管理,磁盘IO监控,系统负载监控,端口监控,大屏可视化,日志文件监控,硬盘smart健康检测,监控告警信息(默认邮件,支持钉钉微信集成)推送。
网站有非常完整的安装和使用文档,这个系统smart检测默认是关闭,需要手动在agent里配置开启,然后需要安装smartmontools,这些网站也有说明
image.png
运行效果如如下,图下绿色的字就是smart检测结果
image.png
网友评论