尝试用数字化的理解说一下运维。
首先是要将硬件都数字化,也就是机器的配置,IP,网络配置都要记录到 CMDB 中,但是实现了准确记录也只是信息化,因为最多是信息,没有做到辅助决策,如果查看机器时可以提供硬件更新提醒,例如硬盘使用生命周期快到了,并且有 20%损坏的概率,提示做备份或者更换,同时支持成本对比,那么对于设备管理员来说,就是一个有理有据的决策依据。
好的,继续聊现在流行实时报警,这个确实厉害,但是只是起到一个提醒作用,辅助决策的比重不大。难点在于数据量大和实时性之间的矛盾,但是在用户看到真实报警后往往是懵逼的,因为现在系统太复杂,提示信息往往只是原始错误的信息,很难马上判断出来根本原因以及解决方案,这个我太有感觉了,以往安装 pip 包的时候,总是各种错误,上网查找要么赌对遇到一模一样的错误,要么就是找灵感,试图从相似的错误中找到可用的解决方案,但概率不高,后来用了 GPT 效率才大幅提升,本质上 GPT 分析了错误信息,并给出了他知道的最有效的解决方案,也就是帮我做了决策,这个才是有用的。
回头继续说实时报警,理想的数字化是给出报警的可能原因(最好是准确的原因)以及有效的应对措施这才是数字化的目标,仅仅提示并不是,不论他有多快。
还有一个指标体系,本质上指标是对事物衡量的简化方式(没办法事物的维度太多,只能简化)。最重要的是指标是手段不是目的,追求指标体系是错误的,追求的应该是对事物的把握程度。那么问题来了,什么是追求的目标?
如果我现在追求系统稳定,那么性能指标就需要一大堆,用来刻画我监控的对象的性能状态。如果追求应用错误的发现速度(尤其是测试中的应用),那么错误日志以及告警速度就是关键指标。如果追求伸缩性好,那么最高最低的性能指标就是我要采集的数据,如此类推,追求什么,就采集什么,然后判断是否能够满足对目标的刻画,如果不足,就再采集。
网友评论