【实战篇】集群慢盘检测算法

作者: 山药鱼儿 | 来源:发表于2022-05-18 16:45 被阅读0次

【实战篇】集群慢盘检测算法
异常检测算法
负载均衡集群介绍、LVS NAT模式搭建、LVS DR模式搭建、
机器学习学习笔记--朴素贝叶斯实践
音乐弹幕射击与实现（二）音乐节拍检测及音乐高潮检测
分布式系统-6-两阶段提交
特征点检测算法
集群存储数据的工作原理
redis通信故障
06-分布式和集群

Hello，大家好！最近呢，程序员小鱼借助数据分析技能，为公司解决了一个算法问题：集群慢盘检测算法。本篇文章小鱼会对集群慢盘检测算法实现的总体流程进行总结，代码及细节涉及公司利益，不便公开，感谢大家的理解和支持 (╹▽╹) ~

一. 探索阶段

在开始数据分析工作前，绘图是非常有效的手段，可以为我们带来宝贵的解决问题的思路。

注：svctm 为平均 io 服务时长，使用一段时间内的 io 服务时长 io_time 除以 io 个数 io_count 计算得到。

下面是小鱼使用 Seaborn 的 pairplot 绘制的 HDD 磁盘变量 io_time io_count svctm 之间的散点图。

通过观察 io_count 和 io_time 之间的散点图我们发现，当 io_count 大于一定值之后，可以找到一条曲线来很好地拟合所有的数据点。

但如果我们使用回归分析的方式，将曲线上方的点视为离群点，那就需要针对不同厂商生产的磁盘训练不同的模型，而且受限于数据方面的限制，没办法获取到所有厂商的硬盘数据。

为此，需要我们转换思维方式，寻求更简洁有效的方案，不妨继续观察一下 io_count 和 svctm 之间的相关性。

在 io_count 比较小的时候，平均 io 服务时长会出现一些 4ms 以上的离群点，而随着 io_count 的增加，磁盘的 svctm 也越来越接近磁盘的能力上限，所有的点基本都分布在一条线上。

这给了我们一个很好的启发，如果统计周期内，同类磁盘中，大家处理 io 数量都差不多，并且能够累积到足够多的 io 时，那么大家的 svctm 也应该相差不大。

而我们的分布式存储集群恰好符合这样的特点，通过 io 均衡算法，业务端的 io 会相对均匀地分配到不同的磁盘。为此，检测周期内，集群磁盘的 svctm 将符合正太分布，中间的值占多数，两边的离群点只占少数。

如此，集群慢盘检测算法的思路也就确定下来了，即通过比较各类磁盘中，每块盘的 svctm 与集群 svctm 水平的大小，来确定慢盘。

二. 检测过程

集群慢盘检测任务属于周期任务，每轮检测中通过比较磁盘的 svctm 与集群 svctm 四分位距内的加权平均值 svctm_avg ，来确定慢盘。默认情况下当某个磁盘的 svctm 达到 svctm_avg 的 N 倍时，在一轮检测中会被判定为慢盘。在需要 提高 / 降低 检测的灵敏度时，可以对 N 进行配置。

下面是一轮完整的慢盘检测过程中，采集 io 信息，计算 svctm svctm_avg 以及判定慢盘的流程图。