背景
mikey金字塔图中可以看到监控是最下层的,也就是基石

指标
四类黄金指标
latency: 延时,如接口耗时p99
traffic: 流量,如网络磁盘io
errors: 错误数,如接口500响应数
saturation: 饱和度,如cpu利用率和饱和度
red
适用于应用
rate(频率):处理请求频率
error(错误):失败请求频率
duration(耗时): 请求任务耗时
use
适用于硬件和基础设施
resource(资源): 所有服务器功能性物理组件(CPU, 硬盘, 总线...)
utilization(利用率): 资源忙于工作的平均时间
saturation(饱和度): 资源有无法提供服务的额外工作的深度,通常会被塞入队列
errors(错误): 错误数量
slo
valet
volume(容量): tps,qps容量
availability(可用性): MTBF / (MTBF + MTTR)
MTBF(Mean Time Between Failure)是平均故障间隔
MTTR(Mean Time To Repair)表示故障的平均恢复时间
latency(延时): 处理耗时
errors(错误): 错误次数
tickets(故障工单): 人工干预次数
计算方式
多个SLO的百分数相乘,得到最后的SLO值
SLO1:99.95% 状态码成功率
SLO2:90% Latency <= 80ms
SLO3:99% Latency <= 200ms
公式:
Availability = SLO1 & SLO2 & SLO3
网友评论