sre之监控

作者: wwq2020 | 来源:发表于2023-12-31 11:52 被阅读0次

初始Prometheus
PromAnsible: ansible WebUI的最好选择
Linux运维工作分类
DEVOPS的一些想法
SRE技术保障——坚持前行（6/7月总结）
SRE技术保障——坚持前行（二）
SRE Goole运维解密
什么是 SRE？一文详解 SRE 运维体系
基础运维监控是保障类工作
运维好文网址收集

背景

mikey金字塔图中可以看到监控是最下层的,也就是基石

image.png

指标

四类黄金指标

latency: 延时,如接口耗时p99
traffic: 流量,如网络磁盘io
errors: 错误数,如接口500响应数
saturation: 饱和度,如cpu利用率和饱和度

red

适用于应用
rate(频率):处理请求频率
error(错误):失败请求频率
duration(耗时): 请求任务耗时

use

适用于硬件和基础设施
resource(资源): 所有服务器功能性物理组件（CPU, 硬盘, 总线...)
utilization(利用率): 资源忙于工作的平均时间
saturation(饱和度): 资源有无法提供服务的额外工作的深度,通常会被塞入队列
errors(错误): 错误数量

slo

valet

volume(容量): tps,qps容量
availability(可用性): MTBF / (MTBF + MTTR)
MTBF（Mean Time Between Failure）是平均故障间隔
MTTR（Mean Time To Repair）表示故障的平均恢复时间
latency(延时): 处理耗时
errors(错误): 错误次数
tickets(故障工单): 人工干预次数

计算方式

多个SLO的百分数相乘,得到最后的SLO值
SLO1：99.95% 状态码成功率
SLO2：90% Latency <= 80ms
SLO3：99% Latency <= 200ms
公式：
Availability = SLO1 & SLO2 & SLO3

网友评论

本文标题：sre之监控

本文链接：https://www.haomeiwen.com/subject/xsfyndtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

sre之监控

背景

指标

四类黄金指标

red

use

slo

valet

计算方式

相关文章

初始Prometheus

PromAnsible: ansible WebUI的最好选择

Linux运维工作分类

DEVOPS的一些想法

SRE技术保障——坚持前行（6/7月总结）

SRE技术保障——坚持前行（二）

SRE Goole运维解密

什么是 SRE？一文详解 SRE 运维体系

基础运维监控是保障类工作

运维好文网址收集

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读