美文网首页
skywalking-告警逻辑

skywalking-告警逻辑

作者: 海阔天空_d304 | 来源:发表于2023-10-17 15:03 被阅读0次

都是应用服务告警

现在的需求要支持动态更新规则配置

如果oap服务使用配置中心管理配置,skywalking支持动态加载-每分钟更新一次,这样不需要改代码,接入的时候只需要更新nacos配置就可以。skywalking会定时拉取配置

如果不用配置中心,则需要修改skywalking代码,从两方面考虑

读取rule配置有两个地方,一个是oap项目启动是会加载alarm-settings.yml配置文件—这个必须要有,没有会报错

在一个后面如果使用了配置中心,会定时拉去配置

org.apache.skywalking.oap.server.configuration.api.ConfigChangeWatcher#notify

所以如果修改需要从这两个地方入手,核心的部分不动

Skywalking告警大概流程 关键节点流程 告警配置接入oap

rules:

  service_resp_time_rule:

    metrics-name: service_resp_time #指标名称

    op: ">"

    #三秒 阈值

    threshold: 3

    #四分钟---时间桶

    period: 4

    #大于等于2次---四分钟内有两分钟服务响应时间大于3秒

    count: 2

    silence-period: 1 #静默期---这个范围内不会报警

    message: Response time of service {name} is more than 10ms in 1 minutes of last 10 minutes.

    only-as-condition: false

    tags:

      level: WARNING

      receivers: lisi

  service_sla_rule:

    metrics-name: service_sla

    op: ">"

    threshold: 100

    period: 10

    count: 1

    silence-period: 1

    message: Successful rate of service {name} is more than 1% in 1 minutes of last 10 minutes

    only-as-condition: true

composite-rules:

  comp_rule:

    expression: service_resp_time_rule && service_sla_rule #上面两个告警条件都满足

    message: Service {name} response time is more than 10ms and sla is more than 1%.

    tags:

      level: CRITICAL

      receivers: zhangsan

以jvm上报数据说明

APM

定义JVM一些数据指标

定义JVM一些数据指标,JVMMetric.proto文件,并且指标上传的服务,mvn package编译后会生成对应的class文件

OAP

JVM分发器

oal执行引擎会根据oal文件里面定义的jvm指标动态生成jvm指标类和对应的分发器

MetricsAggregateWorker  大概逻辑

相关文章

  • 初识故障自愈框架

    一、人工处理 接下来,我们拆解背后的逻辑。 1.1 抽象告警处理流程 1)拉取磁盘告警 2)编写磁盘清理的脚本或作...

  • 告警(three.js)

    告警 自身告警和告警传播: // 告警 v.alarmManager.THRenderer.view = v; l...

  • 异常告警前后台需求评审会——2018-12-05

    1、异常告警配置后台,将遥信告警和遥测告警类型改为信号状态、监测参数告警,这两类告警都是对实时采集测量参数的告警,...

  • Golang三种方式实现超时退出

    问题 前段时间发现线上有个服务接口,总是间歇性告警,有时候一天两三次,有时候一天都没有。 告警的逻辑是在一个接口中...

  • zabbix 告警收敛

    思路 zabbix告警|告警收敛 - 简书 将产生的告警事件对应的subjectID(对应一条告警事件)、acti...

  • prometheus实战---告警模板编写(四)

    本篇文章主要介绍如何编写alertmanager的告警模板,使用这个告警模板,可以格式化我们的告警信息,让告警内容...

  • 利用钉钉机器人发送告警信息

    现在越来越多的人开始使用钉钉,对于运维告警来说,除了传统的邮件告警之外,短信告警、企业微信告警、钉钉机器人告警等也...

  • 警告警告警告警告警告警告

    图片源自网络 文 | 陈娅希 九寨沟地震发生18分钟后,中国地震台网的机器,25秒出了篇新闻稿。用词准确,行文流畅...

  • 告警的自下而上和上而下

    监控系统中的告警思路,可以分为2路,一个是自下而上的告警处理,一个是自上而下的告警部署。 自下而上的告警处理 整个...

  • Prometheus一条告警是怎么触发的

    文章来源:爱可生云数据库 作者:张沈波 大纲 第一节:监控采集、计算和告警第二节:告警分组、抑制、静默告警分组告警...

网友评论

      本文标题:skywalking-告警逻辑

      本文链接:https://www.haomeiwen.com/subject/akfqidtx.html