美文网首页
常用告警规则

常用告警规则

作者: sknfie | 来源:发表于2023-04-29 10:42 被阅读0次

请提供常用告警规则,提供每个告警规则具体的可用的方案

用户可以根据自己的需要配置不同的告警规则。下面是监控系统中常用的告警规则和对应的方案:

  1. CPU使用率过高

方案:根据CPU使用率设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。

  1. 内存使用率过高

方案:根据内存使用率设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。

  1. 磁盘空间不足

方案:根据磁盘使用率设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含磁盘使用情况的详细信息。

  1. 网络流量过高

方案:根据网络流量设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含网络流量的详细信息。

  1. HTTP请求错误率过高

方案:根据HTTP请求错误率设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含错误请求的详细信息。

  1. 服务响应时间过长

方案:根据服务响应时间设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含服务响应时间的详细信息。

  1. 数据库连接数过高

方案:根据数据库连接数设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含数据库连接数的详细信息。

  1. 应用程序异常

方案:可以配置应用程序异常的告警规则,当应用程序发生异常时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含异常信息的详细信息。

以上是夜莺Nightingale中常用的告警规则和对应的方案,用户可以根据自己的需求进行相应的配置。

请提供20个Nightingale的常用告警规则,以及每个规则对应的promql指标内容及告警设置参数

好的,以下是20个Nightingale的常用告警规则,以及每个规则对应的PromQL指标内容和告警设置参数:

  1. CPU利用率高告警规则:
  • PromQL指标:100 - (avg by(instance)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
  • 告警设置参数:阈值为90%,持续时间为5分钟,告警级别为P2。
  1. 内存利用率高告警规则:
  • PromQL指标:(node_memory_MemTotal - node_memory_MemFree - node_memory_Buffers - node_memory_Cached) / node_memory_MemTotal * 100
  • 告警设置参数:阈值为80%,持续时间为5分钟,告警级别为P2。
  1. 磁盘使用率高告警规则:
  • PromQL指标:100 - ((node_filesystem_avail_bytes{fstype=~"ext4|xfs|ntfs"} * 100) / node_filesystem_size_bytes{fstype=~"ext4|xfs|ntfs"})
  • 告警设置参数:阈值为90%,持续时间为5分钟,告警级别为P2。
  1. 网络流量高告警规则:
  • PromQL指标:sum by(instance)(rate(node_network_receive_bytes_total[5m]) + rate(node_network_transmit_bytes_total[5m]))
  • 告警设置参数:阈值为100MB,持续时间为5分钟,告警级别为P2。
  1. HTTP请求响应时间高告警规则:
  • PromQL指标:histogram_quantile(0.95, sum by(code)(rate(http_server_request_duration_seconds_bucket[5m])))
  • 告警设置参数:阈值为2秒,持续时间为5分钟,告警级别为P3。
  1. 数据库连接数高告警规则:
  • PromQL指标:max(mysql_global_status_threads_connected{instance=~"$db_instance"})
  • 告警设置参数:阈值为100,持续时间为5分钟,告警级别为P2。
  1. Redis内存使用率高告警规则:
  • PromQL指标:(redis_memory_used_bytes{instance=~"$redis_instance"}) / redis_memory_max_bytes{instance=~"$redis_instance"} * 100
  • 告警设置参数:阈值为80%,持续时间为5分钟,告警级别为P2。
  1. RabbitMQ队列长度高告警规则:
  • PromQL指标:sum by(queue)(rabbitmq_queue_messages{node=~"$rabbitmq_node"})
  • 告警设置参数:阈值为10000,持续时间为5分钟,告警级别为P2。
  1. Elasticsearch节点数低告警规则:
  • PromQL指标:count(elasticsearch_nodes_count{node_type="node"})
  • 告警设置参数:阈值为2,持续时间为5分钟,告警级别为P3。
  1. MongoDB连接数高告警规则:
  • PromQL指标:`max(m

继续

再提供一些常用的Nightingale告警规则和对应的promql指标和告警设置参数:

  1. CPU使用率过高
  • promql: 100 - (avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) * 100)
  • 告警设置参数:阈值50%,触发后发送通知到相关人员
  1. 内存使用率过高
  • promql: (1 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)) * 100
  • 告警设置参数:阈值80%,触发后发送通知到相关人员
  1. 磁盘使用率过高
  • promql: 100 - (avg(node_filesystem_avail_bytes{mountpoint="/"} / node_filesystem_size_bytes{mountpoint="/"}) by (instance) * 100)
  • 告警设置参数:阈值90%,触发后发送通知到相关人员
  1. 网络带宽使用率过高
  • promql: (sum(rate(node_network_receive_bytes_total[5m])) by (instance) + sum(rate(node_network_transmit_bytes_total[5m])) by (instance)) * 8
  • 告警设置参数:阈值90%,触发后发送通知到相关人员
  1. HTTP请求响应时间过长
  • promql: histogram_quantile(0.95, sum(rate(http_server_request_duration_seconds_bucket{job="myjob"}[5m])) by (le, handler, method))
  • 告警设置参数:阈值500ms,触发后发送通知到相关人员
  1. MySQL慢查询数量过多
  • promql: rate(mysql_slow_queries_total[5m])
  • 告警设置参数:阈值10个/分钟,触发后发送通知到相关人员
  1. Redis命中率过低
  • promql: (1 - (rate(redis_keyspace_hits_total[5m]) / rate(redis_keyspace_lookups_total[5m]))) * 100
  • 告警设置参数:阈值90%,触发后发送通知到相关人员
  1. Elasticsearch索引写入速率过低
  • promql: rate(elasticsearch_indexing_index_total[5m])
  • 告警设置参数:阈值100个/分钟,触发后发送通知到相关人员
  1. MongoDB慢查询数量过多
  • promql: rate(mongodb_mongod_metrics_commands_total{command="aggregate",namespace="mydb.mycol"}[5m])
  • 告警设置参数:阈值5个/分钟,触发后发送通知到相关人员
  1. ZooKeeper节点数过少
  • promql: count(zookeeper_nodes{mode="leader"}) by (cluster)
  • 告警设置参数:阈值小于3,触发后发送通知到相关人员
  1. Kafka分区副本不足
  • promql: kafka_controller_replica_gauge{state="offline"}
  • 告警设置参数:阈值大于0,触发后发送通知到相关人员
  1. Nginx请求数量过大
  • promql:

请接着继续写

  1. CPU使用率过高

PromQL指标:100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)

告警设置参数:

  • 阈值:70%
  • 持续时间:5分钟
  • 重复间隔:10分钟
  • 通知方式:邮件、短信
  1. 内存使用率过高

PromQL指标:(1 - (node_memory_MemFree_bytes + node_memory_Cached_bytes + node_memory_Buffers_bytes) / node_memory_MemTotal_bytes) * 100

告警设置参数:

  • 阈值:80%
  • 持续时间:5分钟
  • 重复间隔:10分钟
  • 通知方式:邮件、短信
  1. 磁盘空间不足

PromQL指标:(node_filesystem_avail_bytes{mountpoint="/"} * 100) / node_filesystem_size_bytes{mountpoint="/"}

告警设置参数:

  • 阈值:20%
  • 持续时间:5分钟
  • 重复间隔:30分钟
  • 通知方式:邮件、短信
  1. 网络流量异常

PromQL指标:sum(rate(node_network_transmit_bytes_total[5m])) + sum(rate(node_network_receive_bytes_total[5m]))

告警设置参数:

  • 阈值:10MB/s
  • 持续时间:5分钟
  • 重复间隔:15分钟
  • 通知方式:邮件、短信
  1. TCP连接数过高

PromQL指标:sum by (instance) (max_over_time(tcp_established{job="node"}[5m]))

告警设置参数:

  • 阈值:500
  • 持续时间:5分钟
  • 重复间隔:10分钟
  • 通知方式:邮件、短信
  1. HTTP请求响应时间过长

PromQL指标:sum(rate(http_request_duration_seconds_count{status_code=~"2.."}[1m])) / sum(rate(http_request_duration_seconds_sum{status_code=~"2.."}[1m]))

告警设置参数:

  • 阈值:10s
  • 持续时间:5分钟
  • 重复间隔:10分钟
  • 通知方式:邮件、短信
  1. MySQL连接数过高

PromQL指标:mysql_global_status_threads_connected

告警设置参数:

  • 阈值:500
  • 持续时间:5分钟
  • 重复间隔:10分钟
  • 通知方式:邮件、短信
  1. Redis连接数过高

PromQL指标:redis_connected_clients

告警设置参数:

  • 阈值:500
  • 持续时间:5分钟
  • 重复间隔:10分钟
  • 通知方式:邮件、短信
  1. Nginx请求数过高

PromQL指标:sum(rate(nginx_http_requests_total[5m]))

告警设置参数:

  • 阈值:1000
  • 持续时间:5

相关文章

网友评论

      本文标题:常用告警规则

      本文链接:https://www.haomeiwen.com/subject/osobjdtx.html