常用告警规则

作者: sknfie | 来源:发表于2023-04-29 10:42 被阅读0次

prometheus配置告警规则和钉钉告警
DevOps之prometheus实现优雅的告警
Java中运行JavaScript代码(一)
无标题文章
prometheus-告警规则
Grafana之邮件告警设置(第十六篇)
prometheus动态配置方案
告警规则引擎服务概述
周检视 | 2018年4月9日~4月15日
2018-05-29 prometheus alertmanag

请提供常用告警规则，提供每个告警规则具体的可用的方案

用户可以根据自己的需要配置不同的告警规则。下面是监控系统中常用的告警规则和对应的方案：

CPU使用率过高

方案：根据CPU使用率设定阈值，当超过阈值时触发告警，可以通过邮件、短信等方式通知相关人员。

内存使用率过高

方案：根据内存使用率设定阈值，当超过阈值时触发告警，可以通过邮件、短信等方式通知相关人员。

磁盘空间不足

方案：根据磁盘使用率设定阈值，当超过阈值时触发告警，可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含磁盘使用情况的详细信息。

网络流量过高

方案：根据网络流量设定阈值，当超过阈值时触发告警，可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含网络流量的详细信息。

HTTP请求错误率过高

方案：根据HTTP请求错误率设定阈值，当超过阈值时触发告警，可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含错误请求的详细信息。

服务响应时间过长

方案：根据服务响应时间设定阈值，当超过阈值时触发告警，可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含服务响应时间的详细信息。

数据库连接数过高

方案：根据数据库连接数设定阈值，当超过阈值时触发告警，可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含数据库连接数的详细信息。

应用程序异常

方案：可以配置应用程序异常的告警规则，当应用程序发生异常时触发告警，可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含异常信息的详细信息。

以上是夜莺Nightingale中常用的告警规则和对应的方案，用户可以根据自己的需求进行相应的配置。

请提供20个Nightingale的常用告警规则，以及每个规则对应的promql指标内容及告警设置参数

好的，以下是20个Nightingale的常用告警规则，以及每个规则对应的PromQL指标内容和告警设置参数：

CPU利用率高告警规则：

PromQL指标：100 - (avg by(instance)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
告警设置参数：阈值为90%，持续时间为5分钟，告警级别为P2。

内存利用率高告警规则：

PromQL指标：(node_memory_MemTotal - node_memory_MemFree - node_memory_Buffers - node_memory_Cached) / node_memory_MemTotal * 100
告警设置参数：阈值为80%，持续时间为5分钟，告警级别为P2。

磁盘使用率高告警规则：

PromQL指标：100 - ((node_filesystem_avail_bytes{fstype=~"ext4|xfs|ntfs"} * 100) / node_filesystem_size_bytes{fstype=~"ext4|xfs|ntfs"})
告警设置参数：阈值为90%，持续时间为5分钟，告警级别为P2。

网络流量高告警规则：

PromQL指标：sum by(instance)(rate(node_network_receive_bytes_total[5m]) + rate(node_network_transmit_bytes_total[5m]))
告警设置参数：阈值为100MB，持续时间为5分钟，告警级别为P2。

HTTP请求响应时间高告警规则：

PromQL指标：histogram_quantile(0.95, sum by(code)(rate(http_server_request_duration_seconds_bucket[5m])))
告警设置参数：阈值为2秒，持续时间为5分钟，告警级别为P3。

数据库连接数高告警规则：

PromQL指标：max(mysql_global_status_threads_connected{instance=~"$db_instance"})
告警设置参数：阈值为100，持续时间为5分钟，告警级别为P2。

Redis内存使用率高告警规则：

PromQL指标：(redis_memory_used_bytes{instance=~"$redis_instance"}) / redis_memory_max_bytes{instance=~"$redis_instance"} * 100
告警设置参数：阈值为80%，持续时间为5分钟，告警级别为P2。

RabbitMQ队列长度高告警规则：

PromQL指标：sum by(queue)(rabbitmq_queue_messages{node=~"$rabbitmq_node"})
告警设置参数：阈值为10000，持续时间为5分钟，告警级别为P2。

Elasticsearch节点数低告警规则：

PromQL指标：count(elasticsearch_nodes_count{node_type="node"})
告警设置参数：阈值为2，持续时间为5分钟，告警级别为P3。

MongoDB连接数高告警规则：

PromQL指标：`max(m

继续

再提供一些常用的Nightingale告警规则和对应的promql指标和告警设置参数：

CPU使用率过高

promql: 100 - (avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) * 100)
告警设置参数：阈值50%，触发后发送通知到相关人员

内存使用率过高

promql: (1 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)) * 100
告警设置参数：阈值80%，触发后发送通知到相关人员

磁盘使用率过高

promql: 100 - (avg(node_filesystem_avail_bytes{mountpoint="/"} / node_filesystem_size_bytes{mountpoint="/"}) by (instance) * 100)
告警设置参数：阈值90%，触发后发送通知到相关人员

网络带宽使用率过高

promql: (sum(rate(node_network_receive_bytes_total[5m])) by (instance) + sum(rate(node_network_transmit_bytes_total[5m])) by (instance)) * 8
告警设置参数：阈值90%，触发后发送通知到相关人员

HTTP请求响应时间过长

promql: histogram_quantile(0.95, sum(rate(http_server_request_duration_seconds_bucket{job="myjob"}[5m])) by (le, handler, method))
告警设置参数：阈值500ms，触发后发送通知到相关人员

MySQL慢查询数量过多

promql: rate(mysql_slow_queries_total[5m])
告警设置参数：阈值10个/分钟，触发后发送通知到相关人员

Redis命中率过低

promql: (1 - (rate(redis_keyspace_hits_total[5m]) / rate(redis_keyspace_lookups_total[5m]))) * 100
告警设置参数：阈值90%，触发后发送通知到相关人员

Elasticsearch索引写入速率过低

promql: rate(elasticsearch_indexing_index_total[5m])
告警设置参数：阈值100个/分钟，触发后发送通知到相关人员

MongoDB慢查询数量过多

promql: rate(mongodb_mongod_metrics_commands_total{command="aggregate",namespace="mydb.mycol"}[5m])
告警设置参数：阈值5个/分钟，触发后发送通知到相关人员

ZooKeeper节点数过少

promql: count(zookeeper_nodes{mode="leader"}) by (cluster)
告警设置参数：阈值小于3，触发后发送通知到相关人员

Kafka分区副本不足

promql: kafka_controller_replica_gauge{state="offline"}
告警设置参数：阈值大于0，触发后发送通知到相关人员

Nginx请求数量过大

promql:

请接着继续写

CPU使用率过高

PromQL指标：100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)

告警设置参数：

阈值：70%
持续时间：5分钟
重复间隔：10分钟
通知方式：邮件、短信

内存使用率过高

PromQL指标：(1 - (node_memory_MemFree_bytes + node_memory_Cached_bytes + node_memory_Buffers_bytes) / node_memory_MemTotal_bytes) * 100

告警设置参数：

阈值：80%
持续时间：5分钟
重复间隔：10分钟
通知方式：邮件、短信

磁盘空间不足

PromQL指标：(node_filesystem_avail_bytes{mountpoint="/"} * 100) / node_filesystem_size_bytes{mountpoint="/"}

告警设置参数：

阈值：20%
持续时间：5分钟
重复间隔：30分钟
通知方式：邮件、短信

网络流量异常

PromQL指标：sum(rate(node_network_transmit_bytes_total[5m])) + sum(rate(node_network_receive_bytes_total[5m]))

告警设置参数：

阈值：10MB/s
持续时间：5分钟
重复间隔：15分钟
通知方式：邮件、短信

TCP连接数过高

PromQL指标：sum by (instance) (max_over_time(tcp_established{job="node"}[5m]))

告警设置参数：

阈值：500
持续时间：5分钟
重复间隔：10分钟
通知方式：邮件、短信

HTTP请求响应时间过长

PromQL指标：sum(rate(http_request_duration_seconds_count{status_code=~"2.."}[1m])) / sum(rate(http_request_duration_seconds_sum{status_code=~"2.."}[1m]))

告警设置参数：

阈值：10s
持续时间：5分钟
重复间隔：10分钟
通知方式：邮件、短信

MySQL连接数过高

PromQL指标：mysql_global_status_threads_connected

告警设置参数：

阈值：500
持续时间：5分钟
重复间隔：10分钟
通知方式：邮件、短信

Redis连接数过高

PromQL指标：redis_connected_clients

告警设置参数：

阈值：500
持续时间：5分钟
重复间隔：10分钟
通知方式：邮件、短信

Nginx请求数过高

PromQL指标：sum(rate(nginx_http_requests_total[5m]))

告警设置参数：

阈值：1000
持续时间：5

网友评论

本文标题：常用告警规则

本文链接：https://www.haomeiwen.com/subject/osobjdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

常用告警规则

请提供常用告警规则，提供每个告警规则具体的可用的方案

请提供20个Nightingale的常用告警规则，以及每个规则对应的promql指标内容及告警设置参数

继续

请接着继续写

相关文章

prometheus配置告警规则和钉钉告警

DevOps之prometheus实现优雅的告警

Java中运行JavaScript代码(一)

无标题文章

prometheus-告警规则

Grafana之邮件告警设置(第十六篇)

prometheus动态配置方案

告警规则引擎服务概述

周检视 | 2018年4月9日~4月15日

2018-05-29 prometheus alertmanag

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读