请提供常用告警规则,提供每个告警规则具体的可用的方案
用户可以根据自己的需要配置不同的告警规则。下面是监控系统中常用的告警规则和对应的方案:
- CPU使用率过高
方案:根据CPU使用率设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。
- 内存使用率过高
方案:根据内存使用率设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。
- 磁盘空间不足
方案:根据磁盘使用率设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含磁盘使用情况的详细信息。
- 网络流量过高
方案:根据网络流量设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含网络流量的详细信息。
- HTTP请求错误率过高
方案:根据HTTP请求错误率设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含错误请求的详细信息。
- 服务响应时间过长
方案:根据服务响应时间设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含服务响应时间的详细信息。
- 数据库连接数过高
方案:根据数据库连接数设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含数据库连接数的详细信息。
- 应用程序异常
方案:可以配置应用程序异常的告警规则,当应用程序发生异常时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含异常信息的详细信息。
以上是夜莺Nightingale中常用的告警规则和对应的方案,用户可以根据自己的需求进行相应的配置。
请提供20个Nightingale的常用告警规则,以及每个规则对应的promql指标内容及告警设置参数
好的,以下是20个Nightingale的常用告警规则,以及每个规则对应的PromQL指标内容和告警设置参数:
- CPU利用率高告警规则:
- PromQL指标:
100 - (avg by(instance)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
- 告警设置参数:阈值为90%,持续时间为5分钟,告警级别为P2。
- 内存利用率高告警规则:
- PromQL指标:
(node_memory_MemTotal - node_memory_MemFree - node_memory_Buffers - node_memory_Cached) / node_memory_MemTotal * 100
- 告警设置参数:阈值为80%,持续时间为5分钟,告警级别为P2。
- 磁盘使用率高告警规则:
- PromQL指标:
100 - ((node_filesystem_avail_bytes{fstype=~"ext4|xfs|ntfs"} * 100) / node_filesystem_size_bytes{fstype=~"ext4|xfs|ntfs"})
- 告警设置参数:阈值为90%,持续时间为5分钟,告警级别为P2。
- 网络流量高告警规则:
- PromQL指标:
sum by(instance)(rate(node_network_receive_bytes_total[5m]) + rate(node_network_transmit_bytes_total[5m]))
- 告警设置参数:阈值为100MB,持续时间为5分钟,告警级别为P2。
- HTTP请求响应时间高告警规则:
- PromQL指标:
histogram_quantile(0.95, sum by(code)(rate(http_server_request_duration_seconds_bucket[5m])))
- 告警设置参数:阈值为2秒,持续时间为5分钟,告警级别为P3。
- 数据库连接数高告警规则:
- PromQL指标:
max(mysql_global_status_threads_connected{instance=~"$db_instance"})
- 告警设置参数:阈值为100,持续时间为5分钟,告警级别为P2。
- Redis内存使用率高告警规则:
- PromQL指标:
(redis_memory_used_bytes{instance=~"$redis_instance"}) / redis_memory_max_bytes{instance=~"$redis_instance"} * 100
- 告警设置参数:阈值为80%,持续时间为5分钟,告警级别为P2。
- RabbitMQ队列长度高告警规则:
- PromQL指标:
sum by(queue)(rabbitmq_queue_messages{node=~"$rabbitmq_node"})
- 告警设置参数:阈值为10000,持续时间为5分钟,告警级别为P2。
- Elasticsearch节点数低告警规则:
- PromQL指标:
count(elasticsearch_nodes_count{node_type="node"})
- 告警设置参数:阈值为2,持续时间为5分钟,告警级别为P3。
- MongoDB连接数高告警规则:
- PromQL指标:`max(m
继续
再提供一些常用的Nightingale告警规则和对应的promql指标和告警设置参数:
- CPU使用率过高
- promql: 100 - (avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) * 100)
- 告警设置参数:阈值50%,触发后发送通知到相关人员
- 内存使用率过高
- promql: (1 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)) * 100
- 告警设置参数:阈值80%,触发后发送通知到相关人员
- 磁盘使用率过高
- promql: 100 - (avg(node_filesystem_avail_bytes{mountpoint="/"} / node_filesystem_size_bytes{mountpoint="/"}) by (instance) * 100)
- 告警设置参数:阈值90%,触发后发送通知到相关人员
- 网络带宽使用率过高
- promql: (sum(rate(node_network_receive_bytes_total[5m])) by (instance) + sum(rate(node_network_transmit_bytes_total[5m])) by (instance)) * 8
- 告警设置参数:阈值90%,触发后发送通知到相关人员
- HTTP请求响应时间过长
- promql: histogram_quantile(0.95, sum(rate(http_server_request_duration_seconds_bucket{job="myjob"}[5m])) by (le, handler, method))
- 告警设置参数:阈值500ms,触发后发送通知到相关人员
- MySQL慢查询数量过多
- promql: rate(mysql_slow_queries_total[5m])
- 告警设置参数:阈值10个/分钟,触发后发送通知到相关人员
- Redis命中率过低
- promql: (1 - (rate(redis_keyspace_hits_total[5m]) / rate(redis_keyspace_lookups_total[5m]))) * 100
- 告警设置参数:阈值90%,触发后发送通知到相关人员
- Elasticsearch索引写入速率过低
- promql: rate(elasticsearch_indexing_index_total[5m])
- 告警设置参数:阈值100个/分钟,触发后发送通知到相关人员
- MongoDB慢查询数量过多
- promql: rate(mongodb_mongod_metrics_commands_total{command="aggregate",namespace="mydb.mycol"}[5m])
- 告警设置参数:阈值5个/分钟,触发后发送通知到相关人员
- ZooKeeper节点数过少
- promql: count(zookeeper_nodes{mode="leader"}) by (cluster)
- 告警设置参数:阈值小于3,触发后发送通知到相关人员
- Kafka分区副本不足
- promql: kafka_controller_replica_gauge{state="offline"}
- 告警设置参数:阈值大于0,触发后发送通知到相关人员
- Nginx请求数量过大
- promql:
请接着继续写
- CPU使用率过高
PromQL指标:100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
告警设置参数:
- 阈值:70%
- 持续时间:5分钟
- 重复间隔:10分钟
- 通知方式:邮件、短信
- 内存使用率过高
PromQL指标:(1 - (node_memory_MemFree_bytes + node_memory_Cached_bytes + node_memory_Buffers_bytes) / node_memory_MemTotal_bytes) * 100
告警设置参数:
- 阈值:80%
- 持续时间:5分钟
- 重复间隔:10分钟
- 通知方式:邮件、短信
- 磁盘空间不足
PromQL指标:(node_filesystem_avail_bytes{mountpoint="/"} * 100) / node_filesystem_size_bytes{mountpoint="/"}
告警设置参数:
- 阈值:20%
- 持续时间:5分钟
- 重复间隔:30分钟
- 通知方式:邮件、短信
- 网络流量异常
PromQL指标:sum(rate(node_network_transmit_bytes_total[5m])) + sum(rate(node_network_receive_bytes_total[5m]))
告警设置参数:
- 阈值:10MB/s
- 持续时间:5分钟
- 重复间隔:15分钟
- 通知方式:邮件、短信
- TCP连接数过高
PromQL指标:sum by (instance) (max_over_time(tcp_established{job="node"}[5m]))
告警设置参数:
- 阈值:500
- 持续时间:5分钟
- 重复间隔:10分钟
- 通知方式:邮件、短信
- HTTP请求响应时间过长
PromQL指标:sum(rate(http_request_duration_seconds_count{status_code=~"2.."}[1m])) / sum(rate(http_request_duration_seconds_sum{status_code=~"2.."}[1m]))
告警设置参数:
- 阈值:10s
- 持续时间:5分钟
- 重复间隔:10分钟
- 通知方式:邮件、短信
- MySQL连接数过高
PromQL指标:mysql_global_status_threads_connected
告警设置参数:
- 阈值:500
- 持续时间:5分钟
- 重复间隔:10分钟
- 通知方式:邮件、短信
- Redis连接数过高
PromQL指标:redis_connected_clients
告警设置参数:
- 阈值:500
- 持续时间:5分钟
- 重复间隔:10分钟
- 通知方式:邮件、短信
- Nginx请求数过高
PromQL指标:sum(rate(nginx_http_requests_total[5m]))
告警设置参数:
- 阈值:1000
- 持续时间:5
网友评论