美文网首页监控学习资料wgcloud运维监控工具
开源运维监控平台WGCLOUD之故障告警策略介绍

开源运维监控平台WGCLOUD之故障告警策略介绍

作者: 王逅逅_f6c0 | 来源:发表于2021-04-18 16:08 被阅读0次

WGCLOUD是国人开源的极简高效运维监控系统,"支持主机各种指标监控(cpu/温度,内存,磁盘容量/IO,硬盘smart监控,系统负载,网卡流量,硬件系统信息等),数据可视化,进程应用监控,大屏可视化展板,服务接口检测,DOCKER监控,公众看板,自动生成网络拓扑图,端口监控,日志文件监控,告警信息推送(默认邮件,可集成钉钉微信短信等),同时集成了WebTerminal堡垒机能力"

下载安装地址:http://www.wgstart.com

监控最基本的工作就是实现对负载均衡设备、网络设备、服务器、存储设备、安全设备、数据库、中间件及应用软件等IT资源的全面监控管理。监控告警在运维工作中至关重要,便于我们及时发现问题,排查问题,把故障损失降到最低
针对这个故障,各方诉求是不同的:
1、业务人员希望尽快恢复系统使用并确保以后不再出现此类问题;
2、运维经理希望进一步优化完善运维中心故障处理流程:优先故障处理过程的时间,提前发现故障,加强监控,完善故障应急方案,长远目标:故障自愈。

这里我们介绍下WGCLOUD的告警策略如何进行配置和优化,一般我们保持默认即可
配置文件server/config/application.yml,在每一项配置上面都加了说明,比如总开关配置,关闭后所有资源都会停止告警

#告警配置,策略优先级按照前后顺序执行,比如告警总开关关闭时,那下面所有告警开关都会失效
mail:
  #告警总开关,yes开启,no关闭
  allWarnMail: yes
  #不需要告警ip集合,多个用逗号,隔开,此主机所有监控资源都不会再告警
  blockIps: 
  #内存告警开关,yes开启,no关闭。总开关开启后,此处设置才会生效。以下开关均遵循此规则。
  memWarnMail: yes
  #监控主机内存使用率%告警值,超过此值即发送告警
  memWarnVal: 99
  #CPU告警开关,yes开启,no关闭
  cpuWarnMail: yes
  #监控主机cpu使用率%告警值,超过此值即发送告警
  cpuWarnVal: 99
  #CPU温度告警开关,yes开启,no关闭
  cpuTemperatureWarnMail: no
  #cpu温度告警值℃,超过此值即发送告警
  cpuTemperatureWarnVal: 92
  #磁盘使用率%告警值,超过此值即发送告警
  diskWarnVal: 99
  #不需要告警磁盘在此屏蔽,多个盘符用,隔开,如/boot,/dev。支持Ant路径匹配规则,如/dev/**。特殊符号用单引号,如'C:'
  diskBlock: /dev
  #磁盘使用率告警开关,yes开启,no关闭
  diskWarnMail: yes
  #主机下线告警开关,yes开启,no关闭
  hostDownWarnMail: yes
  #进程下线告警开关,yes开启,no关闭
  appDownWarnMail: yes
  #服务接口告警开关,yes开启,no关闭
  heathWarnMail: yes
  #数据源连接失败告警开关,yes开启,no关闭
  dbDownWarnMail: yes
  #日志文件监控告警开关,yes开启,no关闭
  fileLogWarnMail: yes
  #端口telnet不通告警开关,yes开启,no关闭
  portWarnMail: yes
  #告警脚本绝对路径(若配置脚本,无论是否配置过邮件,都会执行该脚本),可以为空,参考模板:server/template/sendMsg.sh
  warnScript: 
demo2.jpg demo3.jpg demo4.jpg
daping.jpg

相关文章

网友评论

    本文标题:开源运维监控平台WGCLOUD之故障告警策略介绍

    本文链接:https://www.haomeiwen.com/subject/jikvlltx.html