第一步:安装promethues
1.prometheus 的下载地址
https://prometheus.io/download/#prometheus
2.下载,上传到服务器
3解压tar -zxvf ./prometheus-2.28.0.linux-amd64.tar.gz
4.启动pormetheus
/prometheus --config.file=prometheus.yml
5..http://ip:9090 查看图形界面
## 第二部,安装图形界面
1.下载地址:
https://grafana.com/grafana/download/7.4.5?platform=linux
下载下来手动导入。
2.第二种在线安装比较慢:
mkdir grafana
wget https://dl.grafana.com/oss/release/grafana-7.4.5-1.x86_64.rpm
sudo yum install grafana-7.4.5-1.x86_64.rpm
安装完成之后使用启动命令:
systemctl start grafana-server
systemctl status grafana-server
systemctl stop grafana-server
访问界面在浏览器中访问grafana:http://ip:3000(默认账号密码为admin)
第三部 安装node-export
1.下载地址
2.上传到服务器
3. tar -zxvf 解压文件
[root@iz2ze4cwp14hjrk1xbz06kz software]# cd ./node_exporter-1.1.2.linux-amd64
[root@iz2ze4cwp14hjrk1xbz06kz node_exporter-1.1.2.linux-amd64]# ls
LICENSE node_exporter nohup.out NOTICE
执行启动方法
[root@iz2ze4cwp14hjrk1xbz06kz node_exporter-1.1.2.linux-amd64]#nohup ./node_exporter &
4.进入 prometheus.yml 添加如下代码,以便于,可以监听到node_export
prometheus.yml5.proetheus的监控到node_export
监控到node_export第四步:搭建 aletrmanager
1.下载地址
下载安装Alertmanager:
https://github.com/prometheus/alertmanager/releases
aletrmanager的界面。[root@iz2ze4cwp14hjrk1xbz06kz software]# tar -zxvf ./alertmanager-0.19.0.linux-amd64
[root@iz2ze4cwp14hjrk1xbz06kz alertmanager-0.19.0.linux-amd64]# ls
alertmanager alertmanager.yml amtool data LICENSE nohup.out NOTICE
//启动
[root@iz2ze4cwp14hjrk1xbz06kz alertmanager-0.19.0.linux-amd64]# nohup ./alertmanager --config.file=alertmanager.yml &
alertmanager的告警的设置:
Alertmanager是一个独立的告警模块,接收Prometheus等客户端发来的警报,之后通过分组、删除重复等处理,并将它们通过路由发送给正确的接收器。
Prometheus的警报分为两个部分。Prometheus服务器中的警报规则将警报发送到Alertmanager。该Alertmanager 然后管理这些警报,包括沉默,抑制,聚集和通过的方法,如电子邮件发出通知,对呼叫通知系统,以及即时通讯平台。
设置警报和通知的主要步骤:
1) 设置并配置Alertmanager;
2) 配置Prometheus对Alertmanager访问;
3) 在普罗米修斯创建警报规则;
Alert的三种状态:
1) pending:警报被激活,但是低于配置的持续时间。这里的持续时间即rule里的FOR字段设置的时间。改状态下不发送报警。
2) firing:警报已被激活,而且超出设置的持续时间。该状态下发送报警。
3) inactive:既不是pending也不是firing的时候状态变为inactive
prometheus触发一条告警的过程:
流程触发图https://prometheus.io/docs/prometheus/latest/configuration/unit_testing_rules/
rule例子:https://www.cnblogs.com/galsnag/articles/13202110.html
rules的自己的例子
链接: https://pan.baidu.com/s/1zZ0ttBAC0M57VDAvYPFCDw 提取码: stq2
配置rule文件
rule.xml 界面显示已激活 promethuems.yml中告警模块中的配置重新启动一下服务就可以了
过段时间,补上邮箱提醒功能,以及influexdb与jemter的整合
至此,所有的配置都已经完善了
网友评论