接上一章,在安装部署结束后配置本机的hosts文件,采用域名进行访问
C:\Windows\System32\drivers\etc\hosts
192.168.0.241 paas.bk.com
192.168.0.242 cmdb.bk.com
192.168.0.243 job.bk.com
(192.168.0.241为nginx的ip地址,Paas入口访问如下:http://paas.bk.com:80)
默认名密码在蓝鲸服务器 data/install/globals.env
注:部署后更改平台用户名密码需登录平台,在用户管理中修改(部署前可再globals.env文件中修改)
节点管理
目的:进行直连或者代理的Agent部署,实现管控机器。
通过“桌面-节点管理”进行操作
初次登录需配置Nginx Server
Agent分两种管理方式:
1、直连区域(Agent和蓝鲸平台在同一网段或IP可达,双向网络通讯正常);
2、云区域管理(非直连方式,需要通过Agent Proxy进行代理访问,通常适合非网络直达环境,该部署模式仅需要Proxy可以和蓝鲸平台互通)。
相关模式区别及资料通过“mini手册”查看,如在受控网络,重点关注通讯协议及端口。
测试环境采用直连方式,分别部署一台Centos7和一台windows 2008(采用免Cygwin方式)
配置平台-CMDB
通过“桌面-配置平台”进行操作
目的:通过配置平台建立组织和业务,配置业务模型,进行IT资产和配置的标准管理。
蓝鲸平台的CMDB更关注和围绕APP应用和业务,及所涉及的IT资源标准化管理,所以不建议初期就对桌面终端、网络设备等都纳管。
在“主机”下,可以看到已经安装Agent的管控主机列表
1、建立组织架构和业务
2、建立业务拓扑
在“主机管理”--“业务拓扑”下选择刚才建立的业务名称“测试环境”
在业务拓扑下建立“集群”,演示环境命名:测试池01
重新分配主机到指定业务:1)勾选目标机器—转移—空闲机—资源池,2)然后主机资源会出现在“主机管理”--"主机资源池"下,3)在“主机资源池”下选择分配到“测试环境”--分配至“空闲资源”下。
以上操作便于理解业务规划和业务分类,便于后期对同业务类型下的主机资源进行批量操作。
3、后台配置
模型管理
支持分组管理,分组类型分为“系统内置”和“用户自定义”
用户自定义分组:可以点击侧边的新增按钮进行新增 (分组中文名和图标可更改),如下图:“存储”为自定义分组
新的自定义分组,或自带分组,可以在模型中通过点击“新增”增加模型及字段。
目前内置的模型有业务、集群、模块、主机、进程、云区域。如果内置模型不能够满足,可以通过自定义新增、编辑模型(业务拓扑结构最多为六层)
其他操作可停用/启用/删除模型操作。
附:配置平台常见问题
1) 当蓝鲸业务没有任何集群,主机配置也没有蓝鲸服务器IP等信息时,为初始化CMDB没做或者是异常,登录中控机
source /data/install/utils.fc
./bkcec initdata cmdb
2) 当访问其他应用出现“您当前没有可操作权限”报错,因为在配置平台—>组织架构—>业务—>运维人员加上该用户即可。
作业平台
通过“桌面-作业平台”进行操作
目的:批量选择业务和管控主机,批量快速执行脚本。
在运维工作中有大量工作需手动编写脚本、本地脚本的上传、修改和版本控制,大量的脚本来源和编写人员会导致脚本混乱不可控,通过蓝鲸可以有效把常用可用的脚本放在公共校本库当中,也可以分配作业权限,有不同的人员维护业务范围内主机资源的批量脚本自动化执行。
目前支持的脚本类型有:Shell、BAT、Perl、Python、PowerShell
1、快速脚本执行
执行结果返回码为零正常,非零一般是脚本错误,可以检查脚本。
右边输出日志最大为1M。
2、快速分发文件
可选添加本地文件和添加服务器文件(安装了Agent的服务器)
执行结果:
3、新建作业及传参
4、定时自动作业
5、公共脚本
管理员权限可以建立公共脚本库,对通用和常用的脚本规范和分享给业务管理员使用
日志检索
通过桌面选择“日志检索”
当前社区版4.1.16及之前版本支持采集Linux文件
日志检索是增量查询,有新增数据才会采集上报
①选择模块(机器分配到XX业务XX模块下)
②选择采集日志的过期天数
③输入采集日志的完全路径
④排查类型:填入排查类型的文件格式就不采集此类文件
初次登录需要配置“新建采集项”
可搜索日志文件的关键字
结果展示
1)日志是按行匹配的,匹配到的关键字会高亮
2)可以自定义显示的列,日志内容是必显示项
蓝鲸监控
在桌面开启“蓝鲸监控”功能。
蓝鲸监控是一款针对主机/容器和互联网应用进行监控的产品,监控服务可用于收集主机/容器资源(系统性能、组件服务、数据库、日志等)的监控指标,探测互联网应用服务的可用性,并对指标进行告警和自动执行处理。
产品架构
依托蓝鲸管控平台实现对主机、容器、中间件、网络设备等数据源的数据采集能力,通过蓝鲸数据平台实现数据清洗、计算、存储,蓝鲸监控实现告警检测、收敛、通知以及联动蓝鲸体系内的平台(如蓝鲸作业平台)或周边系统(如故障自愈)完成故障处理的闭环.
采集器:除了自研的采集器外,有基于beats的基础性能采集器、组件监控采集器,此外组件采集器支持Prometheus Exporter及自助导入、datadog开源的100+款组件。
主机监控
支持以主机为单元的基础性能指标查看、告警策略配置、告警记录等功能。指标支持CPU、内存、磁盘、网络、进程、系统、事件(corefile、主机重启等)等7类共30~40项指标。
指标定义
https://docs.bk.tencent.com/product_white_paper/bk_monitor/Host_monitor_desc.html
进程资源
采集 应用程序 所占用系统资源,主要用于开发监测单个程序占用的资源。
适用于 Linux 和 Windows
监控指标
https://docs.bk.tencent.com/product_white_paper/bk_monitor/Process_Resource_Monitor.html
组件、中间件监控
监控常见开源组件及商业中间件的性能指标,比如Nginx的每分钟客户端请求数(req_per_min)、等待中的连接数(waiting)等,或Oracle的并发等待时间( CONCURRENCY_WAIT_TIME)等。
图1. 组件监控
图2. Nginx关键性能指标监控
图3. Oracle关键性能指标监控
蓝鲸监控除内置组件性能指标的采集能力,同时兼容Prometheus Exporter的导入及开发能力,全面覆盖组件的采集能力。
服务拨测
服务拨测是探测服务(应用)可用性的监控方式,通过拨测节点对目标服务进行周期性探测,主要通过可用性和响应时间来度量。
图1. 服务拨测
图2. 服务拨测可用率视图
图3. 服务拨测响应时间视图
通过模拟用户的登陆方式,实现从被动投诉到主动发现的运维方式转变。
当前支持的拨测协议有HTTP(包含HTTPS,GET和POST方法)、TCP、UDP。
自定义监控
当你需要对业务指标或蓝鲸监控未内置的监控对象做监控时,通过自定义监控可实现你的监控需求。
自定义监控需要结合“采集中心”,自定义采集项及采集指标。
监控配置
该页面下主要对监控阈值进行设定或者调整,包括告警屏蔽策略。
采集中心
一些需自定义的业务特性监控数据,可使用脚本采集、日志采集,以及组件的二次开发功能。
事件中心
集中展示或检索告警时间。
业务管理
对管理员的查询,变更权限进行管理。
蓝鲸监控的权限体系分2个层面:业务隔离、业务下角色隔离,均是基于蓝鲸配置平台(CMDB)实现.
提供了 谁能访问该业务 和 谁可查看或变更该业务配置 的功能。
业务隔离
配置平台业务间的权限通过业务中的运维人员、产品人员、测试人员、开发人员以实现业务隔离(不同业务,拥有对应业务权限的人员才能访问)
如monitor在配置中心拥有 蓝鲸 和 业务3的业务权限
他在蓝鲸监控中也只有这2个业务的权限,因为蓝鲸监控继承了CMDB权限。
业务下角色隔离
分为 查询 和 变更 权限,基于蓝鲸配置平台(CMDB)针对单个业务可设置运维、测试、开发、产品权限。
默认运维拥有 查询 和 变更 权限,其他人员拥有 查询 权限。
根据实际使用场景,可以针对单个角色做权限调整。
仪表盘
类似监控大屏,可新建或拖拽建立个性化视图。
场景案例
可参考官方场景案例https://docs.bk.tencent.com/product_white_paper/bk_monitor/Scenes.html
故障自愈
在桌面开启“故障自愈”功能。
故障自愈通过自动化处理节省人力投入,通过预定的恢复流程让恢复过程更可靠,通过并行分析达到更快的故障定位和恢复。
一句话概括:实时发现告警,预诊断分析,自动恢复故障,并打通周边系统实现整个流程的闭环。
1) 获取告警:告警源集成蓝鲸监控、4款主流开源监控产品Zabbix、OpenFalcon、Nagios、Icinga,及AWS、邮件的告警接入,更能通过REST API 拉取、推送告警。
2) 告警处理:故障处理支持作业平台、标准运维流程 。
3) 告警收敛和防御:系统预定收敛和防御规则,对异常告警事件进行收敛,更能通过收敛审批功能对异常的执行做审批。
4) 健康诊断,根据系统内置的健康诊断策略,周期性回溯异常事件,并通过邮件方式推送出来。
5) 预警自愈,是健康诊断功能的延伸,把健康诊断发现的问题通过自愈方案解决,完成异常事件的闭环。
6) 操作审计,感知故障自愈的每一次改动,确保运营安全,问题可回溯 。
7) 丰富的处理套餐:除支持作业平台、标准运维外,还支持快捷套餐类(磁盘清理、汇总、检测CPU使用率TOP10等)、组合套餐类(获取故障机备机、通知、审批等)。
故障自愈集成行业开源监控产品或以REST API方式获取企业监控产品的告警,匹配告警设置的执行套餐,并执行实现告警自动化处理,同时通过告警收敛功能解决“告警风暴”的痛点。
故障自愈产品架构图
故障自愈故障处理概要图
故障自愈首页面板
展示自愈成功次数、监控诊断待处理数量(告警配置—健康诊断)、收敛事件、人力节省(统计报表—收益数据)
接入自愈
1) 自带通用类自愈自愈方案,可自由选择开启或者关闭。
2) 支持自定义接入自愈套餐(自愈套餐需要与告警类型相匹配)
告警自动处理
将告警接入自愈套餐后,告警将匹配配置的处理套餐自动执行,无需人工干预。
添加告警类型,选择集群和模块(置空不填默认对该业务下所有集群和模块有效)
选择自愈套餐,可选已有的自愈套餐或者点击右侧“+”号新建。
选择通知方式:微信、邮件等
勾选通知人员
套餐管理
手动创建自愈套餐
接入三方告警源
配置参考
https://docs.bk.tencent.com/product_white_paper/fta/Getting_Started/Integrated_Monitoring_Products.html
告警收敛
以上为相关原生Saas模块功能概述,之后会总结场景就模块实现进行作业自动化和标准化开展。可添加微信一起交流学习。
网友评论