美文网首页行云管家
免费 免搭建 免维护的企业级主机监控

免费 免搭建 免维护的企业级主机监控

作者: 陈宝佳 | 来源:发表于2018-04-26 15:18 被阅读12次

一、前言

在我看来,运维工程师绝对是一个伟大的职业,从手工业到云计算,运维工作周而复始,重复性高达70%+。小到布线、上架,大到方案制作、架构设计,任何疏忽都有可能导致严重的错误。能够耐得住寂寞,能够把责任落实到每一次的工作中,能够把每一次重复当成新的挑战去面对,以新人角度思考运维工作,不断反思与精进,这可能就是做好运维工作的秘诀吧。

通过本文能让我们运维人员能够一目了然的查询业务服务器当前的状态与实现告警的实时通知,从监控数据中获取尚未优化和有风险的细节之后进行对症下药,做到未雨绸缪。

二、什么是监控

监控系统是运维人员的眼睛,没有它,就没法知道系统运行状况。

当发生问题时,监控系统要第一时间发出报警,报警中除了出问题的点,还可以有一些数据和简单的分析,比如当时一段时间的CPU负载等,以帮助接到报警的人员快速定位问题。

在出现故障以后进行问题分析时,还要靠监控系统。因为监控系统真实的记录了故障发生现场这台服务器的状况。我们可以通过不同纬度的分析,找出问题的原因。

三、为什么需要监控

面对传统的几十台服务器时,运维人员还能手动处理一些问题,但是当机器发展到1000台、甚至是10000多台时,自动化运维必须得派上用场了。

企业根据业务来分配和释放资源,运维人员不仅需要一个强大的控制系统来控制对网络流量、CPU利用率、进程、内存等节点,还需要一个资源管理系统来管理这些资源的生命状态,还有权限管理,就像行云管家的运维审计一样。

对云计算而言,一大堆机器和设备放在一起,安全成为了一大挑战。有哪些监控工具可以实现对资源的管理,对网络流量、CPU利用率、进程、内存等状态监控呢?

譬如开源工具:catic、nagios、zabbix都可以。

关键在于这些监控软件如何适应你现有环境 那取决于运维对企业业务的熟悉度 对服务器环境的熟悉度等 才能因地制宜的去部署构建相关的监控环境 并根据相关反馈给的数据进行分析判断。

最好的方法是调用系统的命令来收集你需要的数据,完成相应的问题,达到资源利用的最大化。

资源都被虚拟化后,故障定位和排除明显是痛点,很容易牵一发而动全身;另外自动化运维管理本身的可靠性要求也更高;还有运维是如何满足客户的安全审计要求也是难题。

一般在开源基础上做订制开发,而且要分层级,平台层和应用层要开分开。

saltStack、puppet、nagios、cacti、zabbix。。。现在有一堆开源监控和配置管理工具了。

监控这个东西想真正做好真的很难,我监控过900个节点,触发器、告警规则、基线值,性能指标、阈值,我们都需要熟悉,不然这个监控做下来告警像轰炸机样的。

对设定任何值,都需要熟知为什么这样设还有整体的方案,必须先做方案,不停的优化方案,起草方案,在实施,测试,回退机制、上线。

回退机制一定要做好,当初我做的时候就是总是告警,还好我的回退机制做的好,不行就退回去,找原因。实际中会遇到很多问题,你需要提前做知识储备。

四、都要监控什么

4.1 硬件监控

监控硬件我们可以通过SNMP(网络管理协议)来进行路由器、交换机的监控(这些可以跟一些厂商沟通来了解如何做)、服务器的温度以及其他,则可以通过IPMI(智能平台管理接口)来实现。

如果企业没有硬件,使用的都是是云计算资源,那么硬件问题我们将无需关心。

4.2 系统监控

如CPU的负载,上下文切换、内存使用率、磁盘读写、磁盘使用率、磁盘inode节点。当然这些都需要根据业务场景来进行配置,设置太低会频繁报警。

4.3 服务监控

诸如Nginx自带Status模块、PHP也有相关的Status、MySQL可以通过percona来进行监控。

Redis则可以通过自身的info获信息进行过滤等。方法类似。要么服务自带。要么通过脚本来实现想监控的内容,以及报警和其他图形功能。

4.4 网络监控

如果是云主机又不是跨机房,那么可以选择不监控网络。

如果是跨机房推荐使用smokeping来做网络相关的监控。或者直接交于网络工程师来做,术业有专攻。

4.5 安全监控

如果是云主机可以考虑使用自带的安全防护。当然也可以使用iptables。如果是硬件,那么推荐使用硬件防火墙。

使用云可以购买防DDOS,避免出现故障导致down机一天。

如果是系统,那么权限、密码、备份、恢复基础的方案要做好。

web同时也可以使用Nginx+Waf来实现一个web层面的防火墙。

当然也可以使用集成好的OpenResty(基于 Nginx 与Lua 的高性能 Web 平台)。

4.6 Web监控

web监控可以使用自带的web监控来监控页面相关的延迟、js响应时间、下载时间等关键指标。

4.7 日志监控

如果是web的话可以使用监控Nginx的500x日志。PHP的ERROR日志。其实这些需求无非是:收集、存储、查询、展示。

我们其实可以使用开源的ELKstack来实现。ogstash(收集)、elasticsearch(存储+搜索)、kibana(展示)

4.8 业务监控

监控那么多,都是为了保证业务的正常运行,这样才是监控的价值所在。

所以业务层面的监控需要和开发以及总监开会讨论,监控比较重要的服务,如API等。

然后通过简单的脚本就可以实现,最后设置触发器即可

4.9 流量分析

平时分析日志都是awk sed xxx一堆工具来实现。

对我们统计ip、pv、uv很不方便。

推荐使用百度统计、google统计、商业,让开发嵌入代码即可。当然避免隐私也可以使用piwiki来做相关的网站流量分析。

五、该怎么监控

目前已有很多监控工具可以选择诸如:zabbix、nagios、cacti和行云管家。

Nagios最大的亮点是轻量灵活,且报警机制很强,如果我们只是需要监控服务器/服务是否在运行,nagios足矣。

但是如果牵涉到画图方面,通过这段时间的亲身体会,感觉Nagios+Cacti的结合是不如Zabbix的all in one方式的。

Nagios和Cacti的结合需要NPC插件,牵涉到npc在Cacti中的安装、配置、图表模板的对接,还要牵涉到多个数据库的创建、建表,ndo2db组件的调试(这东西的默认sql居然有错误,直接导入会出错),总之非常繁琐,整个环境搭起来可能需要耗费不少时间。

而zabbix把报警、画图全都能够满足需求,另外Zabbix的Agentd在Windows Server下运行良好,甚至32/64位均有,不像Nagios只能用一个插件。

行云管家的产品定位是企业级一站式云计算管理平台,拥有主机监控的特性之外还拥有多云支持、混合云管理、自动化运维、堡垒机、云成本分析、安全体检、对象存储与CDN管理等众多实用特性,行云管家为我们提供了SaaS模式与私有化部署模式。SaaS无需部署安装,不需要购买任何硬件,简单注册即后即可使用。企业在无需配备IT方面的专业技术人员的情况下能得到最新的技术应用,满足企业对信息管理的需求。

综上,监控工具不存在谁好谁坏的问题,只存在我们的需求不同需要选择哪个更好的问题:如果只为了报警,Nagios吧,足够满足需求;如果需要一站式的IT运维平台,可以选择行云管家,只要图表的话可以选择Zabbix。别用Cacti了……

如欲了解更多行云管家的功能,大家可以点击:行云管家产品功能介绍

六、行云管家解决方案

6.1 行云管家简介

行云管家平台,是傲冠软件面向中国广大上云企业打造的战略级产品,目前以SaaS平台和私有部署两种形式为广大上云企业提供服务。主要功能是帮助国内众多使用公有云、私有云和混合云的企业提供跨云厂商的云计算管理方案,包括云服务器管理、混合云管理、微信监控告警、成本分析与优化建议、健康负载与安全体检、云堡垒机、自动化运维等功能,帮助企业易上云、用好云。帮助上云企业节省云成本、提高运维效率和保障云安全。

官网:https://www.cloudbility.com/

6.2 如何免费使用行云管家?

行云管家目前以SaaS平台和私有化部署两种形式为广大上云企业提供服务。

SaaS属简单部署,不需要购买任何硬件,简单注册即后即可使用。企业在无需配备IT方面的专业技术人员的情况下能得到最新的技术应用,满足企业对信息管理的需求。

行云管家亦可根据企业需求提供定制化私有部署解决方案,让企业运维安全管理更简单。同时专业的技术人员全程参与整个解决方案部署与售后,让企业客户更安心。

用户可以先选择行云管家的SaaS平台进行体验,主机资源不多,免费版本就可以满足我们的需求了,行云管家是基于B/S架构开发,只需一个浏览器即可轻松在一个主控台中完成跨云厂商资源的统一管理。

行云管家其实在付费这一点做的很实在,免费版本没有任何功能限制,唯一限制的就是主机数量与团队成员数量。

行云管家是一个基于团队协作的云资源管理平台,团队是行云管家中所有资源的载体,主机、文件、日志等数据资源依附于团队而存在,这些资源在团队范围内处于共享状态,团队中任何成员均可以访问到这些资源。

6.2.1 注册登录

行云管家堡垒机是基于SaaS模式设计,因此无需安装和部署任何软硬件设备,只需要三步即可完成:

image

打开行云管家官方首页,点击右上方“注册”按钮,可以通过手机号或者邮箱注册完成,同时,行云管家也支持QQ、微信、微博、Google等第三方账号登录。

6.2.2 创建团队

基于团队协同的工作模式,创建一个属于您的团队。首先为您的团队取一个名称,行云管家后台会自动为您的团队生成独有的团队标识;然后您可以邀请团队成员加入。

image

6.2.3 导入云主机或局域网主机

选择云厂商或者云资源的类型,行云管家支持多个主流云厂商的多个云资源管理,其中包括云主机、局域网主机(私有云)、对象存储、CDN等。选择好云厂商或云资源之后,通过API凭证将您的主机导入到行云管家中进行管理。

image image

6.2.4 注册成功

经过简单三步操作,无需其它配置,您就获得了一个能够跨云厂商管理云资源、优化成本支出、清晰资源状况和规范团队操作的云资源管理平台。

image

6.3、使用行云管家的主机监控

我们只需要导入主机资源之后点击主机即可查看相应主机的监控数据。

在行云管家中,为用户提供了两种模式的监控服务:云厂商监控和行云管家Agent监控(需要在主机上安装行云管家Agent);

对于公有云主机而言,行云管家通过API集成了各大云厂商监控服务,用户可直接在行云管家中查看云厂商的监控数据。同时,如果云主机上已经安装了行云管家Agent,也可采用行云管家Agent监控;

而对于局域网主机,只能通过安装行云管家Agent来获得监控服务。

监控模式对比:受限于公有云厂商API的限制,云厂商监控模式存在诸如监控项过少、监控数据丢失、监控频率过低等问题。行云管家Agent监控模式,由安装在主机上的行云管家Agent插件直接向服务器汇报监控数据,有着稳定性高、频率高的优点,下面表格展示了两种监控模式的差异:

对比项 云厂商监控 行云管家Agent监控
数据来源 云厂商监控Agent 行云管家Agent
监控项数量 不同云厂商,监控项数量不一致 10项
监控频率 5分钟/次(收费版团队阿里云主机2分钟/次) 1分钟/次
稳定性和准确性 依赖于云厂商Agent和API

综上所述,使用行云管家Agent来实现监控有着频率高,稳定等诸多优点。

行云管家部分监控指标预览


image

鼠标所到之处即可看到触发告警的阈值


image

详细的记录每个时间点服务器的状态


image

七、新手有礼活动(福利)

7.1 活动规则

行云管家特为新用户带来的福利。原价199元专业版,新用户1元即可体验。

活动链接:行云管家新手有礼

image
  • 活动时间:2018.04.01 - 2018.06.01;
  • 活动对象:在活动期注册行云管家的新用户均可参与本活动免费领取198元代金券;
  • 代金券使用有效时间为12个月,可在「我的代金券」中查询代金券信息;
  • 活动期间,若发现用户使用非正常手段获取活动奖励,行云管家有权立刻取消其活动资格。

7.2 新版本特性

V4.2(日期:2018-04-26)19:00,行云管家将发布4.2版本

新特性在这里:行云管家4.2新版本

欢迎大家体验和反馈。

相关文章

网友评论

    本文标题:免费 免搭建 免维护的企业级主机监控

    本文链接:https://www.haomeiwen.com/subject/rexmlftx.html