回顾2018年,云中事故频发。尽管故障和意外无法避免,但如果能对云平台进行定期巡检,将有效规避风险,确保系统安全稳定。在此背景下,品高云与大家分享这篇《云平台日常巡检工作建议》文章,希望能为大家新一年的云运维工作带来一些启发。
云平台日常巡检工作建议
在传统的服务模式中,运维人员通常需要对服务器、交换机、防火墙等设备进行日常巡检,以此保障数据中心的正常运行。而随着国内外云计算产品逐步成熟,云平台在政府、企业、教育等不同行业中的深度应用,基于云计算产品的数据中心建设越来越多,用户对云平台安全稳定的要求也越来越高。为了保障云平台的安全稳定运行、掌握云平台服务状态,除了对物理资源进行巡检外,还需要按计划对云平台组件、云服务状态、资源统计、平台警报、操作日志、产品版本等进行巡检。而在品高云平台的运维管理规范中,巡检也是首要的运维工作内容。
在对云平台进行巡检前,首先需要定义巡检人员的角色职责。品高云推荐三级运维组织管理架构:一级运维组织为系统巡检员、二级运维组织为系统管理员,三级运维组织为系统支持方(厂商)。如品高云平台巡检员为一级运维组织,主要职责包括:为云平台户日常巡检及其应急运维提供支持,巡检内容包括物理资源、计算资源、存储资源、网络资源、高级云服务、云监控、日志审计等,同时需要接收和处理云平台使用人员提出的问题,对使用人员进行操作培训,并配合二级运维组织开展相关工作。联系品高云家的小表妹(ID:pingaoyunzzm)了解更多。
其次,我们要确定云平台的巡检周期。品高云平台提供的巡检周期建议分为每日、每周、每月、每季度或每半年,而不同周期的巡检内容也不一样。
每日巡检
品高云认为,每日巡检内容可包括:物理主机资源(状态、CPU,内存,磁盘);云平台组件(CLC、CC、NC、BingoFS、SDN、MySQL)可用性情况、物理存储资源(BingoFS、本地文件系统、本地逻辑卷、Ceph)可用情况、服务可用性巡检,并形成主机、云组件、云服务和存储设备四个模块的每日巡检报表,一份巡检报表针对同一云平台的多个集群。如果是多个云平台,则可依次增加巡检报表。
主机巡检
作为云平台稳定运行的物理基础,主机直接影响着云平台的性能变化与存活状态,其每日巡检的内容为主机状态、CPU、磁盘与内存利用率。主机每日巡检报表如下:
在品高云平台内,对物理主机的 CPU、内存、磁盘使用情况及其关联的实例进行检查,具体操作如下:登录到 BCC,在【平台管理→物理资源管理→物理主机】中,可查看每一物理主机的基本信息,如图:
点击详情,可通过监控页面查看物理主机的 CPU、内存、磁盘使用情况。
云组件巡检
云组件包括云控制器(CLC)、集群控制器(CC)、节点控制器(NC)、云数据库(MySQL)、BingoFS、Ceph、SDN 控制器,这些云平台组件的健康状态直接影响着云平台的可用性。每日巡检项目为云组件的可用值与可用率,形成的云组件每日巡检报表如下:
在品高云平台内可通过页面之间巡检云组件,以云控制器为例,巡检具体操作如下:登录到 BCC,在【平台管理→虚拟资源管理→计算管理】中,点击云控制器、集群控制器和节点控制器,可查看云平台控制组件是否处于正常运行状态,如图:
云服务巡检
每日巡检的云服务包括基础云、负载均衡、云编排服务、云监控、弹性伸缩、关系数据库、简单通知服务、对象存储服务、自助服务平台(SIP)等等。巡检项目为云服务的可用率,云服务每日巡检报表如下:
登录到 BCC,在【监控与报表→全局监控→服务状态监控】中,可查看云平台提供的服务可用性状态,点击服务状态可查看每一服务的可用性评分。如图:
存储设备巡检
在品高云平台中,存储设备的每日巡检内容包括 BingoFS、本地文件系统、本地逻辑卷、Ceph,巡检项目为存储设备的可用率。存储设备每日巡检报表如下:
登录到 BCC,在【平台管理→物理资源管理→存储设备】中,可查看每一物理存储设备的资源使用情况,如图:
平台警报巡检
平台警报类型分为实例、存储卷、负载均衡、弹性组、主机、区域、服务,巡检项目为警报类型的数量。云平台每日警报巡检报表如下:
登录到 BCC,在【平台管理→监控于报表→监控项】中,可查看云平台的警报情况,如图:
每周巡检
除每日巡检内容外,每周巡检内容还增加日志审计计量和物理资源统计情况,并对本周七日内的巡检记录统计分析,形成周报。联系品高云家的小表妹(ID:pingaoyunzzm)了解更多。
其中,每周巡检内容包括日志审计、资源统计、组件和服务可用性:
日志审计分为警告、错误、信息三个级别,日志检查时间及其频率可自行设定。
资源统计包括计算、存储、网络和节点资源统计:计算资源统计包括CPU、内存和磁盘使用率及其关联的实例数量;存储资源统计 BingoFS、本地文件系统、本地逻辑卷、Ceph 的使用率;网络资源统计 IP 和云网络的使用率;节点资源包括云节点和存储节点的数量。每周资源统计一次,时间为每周的最后一个工作日。
物理主机、警报、云组件和云服务巡检数据为每周内七日可用率相加后的平均值。
品高云平台每周巡检报表如下:
每月巡检
每月巡检工作内容是云平台本月使用情况与上个月使用情况的比较,本月巡检项目的数值为日志审计、警报、云组件和云服务、存储设备、物理主机当月每周的平均值。资源统计的使用率为当月最后一个工作日的数值,基于云平台每周巡检内容形成每月巡检报表。
每季度巡检
每季度巡检工作内容为云平台本季度使用情况和上个季度使用情况的比较,内容包括日志审计、资源统计(季度最后一天)、物理主机、存储设备、警报、云组件和云服务。巡检项目本季度的数值为季度内每月的平均值,同时基于使用情况和统计数据完成季度巡检报告,并依据巡检报告判断云平台是否需要扩容和升级。
每半年巡检
每半年巡检内容除了每季度巡检项目外,还需要检查云平台版本与许可、升级云平台并在升级后进行清理。除了可以通过平台页面直接查看云平台巡检数据外,还可以利用Zabbix、SSH 等第三方工具获取监控数据。
在完成巡检工作后,巡检员需要对巡检内容进行统计分析。当在巡检过程中发现问题时,若巡检员可自主解决问题,则记录问题与解决方案,在事后撰写运维报告,并提出问题优化方案;如果巡检员不能解决问题,则提交管理员与系统支持方进行处理,问题解决后由巡检员记录问题与解决方案,并撰写运维报告,提出问题的优化方案。
而品高云平台除了提供人工巡检服务之外,在 V8.0 版本中还推出了平台智能体检服务,可自动输出巡检报告,具体内容请点击相关阅读进行了解。
相关阅读:
联系我们
如想了解品高云更多或索取产品文档,请联系品高云家的客服小表妹!添加她为好友,任何需求一键直达。
网友评论