一个大型系统的设计之中必然要有一个完善的监控体系,这样可以大大的降低一个系统的运维难度并且可以从日志中发现更多的价值和业务关联。
我认为作为一个目前大型系统的监控中心应该包含如下板块:用户权限管理、集群拓扑、健康检查、应用监控、业务监控、链路跟踪、日志展示、运维知识库、运维视点以及告警规则配置十大项。这些板块差不多就可以构建一个完整的监控体系,相关的开源监控组件可以参考zabbix/zipkin/cat等,同时可以使用流行的elk平台来做日志分析以及统计分析等等。
接下来,就因地制宜,根据自己的系统去构建处于自己的监控中心吧。
网友评论