基于Nginx日志的异常监控策略

作者: 空谷幽兰 | 来源:发表于2016-04-11 17:41 被阅读494次

基于Nginx日志的异常监控策略
JVM性能调优实战(〇) - 简介
如何优雅的设计一个告警系统？远没有你想的那么简单
Prometheus 监控 Nginx
如何优雅的设计一个告警系统？远没有你想的那么简单
zabbix监控日志文件实践
Nginx负载均衡配置
Nginx进阶
分享一款Nginx 管理可视化神器
logstash + influxdb监控nginx日志

Nginx作为所有HTTP请求的入口，是非常重要的一层。本文主要介绍如何利用 Nginx日志实时监控每个业务的请求异常。

你可以扫描文章末尾的二维码关注我的关注我的公众号，内容大多会是后端技术、前端工程、DevOps，偶尔会有一些大数据相关，会推荐一些好玩的东西。希望你会喜欢~

Nginx 由于其出色的性能，在互联网中被广泛应用，它通常会作为 HTTP 接入层负责分流及静态文件处理。因此，每天会产生大量的日志，而这些日志是可以产生很多价值的，比如用来做用户行为分析、服务性能质量分析，以及本文要介绍的异常监控。
一条访问日志通常会记录用户请求来源、目标资源、设备信息、响应状态等，这里主要关注异常的响应状态码如500，另外一个是upstream_response_time，它反映了后端服务的响应速度。所以，这里主要是做两件事情：1. 监控错误；2. 监控慢的响应。最终的目标是要监测到哪个模块出了什么异常，问题出现在哪台机器上。

小流量场景的应对方案

我先假设目前只有一个 Nginx 节点且QPS 不高，不用太考虑性能问题，那么最简单的做法是写个脚本每分钟计算一下500状态码的数量，超过预设阀值则发送告警邮件，邮件内容要尽量详细，比如模块名、错误数量、告警级别等，并且把异常的日志输出到另外一份文件方便排查。慢响应的监控同理，根据 upstream_response_time 计算出慢的数量，以及平均值。