这篇文章是Python拆分Apache日志,得到访问量、热门资源、出错比例、日志大小等统计信息。
一、统计网站的访问量
利用split函数对apache日志进行拆分,下标为0的是用户的ip,将ip添加到ips列表中。ips列表的长度就是网站的访问量PV。ips列表再保存到一盒集合中,集合天然就有去重功能,得到UV独立访问数
data:image/s3,"s3://crabby-images/06105/06105fe0a89f4eee8ed958bf3bf559a237ef4452" alt=""
data:image/s3,"s3://crabby-images/6849e/6849ec26e7e16311d64c7f05587008ca0bc6996e" alt=""
二、统计网站的热门资源
请求的资源在第七个字段(序号6),Counter的most_common函数可用来显示最大的几个元素,十分方便的完成热门资源的定位。
由于%格式化字符串可能在以后的版本启用,可用改为format来格式化输出:
print("请求的资源:{0:30} \t 访问数量:{1} " .format(item[0],item[1]))
data:image/s3,"s3://crabby-images/5197b/5197b1092ec523c2629e33d77b2f59ec6692dde2" alt=""
运行结果:
data:image/s3,"s3://crabby-images/e3e5a/e3e5a1c85504fbe23e51d680ab0b48c21495c0a8" alt=""
三、统计网站的出错比例
HTTP的状态码大于400视为出错,利用字典来保存状态码(key)和数量(value),出错比例等于出错除以访问总数。
data:image/s3,"s3://crabby-images/70a49/70a49b7fd305406a49c9c63d2a8ea8f7c12f32a3" alt=""
运行结果:
data:image/s3,"s3://crabby-images/c7b09/c7b09e2e7ba7b28d7bae4200a31288e32a7e7bdb" alt=""
四、统计Apache日志的大小
统计当前目录下(或者定位为绝对路径)以access.log开头的文件的总大小,并使用函数bytes2human转换为易读的单位。
data:image/s3,"s3://crabby-images/fc9a9/fc9a912a53f25bab1e3600d0d5d107ca883ed65a" alt=""
运行结果如下:
data:image/s3,"s3://crabby-images/dc41b/dc41b8cf451ea2aa9226d70c6c9c2d4567d6a431" alt=""
网友评论