美文网首页
心得-2017/5/9

心得-2017/5/9

作者: ipaid_ec89 | 来源:发表于2017-05-09 23:47 被阅读0次

一、关于nginx日志统计分析的心得总结

第一步:对nginx日志进行垃圾过滤

一般共性需要考虑过滤的内容包括:

1.访问类型:保留200,301,302,去除其他譬如499,501,502等

2.保留get、post访问方式,去除head方式

3.依据访问链接的类型过滤,一般需要过滤后缀为jpg、png、gif、svg、

ajax、js、css等

4.爬虫蜘蛛的访问,即ua中为蜘蛛信息的访问。

5.网站如果存在恶意点击,大量机器访问的情况,需要进行过滤。

第二步:网站访问主要指标的计算思路

1.由于nginx日志中记录的用户访问错综复杂,除了正常的用户访问的行为外,还有大量网站调用接口,以及网页重定向页面,这造成了网页指标统计分析的精度收到一定影响,所以从源头保证数据源以及计算规则的准确性对我们后面数据分析的工作有着至关重要的作用。

2.另外一方面,目前很过企业的网站,ap,微信公众号里面的很多功能也经常绑定到一起,而他们之间的交互式通过不同的接口api实现的,通过调用接口进行赋值传参,由于前期很多项目的设计把控考虑的不够周全的原因,部分的访问可能会同时调用多个接口,这样在nginx中就会记录下多条记录,这对我们通过日志分析用户行为也会有很大影响,因此,学会结合企业的实际情况优化数据分析统计的计算规则对我们基础数据指标的计算也具有很重要的意义。


思路一:累加法

从网站主页以及已知的网站的子页链接出发,匹配同类访问,计算每种页面访问的访问量,最后累加求和即可得出。

思路二:递减法

在上述第一步过滤后数据的基础之上依次根据剔除规则将本来纯度不高的用户访问依次递减压缩至能够接受的精度。

理论上,累加法计算出的访问量要低于递减法算出的值,当然,如果说两种方法计算的数值不相上下也可以从侧面佐证我们在此种计算规则下计算结果的可信性。如果说累加法计算的访问值远远低于递减法算出的值,那说明我们的计算规则还不够完善,换而言之我们对自己企业产品的了解还不够深入,这就是数据分析师所说的业务经验,业务经验是最简单获得的亦是数据分析最重要的基石,但是往往做好并不容易,需要投入很多耐心。

相关文章

  • 心得-2017/5/9

    一、关于nginx日志统计分析的心得总结 第一步:对nginx日志进行垃圾过滤 一般共性需要考虑过滤的内容包括: ...

  • daily check

    9/5/2017 8/22/2017 8/21/2017 8/17/2017 8/16/2017

  • 2017-09-28

    学习《伏羲教育的昨天、今天和明天》前言心得 欧阳黎晓 2017年9月27日 2017年9月24日在尹校长的精心组织...

  • 向死而生·我修的死亡学分

    时间:2017 - 9 - 3 至 2017 - 9 - 5 书名:《向死而生·我修的死亡学分》 李开复著 ...

  • 送培是缘分,送培是享受,送培是提升

    参加“送教送培”活动心得体会 ———— 题记 2017年9月2...

  • 徒步穿越香格里拉终极秘境巴拉格宗

    出行时间: 2017年9月5日—9月9日 2017年10月1日—10月5日 起止地点:丽江起止 巴拉格宗, 是一方...

  • 2017/9/5

    “又如新霁,清旸升天,光入隙中。空中诸有尘相,尘质摇动,虚空寂然。” 雨后新晴,太阳光射入门缝,从门缝的光里可以看...

  • 2017/9/5

    1:今天下午特别不想看书,我大概是个废柴了。想到明天除了上课其他时间都在店里就想一直瘫痪在床。 2:看了很多招聘网...

  • 2017/5/9

    看上玫瑰的男人怎么会爱上野花,爱过雄鹰的女人怎么会爱上乌鸦

  • 2017/5/9

    2017/5/9 今天早上又拖床了,不过比昨天稍早点。 送悦悦回来后也没有工作,中午倒是按时吃饭,自己捣鼓点吃的。...

网友评论

      本文标题:心得-2017/5/9

      本文链接:https://www.haomeiwen.com/subject/aejbtxtx.html