目录:
用户行为日志概述
用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击等)
为什么要记录这些日志?
答案:网站页面的访问量、网站的粘性、推荐 ===》目的就是提升订单转化率
用户行为日志生成的渠道?
答案:Nginx、Ajax
用户行为日志内容

日志内容:
1)访问的系统属性:从useragent中获取操作系统、浏览器等
2)访问特征:点击的url、从哪个url跳转来的(reference)、页面上的停留时间
3)访问信息:session_id 、访问ip(访问城市)等
用户行为日志分析的意义
网站的眼睛
可以通过reference判断出来我们投放在百度或者360上的引流广告带来的用户量,用来验证投放的广告是否起到预想的效果
网站的神经
在网站上,你的网站内容或者排放位置都非常有讲究的,不是随便放的,这就是根据用户的浏览轨迹、点击行为来分析出来的到底到底网站的哪个位置是比较受用户热爱的。可以做商品的推广和重点业务营销。
网站的大脑
通过对用户行为的监控可以直接分析出来网站的活跃度,是否有大量用户聚集,通过ip地址可以获取浏览者所在城市,可以对城市进行大力宣传,或者对某个城市做重点布局。也就是说用户行为分析,是给我们提供可靠的营销情报。
离线数据处理架构
离线数据处理流程:
1)数据采集:
Flume:产生的web日志写入到HDFS中
2)数据清洗:
因为抓过来的数据,是由脏数据存在的,所以我们需要清洗,一般用到的框架由
Spark、Hive、MapReduce或其他一些分布式计算框架,清洗完之后的数据可以放在HDFS(Hive/Spark SQL)上。
3)数据处理:
按照我们的需求进行相应的业务的统计和分析,一般用到的框架由
Spark、Hive、MapReduce或其他一些分布式计算框架
4)处理结果入库:
结果存储在关系性数据库(mysql、oracle、sqlserver等)或者nosql数据库(redis、es、hbase等)
5)数据的可视化:
通过图形化展示的方式展现出来:饼图、柱状图、地图、折现图等等
图形化的技术:Echarts(百度的)、HUE、Zeppelin等

项目需求
统计某网站的访问日志的浏览器访问次数
1)根据日志信息,抽取出来浏览器信息
2)针对不同的浏览器进行统计操作
功能实现
打包第三方jar包的方式,

网友评论