网站点击流日志数据挖掘系统
数据来源
-
数据源:该案例的数据主要是用户的点击行为记录
-
获取方式:在页面预埋一段js程序,为页面上想要监听的标签绑定事件,只要用户点击或移动标签,即可触发Ajax请求到后台servlet程序,用log4j记录下事件信息,从而在web服务器(Nginx、tomcat等)上形成不断增长的日志文件。
整体流程
案例分析.png-
数据采集:定制开发采集程序,或使用开源框架flume
-
数据预处理:定制开发MapReduce程序运行于Hadoop集群
-
数据仓库技术:基于Hadoop之上的hive
-
数据导出:基于Hadoop的sqoop数据导入导出工具,导出特定时间戳的数据
-
数据可视化:定制开发web程序或者使用kettle等产品,echarts
-
整个流程调度:Hadoop生态圈中的oozie工具或者其他类似开源产品
日志分析系统架构图:
日志分析系统.png推荐系统:离线计算
数据挖掘流程图:
离线推荐系统.png
网友评论