美文网首页
Hadoop应用架构分析

Hadoop应用架构分析

作者: Vechace | 来源:发表于2018-06-17 12:50 被阅读7次

    网站点击流日志数据挖掘系统

    数据来源

    • 数据源:该案例的数据主要是用户的点击行为记录

    • 获取方式:在页面预埋一段js程序,为页面上想要监听的标签绑定事件,只要用户点击或移动标签,即可触发Ajax请求到后台servlet程序,用log4j记录下事件信息,从而在web服务器(Nginx、tomcat等)上形成不断增长的日志文件。

    整体流程

    案例分析.png
    • 数据采集:定制开发采集程序,或使用开源框架flume

    • 数据预处理:定制开发MapReduce程序运行于Hadoop集群

    • 数据仓库技术:基于Hadoop之上的hive

    • 数据导出:基于Hadoop的sqoop数据导入导出工具,导出特定时间戳的数据

    • 数据可视化:定制开发web程序或者使用kettle等产品,echarts

    • 整个流程调度:Hadoop生态圈中的oozie工具或者其他类似开源产品

    日志分析系统架构图:

    日志分析系统.png

    推荐系统:离线计算

    数据挖掘流程图:

    离线推荐系统.png

    推荐引擎:数据可视化流程

    数据可视化.png

    推荐系统:实时计算、机器学习

    推荐系统.png

    相关文章

      网友评论

          本文标题:Hadoop应用架构分析

          本文链接:https://www.haomeiwen.com/subject/yrlweftx.html