美文网首页大数据开发大数据解决方案
[实例]网站日志分析项目案例

[实例]网站日志分析项目案例

作者: 葡萄喃喃呓语 | 来源:发表于2016-10-21 16:52 被阅读95次

    Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
    http://www.tuicool.com/m/articles/nABN3yI

    一、借助Hive进行统计

    1.1 准备工作:建立分区表

    为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project/techbbs/cleaned即清洗后的数据存放的位置)
    hive>CREATE EXTERNAL TABLE techbbs(ip string, atime string, url string) PARTITIONED BY (logdate string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LOCATION '/project/techbbs/cleaned';
    建立了分区表之后,就需要增加一个分区,增加分区的语句如下:(这里主要针对20150425这一天的日志进行分区)
    hive>ALTER TABLE techbbs ADD PARTITION(logdate='2015_04_25') LOCATION '/project/techbbs/cleaned/2015_04_25';

    (5)将所有关键指标放入一张汇总表中以便于通过Sqoop导出到MySQL
    为了方便通过Sqoop统一导出到MySQL,这里我们借助一张汇总表将刚刚统计到的结果整合起来,通过表连接结合,HQL代码如下:
    hive>CREATE TABLE techbbs_2015_04_25 AS SELECT '2015_04_25', a.pv, b.reguser, c.ip, d.jumper FROM techbbs_pv_2015_04_25 a JOIN techbbs_reguser_2015_04_25 b ON 1=1 JOIN techbbs_ip_2015_04_25 c ON 1=1 JOIN techbbs_jumper_2015_04_25 d ON 1=1;

    Paste_Image.png

    相关文章

      网友评论

        本文标题:[实例]网站日志分析项目案例

        本文链接:https://www.haomeiwen.com/subject/qqrcuttx.html