案例一:
统计基站掉话率:原始数据格式如下所示:数据分为十个字段,掉话率=掉话/通话
思路:按照基站分组,聚合统计掉话,通话,相除得到掉话率,按照掉话率逆序排序;
,步骤:
创建原始数据表 创建结果表 load加载原始数据 from insert select 结果表加载数据案例二:
经典案例wordcount:原始数据如下所示:发现每一行的单词个数不一致,那么hive建表,我们就以每一行作为一个字段;
原始数据思路:每一行作为一个字段建表,通过split(field,"?")函数切割字段为数组,UDTF函数explode(array<>);
步骤:
hive中新建原始数据表跟结果表;
load加载数据;
hive sql语句进行wordcount
查询结果:
网友评论