美文网首页
22.基于hive的应用实例(wordcount和基站掉话率)

22.基于hive的应用实例(wordcount和基站掉话率)

作者: 文茶君 | 来源:发表于2019-12-18 14:26 被阅读0次

一实现wordcount

1.装入数据.png
hello world hive
hadoop hello hive
hello
world
2.把数据装入hdfs.png

创建表
因为先有数据再有表
所以创建外部表
不知一行有几行单词,把整行当成一个列来存

create external table wc(
line string
);
location '/usr/'
3.创建外部表.png

创建结果表

create table wc_result(
word string,
ct int
);
4查看数据结构1.png

查看是数组结构


5查看数据结构2.png

再切割

from (select explode(split(line,' ')) word(这里给别名)  from wc) t1
 insert into wc_result
select t1.word,count(t1.word) group by t1.word;
6执行MR
7.结果.png

基站掉话率

基站掉话率,找出掉线率最高的前10名
1.数据格式
record_time,imei,cell,ph_num,call_num,drop_num,duration,drop_rate,net_type,erl
2011-07-13 00:00:00+08,356966,29448-37062,0,0,0,0,0,G,0
2011-07-13 00:00:00+08,352024,29448-51331,0,0,0,0,0,G,0
2011-07-13 00:00:00+08,353736,29448-51331,0,0,0,0,0,G,0
2011-07-13 00:00:00+08,353736,29448-51333,0,0,0,0,0,G,0
2011-07-13 00:00:00+08,351545,29448-51333,0,0,0,0,0,G,0
2011-07-13 00:00:00+08,353736,29448-51343,1,0,0,8,0,G,0
2011-07-13 00:00:00+08,359681,29448-51462,0,0,0,0,0,G,0
2011-07-13 00:00:00+08,354707,29448-51462,0,0,0,0,0,G,0
2011-07-13 00:00:00+08,356137,29448-51470,0,0,0,0,0,G,0

排名需求
record time:通话时间
imei:基站编号
cell:手机编号
drop_num:掉话的描述
duration:通话持续总秒数

建表

create table call_monitor (
record_time string,
imei string,
cell string,
ph_num string,
call_num string,
drop_num int,
duration int,
drop_rate double,
net_type string,
erl string
)
row format delimited fields terminated by ',';
2.装上数据文件 3.创建表并加载数据 4查看前几行数据,结果正常(出现null是因为结果类型不匹配,设置的是int)
create table call_result(
imei string,
drop_num int,
duration int,
drop_rate double
)

查询

5执行却报错.png

出错原因在于sdura是别名,却在此写sdrop/sdura。

from call_monitor cm
insert into call_result 
select cm.imei,sum(cm.drop_num) sdrop,
sum(cm.duration) sdura,
sum(cm.drop_num)/sum(cm.duration) s_rate group by  cm.imei order by s_rate desc;

6运行.png 7,结果.png

相关文章

  • 22.基于hive的应用实例(wordcount和基站掉话率)

    一实现wordcount 创建表因为先有数据再有表所以创建外部表不知一行有几行单词,把整行当成一个列来存 创建结果...

  • Hive案例

    一、基站掉话率统计 需求分析统计基站掉话率,找出掉话率最高的前10个基站 输入样例 输出样例 示例代码 二、单词统...

  • Hive练习案例

    案例一: 统计基站掉话率:原始数据格式如下所示:数据分为十个字段,掉话率=掉话/通话 思路:按照基站分组,聚合...

  • Storm设计一个Topology用来统计单词的TopN的实例

    Storm的单词统计设计 一:Storm的wordCount和Hadoop的wordCount实例对比 二:Sto...

  • Hive wordcount

    一 使用Hive CLI (old)命令行工具操作HiveQL 进入hive cli 创建统计表 导入数据 可...

  • Hadoop之MapReduce

    Hadoop大数据技术体系 : MapReduce 框图 从wordcount开始 参考:wordcount实例 ...

  • Hive找出掉线率最高的前10基站&WordCount

    统计出掉线率最高的前10基站 建原始数据表 如果文件数据是纯文本,用 STORED AS TEXTFILE如果数据...

  • HiveSQL解析过程详解

    Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行...

  • Hive SQL解析过程详解

    Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行...

  • Hive SQL的编译过程(转)

    Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行...

网友评论

      本文标题:22.基于hive的应用实例(wordcount和基站掉话率)

      本文链接:https://www.haomeiwen.com/subject/dxosnctx.html