Hive SQL 日常工作使用总结

作者: Bioconductor | 来源:发表于2018-07-12 10:06 被阅读339次

Hive SQL 日常工作使用总结
python3 windows使用pyhive连接Hive
[译]Hive学习指南（二）
Spark On Hive 部署和配置
Spark SQL：使用数据源之使用Hive Table
flink modules详解之使用hive函数
玩转大数据计算之Hive
spark sql 2.3 源码解读 - 架构概览 (1)
Hive Sql case when 不支持子查询
Spark SQL写入Hive，同分区overwrite，不同分

写写日常在使用Hive SQL做分析时经常使用的一些函数或者方法

like

like用于指定特定的字符串，或结合正则做模糊匹配

select uid from dw.today where tunittype like '%wew.%'

rlike是hive中对like的扩展，将原先多个like才能完成的任务，使用一个rlike就可以搞定。

select uid from dw.today where tunittype rlike '.*(you|me).*'

点号(.)：表示和任意字符串匹配，星号(*)：表示重复“左边的字符串”，（x|y）表示和x或者y匹配

对like取反
一般，like的语法形式是： A LIKE B，取反的语法形式：NOT A LIKE B

select uid from dw.today where not tunittype like '%wew.%'

时间区间

工作中，需要查询某个区间的用户量，这个时候就需要对时间做处理，以便快速搞定

30分钟作为一个区间段

SELECT DISTINCT FROM_UNIXTIME(60*30*CAST(UNIX_TIMESTAMP("2017-11-11 13:23:23")/(60*30) AS BIGINT), 'yyyy-MM-dd HH:mm:ss')
FROM test_table

这里便将时间转化为13：00：00，记录的是13：00：00至13：30：00这段时间的数据量

10分钟作为一个区间段

SELECT DISTINCT FROM_UNIXTIME(60*10*CAST(UNIX_TIMESTAMP("2017-11-11 13:23:23")/(60*10) AS BIGINT), 'yyyy-MM-dd HH:mm:ss')
FROM test_table

总结：一个小时60分钟，一分钟60秒，按照时间单位的秒来转化为相应的区间

排序

语法形式：

row_number() over (partition by 字段 a order by 计算项 b desc ) rank

rank 排序的名称；partition by：类似 hive 的建表，分区的意思；order by ：排序，默认是升序，加 desc 降序；这里按字段 a 分区，对计算项 b 进行降序排序

当前时间

SELECT from_unixtime(unix_timestamp())

类型转换

cast() 函数将字符串转换为整数、双精度浮点数或执行反向转换

可参考这个博客：https://blog.csdn.net/xiaoshunzi111/article/details/54343291/

case .. when .. then句式

没错，在机器学习中给数据打标签过程最常用到的sql语句，主要用于处理单个列的查询结果

create table if not exists dw.huodong_uid_label as 
select uid,
  CASE 
     WHEN action=0 THEN 0
     ELSE  1
  END AS label from zhangxiang.huodong_action_0_2

未完待续。。。。。。

网友评论

本文标题：Hive SQL 日常工作使用总结

本文链接：https://www.haomeiwen.com/subject/bfelpftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Hive SQL 日常工作使用总结

like

时间区间

排序

当前时间

类型转换

case .. when .. then句式

相关文章

Hive SQL 日常工作使用总结

python3 windows使用pyhive连接Hive

[译]Hive学习指南（二）

Spark On Hive 部署和配置

Spark SQL：使用数据源之使用Hive Table

flink modules详解之使用hive函数

玩转大数据计算之Hive

spark sql 2.3 源码解读 - 架构概览 (1)

Hive Sql case when 不支持子查询

Spark SQL写入Hive，同分区overwrite，不同分

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读