美文网首页
hive关于窗口函数的使用

hive关于窗口函数的使用

作者: 傻疯子 | 来源:发表于2021-11-30 23:53 被阅读0次

窗口函数可以理解为给数据划到一个窗口内并排上序号。

over()即那个窗口函数,需要搭配其他函数进行分析

over()括号内部可以加上partiton by进行分组,加上order by进行排序。不加上partition by是对所有数据开了一个窗,加上partition by是对分组内部所有数据进行开窗。加上order by对分组内数据按排序进行开窗。

形如over(partition by class order by score),这个会对class字段进行分组,然后在分组的内部基于score进行排序。

此外还可以给窗口计算加行范围,over(rows between 开始位置 and 结束位置),开始位置和结束位置可以填的包括
PRECEDING:往前
FOLLOWING:往后
CURRENT ROW:当前行
UNBOUNDED PRECEDING:窗口的起点
UNBOUNDED FOLLOWING:窗口的终点
形如:over(partition by class order by score rows between UNBOUNDED PRECEDING and 1 PRECEDING),这个会对class字段进行分组,然后在排序后从窗口第一个值取到当前行前一个值

常见用法介绍

先假设一个总分表score_table有姓名name、班级class、总分score三个字段

在窗口内使用排序函数

row_number()、rank()、dense_rank()
对各个班级内部进行总分排名
对排名连续无相同名次,比如有三个分数98、98、97,排名为1、2、3,使用row_number()
形如sql:
select *, row_number() over(partition by class order by score desc) as num from score_table;
对排名不连续有相同名次,比如有三个分数98、98、97,排名为1、1、3,使用rank()
形如sql:
select *, rank() over(partition by class order by score desc) as num from score_table;
对排名连续有相同名次,比如有三个分数98、98、97,排名为1、1、2使用dense_rank()
形如sql:
select *,dense_rank() over(partition by class order by score desc) as num from score_table;

在窗口内使用聚合函数

avg(列名)、sum(列名)、max(列名)、min(列名)
计算排挤内前各个名次的平均分
形如sql:
select *, avg(score) over(partition by class order by score desc) as num from score_table;

在窗口内其他函数的使用

ntile(n)函数
把窗口内按班级分组后的数据按先成绩排名后分成3份,分成1、2、3组
形如sql:
select *, ntile(3) over(partition by class order by score desc) as num from score_table;

lag(列名,往前的行,默认值)
把窗口内按班级分组后的数据,取该分组内每一行数据的前一名同学的成绩,如果第一名就显示100;
形如sql:
select *, lag(score,1,100) over(partition by class order by score desc) as num from score_table;

lead(列名,往后的行,默认值)
把窗口内按班级分组后的数据,取该分组内每一行数据的后一名同学的成绩,如果最后一名就显示0;
形如sql:
select *, lag(score,1,0) over(partition by class order by score desc) as num from score_table;

first_value(列名)和last_value(列名)
把窗口内按班级分组后的数据,取该分组内第一名同学的成绩
形如sql:select *, first_value(score) over(partition by class order by score desc) as num from score_table;
把窗口内按班级分组后的数据,取该分组内最后一名同学的成绩
形如sql:select *, last_value(score) over(partition by class order by score desc) as num from score_table;

总结:
窗口函数的使用大致遵循以下
函数名字(arg1, arg2, ... argN) OVER( [PARTITION BY 分组列] [ORDER BY 排序列] [计算的行范围] )
本文举的函数有row_number()、rank()、dense_rank()、avg(列名)、sum(列名)、max(列名)、min(列名)、ntile(n)、lag(列名,往前的行,默认值)、lead(列名,往后的行,默认值)、first_value(列名)和last_value(列名)

相关文章

  • hive关于窗口函数的使用

    窗口函数可以理解为给数据划到一个窗口内并排上序号。 over()即那个窗口函数,需要搭配其他函数进行分析 over...

  • hive窗口函数使用

    hive窗口函数基本面试面sql必考项目,这里画一下重点猴,那现在就操练起来~窗口函数格式: 窗口说明:n PRE...

  • Hive窗口函数详解—及3套案例练习

    目录:一、hive窗口函数语法----over()窗口函数的语法结构----常与over()一起使用的分析函数二、...

  • 关于Hive的窗口函数

    Hive窗口函数row_number案例 数据文件是:rownumbertest.txt,字段信息是:id,xb,...

  • Hive SQL 窗口函数

    本文首发:大数据每日哔哔-Hive SQL 窗口函数 Hive 的窗口函数 在 SQL 中有一类函数叫做聚合函数,...

  • 学习中的关键的问题

    hive中的topn操作需要使用到hive的窗口函数执行操作的。 spark的udf可以实现自定义的udf的函数的...

  • Pandas实现Hive中的窗口函数

    1、Hive窗口函数 我们先来介绍一下Hive中几个常见的窗口函数,row_number(),lag()和lead...

  • hive表之简单窗口函数 over()

    窗口函数通常是分析人员使用 hive ql 进行一些复杂逻辑计算时使用的特殊函数,其中 over() 通常与聚合函...

  • hive窗口函数

    一.窗口函数基本概念 Mysql8.0也支持窗口函数,也称为分析函数,窗口函数与分组聚合函数类似,但是每一...

  • hive窗口函数

    over()开窗 按我的理解,开窗函数就是开出一个小窗口,对小窗口内的数据统计处理。 累计计算窗口函数 sum()...

网友评论

      本文标题:hive关于窗口函数的使用

      本文链接:https://www.haomeiwen.com/subject/szpjxrtx.html