美文网首页
MySql窗口函数

MySql窗口函数

作者: 晚风吹___ | 来源:发表于2022-06-13 14:58 被阅读0次

    MySQL从8.0开始支持窗口函数。也就是分析函数

    名称 参数 描述
    ROW_NUMBER() 当前行在其分组内的序号。不管其排序结果中是否出现重复值.其排序结果都为;1.2.3.4.5。
    DENSE_RANK() 不间断的组内排序。使用这个函数时,可以出现1.1.2.2这种形式的分组。例如:计算排名时相同名称并列排行
    RANK() 间断的组内排序。其排序结果可能出现如下结果:1.1.3.4.4.6
    PERCENT_RANK() 累计百分比。该函数的计算结果为:小于该条记录值的所有记录的行数/该分组的总行数-1.所以该记录的返回值为[0.1]
    CUME_DIST() 累计分布值。即分组值小于等于当前值的行数与分组总行数的比值。取值范围为(0.1]
    LAG 是:lag(expr.[N.[default] 从当前行开始往前取第N行.如果N缺失.默认为1。如果不存在前一行.则默认返回default。default默认值为NULL
    LEAD() 是:lead(expr.[N.[default]l) 从当前行开始往后取第N行。函数功能与lag0)相反.其余与lag0相同。
    FIRST_VALUE() 是;first_value(expr) 返回分组内截止当前行的第一个值。
    LAST_VALUE() 是:last_value(expr) 返回分组内截止当前行的最后一个值。
    NTH_VALUE() 是:nth_value(expr.N) 返回分组内截止当前行的第N行。与first_valueMlast_valuelnth_value函数功能相似.只是返回分组内截止当前行的不同行号的数据。
    NTILE() 是:ntile(N) 返回当前行在分组内的分桶号。在计算时要先将该分组内的所有数据划分成N个桶,之后返回每个记录所在的分桶号。返回范围从1到N。

    序号函数:ROW_NUMBER()、RANK()、DENSE_RANK()

    分布函数:PERCENT_RANK()、CUME_DIST()

    前后函数:LAG()、LEAD()

    头尾函数:FIRST_VALUE()、LAST_VALUE()

    其它函数:NTH_VALUE()、NTILE()
    例子:

    首先有一个表字段:id score(分数)user_id

    image-20220613143945151.png

    1.序号函数:ROW_NUMBER()、RANK()、DENSE_RANK()

    用途:显示分区中的当前行号,对查询结果进行排序.

    ROW_NUMBER():顺序排序——1、2、3 RANK():并列排序,跳过重复序号——1、1、3 DENSE_RANK():并列排序,不跳过重复序号——1、1、2

    执行sql:

    SELECT score,
    ROW_NUMBER() over(ORDER BY score desc) as 'rowNum',
    DENSE_RANK() over(ORDER BY score desc) as  'denseRank',
    RANK() over(ORDER BY score desc) as  'rank'
    FROM test_score
    
    image-20220613135400104.png

    2.分布函数:PERCENT_RANK()、CUME_DIST()
    用途:每行按照公式(rank-1) / (rows-1)进行计算。其中,rank为RANK()函数产生的序号,rows为当前窗口的记录总行数
    3.前后函数:LAG()、LEAD()

    LAG和LEAD分析函数可以在同一次查询中取出同一字段的前N行的数据(LAG)和后N行的数据(LEAD)作为独立的列

    在实际应用当中,若要用到取今天和昨天的某字段差值时,LAG和LEAD函数的应用就显得尤为重要。当然,这种操作可以用表的自连接实现,但是LAG和LEAD与LEFT JOIN、RIGHT JOIN等自连接相比,效率更高,SQL更简洁。下面我就对这两个函数做一个简单的介绍。

    函数语法如下:

    lag(exp_str,offset,defval) OVER(PARTITION BY …ORDER BY …)

    lead(exp_str,offset,defval) OVER(PARTITION BY …ORDER BY …)

    参数说明:

    exp_str是字段名

    offset是偏移量,即是上1个或上N个的值,假设当前行在表中排在第10行,则offset 为3,则表示我们所要找的数据行就是表中的第7行(即10-3=7)。

    defval默认值,当两个函数取上N/下N个值,当在表中从当前行位置向前数N行已经超出了表的范围时,LAG()函数将defval这个参数值作为函数的返回值,若没有指定默认值,则返回NULL,那么在数学运算中,总要给一个默认值才不会出错。
    执行sql:

    SELECT score,
    LAG(score,1,0) over(ORDER BY score desc) as  'lag',
    LEAD(score,1,0) over(ORDER BY score desc) as 'lead'
    FROM test_score
    
    image-20220613140521058.png

    以第一行为例:4.0上一条记录(lag)是没有的,所有有赋予默认值0,4.0的下一条记录(lead)还是4.0,可以通过偏移量调整上下N条记录

    注意:这里是序号的上一条或下一条

    4.头尾函数:FIRST_VALUE(expr)、LAST_VALUE(expr)

    用途:返回第一个(FIRST_VALUE(expr))或最后一个(LAST_VALUE(expr))expr的值

    执行sql:

    SELECT id, score,user_id,
    FIRST_VALUE(score) over(PARTITION by user_id ORDER BY score desc) as 'FIRST',
    LAST_VALUE(score) over(PARTITION by user_id ORDER BY score desc) as 'LAST'
    FROM test_score
    
    image-20220613144009178.png

    FIRST_VALUE()的结果容易理解,直接在结果的所有行记录中输出同一个满足条件的首个记录;

    LAST_VALUE()默认统计范围是 rows between unbounded preceding and current row,也就是取当前行数据与当前行之前的数据的比较。

    那么如果我们直接在每行数据中显示最后的那个数据,需在order by 条件的后面加上语句:rows between unbounded preceding and unbounded following , 也就是前面无界和后面无界之间的行比较。

    加上语句,执行sql:

    SELECT id, score,user_id,
    FIRST_VALUE(score) over(PARTITION by user_id ORDER BY score desc) as 'FIRST',
    LAST_VALUE(score) over(PARTITION by user_id ORDER BY score desc rows between unbounded preceding and unbounded following) as 'LAST'
    FROM test_score
    

    结果:

    image-20220613144743858.png

    简单理解就是,取最大的还是最小的结合ORDER BY使用,或者取第一个还是或者最后一个

    参考:https://baijiahao.baidu.com/s?id=1728966619393719484&wfr=spider&for=pc

    相关文章

      网友评论

          本文标题:MySql窗口函数

          本文链接:https://www.haomeiwen.com/subject/uvuomrtx.html