SQL窗口函数及Pandas实现

作者: 数据科学成长笔记 | 来源:发表于2021-03-02 23:33 被阅读0次

SQL窗口函数及Pandas实现
Mysql窗口函数
hive窗口函数盘点
程序员必知必会的SQL用法
Hive sql及窗口函数
Hive SQL 窗口函数
窗口函数（OVER 子句）
SQL窗口函数
《SQL基础教程》学习笔记Ch8
Pandas实现Hive中的窗口函数

写在前面
窗口函数在处理复杂需求时提供了一种更为简便的数据处理方式，在实际业务中应用非常广泛，也是面试官喜欢重点考察的知识点。

什么是窗口函数？

窗口函数也被称为联机分析函数(OLAP,Online Anallytical Processing)或者分析函数(Analytic Function)，窗口指对满足条件的集合进行计算，并对每一行数据返回分析结果，窗口函数的格式如下：

<窗口函数> OVER (partition by <用于分组的列名> order by <用于排序的列名> frame_clause)

1、常用窗口函数

1) 聚合函数:sum()、count()、max()、min()、avg()   
2) 排序函数:row_number()、rank()、dense_rank()    
3) 分布函数:percent_rank()、cume_dist()
4) 平移函数:lead()、lag()
5) 首尾函数:first_val()、last_val()

2、分区(partition by)

over中partition by类似group by对数据进行分区，此时，窗口函数会对每个分区单独进行分析，如果不指定partition by将会对整体数据进行分析。

3、排序(order by)

over中的order by对分区內的数据进行排序，默认为升序，当order by某个字段中有重复值时会对重复值进行求和，然后对所有数据进行累加。

4、窗口大小(frame_clause)

over中的frame_clause指对分区集合指定一个移动窗口，当指定了窗口大小后函数就不会在分区上进行计算，而是基于窗口大小內的数据进行计算。窗口大小的格式如下：

rows frame_start
or
rows between frame_start and frame_end

其中，rows表示偏移的行数。frame_start表示窗口的起始位置，有三种选项：

UNBOUNDED PRECEDING,为默认值，表示从第一行开始。
N PRECEDING,表示从前一行开始，前一行数据缺失则为0 。
CURRENT ROW，表示从当前行开始。

frame_end表示窗口的结束位置，有三种选项：

CURRENT ROW为默认值，表示从当前行结束。
N FOLLOWING，表示当前行后的第N行结束。
UNBOUNDED FOLLOWING，表示窗口到分区的最后一行结束。

sql中的默认选项为：rows between UNBOUNDED PRECEDING AND CURRENT ROW，表示统计从第一行至当前记录行。
rows between 1 PRECEDING AND 1 FOLLOWING，表示当前行和前一行及后面一行聚合，多用于近N月的数据统计。
rows between current row and UNBOUNDED FOLLOWING，表示当前行及后面所有行。

为什么要使用窗口函数

在实际业务中我们经常会遇到需要对数据结果进行额外的统计，例如在计算各部门员工薪资后新增一列为公司整体薪资，又或者对各部门薪资水平进行排序、计算占比等操作，此时如果不使用窗口函数可能需要对表进行多次的关联才能实现，因此使用窗口函数可以大大简化代码并提升代码的读写性能。

如何使用窗口函数

首先根据窗口函数的定义我们可以知道，窗口函数主要分为了聚合、排序、分布、平移及首尾等类型，对于每一种类型具体的应用场景如下：

聚合函数

聚合函数也可以充当窗口函数，我们需要经常对窗口下的数据集进行聚合统计，也是窗口函数中应用较为广泛的一类。例如，我们需要统计A公司各部门下各员工的销售，并对各部门的最大值、最小值、平均值及计数等。

sql实现

select dept, name, salary,
       sum(salary) over(partition by dept) as sum_salary, --各部门员工薪资求和
       avg(salary) over(partition by dept) as avg_salary, --各部门员工薪资求平均
       min(salary) over(partition by dept) as min_salary, --各部门员工薪资求最小
       max(salary) over(partition by dept) as max_salary  --各部门员工薪资求最大值
from data

python实现

import numpy as np
import pandas as pd
company=["A","B","C"]
data=pd.DataFrame({
    "dept":[company[x] for x in np.random.randint(0,len(company),8)],
    "name":["a","b","c","d","e","f","g","h"],
    "salary":np.random.randint(10,30,8)
}
)
data['sum_salary'] = data.groupby('dept')['salary'].transform('sum')
data['min_salary'] = data.groupby('dept')['salary'].transform('min')
data['mean_salary'] = data.groupby('dept')['salary'].transform('mean')
data['max_salary'] = data.groupby('dept')['salary'].transform('max')
data

1.png

排序函数

排序函数常用于对分组集或者整体数据进行排名，例如我们需要对各部门员工薪资进行排序，排序函数又可以根据排序方式有以下分类：

1) row_number:对分组內的数据进行"同分不同级"方式排序，不存在序号并列的现象，即使同分时排序也会不同。    
2) rank:对分组內的数据进行"同分同级且不紧密"方式排序，当同分时序号相同，其它排序按正常排名进行排序，即1,2,2,4,5。    
3) dense_rank:对分组內的数据进行"同分同级且紧密"方式排序，当同分时序号相同，其它排序按下一排名进行排序，即1,2,2,3,4。

sql实现

select dept, name, salary,
       row_number(salary) over(partition by dept order by salary desc) as row_number, --对各部门员工薪资按同分不同级方式排序
       rank(salary) over(partition by dept order by salary desc) as rank, --对各部门员工薪资按同分同级且紧密方式方式排序
       dense_rank(salary) over(partition by dept order by salary desc) as dense_rank --对各部门员工薪资按同分同级且不紧密方式方式排序
from data

python实现

import numpy as np
import pandas as pd
company=["A","B","C"]
data=pd.DataFrame({
    "dept":[company[x] for x in np.random.randint(0,len(company),8)],
    "name":["a","b","c","d","e","f","g","h"],
    "salary":np.random.randint(10,15,8)
}
)
data['row_number'] = data.groupby('dept')['salary'].rank(ascending=False,method='first') #同分不同级
data['rank'] = data.groupby('dept')['salary'].rank(ascending=False,method='min')   #"同分同级且不紧密"
data['dense_rank'] = data.groupby('dept')['salary'].rank(ascending=False,method='dense') #"同分同级且紧密"
data

2.png

分布函数

分布函数主要分为两类：percent_rank()和cume_dist()。
percent_rank():指按照排名计算百分比，即该排名位于区间[0,1]的位置，其中区间内第一名为值0，最后一名值为1。其具体公式为：
$percent\_rank() = (rank - 1) / (rows - 1)$
cume_dist():指区间內大于等于当前排名的行数占区间内总函数的比例。多用于判断比当前薪资、得分高的用户比例为多少。

sql实现

select dept, name, salary,
       percent_rank(salary) over(partition by dept order by salary desc) as percent_rank,
       cume_dist(salary) over(partition by dept order by salary desc) as cume_dist
from data

import numpy as np
import pandas as pd
company=["A","B","C"]
data=pd.DataFrame({
    "dept":[company[x] for x in np.random.randint(0,len(company),8)],
    "name":["a","b","c","d","e","f","g","h"],
    "salary":np.random.randint(10,15,8)
}
)
# data.groupby('dept')['salary'].rank(ascending=False,method='first',pct=True)
data['percent_rank'] = (data.groupby('dept')['salary'].rank(ascending=False,method='min')-1) / \
                            (data.groupby('dept')['salary'].transform('count')-1)  #如果分组只有一个记录则数据为na 
data['cume_dist'] = data.groupby('dept')['salary'].rank(ascending=False,method='first',pct=True)  #可以结合排序函数的方法使用
data

3.png

平移函数

分布函数主要分为两类：lead(列名,n)和lag(列名,n)，此函数多用于计算指标同比、环比。
lead(列名,n):获取分区內向下平移n行数据。
lag(列名,n):获取分区內向上平移n行数据。

sql实现

select dept, name, salary,
       lead(salary,1) over(partition by dept order by salary desc ) as lead,
       lag(salary,1) over(partition by dept order by salary desc) as lag
from data

import numpy as np
import pandas as pd
company=["A","B","C"]
data=pd.DataFrame({
    "dept":[company[x] for x in np.random.randint(0,len(company),8)],
    "name":["a","b","c","d","e","f","g","h"],
    "salary":np.random.randint(10,30,8)
}
)
data['lead'] = data.sort_values(['dept','salary'],ascending=False).groupby('dept')['salary'].shift(-1) # 分区內向下平移一个单位
data['lag'] = data.sort_values(['dept','salary'],ascending=False).groupby('dept')['salary'].shift(1)  # 分区內向上平移一个单位
data

4.png

首尾函数

分布函数主要分为两类：first_val()和last_val()。
first_val():获取分区內第一行数据。
last_val():获取分区內最后一行数据。

sql实现

select dept, name, salary,
       first_val(salary) over(partition by dept order by salary desc ) as first_val,
       # 由于窗口函数默认的是第一行至当前行，所以在使用last_val()函数时，会出现分区内最后一行和当前行大小一致的情况，因此我们需要将分区偏移量改为第一行至最后一行。       
       last_val(salary) over(partition by dept order by salary desc rows between UNBOUNDED PRECEDING and UNBOUNDED FOLLOWING) as last_val
from data

python实现

import numpy as np
import pandas as pd
company=["A","B","C"]
data=pd.DataFrame({
    "dept":[company[x] for x in np.random.randint(0,len(company),8)],
    "name":["a","b","c","d","e","f","g","h"],
    "salary":np.random.randint(10,30,8)
}
)
data['first_val'] = data.groupby('dept')['salary'].transform('min')
data['last_val'] = data.groupby('dept')['salary'].transform('max')
data