Pandas进阶之窗口函数rolling()和expanding

作者: 惑也 | 来源:发表于2019-07-04 23:25 被阅读0次

Pandas进阶之窗口函数rolling()和expanding
Python 用于金融数据分析第7课-----Pandas处理时
pandas.rolling()简单使用
pandas函数-rolling
python中的滑动窗口函数：rolling().var()
利用Python进行数据分析(10)-移动窗口函数
pandas rolling(待续)
文科生学Python系列11:Pandas进阶（鸢尾花案例：gr
Hadoop（二十七）HIVE的高级应用之业绩报表
pandas的数据筛选之isin和str.contains函数

一、概念

为了处理数字数据，Pandas提供了几个变体，如滚动，展开和指数移动窗口统计的权重。其中包括总和，均值，中位数，方差，协方差，相关性等；
所谓窗口，就是将某个点的取值扩大到包含这个点的一段区间，用区间来进行判断；
移动窗口就是窗口向一端滑行，默认是从右往左，每次滑行并不是区间整块的滑行，而是一个单位一个单位的滑行；
窗口函数主要用于通过平滑曲线来以图形方式查找数据内的趋势。如果日常数据中有很多变化，并且有很多数据点可用，那么采样和绘图就是一种方法，应用窗口计算并在结果上绘制图形是另一种方法。通过这些方法，可以平滑曲线或趋势。

二、rolling()

1. 参数说明

DataFrame.rolling(window, min_periods=None, center=False, win_type=None, 
                  on=None, axis=0, closed=None)

window：表示时间窗的大小，有两种形式：1）使用数值int，则表示观测值的数量，即向前几个数据；2）也可以使用offset类型，这种类型较复杂，使用场景较少，此处暂不做介绍；
min_periods：每个窗口最少包含的观测值数量，小于这个值的窗口结果为NA。值可以是int，默认None。offset情况下，默认为1；
center: 把窗口的标签设置为居中，布尔型，默认False，居右
win_type: 窗口的类型。截取窗的各种函数。字符串类型，默认为None；
on: 可选参数。对于dataframe而言，指定要计算滚动窗口的列。值为列名。
axis: 默认为0，即对列进行计算
closed：定义区间的开闭，支持int类型的window。对于offset类型默认是左开右闭的即默认为right。可以根据情况指定为left、both等。

2. 代码示例

示例中，由于窗口大小为3(window)，前两个元素有空值，第三个元素的值将是n，n-1和n-2元素的平均值。

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(7, 4),
                  index = pd.date_range('1/1/2020', periods=7),
                  columns = ['A', 'B', 'C', 'D'])
df
                A           B           C           D
2020-01-01  -0.103252   -0.378633   -0.689324   -1.150870
2020-01-02  -0.838289   0.036139    -0.481754   -0.006116
2020-01-03  -0.832013   -0.770184   -1.818931   0.253601
2020-01-04  -1.696006   -0.021195   0.772365    0.332447
2020-01-05  -2.136677   1.088825    1.166188    0.140585
2020-01-06  -0.705095   0.709978    1.077941    0.055677
2020-01-07  0.990198    0.764884    0.858504    -0.903039

df.rolling(window=3).mean()
               A            B            C         D
2020-01-01    NaN          NaN          NaN       NaN
2020-01-02    NaN          NaN          NaN       NaN
2020-01-03  0.079891    -0.714177   -0.453193   0.232669
2020-01-04  -0.479782   -0.513903   -0.631638   0.034099
2020-01-05  -0.574793   -0.532310   -0.544511   -0.535417
2020-01-06  -0.675196   0.421606    -0.214320   -0.463122
2020-01-07  -0.118239   0.637363    -0.270283   -0.653187

df.rolling(window=3, min_periods=1).mean()    设置最少观测值数量为1
A   B   C   D
2020-01-01  -0.103252   -0.378633   -0.689324   -1.150870
2020-01-02  -0.470771   -0.171247   -0.585539   -0.578493
2020-01-03  -0.591185   -0.370893   -0.996670   -0.301128
2020-01-04  -1.122103   -0.251747   -0.509440   0.193311
2020-01-05  -1.554899   0.099149    0.039874    0.242211
2020-01-06  -1.512593   0.592536    1.005498    0.176237
2020-01-07  -0.617191   0.854562    1.034211    -0.235592

3. 常见用法

rolling()函数除了mean()，还支持很多函数，比如：
count() 非空观测值数量
sum() 值的总和
median() 值的算术中值
min() 最小值
max() 最大
std() 贝塞尔修正样本标准差
var() 无偏方差
skew() 样品偏斜度（三阶矩）
kurt() 样品峰度（四阶矩）
quantile() 样本分位数（百分位上的值）
cov() 无偏协方差（二元）
corr() 相关（二进制）
借助 agg ()函数可以快速实现多个聚类函数，并输出结果，同时还可以进行重命名；
代码示例

df2 = pd.DataFrame({
    "date": pd.date_range("2018-07-01", periods=7), 
    "amount": [12000, 18000, np.nan, 12000, 9000, 16000, 18000]})

df2
       date     amount
0   2018-07-01  12000.0
1   2018-07-02  18000.0
2   2018-07-03  NaN
3   2018-07-04  12000.0
4   2018-07-05  9000.0
5   2018-07-06  16000.0
6   2018-07-07  18000.0

窗口大小为2
df2.rolling(window=2, on="date").sum()
      date      amount
0   2018-07-01  NaN
1   2018-07-02  30000.0
2   2018-07-03  NaN
3   2018-07-04  NaN
4   2018-07-05  21000.0
5   2018-07-06  25000.0
6   2018-07-07  34000.0

窗口大小为2，最少观测值数量为1
df2.rolling(window=2, on="date", min_periods=1).sum()
      date      amount
0   2018-07-01  12000.0
1   2018-07-02  30000.0
2   2018-07-03  18000.0
3   2018-07-04  12000.0
4   2018-07-05  21000.0
5   2018-07-06  25000.0
6   2018-07-07  34000.0

返回多个聚合结果，如sum()、mean()
df2.rolling(window=2, min_periods=1)["amount"].agg([np.sum, np.mean])
      sum   mean
0   12000.0 12000.0
1   30000.0 15000.0
2   18000.0 18000.0
3   12000.0 12000.0
4   21000.0 10500.0
5   25000.0 12500.0
6   34000.0 17000.0

返回多个聚合结果，并进行重命名
df2.rolling(window=2, min_periods=1)["amount"].agg({"amt_sum": np.sum, "amt_mean": np.mean})
    amt_sum amt_mean
0   12000.0 12000.0
1   30000.0 15000.0
2   18000.0 18000.0
3   12000.0 12000.0
4   21000.0 10500.0
5   25000.0 12500.0
6   34000.0 17000.0

4. 延伸用法

通过rolling()函数与聚合函数的拼接，组成新的函数，可以更方便地实现窗口函数的功能；
这种用法，功能强大，代码简单，所有参数的设置基本一致；
列举如下
rolling_count() 计算各个窗口中非NA观测值的数量
rolling_sum() 计算各个移动窗口中的元素之和
rolling_mean() 计算各个移动窗口中元素的均值
rolling_median() 计算各个移动窗口中元素的中位数
rolling_var() 计算各个移动窗口中元素的方差
rolling_std() 计算各个移动窗口中元素的标准差
rolling_min() 计算各个移动窗口中元素的最小值
rolling_max() 计算各个移动窗口中元素的最大值
rolling_corr() 计算各个移动窗口中元素的相关系数
rolling_corr_pairwise() 计算各个移动窗口中配对数据的相关系数
rolling_cov() 计算各个移动窗口中元素的的协方差
rolling_quantile() 计算各个移动窗口中元素的分位数

5. 自定义函数

除了支持聚合函数，通过rolling().apply()方法，还可以在移动窗口上使用自己定义的函数，实现某些特殊功能；
唯一需要满足的是，在数组的每一个片段上，函数必须产生单个值；
代码示例

# 自定义方法：求和后，除以100
df2.rolling(2, min_periods=1)["amount"].apply(lambda x: sum(x)/100, raw=False)

0    120.0
1    300.0
2      NaN
3      NaN
4    210.0
5    250.0
6    340.0

三、expanding()

1. 参数说明

DataFrame.expanding(min_periods = 1，center = False，axis = 0)

expanding()函数的参数，与rolling()函数的参数用法相同；
rolling()函数，是固定窗口大小，进行滑动计算，expanding()函数只设置最小的观测值数量，不固定窗口大小，实现累计计算，即不断扩展；
expanding()函数，类似cumsum()函数的累计求和，其优势在于还可以进行更多的聚类计算；
事实上，当rolling()函数的参数window=len(df)时，实现的效果与expanding()函数是一样的。

2. 代码示例

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10, 4),
                  index = pd.date_range('1/1/2018', periods=10),
                  columns = ['A', 'B', 'C', 'D'])
df
                A           B           C           D
2018-01-01  -0.349086   -0.225357   -0.108829   1.662773
2018-01-02  1.056407    -0.159644   0.042278    0.298922
2018-01-03  -1.376891   0.112999    -0.719286   0.254892
2018-01-04  0.741323    1.510449    0.615251    -1.896209
2018-01-05  1.305841    0.380900    -0.961663   -0.654108
2018-01-06  -1.079804   -0.883547   0.149659    -0.065931
2018-01-07  0.240168    -0.409613   -0.543655   0.797564
2018-01-08  0.716836    -0.329991   0.271236    -2.138515
2018-01-09  -1.448734   1.261487    0.795663    -1.492216
2018-01-10  -1.212092   -1.039160   1.581169    1.156089

df.expanding(min_periods=2).mean()
                A           B           C           D
2018-01-01     NaN          NaN         NaN        NaN
2018-01-02  0.353660    -0.192500   -0.033276   0.980848
2018-01-03  -0.223190   -0.090667   -0.261946   0.738863
2018-01-04  0.017938    0.309612    -0.042647   0.080095
2018-01-05  0.275519    0.323869    -0.226450   -0.066746
2018-01-06  0.049632    0.122633    -0.163765   -0.066610
2018-01-07  0.076851    0.046598    -0.218035   0.056843
2018-01-08  0.156849    -0.000475   -0.156876   -0.217576
2018-01-09  -0.021549   0.139743    -0.051038   -0.359203
2018-01-10  -0.140603   0.021852    0.112182    -0.207674

# 判断expanding()的求和结果，与cumsum()结果，相同
result1 = df.expanding(min_periods=1).sum()
result2 = df.cumsum()
np.allclose(result1, result2)
True

四、ewm()

该函数，表示指数加权滑动，使用场景较少，本文暂不做详细介绍，后续用到了，会补充该部分内容。

Pandas进阶之窗口函数rolling()和expanding
一、概念为了处理数字数据，Pandas提供了几个变体，如滚动，展开和指数移动窗口统计的权重。其中包括总和，均值...
Python 用于金融数据分析第7课-----Pandas处理时
一、Rolling 和 Expanding rolling和expanding都是类似的，目的是查看股票市场价格随...
pandas.rolling()简单使用
pandas.rolling()函数提供滚动窗口计算的功能 (版本0.18.0中的新功能) 部分参数说明：wi...
pandas函数-rolling
前面有说过一个累计计算的系列函数，参考：pandas cum系列函数这个rolling函数是滚动计算 panda...
python中的滑动窗口函数：rolling().var()
滑动窗口函数，之前不知道，还自己写了个，， df.rolling().sum() df.rolling().var()
利用Python进行数据分析(10)-移动窗口函数
Python-for-data-移动窗口函数本文中介绍的是，主要的算子是： rolling算子 expandin...
pandas rolling(待续)
rolling 是个非常好用的函数。先来个df indexab001112223334 先说参数的意思第一个...
文科生学Python系列11:Pandas进阶（鸢尾花案例：gr
第六课 - Pandas进阶本课内容：数据的分组和聚合 pandas groupby 方法 ...
Hadoop（二十七）HIVE的高级应用之业绩报表
一. 涉及到中重点知识 Hive的窗口和分析函数进阶 • NTILE、CUME_DIST、PERCENT_RAN...
pandas的数据筛选之isin和str.contains函数
参考链接:4、pandas的数据筛选之isin和str.contains函数 - 简书

Pandas进阶之窗口函数rolling()和expanding

一、概念

二、rolling()

1. 参数说明

2. 代码示例

3. 常见用法

4. 延伸用法

5. 自定义函数

三、expanding()

1. 参数说明

2. 代码示例

四、ewm()

相关文章

Pandas进阶之窗口函数rolling()和expanding

Python 用于金融数据分析第7课-----Pandas处理时

pandas.rolling()简单使用

pandas函数-rolling

python中的滑动窗口函数：rolling().var()

利用Python进行数据分析(10)-移动窗口函数

pandas rolling(待续)

文科生学Python系列11:Pandas进阶（鸢尾花案例：gr

Hadoop（二十七）HIVE的高级应用之业绩报表

pandas的数据筛选之isin和str.contains函数

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

呆鸟的Python数据分析