美文网首页
图解Pandas透视表和交叉表

图解Pandas透视表和交叉表

作者: 皮皮大 | 来源:发表于2021-08-12 16:16 被阅读0次

    图解Pandas透视表pivot_table

    大家好,我是Peter呀~

    终于开始Pandas进阶内容的写作了。相信很多人都应该知道透视表,在Excel会经常去制作它,来实现数据的分组汇总统计。在Pandas中,我们把它称之为pivot_table。

    透视表的制作灵活性高,可以随意定制我们想要的的计算统计要求,一般在制作报表神器的时候常用。

    下面通过具体的例子来对比Excel和Pandas中透视表的实现方法。

    image

    Excel透视表

    下面是在Excel表格中使用消费数据制作的透视表(部分数据截图),我们统计的是不同性别不同日期下的消费金额和小费,同时还显示了总计的数据。

    image image image

    那如果是使用pandas该如何来实现呢???

    参数

    pandas中实现透视表使用的是:pandas.pivot_table

    pd.pivot_table(data,  # 制作透视表的数据
                   values=None,  # 值
                   index=None,  # 行索引
                   columns=None,  # 列属性
                   aggfunc='mean',   # 使用的函数,默认是均值
                   fill_value=None,  # 缺失值填充
                   margins=False, # 是否显示总计
                   dropna=True,   # 缺失值处理
                   margins_name='All', # 总计显示为All
                   observed=False,  
                   sort=True  # 排序功能  版本1.3.0才有
                  )
    

    最重要的参数还是:values、index、columns、aggfunce,甚至包含margins、margins_name

    附上官网学习地址:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html

    透视表pivot_table

    参数index

    index表示的是我们生成透视表指定的行索引

    1、单层索引

    image image

    2、多层行索引

    image

    参数values

    在上面index参数的使用中,我们没有指定values参数,pandas会默认将全部的数值型数据进行透视表的计算,现在指定参数计算的数据:

    • 带上values,只会显示我们指定的数据
    • 不带上values,数值型的数据汇总结果全部显示
    image

    参数columns

    columns是一个显示列属性信息的参数

    image

    如果我们将day放在index参数中,会是什么样子呢?

    相当于是:将上面的宽表格式转成了下面的长表格式

    image

    再对比下两种不同的形式:

    image

    参数aggfunc

    aggfunc是一个很灵活的参数,它是用来指定我们汇总想用哪种函数,默认是均值mean,我们也可以使用求和sum、最值max等。多个函数需要放在一个列表中。

    我们将默认求平均mean的情况与求和的情况进行对比:

    image

    均值和sum求和之间的关系:

    image

    我们可以在aggfunc函数中指定多个函数,将这些函数放在同一个列表中:

    • 求和:np.sum
    • 求均值:mean
    • 求个数:size
    image

    再看一个例子:

    image

    参数margins、margins_name

    这两个参数的作用是对透视表中的分组数据进行汇总显示。需要注意的是:只有margins=True,参数margins_name的设置才会生效。

    image

    修改汇总显示的名字:

    image

    如果有列字段,也会显示汇总的数据:

    image

    交叉表crosstab()

    交叉表可以理解成一种特殊的透视表,专门用于计算分组的频率。

    参数

    交叉表中每个参数的解释,很多还是和透视表相同的:

    pandas.crosstab(index, # 行索引,必须是数组结构数据,或者Series,或者是二者的列表形式
                    columns, # 列字段;数据要求同上
                    values=None,  # 待透视的数据
                    rownames=None,  # 行列名字
                    colnames=None,  
                    aggfunc=None,  # 透视的函数
                    margins=False,  # 汇总及名称设置
                    margins_name='All', 
                    dropna=True, # 舍弃缺失值
                    normalize=False  # 数据归一化;可以是布尔值、all、index、columns、或者{0,1}
                   )
    

    对最后一个参数的解释:如何选择归一化的标准

    • If passed ‘all’ or True, will normalize over all values:使用all,对全部的数值型数据归一化
    • If passed ‘index’ will normalize over each row:使用index,仅在行上归一化
    • If passed ‘columns’ will normalize over each column:使用columns,仅在列上归一化
    • If margins is True, will also normalize margin values:如果margins=True,总计值也会参与归一化

    参数使用

    image

    当然,有时候透视表和交叉表是可以实现相同的功能:

    image

    groupby实现

    其实透视表或者交叉表的本质还是分组汇总统计结果,我们也可以利用groupby来实现:

    1、先分组统计

    image

    2、轴旋转unstack

    上面的结果格式上不是很友好,使用的是多层次索引,我们使用轴旋转函数unstack将行转成列:

    image

    groupby和透视表比较

    最后再用一个例子来比较下groupby和透视表:

    image

    备忘录

    这个网上非常流行的一张图解Pandas透视表函数的图形,它利用一份简单的数据,清晰明了地讲解了pivot_table函数的每个参数的含义,保存备用!

    网络图

    相关文章

      网友评论

          本文标题:图解Pandas透视表和交叉表

          本文链接:https://www.haomeiwen.com/subject/qxvlbltx.html