美文网首页
数据分析—一文看懂数据透视表(Excel&Pandas-pivo

数据分析—一文看懂数据透视表(Excel&Pandas-pivo

作者: python与数据分析 | 来源:发表于2021-01-07 20:42 被阅读0次

【导语】也许大多数人都知道Excel中的数据透视表,也体会到了它的强大功能,那么Pandas也提供了一个类似的功能,也就是pivot_table。因为考虑到直接学pivot_table会有点难度,所以本篇文章将由浅入深的先通过excel实现透视表,慢慢地过渡到利用pandas来实现。

一、 什么是数据透视表

透视表是一种可以对数据动态排布并且分类汇总的表格格式。利用透视表可以快速地进行分类汇总,自由组合字段聚合计算。

二、使用excel透视表和pandas实现的区别

  • excel:
    只需要拖拉拽就能实现,简单易操作
  • pandas:
    更快(一旦设置之后)
    自行说明(通过查看代码,你将知道它做了什么)
    易于生成报告或电子邮件
    更灵活,因为你可以定制聚合函数

使用数据透视表的一个挑战是,你需要确保你理解你的数据,并清楚地知道你想通过透视表解决什么问题。其实,虽然pivot_table看起来只是一个简单的函数,但是它能够快速地对数据进行强大的分析。

三、excel实现数据透视表

1、创建数据透视表

其实非常的简单,只需要选定我们想要进行透视的表,然后点击菜单栏中的插入透视表。

透视表中有五个基本概念:
筛选:你想要将什么进行分组,比如我想看一下不同供应商的一些信息,那么就是按照供应商进行筛选
:列值,一般是用时间序列值
:行值,你想要对什么内容进行展开,比如我想看不同时间段的不同原料
:具体要看什么值,比如销售额等

在本文中,将会跟踪一个销售渠道(也称为漏斗)。基本的问题是,一些销售周期很长(可以想一下“企业软件”、“资本设备”等),而管理者想更详细地了解它一整年的情况。



其实我们只需要将不同的字段拖入到不同的区域中即可,为了方便展示数据,我们可以右键关键字段,然后将其选择上移,这样我们可以实现数据的多级展示。


这里我们注意一个左下角的功能,叫做延迟布局更新,这个当我们的数据量比较大的时候,比如说十万个数据,我们就可以选定这个延迟更新,其实就是设置当我们的字段设置完成之后才进行数据更新,可以最大程度保证我们操作的流畅性。

如果我们对数据透视表的顺序有些不满意,那我们就要按照我们自己的意愿进行顺序的修改,比如说我们选择升序和降序。



当然了,我们也可以直接在选定区域的时候直接选择插入一个透视图,一般默认是柱状图。

所以我们可以与透视表进行对比一下:
筛选:你想要将什么进行分组,比如我想看一下不同供应商的一些信息,那么就是按照供应商进行筛选
:其实就是透视表当中的列值,横坐标轴是什么,一般是用时间序列值
图例:也就是系类,等同于透视表当中的行值,你想要对什么内容进行展开,比如我想看不同时间段的不同原料
:具体要看什么值,比如合格量等


这就是数据透视表与数据透视图的基本操作,这是比较简单的基础内容。

2、更改数据源

数据透视表可以随时随地进行数据源的更改,数据源变更后进行简单的更新就可反映到数据报表中,有两种方式,第一种是数据透视表刷新:如果数据源中的数值进行了更新,刷新即可。如果是数据源的结构或布局变更了,这时就采用更改数据源的方式。


3、插入计算字段

计算字段极大扩展了数据透视表的计算功能,比如原始数据表中有一列数据为销售单价,有一列数据为数量。那么在数据透视表中可以通过计算字段输入公式”=单价*数量“,来求出销售额。



区域是数据透视表的核心部分,通过数据透视表提供的强大数据计算功能,可以使用多种汇总方式和值显示方式来计算值字段数据。比如,百分比,各种比率等。

上面就是用excel来实现数据透视表的过程,它不仅可以按照不同的方式汇总数据,还可以按照不同的方式显示数据,从而更清晰的看出数据之间的关系和逻辑。

四、pandas实现数据透视表

pandas中的函数pivot_table可以实现数据透视表,它的参数如下,下面我们来一个个的学习。我们的数据源和上面excel的一样。

pivot_table(data, values=None, index=None, columns=None,aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

1、读取数据
import pandas as pd
import numpy as np
df = pd.read_excel("./sales-funnel.xlsx")
df.head()

我们将上表中“Status”列定义为category,并按我们想要的查看方式设置顺序(可选)

df["Status"] = df["Status"].astype("category")
df["Status"].cat.set_categories(["won","pending","presented","declined"],inplace=True)
df.info()
2、建立简单索引
pd.pivot_table(df,index=["Name"])

此外,可以有多个索引。实际上,大多数的pivot_table参数可以通过列表获取多个值。

pd.pivot_table(df,index=["Name","Rep","Manager"])
3、实现数据聚合

我们上面将“Name”,“Rep”列和“Manager”列进行对应分组,那么现在来实现数据聚合。

pd.pivot_table(df,index=["Manager","Rep"],values=["Price"])

“Price”列会自动计算数据的平均值,但是我们也可以对该列元素进行计数或求和。要添加这些功能,使用aggfunc和np.sum就很容易实现。

pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],aggfunc=np.sum)
pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],aggfunc=[np.mean,len])

aggfunc可以包含很多函数,下面就让我们尝试一种方法,即使用numpy中的函数mean和len来进行计算。


4、定义列

如果我们想通过不同产品来分析销售情况,那么变量“columns”将允许我们定义一个或多个列。
pivot_table中一个令人困惑的地方是“columns(列)”和“values(值)”的使用。我们只要记住,变量“columns(列)”是可选的,它提供一种额外的方法来分割你所关心的实际值。然而,聚合函数aggfunc最后是被应用到了变量“values”中你所列举的项目上。

pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],
               columns=["Product"],aggfunc=[np.sum])

结果里有很多NaN,如果想移除它们,我们可以使用“fill_value”将其设置为0。

pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],
               columns=["Product"],aggfunc=[np.sum],fill_value=0)
5、查看总和

如何查看一些总和数据呢?相当于excel中的总计,通过“margins=True”就可以为我们实现这种功能。

pd.pivot_table(df,index=["Manager","Rep","Product"],
               values=["Price","Quantity"],
               aggfunc=[np.sum,np.mean],fill_value=0,margins=True)

下面,让我们以更高的管理者角度来分析此渠道。根据我们前面对category的定义,注意现在“Status”是如何排序的。

pd.pivot_table(df,index=["Manager","Status"],values=["Price"],
               aggfunc=[np.sum],fill_value=0,margins=True)
6、不同值执行不同的函数

为了对你选择的不同值执行不同的函数,你可以向aggfunc传递一个字典。如果你使用多个“grouby”,那么你需要评估此时使用透视表是否是一种好的选择。

table = pd.pivot_table(df,index=["Manager","Status"],columns=["Product"],values=["Quantity","Price"],
               aggfunc={"Quantity":len,"Price":[np.sum,np.mean]},fill_value=0)
table
7、透视表过滤

如果只想查看一个管理者(例如Debra Henley)的数据,可以这样过滤:

table.query('Manager == ["Debra Henley"]')

查看所有的暂停(pending)和成功(won)的交易,如下:

table.query('Status == ["pending","won"]')

希望本文的内容对大家的学习或者工作能带来一定的帮助,每天进步一点点,加油❤。

相关文章

  • 数据分析—一文看懂数据透视表(Excel&Pandas-pivo

    【导语】也许大多数人都知道Excel中的数据透视表,也体会到了它的强大功能,那么Pandas也提供了一个类似的功能...

  • 一文看懂pandas中的透视表

    一文看懂pandas中的透视表 读取数据 设置数据 使用category数据类型,按照想要查看的方式设置顺序 不严...

  • 认识数据透视表

    Day 17 认识数据透视表&数据透视表布局及美化 2019.01.26 认识数据透视表 一、数据透视表(数据分析...

  • 认识数据透视表&数据透视表布局及美化

    Day 17 认识数据透视表&数据透视表布局及美化 2019.01.26 认识数据透视表 一、数据透视表(数据分析...

  • 数据透视表&

    数据透视表 数据透视表的作用:数据透视表的分析作用比较强大,能够快速,高效,灵活的完成数据的分析和数据报告的演...

  • 数据透视表的布局及美化

    创建一个数据透视表,轻松实现多角度分析 一、创建数据透视表 1、插入-数据透视表 2、选项-显示-经典数据透视表 ...

  • 你好,数据透视表——小白聊财务(4)

    你好,数据透视表你好,数据透视表你好,数据透视表你好,数据透视表你好,数据透视表你好,数据透视表你好,数据透视表你...

  • 数据透视表。

    一认识数据透视表。 数据透视表可以把我们几十万行的文字分析的清清楚楚,让数据分析更轻松。 数据透视表就是一个引擎,...

  • 数据透视表。

    一认识数据透视表。 数据透视表可以把我们几十万行的文字分析的清清楚楚,让数据分析更轻松。 数据透视表就是一个引擎,...

  • Day15.1 认识数据透视表

    一、创建数据透视表 1 认识数据透视表: 数据分析更轻松 特点:快速、高效、灵活 ...

网友评论

      本文标题:数据分析—一文看懂数据透视表(Excel&Pandas-pivo

      本文链接:https://www.haomeiwen.com/subject/battaktx.html