python之Dataframe：多级表头和索引灵活的处理(一)

作者: 初九未成 | 来源:发表于2018-06-08 18:47 被阅读3次

DataFrame俗称数据框，和一般的Excel表格没有多大区别，一般包含索引（行）和表头（列），在python中，由pandas包提供。

这是一个最简单的数据框类型，只包含一级索引和一级表头
如果你的python还没有这个包，请执行以下命令安装：

pip install pandas

这一节，我们要处理的主题是：多级表头和多级目录
先看看他们长什么样子：

表格1：包含二级表头和一级索引

表格二：包含二级索引和一级表头

在Excel里面看这些表格，还没什么特别的感觉，但是，今天我们要在python中来处理这样的表格，下面就开始吧！先说一下内容大概：

1. 如何构造出这样的表格

2. 对于这样的多级表格，如何修改，排序等常见操作

1. 如何构造多级表格

多级表格，常来自于实际的需要，许多时候，我们的数据并不是单一的表现形式，会有对比、计算、时间序列等因素。我先给出两个一级表格（也就是我们数据的原始形式）。

    日期  渠道  用户数 会话数 唯一身份浏览量
0   20180607    (Other) 3839    7324    15223
1   20180607    Direct  30060   35364   72330
2   20180607    Display 2   2   2
3   20180607    Organic Search  50636   57410   144043
4   20180607    Referral    2845    3370    8380
5   20180607    Social  1310    1564    3480
6   20180607    shareasale.com  214 238 568

    日期  渠道  用户数 会话数 唯一身份浏览量
0   20180531    (Other) 3756    6351    13825
1   20180531    Direct  33195   38812   78479
2   20180531    Display 2   2   2
3   20180531    Email   1   1   3
4   20180531    Organic Search  56003   64026   158187
5   20180531    Referral    3185    3769    9252
6   20180531    Social  3380    3690    7698
7   20180531    shareasale.com  241 268 658

Excel文件链接：https://pan.baidu.com/s/11xIBEm-jfj6o0Hz278Alvw 密码：b515
你需要将这个表格文件下载下来，使用pandas包的read_excel()函数读入。

这2个数据表格分别是2018年6月7号各个渠道的流量数据以及上周同期的数据，我们的目的是要做对比，把这2个表格的数据放到一起，方便对比查看。但我们用脑袋想一下，最方便对比的数据应该是什么样的呢？

前面我们已经给出了2个示例，分别是2级表头和2级索引，其实都起到了对比的作用。下面，我们就分别讲一下这2个表格是怎么做出来的。

1.1 我们先来构建多级表头，如下这样格式

表格1：包含二级表头和一级索引

导入包，读入数据

import pandas as pd
from pandas import DataFrame

channel = pd.read_excel('处理多级表格-示例数据.xlsx',sheetname=0)
channel_last_week = pd.read_excel('处理多级表格-示例数据.xlsx', sheetname=1)

一般pandas包导入后会给个pd的别名。读入xlsx格式的数据使用函数pd.read_excel()，第一个参数是文件所在路径，参数sheetname是指读入这个工作簿当中的哪个sheet，这里有2种写法：第一种是给出sheet的索引号（从左至右从0开始计数），第二种是给出sheet的具体名称，比如：

channel = pd.read_excel('处理多级表格-示例数据.xlsx',sheetname='20180607')

我们先讲一种最常规的方法：拼接法
显然，我们有三个指标是需要对比的：用户数、会话数、唯一身份浏览量
所以，我们先把渠道设置为索引，使用函数set_index()

channel.set_index('渠道', inplace=True)
channel_last_week.set_index('渠道', inplace=True)

注：在pandas中，一般set_xxx类型的函数都会有一个参数inplace，代表是在原对象上修改，还是返回一个新的对象。
这时候，我们的channel就变成了下面这样

image.png
我们来看一下它的index和columns

channel.index
Out[74]: Index(['(Other)', 'Direct', 'Display', 'Organic Search', 'Referral', 'Social', 'shareasale.com'], dtype='object', name='渠道')
channel.columns
Out[75]: Index(['日期', '用户数', '会话数', '唯一身份浏览量'], dtype='object')

如果细心的朋友一定会发现，index和columns的值其实都是属于同一个类: pandas.core.indexes.base.Index

type(channel.columns)
Out[76]: pandas.core.indexes.base.Index
type(channel.index)
Out[77]: pandas.core.indexes.base.Index

现在来看这个日期，它里面的值应该是作为表头的，用来对比三个指标，所以，这里我们可以索性把它从columns中删除掉，到时候直接把它的值拿出来备用

yd,yd_la = '20180607','20180531'
channel.drop('日期', axis=1, inplace=True)
channel_last_week.drop('日期', axis=1, inplace=True)

第一行中两个变量间加逗号的写法，是一行同时实现2个及以上变量赋值的快捷写法，按顺序一一对应。
可能有人会说，我直接输入日期字符串会显得不够自动化和程序化，万一哪天传入的数据里面日期不是这两个呢？
其实你也可以使用如下的方法获取

yd,yd_la = channel.iloc[0,0],channel_last_week.iloc[0,0]

iloc是根据位置进行切片选择的，你也可以使用键名称和索引名称选择

yd,yd_la  = channel['日期']['Organic Search'],channel_last_week['日期']['Organic Search']

另外，删除列，除了使用drop外，还可以直接这样操作

del channel['日期']

这种写法我直接在原对象上删除，不像drop还可以选择返回删除后的新对象（不影响原对象）
drop除了可以删除列，还可以删除行，只需要设置axis=0（默认），输入索引值即可，比如

channel.drop('Direct')

删除了索引值为Direct的行。
现在我们的channal对象是这样的了

image.png

开始构造，最直观的做法就是把两个表中同一个指标的数据合并在一起，并且将日期作为底层表头，指标作为第二层表头
DataFrame的合并函数有好几个：merge（基于column名称）、append、concat（基于index的值）...这里我们选择concat.

df_user = pd.concat([channel_last_week['用户数'], channel['用户数']],
                        keys=[yd_la, yd], axis=1).fillna(0)

先看一下结果：

image.png

请忽略小数（显示问题）。可以看到，左边是上周同期的，右边是6月7号的。
concat的参数：

第一个list类型，元素是要合并的DataFrame；
keys起到的作用是，其值作为合并后新DataFrame的列名，axis=1的作用是横着合并（等于0的时候代表* 竖这合并，相当于拼接在下方）；
最后有个fillna函数，是因为如果有出现索引对不齐的情况，则会匹配出NA值（比如Email这个索引值就不是都有，匹配后20180607这列的值就为0）

最后成型
有了上面的合并经验，我们可以把上面的那个合并结果作为一个整体，然后对每一个columns指标都做同样的事情，最后合并起来，其keys的值就是原columns的值，如下所示：

df_session = pd.concat([channel_last_week['会话数'], channel['会话数']],
                        keys=[yd_la, yd], axis=1).fillna(0)
df_uv = pd.concat([channel_last_week['唯一身份浏览量'], channel['唯一身份浏览量']],
                           keys=[yd_la, yd], axis=1).fillna(0)
channel_together = pd.concat([df_user,df_session,df_uv],keys=['用户数', '会话数', '唯一身份浏览量'],axis=1).fillna(0)

最后来看我们的channel_together 长什么样

Out[119]: 
                    用户数               会话数           唯一身份浏览量          
               20180531 20180607 20180531 20180607 20180531  20180607
(Other)         3756     3839  6351     7324   13825    15223 
Direct          33195    30060  38812    35364  78479    72330 
Display         2        2.0      2        2      2        2     
Email           1        0.0      1        0      3        0     
Organic Search  56003    50636.0  64026    57410  158187   144043
Referral        3185     2845   3769     3370   9252     8380  
Social          3380     1310   3690     1564   7698     3480  
shareasale.com  241      214    268      238    658      568

将其输出到Excel中就是目标中的那种格式啦！但是，你这个代码未免有点过长了，而且类似的代码比较多，现在，我们使用列表推导式，重新得到channel_together
发大招啦~~~

 channel_together = pd.concat([
        pd.concat([channel_last_week[column], channel[column]], keys=[yd_la, yd], axis=1)
        for column in ['用户数', '会话数', '唯一身份浏览量']], axis=1, keys=['用户数', '会话数', '唯一身份浏览量']).fillna(0)

看到没有，一句代码就解决！
未完待续~~~~

网友评论

禹洋:第二篇啥时候出呢？

本文标题：python之Dataframe：多级表头和索引灵活的处理(一)

本文链接：https://www.haomeiwen.com/subject/iujasftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python之Dataframe：多级表头和索引灵活的处理(一)

1. 如何构造出这样的表格

2. 对于这样的多级表格，如何修改，排序等常见操作

1. 如何构造多级表格

1.1 我们先来构建多级表头，如下这样格式

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据

大数据爬虫Python AI Sql

pandas

python之Dataframe：多级表头和索引灵活的处理(一)

1. 如何构造出这样的表格

2. 对于这样的多级表格，如何修改，排序等常见操作

1. 如何构造多级表格

1.1 我们先来构建多级表头，如下这样格式

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据

大数据 爬虫Python AI Sql

pandas

大数据爬虫Python AI Sql