BD第5课：数据分析Pandas

作者: 米饭超人 | 来源:发表于2018-12-19 18:00 被阅读39次

BD第5课：数据分析Pandas
第5章 Pandas入门(1)
优达学城--机器学习入门
数据分析-pandas从数据库读取数据
《Pandas Cookbook》第08章数据清理
《Pandas Cookbook》第03章数据分析入门
《Pandas Cookbook》第02章 DataFrame基
《Pandas Cookbook》第04章选取数据子集
《Pandas Cookbook》第05章布尔索引
《Pandas Cookbook》第06章索引对齐

由于本系列文章需要使用 Pandas 对胸罩销售数据进行分析，所以本文会介绍一下 Pandas，并给出一些案例如何通过 Pandas 分析数据，否则如果不了解 Pandas，可能无法理解后面文章的内容。

可能很多人一看到 Pandas，就会联想到中国的国宝大熊猫，其实 Pandas 在 Python 数据分析领域的确是一套国宝级的工具。Pandas 是基于 NumPy 的一套数据分析工具，该工具是为了解决数据分析任务而创建的，Pandas 纳入了大量标准的数据模型，提供了高效地操作大型数据集所需的工具，Pandas 提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使 Python 成为强大而高效的数据分析环境的重要因素之一。

Pandas 开发环境搭建

Pandas 是第三方程序库，所以在使用 Pandas 之前必须安装 Pandas。如果读者使用的是 Anaconda Python 开发环境，那么 Pandas 已经集成到 Anaconda 环境中了，不需要再安装；如果读者使用的是官方的 Python 开发环境，可以使用如下的命令安装 Pandas。

pip install pandas

如果要了解 Pandas 更详细的情况，请访问官方网站。

安装完 Pandas 后，可以测试一下 Pandas 是否安装成功，读者可以进入 Python 的 REPL 环境，然后使用下面的语句导入 Pandas 模块，如果不出错，就说明 Pandas 已经安装成功了。

import pandas

本文使用的样本数据集

本文会使用一个样本数据集为例来讲解如何用 Pandas 来分析数据，不过首先要先解释一下这个数据集中的数据，数据集的文件名是 gapminder.tsv，图1是数据集的部分数据和字段名。

enter image description here

图1 样本数据集的部分数据

这个样本数据集有近 2000 条数据，是 1952 到 2007 年世界各国经济发展的数据，每5年记录一次。每列直接用制表符分隔，这个数据集涉及到一些字段，现在来解释一下。

Country：国家
Continent：洲
Year：年份
LifeExp：预期寿命
POP：人口
GdpPercap：分均 GDP

如果用文本方式打开 gapminder.tsv 文件看着不舒服，也可以使用 Excel 打开这个文件，打开后的结果如图2所示。

enter image description here

图2 用 Excel 打开 gapminder.tsv 文件的效果

Pandas 基础知识

现在来介绍 Pandas 的一些基础知识，包括如何装载数据集、查看数据集的行和列、分组、可视化统计数据等。

（1）数据集的装载与基础操作

在分析数据之前，先要装载数据，因为为了提高数据分析效率，分析数据都是在内存中完成的。gapminder.tsv 文件是 CSV 格式的文件，所以需要使用 pandas 模块中的read_csv()函数装载这个样本文件，并使用 sep 关键字参数指定分隔符，本例是制表符（\t）。

如果成功装载数据，read_csv()函数会返回一个 DataFrame 对象，该对象提供了很多方法和属性，可以完成很多操作，通过 head 方法可以获取前5行的数据，通过 columns 属性可以获得样本数据的列。

下面的代码会使用read_csv()函数装载了 gapminder.tsv 文件，并输出样本数据的前5行，然后会输出这个二维数据集的记录数和列数，最后会获取数据集的列信息。

# 使用Pandas之前必须先导入pandas模块
import pandas
# 装载gapminder.tsv文件
df = pandas.read_csv('gapminder.tsv',sep='\t')
# 输出df的数据类型
print(type(df))
# 获取数据集的前5行数据，如果要去前n行数据，需要将获取的数据行数传入head方法，
# 如df.head(10)会获取数据集的前10行数据
print(df.head())

# 获取二维表的维度（行和列）
print(df.shape)
# 获取数据集的列
print(df.columns)
# 对数据集的列进行迭代
for column in df.columns:
    print(column,end = ' ')

程序运行结果如图3所示。

enter image description here

图3 输出数据集相关信息

从图3所示的输出信息可得知，这个数据集一共有1704行数据。

（2）查看数据集中的列

通过 DataFrame 对象可以非常容易地获取数据集指定列的数据，获取的方法与从字典中通过 key 检索 value 类似。假设 DF 是 DataFrame 类的实例，df['abc'] 就可以获取名为 abc 的列的所有数据，如果只获取一列的数据，可以使用 df['abc']，也可以使用 df[['abc']] 形式。前者返回的是 Series 对象，后者返回的是 DataFrame 对象。Series 对象可以看做是 Python 语言中的列表。也就是说，如果只是返回一列数据，可以是列表形式（Series），也可以是数据集形式（DataFrame）。如果要返回多列的数据，必须使用 df[['abc']] 形式，例如，获取名为 a 和 b 的两列数据，需要使用 df[['a', 'b']] 形式获取，返回的是 DataFrame 对象。

下面的代码获取了数据集的1列（country）和3列（country、continent 和 year）的数据，前者返回了 Series 对象，后者返回了 DataFrame 对象。

import pandas
# 装载gapminder.tsv文件
df = pandas.read_csv('gapminder.tsv',sep='\t')
# 获取country列的数据，返回Series对象
country_df = df['country']
# 获取country列前2行的数据
print(country_df.head(2))
# 获取country列最后2行的数据，如果不指定参数，会获取最后5行的数据
print(country_df.tail(2))
# 获取country、continent和year列的数据，返回DataFrame对象
subset = df[['country', 'continent', 'year']]
# 获得子数据集的前2行数据
print(subset.head(2))
# 获得子数据集的后2行数据
print(subset.tail(2))

程序运行结果如图4所示。

enter image description here

图4 查看数据集中的列数据

（3）查看数据集的行

查看数据集的行有两个方法：loc 和 iloc，这两个方法的功能相同，只是获取行的方式不同。loc 通过记录集的索引列获取行，索引列从0开始，不能为负数；而 iloc 方法获取行的方式与 Python 语言的列表相同个，可以用正索引，也可以用负索引（从-1开始）。

下面的代码通过 loc 方法获取了数据集第5行的数据，然后再通过 loc 方法获取了第3、5、6行的数据，最后使用 iloc 方法获取了数据集最后一行的数据。

import pandas
df = pandas.read_csv('gapminder.tsv',sep='\t')
# 输出地5行的数据
print(df.loc[4])
print('---------------')
# 输出地3、5、6行的数据
print(df.loc[[2,4,5]])
print('---------------')
# 输出最后一行的数据
print(df.iloc[-1])

程序运行结果如图5所示。

enter image description here

图5 查看数据集的行

从图5所示的输出结果可以看出，使用 loc[4] 形式输出的行数据其实是一个 Series 对象，所以输出的并不是二维表形式的数据集，而是有点像字典形式的数据，左侧是列名，右侧是列值。如果要按二维表形式输出，需要使用 loc[[4]] 获取指定的行。

（4）查看数据集单元格中的数据

如果在获取数据集的子数据集时，同时指定行和列，那么会解决数据集中间的一块数据，甚至可以获取某个单元格中的数据。

loc 方法与 iloc 方法都可以实现这个功能。例如，df.loc[1,'abc'] 同时指定了行和列，这条语句设置了第2行，列名为 abc 的列，所以这条语句会获取这个单元格中的数据。如果使用 iloc 方法，列要使用索引。例如，df.iloc[0:3,3:6] 指定了索引为 0、1、2 的行和列索引为 3、4、5 的列，所以使用这条语句可以获得3行3列共9个单元格的数据。

下面的代码通过 loc 方法和 iloc 方法同时指定行和列，获取数据集中间的一部分数据。

import pandas
df = pandas.read_csv('gapminder.tsv',sep='\t')
# 获取year列和pop列的所有数据
subset = df.loc[:,['year', 'pop']]
print(subset.head(2))
print('--------------------')
# 获取列索引为2、4、-1（最后一列）的列的所有数据
subset = df.iloc[:,[2,4,-1]]
print(subset.head(2))
print('--------------------')
# 获取列索引为3、4、5的列的所有数据
subset = df.iloc[:,3:6]
print(subset.head(2))
print('--------------------')
# 获取行索引为0、1、2，列索引为3、4、5的数据（9个单元格的数据）
subset = df.iloc[0:3,3:6]
print(subset)
print('--------------------')
# 获取行索引为1，列名为lifeExp的列的数据（一个单元格的数据）
subset = df.loc[1,'lifeExp']
# 运行结果：30.332
print(subset)

程序运行结果如图6所示。

enter image description here

图6 查看单元格的数据

（5）对数据集进行分组统计

对一个数据集进行分组是数据分析经常要做的工作，例如要得到每一年平均预期寿命，就需要按 year 列进行分组，然后对 lifeExp 取平均值，对数据集分组使用 groupby 方法，计算某一列的平均值用 mean 方法。

# 对year列分组，然后在组内对lifeExp列计算平均值
df.groupby('year')['lifeExp'].mean()

使用 nunique 方法可以计算分组后某个列的不同值的个数。

# 按continent列分组后，统计每一个continent含有多少个国家
df.groupby('continent')['country'].nunique()

下面的代码使用 groupby 对数据集的 year 列进行分组，按年统计出每一年的平均预期寿命（lifeExp），以及进行多列分组和多列计算平均值，最后使用 nunique 方法统计每一个洲共有多少个国家。

import pandas
df = pandas.read_csv('gapminder.tsv',sep='\t')
# 对预期寿命分组统计
print(df.groupby('year')['lifeExp'].mean().head(3))
print('-----------------')
# 多列分组统计
multi_group_var = df.groupby(['year','continent'])[['lifeExp','gdpPercap']].mean().head(3)
print(multi_group_var)
print('-----------------')
# 重置索引，让每一个行都显示行索引（从0开始）
print(multi_group_var.reset_index())
print('-----------------')
# 统计每一个洲有多少个国家
print(df.groupby('continent')['country'].nunique())

程序运行结果如图7所示。

enter image description here

（6）可视化统计数据

使用 Pandas 完成数据分析后，通常会用 Matplotlib 将分析结果展现出来，本节会用一个例子来演示一下如何将 Pandas 和 Matplotlib 结合到一起使用。

下面的代码使用 groupby 方法按年对数据集分组，分别计算每一年的预期寿命（lifeExp）和人均 GDP（gdpPercap），并使用 Matplotlib 绘制两条曲线，看一下 lifeExp 和 gdpPercap 逐年的变化趋势。

import pandas
import matplotlib.pyplot as plt
df = pandas.read_csv('gapminder.tsv',sep='\t')
# 统计每年的预期寿命（lifeExp）
global_yearly_life_expectancy = df.groupby('year')['lifeExp'].mean()
print(global_yearly_life_expectancy)
# 统计每年的人均GDP（gdpPercap）
multi_group_var = df.groupby('year')['gdpPercap'].mean()
print(multi_group_var)
fig,(ax1, ax2) = plt.subplots(1,2,figsize=(8,4))
# 绘制预期寿命变化曲线
ax1.plot(global_yearly_life_expectancy)
# 绘制人均GDP变化曲线
ax2.plot(multi_group_var)
plt.show()

BD第5课：数据分析Pandas
由于本系列文章需要使用 Pandas 对胸罩销售数据进行分析，所以本文会介绍一下 Pandas，并给出一些案例如何...
第5章 Pandas入门(1)
以下内容主要学习自《利用Python进行数据分析》第5章 Pandas入门(1) pandas所包含的数据结构和...
优达学城--机器学习入门
第4部分:数据分析基础 4.4 使用numpy和pandas分析数据 += 与 +的区别： 4.4 使用numpy...
数据分析-pandas从数据库读取数据
数据分析-pandas从数据库读取数据使用pandas读取数据到DataFrame，对于只是数据分析来说，重点是...
《Pandas Cookbook》第08章数据清理
第01章 Pandas基础第02章 DataFrame运算第03章数据分析入门第04章选取数据子集第05章布...
《Pandas Cookbook》第03章数据分析入门
第01章 Pandas基础第02章 DataFrame运算第03章数据分析入门第04章选取数据子集第05章布...
《Pandas Cookbook》第02章 DataFrame基
第01章 Pandas基础第02章 DataFrame运算第03章数据分析入门第04章选取数据子集第05章布...
《Pandas Cookbook》第04章选取数据子集
第01章 Pandas基础第02章 DataFrame运算第03章数据分析入门第04章选取数据子集第05章布...
《Pandas Cookbook》第05章布尔索引
第01章 Pandas基础第02章 DataFrame运算第03章数据分析入门第04章选取数据子集第05章布...
《Pandas Cookbook》第06章索引对齐
第01章 Pandas基础第02章 DataFrame运算第03章数据分析入门第04章选取数据子集第05章布...