《利用Python进行数据分析》学习笔记——第二章（3）

作者: 半颗卷心菜 | 来源:发表于2018-11-27 00:23 被阅读0次

利用Python进行数据分析 - 准备工作
pandas索引取数
机器学习书籍
利用Python进行数据分析 - 第三章 ipython
2019-10-12
利用Python进行分析-Chapter 3
第4章 NumPy基础(3)
《利用Python进行数据分析》读书笔记
利用Python进行数据分析 - 引言のusa.gov数据示例
《利用Python进行数据分析》PDF高清完整版-免费下载

1880-2010年间全美婴儿姓名

用pandas.read_csv加载.txt文件

图2.1 用read_csv加载.txt文件

DataFrame.names1880中只有births这一列是int型，所有在使用sum()函数他似乎是会默认使用births列进行分组（groupby）：

图2.2 默认对births列进行分组

读取所有数据，并组装到一个DataFrame中，再加上一个year字段：

图2.3 读取所有数据

range(1880,2011)是因为range是左闭右开的，而2010是最后一个有效统计年度。

frame['year']=year，当没有指定行的话，那么整个的'year'列都会赋予相同的值。

将所有数据整合到单个DataFrame中：

图2.4 将所有数据整合到单个DataFrame中

concat默认按行将多个DataFrame组合到一起，pieces是由多个DataFrame组合成的list，所以这些单个的数据而具有各自的索引（index），因此在组合的时候我们需要忽视现在的索引（index），然后concat会为这个新的组合的DataFrame设置新的索引（index）。

如果不设置ignore_index=True这个参数的话，也不会报错，那样的话这个DataFrame就会有相同的index。那么，当我们根据这个index进行索引的时候就会将这些拥有相同index的数据全部提取出来：

图2.4 没有设置ignore_index=True的索引结果

可以看到正好每个年份都有一个相同的index

利用pivot_table在year和sex级别上进行聚合：

图2.5 数据透视表

.tail()是输出最后的5行，.head()的话则是开始的5行。下面是用groupby进行分组的方式：

图2.6 groupby进行分组

用groupby的话要注意使用.unstack()，不要让数据堆叠在一起。

画出图像：

图2.7 按性别和年度统计的总出生数

插入prop列，用于存放指定名字的婴儿数相对于总出生数的比例：

图2.8 插入prop列

‘用于存放指定名字的婴儿数相对于总出生数的比例’，这句话我一开始没有理解，所以对其中定义的add_prop(group)函数的计算结果感到疑惑：

图2.9 prop的总数

按照我对这句话最初的理解，prop的总数应该为1才对，而结果是262（sum进行浮点计算会丢失精度，因而结果应该是262）。

那么按照这个理解，这句话具体的含义应该是‘指定名字且相同性别的婴儿相对于同一年份婴儿的总出生数的比例’（感觉好像有点长，不知道还有没更简洁的表达方式）：

图2.10 分组的prop总和

其实还是对groupby这个函数的理解不到位，不然其实通过代码是可以轻易的反推出题意的。

检查分组总计值：

图2.11 分组总计值为1

取出每对sex/year组合的前1000个名字：

图2.12 取出每对sex/year组合的前1000个名字

这里除了书上的两种方法，为了让它看起来更简洁，就把方法1的函数用lambda代替了。

分析命名趋势

有了完整的数据集和刚才生成的top1000数据集，我们就可以开始分析各种命名趋势了。首先将前1000个名字分为男女两个部分：

图2.13 布尔型数组索引

生成一张按year和name统计的总出生数的数据透视表：

图2.14 按year和name统计的总出生数透视表

这里出现了警告，大概意思应该是'year'同时具有两个属性，index level （索引水平）和 column label（列标签），我一开始以为是pivot_table的参数问题，所以用groupby也试了一下，发现依旧出现这样的警告，也不知道怎么消除。但是问题应该不大，毕竟是可以运行的。

用plot方法绘制名字的曲线图：

图2.15 plot方法绘图

这里的subplots参数分成若干子图，figsize图的尺寸，grid网格。生成的图像：

图2.16 几个男孩和女孩名字随时间变化的使用数量

评估命名多样性的增长

图2.16所反映的降低情况可能意味着父母愿意给小孩起常见的名字越来越少。这个假设可以从数据中得到验证。

一个办法是计算最流行的1000个名字所占比例：

按year和sex进行聚合并绘图：

图2.17 分性别统计的前1000个名字在总出生人数中的比例

通过前1000项的比例降低，可以得知名字的多样性出现了增长。

另一个办法是计算占总出生人数前50%的不同名字的数量：

图2.18 计算cumsum,确定0.5的位置

cumnum()计算前n项的累加和，所以用在这里时要注意排序。

searchsorted()寻找某个数应该插在数组的什么位置上，返回值是Index，也就是说0.5应该插在索引为116的位置，又由于index是从0开始，所以0.5应作为第116+1=117个数添加进去，这里可以看一下index=115和Index=116的数分别是多少：

图2.19 查看Index=115 和index=116的数据

这里一开始脑子没有转过来，还在想0.5明明在二者之间，为什么他应该放在117这个位置。这个问题就和‘小明跑步比赛中超过了第一名，现在他是第几名’一样傻。。。

与1900年做比较：

图2.20 1900年0.5的位置

用一个函数计算各分组的'searcheasored(0.5)+1'值：

图2.21 计算各分组'searcheasored(0.5)+1' 的值

这里我犯了一个很大错误，书上的程序是“diversity = diversity.unstack('sex')”，这里我写的时候自作聪明写成了“diversity.unstack()”，当然在这里的输出图表结果是不影响的。但是，在后面绘图的时候，由于'sex'堆叠在一起，所以输出的图和我想要的是有区别的。并且还花费了我大量时间查找错误。

另外从这里输出的DataFrame中的数据带有括号，而书上的结果是没有的，这应该又是python3和python2区别了。而且如果没注意到这个问题，绘图时就会报错。