Python|美国婴儿姓名分析

作者: Sudden | 来源:发表于2018-02-13 20:01 被阅读230次

Python|美国婴儿姓名分析
利用Python进行数据分析随笔记二（67）
《利用Python进行数据分析》-全美婴儿姓名案例
利用Python进行数据分析第二版复现（十三）_3
姓名分析
Python 姓名评分
python随机姓名
量化交易常见策略CASE
2019数据科学三本书
python电子书汇总

01 引子

今天咱们来实操上一课的内容。

还记得上一课的内容么？

上课我们学习了python pandas包中的groupby方法，如果记不清了可以点击这里回顾哦：
groupby方法详细讲解

之前的文章有朋友反馈说更愿意在文章中看到讲解内容而不是链接地址，那么我们今天就把github中的内容搬到这里来吧，希望可以更好地帮助大家学习python～

02 动手实操吧

这里我们拿到一份1880-2016这136年间美国婴儿取名的数据(数据源在这里下载），数据总共有189万条，57.7M的大小，如我们之前所说，这样的数据量Excel已经吃不消了。

所以我们用Python！

首先读取1880-2016年的取名数据，由于每年的数据是一个独立的dataframe，因此我们使用concat()方法将各年数据整合为一个dataframe

import pandas as pd

#读取1880-2016年婴儿姓名使用信息，由于信息表按年统计，因此需要将多年数据整合到一张表中
years=range(1880,2017)
columns=["name","gender","frequency"]
pieces=[] #用于存储循环读取的每一年的数据,list中的每个元素代表一年的数据

#使用循环读取每年数据，并将各年数据都存入pieces中,pieces列表的各元素表示各年的数据
for year in years:
    path="/Users/dengsudden/Documents/python_course/names/yob%d.txt" %year
    frame=pd.read_csv(path,names=columns)
    frame["year"]=year
    pieces.append(frame)

#中pieces列表中填入各年数据后，需要使用concat方法将pieces各元素整合在一起
baby_names=pd.concat(pieces,ignore_index=True)

baby_names.tail()

输出结果如下，这是数据表的最后5行，输出方便大家观察数据表结构：

接下来我们正式开始实操

1. 统计不同年份、不同性别分组下，各名字出现次数所占分组人数比例

思路：这里我们先自定义了一个函数dd_pct，然后使用了groupby按年份、性别分组，最后分别对每个分组调用我们的自定义函数add_pct

#先自定义函数，统计分组中各名字占比
def add_pct(group):
    group["pct"]=group.frequency/group.frequency.sum()*100
    return group

baby_names=baby_names.groupby(["year","gender"]).apply(add_pct)
baby_names.head()

输出结果如下，可以看到，数据表中增加了一列pct，代表各名字出现次数在分组中的比例：

2. 排名：给出不同年份、不同性别分组下，各名字在分组中出现频率的排名

思路：现将数据按年份、性别分组，然后对分组数据的frequency列调用rank()方法降序得到排名，并将排名赋到新增的“ranked”列

baby_names["ranked"]=baby_names.groupby(["year","gender"])["frequency"].rank(ascending=False)
baby_names.head()

输出结果如下：

3. 可视化：每年最流行的男孩女孩名字的使用次数所占当年出生男孩女孩总数的比例

思路：首先使用布尔型索引将数据分为男孩数据、女孩数据（注意，这时的数据中已经有ranked排名这一列了），对于男孩数据，选出每年出现频率最高的名字（ranked==1），然后按照x-y=year-pct作图，女孩数据同理。

import matplotlib.pyplot as plt
%matplotlib inline
%config InlineBackend.figure_format="retina"

#布尔索引选取数据中的男孩女孩
dfm=baby_names[baby_names.gender=="M"]
dff=baby_names[baby_names.gender=="F"]

#每年最流行的男孩名字
rank1m=dfm[dfm.ranked==1]
#每年最流行的女孩名字
rank1f=dff[dff.ranked==1]

输出结果如下，这里只输出了前5行数据：

接下来我们对以上数据可视化，从而对于最流行的名字的占比趋势有个直观的了解。

方法：调用matplotlib包，具体使用方法如下。

#绘制折线图
plt.plot(rank1m.year,rank1m.pct,color="blue",linewidth=2)

#plt.fill_between设置填充线与坐标轴之间的空间
plt.fill_between(rank1m.year,rank1m.pct,color="blue",alpha=0.2)

#设置坐标轴区间范围
plt.xlim(1880,2016)
plt.ylim(0,9)

#美化图：给图添加标题，调整字体大小等
plt.title("Popularity of 1# boys'name by year",size=18,color="blue")
plt.xlabel("Year",size=16)
plt.ylabel("% of male births",size=16)

输出结果如下：

女孩姓名同理，输出结果如下：

根据以上输出结果，我们发现，不论是男孩还是女孩，每年最流行的名字所占当年分组出生人数比例都在下降，是什么原因导致的呢？

民众的思想更加自主，越来越个性化
还有一个原因可能是每年可选择的姓名数越来越多了，下面我们用统计结果来证明

4. 可视化：每年可选择的姓名数量趋势图

思路：按年份、性别分组，统计各分组下的姓名数量，然后根据按年份，绘制不同性别各年度可选姓名数量的趋势图

name_count=baby_names.groupby(["year","gender"]).size() #.size()返回一个series
#使用to_frame将series转换为dataframe
name_count=name_count.to_frame(name="name_count").reset_index()

#将数据按男女分组
name_countm=name_count[name_count.gender=="M"]
name_countf=name_count[name_count.gender=="F"]

name_count的前5行输出结果如下：

接下来根据统计结果绘图

plt.plot(name_countm.year,name_countm.name_count,color="blue",linewidth=2)
plt.fill_between(name_countm.year,name_countm.name_count,color="blue",alpha=0.2)
plt.xlim(1880,2016)
plt.ylim(0,17000)
plt.title("Number of boy's name by year",size=20,color="blue")
plt.xlabel("Year",size=18)
plt.ylabel("Number of names",size=18)

趋势图如下：