Python|泰坦尼克号幸存者画像

作者: Sudden | 来源:发表于2018-04-14 14:19 被阅读232次

01 幸存者

泰坦尼克号的沉没，是人为的悲剧，1800人罹难者近70%，让我们一起来看看泰坦尼克号的幸存者都有哪些特征吧。

先给出分析框架

一切的分析都建立在数据清洗之后

幸存率的分析非常重要，下面将按性别、年龄、仓位、登船码头4个维度分别观察与幸存率的关系

然后按照仓位+性别、仓位+年龄段、年龄段+性别3个二维组合维度观察与幸存率的关系

最后按仓位+性别+年龄段这个三维组合维度观察与幸存率关系

想知道在泰坦尼克号事故中活下来的人的特征么？

一起来看看吧。

02 数据清洗

一切分析的前提，都是干净可靠的数据，所以我们先来观察一下数据情况，进行数据清洗。

查看数据三步走

数据大小 df.shape

字段类型及缺失值

数据头尾行

使用df.shape查看数据大小，使用df.info()查看数据字段类型和缺失值情况。

891行，12列，占据空间84kB

Age字段有20%的缺失，年龄是乘客的重要参数，后续会补全

Cabin字段有70%的缺失，船舱号码不是重要参数，考虑暂不分析该字段

df.head(), df.tail()查看数据头尾行情况

各字段解释如下：

PassengerId: 乘客的id
Survival: 是否幸存 0 = No, 1 = Yes
Pclass: 舱位 class 1 = 1st, 2 = 2nd, 3 = 3rd
Name: 姓名
Sex: 性别
Age: 年龄
SibSp: 船上兄弟姐妹以及配偶的个数
Parch: 船上父母以及子女的个数
Ticket: 船票号码
Fare: 票价
Cabin: 船舱号码
Embarked: 登船码头 C = Cherbourg, Q = Queenstown, S = Southampton

补全缺失值

Age字段是乘客的重要参数，需要补全。

可不能直接填充0，或者某个数去补全整个数据哦，这样做很危险，数据源会失去客观性！

那怎么办呢？考虑到不同性别的年龄层不同，不同仓位（可以理解为社会等级）的年龄层也不同，我们可以这样做：

以性别+仓位将数据分组，用每组的中位数去补全各组的空值

#读取原始数据
titanic=pd.read_csv(r'D:\DataScience\python\python_course\titanic.csv',sep=';')

# 分组计算不同仓位、性别的年龄中位数，得到一个Series数据，索引为Pclass、Sex
age_median3=titanic.groupby(["Pclass","Sex"]).Age.median()
titanic.set_index(["Pclass","Sex"],inplace=True)

# 使用fillna补全空值，将根据索引进行补全
titanic.Age.fillna(age_median3,inplace=True)
titanic.reset_index(inplace=True)

titanic.Age.describe()

这样一波操作之后，Age字段有891个非空值，已经被补全。

03 数据挖掘

现在我们已经得到一分干净的数据集了，可以开动啦！

是什么因素影响了乘客的幸存率呢？

3.1 按性别、年龄段、仓位、登船码头4个维度分别观察与幸存率的关系

仓位-幸存率

# 数据透视表
titanic.pivot_table(values="Survived",index="Pclass",aggfunc="mean")

#可视化呈现
sns.barplot(data=titanic,x="Pclass",y="Survived",ci=None)

果然，仓位等级越高，幸存率也越大，可能是由于高等仓位更远离水面，乘客也更少，有更多的逃生机会吧。

性别-幸存率

titanic.pivot_table(values="Survived",index="Sex",aggfunc="mean")

sns.barplot(data=titanic,x="Sex",y="Survived",ci=None)

女性幸存率明显高于男性，绅士风度在死亡面前依然存在，让人感动。

年龄段-幸存率

Age字段是一个连续变量而不是分类变量，我们需要将Age字段离散化之后再进行分析。

# 连续变量离散化：将某个变量的所在区间分割为几个小区间，落在同一个区间的观测值用同一个符号表示
titanic["Ageband"]=pd.cut(titanic["Age"],5)

现在我们给titanic这个dataframe新增了一列“Ageband”，它代表Age字段所在的年龄段

# 可视化
sns.barplot(data=titanic,x="Ageband",y="Survived",ci=None)
plt.xticks(rotation=60)

低年龄段生存率最高，64岁以上老人生存率最低，青壮年次之，看来大家还是很有爱的——小朋友先救，青壮年让位，老人可能体力不支或自动放弃。

登船码头-幸存率

# 用groupby也可实现数据透视表
titanic[["Embarked","Survived"]].groupby("Embarked").mean()

sns.barplot(data=titanic,x="Embarked",y="Survived",ci=None)

C码头登船的幸存率最高，为什么呢？我们来看看各码头登船乘客的仓位情况

# 数据透视表
titanic.pivot_table(values="Name",index="Pclass",columns="Embarked",aggfunc="count")

S码头登船人数最多，大部分是3等仓位
Q码头登船的人90%以上是3等仓位
C码头登船的人半数是1等仓位，数据来看1等仓位的幸存率较高，因此C码头登船的人幸存率较高可解释
看来C码头主要是有钱人登船，S码头就主要是穷人了

3.2 按照仓位+性别、仓位+年龄段、年龄段+性别观察与幸存率的关系

仓位+性别-幸存率

# 数据透视表走起，以数字形式观察结果
titanic.pivot_table(values="Survived",index="Pclass",columns="Sex",aggfunc="mean")

# seaborn作图走起，以图像形式观察结果
sns.barplot(data=titanic,x="Pclass",y="Survived",hue="Sex",ci=None)

男性幸存率普遍低于女性，这难道是传说中的绅士风度在起作用？

高等仓位幸存率高于低等仓位，一方面可能是因为高等仓位在上层，淹水较慢，逃生时间够长，另一方面可能是人为因素，高等仓位更受照顾；

一二等仓的女性幸存率很高啊，二三等仓的男性幸存率极低。

仓位+年龄段-幸存率

sns.pointplot(data=titanic,x="Ageband",y="Survived",hue="Pclass",ci=None)
plt.xticks(rotation=60)

各年龄段1等仓位的生存率最高，3等仓位生存率最低；

低年龄段的生存率逐次高于高年龄段；

在考虑各分组生存率的同时，要考虑各分组人数，比如该分组并没有人，那么生存率自然是0，但我们并不能说该分组生存率最低。

性别+年龄段-幸存率

titanic.pivot_table(values="Survived",index="Ageband",columns="Sex",aggfunc="mean")

sns.barplot(data=titanic,x="Ageband",y="Survived",hue="Sex",ci=None)

# 设置横轴标签位置
plt.xticks(rotation=60)

男性生存率明显偏低与女性，女性高年龄段的生存率逐次高于低年龄段的。

3.3 三维分析

前面的分析从一维、二维角度分析了因素与幸存率的关系，下面我们直接从三维因素来分析。

年龄段+性别+仓位

titanic.pivot_table(values="Survived",index="Ageband",columns=["Sex","Pclass"],aggfunc="mean")

输出结果展示了各年龄段下，各性别分别在123等仓位的幸存率。这张表各可能会让你晕晕的，那么我们就可视化呈现吧。

"""各性别下，仓位+年龄段与幸存率关系"""

# aspect设置画布长宽比
# palette设置hue分组的颜色
sns.FacetGrid(data=titanic,row="Sex",aspect=1.5)\
.map(sns.pointplot,"Ageband","Survived","Pclass",palette="deep",ci=None)\
.add_legend()

plt.xticks(rotation=60)

男性低年龄段幸存率最高，高等仓位幸存率更高；

中老年女性幸存率最高，1、2等仓位的女性幸存率几乎达到100%，3等仓位女性比较惨一点。

仓位+登船码头+性别

# 直接可视化呈现吧
sns.FacetGrid(data=titanic,col="Pclass",row="Embarked")\
.map(sns.barplot,"Pclass","Survived","Sex",hue_order=["male","female"],palette="deep",ci=None)\
.add_legend()

不论从登船码头还是仓位来看，女性幸存率普遍高于男性；

按性别来看，高等仓位幸存率高于低等仓位；

Q码头登船的男乘客生存率最低，我们来看看是不是Q码头男乘客数量较少？

titanic.pivot_table(values="Survived",index="Embarked",columns="Sex",aggfunc="count")

Q码头登船男乘客多于女乘客，但几乎都罹难了，为什么呢？我们来看看男乘客的仓位、年龄段分布情况，是不是这些情况导致了男乘客生存率较低.

titanic.pivot_table(values="Survived",index=["Embarked","Pclass"],columns=["Sex","Ageband"],aggfunc="count")

Q码头登船的男乘客，绝大部分处于16-32岁，3等仓位，这个分段的乘客幸存率是最低的，解释了为什么Q码头登船的男乘客幸存率趋于0的现象。

04 预告

本次针对泰坦尼克号乘客数据，我们分析了幸存者的特征画像：

女性，儿童，头等舱，绅士风度

本次未对数据的直系、旁系亲属个数进行分析，下期考虑加入。

本次主要使用了数据透视表和seaborn包绘图呈现结果，下期考虑加入特征工程对数据进一步分析。

网友评论

我爱编程

本文标题：Python|泰坦尼克号幸存者画像

本文链接：https://www.haomeiwen.com/subject/ejqlkftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！