美文网首页
数据挖掘流程示例 - 泰坦尼克号

数据挖掘流程示例 - 泰坦尼克号

作者: 小牛八卦 | 来源:发表于2016-09-17 14:54 被阅读0次

Kaggle上面有一个经典的入门题目,泰坦尼克号乘客的生存预测。此文针对这个题目,演示数据挖掘的一些基本方法。

题目描述

灾难发生的时候,由于救生艇有限,所以2224位乘客中只有722位获救。虽然有运气成分,但是某些群体的人获救的概率更大,比如女士,小孩等。题目要求研究哪类人群更容易获救,并且对乘客是否获救做出预测。

数据预处理

数据不可能是完美的,在分析之前,我们需要进行一些预处理。

总共有两份数据,分别是是训练集train.csv和测试集test.csv。

首先导入数据,看一下数据的结构。

训练集


测试集


可以看到,总共有11个属性字段,和一个预测字段Survived。
11个属性字段和对应的意义如下:

PassengerId => 乘客ID
Pclass => 舱位等级
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱编号
Embarked => 登船港口

根据常识推断,乘客ID,乘客姓名,船票信息没有太大作用,所以不加考虑,直接删掉。
所以还剩下8个字段。我们再来看下这8个字段的基本信息。

Survived    891 non-null int64
Pclass      891 non-null int64
Sex         891 non-null object
Age         714 non-null float64
SibSp       891 non-null int64
Parch       891 non-null int64
Fare        891 non-null float64
Cabin       204 non-null object
Embarked    889 non-null object

发现Cabin(客舱编号)属性只有204个值,剩下的大量是空值,所以此字段意义有限,也删掉。

另外,SibSp(堂兄弟/妹个数)和Parch(父母与小孩个数)这两个字段,意义非常相近,都可以看作是亲属。我们可以添加一个新字段Family,代表是否有亲属。SibSp和Parch属性删掉。

之所以不用亲属个数作为属性值,是因为1个亲属和6个亲属差别可能没有那么大,所以直接使用是否有亲属,误差可能会小一些。

单属性分析

现在只剩6个属性了。下面我们要对这6个属性分别进行分析。
这六个属性为

Pclass => 舱位等级
Sex => 性别
Age => 年龄
Family => 是否有亲属
Ticket => 船票信息
Fare => 票价
Embarked => 登船港口

客舱等级

可以猜测,舱位等级高的,条件好一些,生存概率应该高一些。我们看下是否如此。

从图上可以看到,1级客舱的获救概率明显更大,3级客舱获救的概率很小,说明舱位等级是有影响的。

性别

再次猜测,由于女士优先,女性的生还概率更高。看下具体分析。

可以看到,女性的获救比例远大于男性。证明了确实有“女士优先”的情况存在。

年龄

再来看一下年龄。年龄和前面的属性不一样,有很多年龄,不能用条形图,需要用直方图。也就是绘制每个年龄区间的数量。

可以看到,获救概率呈现两边高,中间低的态势,说明小孩和年纪较大的人受到照顾,更容易获救。

相关文章

  • 数据挖掘流程示例 - 泰坦尼克号

    Kaggle上面有一个经典的入门题目,泰坦尼克号乘客的生存预测。此文针对这个题目,演示数据挖掘的一些基本方法。 题...

  • 读书计划- 数据分析实战45讲 | 02丨学习数据挖掘的最佳路径

    一,数据挖掘的基本流程 在正式讲数据挖掘知识清单之前,我先和你聊聊数据挖掘的基本流程。 数据挖掘的过程可以分成以下...

  • 我理解的数据挖掘

    数据挖掘实质:对数据充分挖掘利用,以解决业务问题并提升业务效果的过程 数据挖掘整体流程: -业务理解(业务流程,业...

  • 开启数据挖掘及数据分析学习之旅

    数据挖掘之旅 数据挖掘简介及其应用场景 搭建Python数据挖掘环境 亲和性分析示例:根据购买习惯推荐商品 经典分...

  • 数据挖掘应用示例

    两类数据集的聚类结果 大样本数据集的聚类分析 鸢尾花数据集被公认为最著名的用于数据挖掘的数据集,它包含 3 种植物...

  • 数据挖掘流程

    数据挖掘流程 (一)数据读取 读取数据,并进行展示 统计数据各项指标 明确数据规模与要完成的任务 (二)特征理解分...

  • 数据挖掘学习报告

    数据挖掘的流程有,数据预处理、建立模型、构建网络、训练模型和加载模型预测。上面的代码显示了一个很简单的数据挖掘流程...

  • 使用sklearn进行数据挖掘

    数据挖掘的步骤 数据挖掘通常包括数据采集、数据分析、特征工程、训练模型、模型评估等步骤。 sklearn工作流程 ...

  • 02. 学习数据挖掘的最佳路径是什么?

    数据挖掘知识清单 数据挖掘基本流程 - 6步骤 商业理解 - 目的挖掘不是目的,帮助业务才是目的,从商业的角度理解...

  • 数据分析的6大步骤与十大算法、数学原理

    数据挖掘基本流程 数据挖掘6 大步骤 商业理解 目的挖掘不是目的,帮助业务才是目的,从商业的角度理解项目需求,再开...

网友评论

      本文标题:数据挖掘流程示例 - 泰坦尼克号

      本文链接:https://www.haomeiwen.com/subject/hnaiettx.html