预测泰坦尼克号乘客是否遇难

作者: 毛小毛_abdd | 来源:发表于2019-03-10 15:35 被阅读0次

预测泰坦尼克号乘客是否遇难
泰坦尼克号海难幸存状况分析
项目 0: 预测泰坦尼克号乘客生还率
泰坦尼克号生还者预测案例分析
练习-泰坦尼克号乘客生还预测
数据挖掘流程示例 - 泰坦尼克号
SQL必知必会(实战：数据清洗)
我们应对未来的正确姿势，应该是这样……
泰坦尼克之灾_Kaggle
中篇-泰坦尼克号

第一篇文章也是泰坦尼克号乘客预测的主题，但是是结合了保险行业的需求，不仅仅是单一的0/1分类问题，详细可以参考第一篇文章(●'◡'●)

今天这篇文章依然是泰坦尼克号主题，且是简单的0/1预测，继续看这样一个项目的初衷是想了解这个主题的初始研究目标，重点事项学习数据如何清理，特征如何选取，以及去了解完成一个数据项目的流程以及每个步骤的常见套路，所以今天，我们没有具体完整的代码，重点是关于数据预处理分析部分的分析和流程的记录(●ˇ∀ˇ●)

1）定义问题
遇到一个待解决的问题——>产生一个新的需求——>想到一系列解决方案——>为验证解决方案设计实施步骤——>为了实施需要使用的技术。
经常地，我们往往沉迷于新的技术，而不明白我们实际想解决的问题是什么。明白自己的问题是什么，业务需求是什么，研究一个算法优化一个模型才是有意义的。

在这个案例中，
问题是根据乘客性别，社会等级，年龄等一系列信息，如果这个乘客在泰坦尼克号游船上，他能不能幸存？
需求可以描述为，能不能根据历史数据，预测泰坦尼克号乘客是否遇难？
解决方案需要考虑到妇女儿童有限，社会等级高的人有限，很明显，遇难/幸存，是一个二分类问题。

2）收集数据
数据已经存在（结构化的&非结构化的，主观的&客观的，etc），在于我们如何找到它。
收集数据在于我们明确的自己的研究的问题目标和需求，去收集相关的各种数据。

3）准备数据
旨在将无序的数据清理为有序的能满足我们业务需求的格式数据。
我们需要完成两部分工作，
1.分析每个数据变量，确定因变量和自变量