Python进行泰坦尼克生存预测——数据探索分析！

Python进行泰坦尼克生存预测——数据探索分析！

作者: Python树苗 | 来源:发表于2018-05-26 14:49 被阅读15次

1 数据预览

1.1 head()

预览数据集的前面几条数据可以大致看看每个字段的值究竟长什么样。

1.2 info()

可以看每个字段有多少非空值，字段的类型是什么样的

1.3 describe()

可以大致描述每个整数或者浮点型的数值分布，看最小值，最大值和四分位数，可以大致了解数据的偏移情况。

年龄字段也存在缺失，一般来说，老弱病残幼是要受到特殊照顾的，因此年龄应该会是一个比较重要的特征，并且因为它是连续值，这里采用算法预测的方式来进行填充。

最后我们来看一下填充后的数据情况

3. 数据探索

3.1 各个字段值的分布情况

先看代码：

以上是画布相关设置

subplots_adjust()是用来调整画布内子图的间隔大小的。

以上是在画布相应位置画各个子图的代码。图形如下：

3.2 探索各字段与是否生存的关系，寻找对模型有用的特征

3.2.1 不同乘客等级与是否生存的关系

舱位越高级的，生存的比例越大。3等舱里面未获救的比例明显增大。说明舱位与是否生存有关系。

3.2.2 性别与是否生存的关系

从图中可以发现大部分都是集中在20-50岁之间的，从箱线图看平均年龄接近30岁。

因为年龄是连续值，因此我们考虑把年龄分段后，进行分段统计展示看年龄与是否生存的关系。

从数据上年纪小的生存的几率要大些。不同年龄段的生存率明显有差别，说明年龄与是否生存是有关系的。

3.2.4 有无兄弟姐妹与是否生存的关系

从数据上看兄弟姐妹在1-2个的生存率最高

3.2.5是否有父母子女与是否生存的关系

数据显示父母子女个数在1-3个的生存率最高，个数越多反倒生存率下降。

3.2.6 港口与是否生存的关系

数据显示有港口的生存率明显高很多。可能是船中间有停靠到一些港口，有部分乘客下船了。

本文参考：大树先生的博客

欢迎大家关注我的博客：https://home.cnblogs.com/u/Python1234/

欢迎大家加入我的千人交流学习答疑群：125240963

相关文章

网友评论

本文标题：Python进行泰坦尼克生存预测——数据探索分析！

本文链接：https://www.haomeiwen.com/subject/aqmsjftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

码农的世界

python热爱者

热点阅读

码农的世界

python热爱者

我爱编程

关于我们|服务条款|联系我们|Python进行泰坦尼克生存预测——数据探索分析！|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！