美文网首页
泰坦尼克之灾_Kaggle

泰坦尼克之灾_Kaggle

作者: 艾马丫 | 来源:发表于2019-10-10 13:20 被阅读0次

小白根据前人经验尝试对泰坦尼克之灾进行预测分析

一、确认目标

预测乘客是否能在泰坦尼克之灾中幸存下来。

二、数据探索

1. 首先导入数据库和数据:

2. 观察数据,查看数据各列数据类型,数据大小以及缺失值状况

3. 查看老人小孩(假定13岁以下为小孩)的人数占比

三、特征工程

 缺失值处理,按照以下原则对缺失值进行处理:

1. 连续型变量用平均数或者中位数填充;

2. 分类型变量用众数填充;

3. 缺失值>40%的直接丢弃;

训练集和测试集同时进行相同的数据处理流程:

四、建模分析

1. 对sex和Embarked进行one-hot-code处理,

导入库,建立模型的对象,划分数据集,训练模型,然后进行预测:

(如图所示,预测结果的准确度不是很高,说明特征工程做的不好,后面还需要继续加强这方面的练习)

导出预测结果:

a即为乘客Id和对应预测能否幸存的关系表。

相关文章

  • 泰坦尼克之灾_Kaggle

    小白根据前人经验尝试对泰坦尼克之灾进行预测分析 一、确认目标 预测乘客是否能在泰坦尼克之灾中幸存下来。 二、数据探...

  • kaggle之泰坦尼克之灾

    项目介绍 基于kaggle提供的泰坦尼克之灾数据,使用python与sklearn机器学习模块,预测乘客的存活状况...

  • Machine learning:Titanic数据分析(一)导

    下一节:特征关系分析 一、导览 泰坦尼克之灾数据集本文译自kaggle上的处理泰坦尼克号数据集的这篇Noteboo...

  • Kaggle:泰坦尼克之灾 (一)

    刚刚开始接触Kaggle,根据官网的推荐先拿titanic竞赛练练手,先撸一个baseline出来再慢慢优化。 前...

  • kaggle—泰坦尼克之灾1

    泰坦尼克之灾是kaggle的一个入门案例,本文是我关于这个比赛的一些记录 1、jupyter notebook的安...

  • kaggle——泰坦尼克之灾1

    泰坦尼克之灾是kaggle的一个入门案例,以下是这个比赛的一些记录: 1、jupyter notebook的安装 ...

  • kaggle——泰坦尼克之灾2

    之前已经写过一篇关于这个比赛的简书,简单的描述了比赛的大致流程,参考简书。在这之后又看了rank3的kernal,...

  • kaggle——泰坦尼克之灾2

    关于比赛的基本操作描述,参考简书。学习了比赛中排行第三(rank3)的源码kernal,参考链接,对比起来内容更加...

  • kaggle——泰坦尼克之灾3

    之前有写过两篇关于Titanic比赛的简书,这几天上kaggle-Titanic的kernels在MostVost...

  • (二) Kaggle 泰坦尼克之灾

    竞赛背景 泰坦尼克号的沉没是历史上最臭名昭著的海难之一。 1912年4月15日,在她的处女航中,被广泛认为的“沉没...

网友评论

      本文标题:泰坦尼克之灾_Kaggle

      本文链接:https://www.haomeiwen.com/subject/tdpopctx.html