机器学习入门之逻辑回归：泰坦尼克号生存预测

机器学习入门之逻辑回归：泰坦尼克号生存预测

作者: 阿斯顿820 | 来源:发表于2019-08-21 10:55 被阅读0次

机器学习入门之逻辑回归：泰坦尼克号生存预测
逻辑回归
数据分析学习笔记（6）—— 泰坦尼克号生存预测
机器学习之Logistic回归(逻辑蒂斯回归）
Python从零开始第六章机器学习①逻辑回归实战（1）
机器学习 Day 4 | Logistic Regression
2019-10-29
线性回归和逻辑回归
实战1-Kaggle-Tatanic
逻辑回归（鸢尾花案例）

前言小白的机器学习的入门必备项目科赛网上有着这个项目详细的讲解对小白十分友好

1.了解项目概况

RMS泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日，在她的处女航中，泰坦尼克号在与冰山相撞后沉没，在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会，并为船舶制定了更好的安全规定。

造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些运气因素，但有些人比其他人更容易生存，例如妇女，儿童和上流社会。

在这个挑战中，我们要求您完成对哪些人可能存活的分析。特别是，我们要求您运用机器学习工具来预测哪些乘客幸免于悲剧。

kaggle官网可以下载数据和提交结果

Titanic: Machine Learning from Disasterwww.kaggle.com

数据的各项特征的意义

2.初探数据

先看看我们的数据，长什么样吧。在Data下我们train.csv和test.csv两个文件，分别存着官方给的训练和测试数据。

pandas是常用的python数据处理包，把csv文件读入成dataframe各式，我们在ipython notebook中，看到data_train如下所示：

先查看一下测试数据的基本信息数据类型有无缺失值

其中Age和Cabin缺失值较多后面需要处理

PassengerId => 乘客ID

Pclass => 乘客等级(1/2/3等舱位)

Name => 乘客姓名

Sex => 性别

Age => 年龄

SibSp => 堂兄弟/妹个数

Parch => 父母与小孩个数

Ticket => 船票信息

Fare => 票价

Cabin => 客舱

Embarked => 登船港口

查看有无异常值

3.数据的初步认识查看特征对生存率之间的关系

我们在图上可以看出来，被救的人300多点，不到半数；3等舱乘客灰常多；遇难和获救的人年龄似乎跨度都很广；3个不同的舱年龄总体趋势似乎也一致，2/3等舱乘客20岁多点的人最多。

我们可能会有一些想法了：

不同舱位/乘客等级可能和财富/地位有关系，最后获救概率可能会不一样

年龄对获救概率也一定是有影响的，毕竟前面说了，副船长还说『小孩和女士先走』呢图中无法看清离散程度

和登船港口是不是有关系呢？也许登船港口不同，人的出身地位不同？

4.数据的预处理

这里Age的缺失值我用平均值代替虽然不科学但是方便先把模型做出来再说后续学会更好的方法可以回来改

对于Cabin的缺失值处理由于缺失值较多把它分为有无缺失值两个分类

Embarked就只有两个缺失值用值最多的S代替

因为逻辑回归建模时，需要输入的特征都是数值型特征，我们通常会先对类目型的特征因子化。什么叫做因子化呢？举个例子：

以Cabin为例，原本一个属性维度，因为其取值可以是[‘yes’,’no’]，而将其平展开为’Cabin_yes’,’Cabin_no’两个属性可以想象 6 = 3*2 ，数学中的因子的概念

原本Cabin取值为yes的，在此处的”Cabin_yes”下取值为1，在”Cabin_no”下取值为0 原本Cabin取值为no的，在此处的”Cabin_yes”下取值为0，在”Cabin_no”下取值为1 我们使用pandas的”get_dummies”来完成这个工作，并拼接在原来的”data_train”之上，如下所示。

接着还需要将Age和Fare的数值标准化各属性值之间scale差距太大，将对收敛速度影响很大

这样一来数据就处理完了

最后提取我们需要的特征

5.建立回归模型

这里我选择的是逻辑回归比较适合入门

y是标签 x是数据的特征

将test的数据也按上面处理一下之所以没有合在一起处理是担心对于Age的平均值是否有影响

得到如下结果

做到这里也算有个样子了接下来就是要对自己的模型和选取的特征做一下评估了也不知道好不好准不准确可以选用交叉验证的方法先看看选取特征的相关性可以考虑删除一下影响较低的同时在没有选取的特征上面再做下挖掘有没有忽视的

我们先看看那些权重绝对值非常大的feature，在我们的模型上：

Sex属性，如果是female会极大提高最后获救的概率，而male会很大程度拉低这个概率。

Pclass属性，1等舱乘客最后获救的概率会上升，而乘客等级为3会极大地拉低这个概率。

有Cabin值会很大程度拉升最后获救概率(这里似乎能看到了一点端倪，事实上从最上面的有无Cabin记录的Survived分布图上看出，即使有Cabin记录的乘客也有一部分遇难了，估计这个属性上我们挖掘还不够)

Age是一个负相关，意味着在我们的模型里，年龄越小，越有获救的优先权(还得回原数据看看这个是否合理）

有一个登船港口S会很大程度拉低获救的概率，另外俩港口压根就没啥作用(这个实际上非常奇怪，因为我们从之前的统计图上并没有看到S港口的获救率非常低，所以也许可以考虑把登船港口这个feature去掉试试)。

船票Fare有小幅度的正相关(并不意味着这个feature作用不大，有可能是我们细化的程度还不够，举个例子，说不定我们得对它离散化，再分至各个乘客等级上？)

6.交叉验证

我们通常情况下，这么做cross validation：把train.csv分成两部分，一部分用于训练我们需要的模型，另外一部分数据上看我们预测算法的效果。

我们用scikit-learn的cross_validation来帮我们完成小数据集上的这个工作。

先简单看看cross validation情况下的打分

似乎浮动还是比较大的那让我们改变一下特征看看有没有影响这里我将Name中的身份title取出来作为一个特征毕竟有身份的人应该会有有待同时单独增加一列12岁一下的作为Child

后面考虑到家庭人数对于生存率的影响我将sibsp 和 Parch合起来由于自己也在Family所以需要加1

将title按下列称呼替换一下

查看一下数据

加入重新选择特征后交叉验证数据结果较稳定以上就是我的初入机器学习希望对大家有点帮助

学习资料点击这里

相关文章

机器学习入门之逻辑回归：泰坦尼克号生存预测
前言小白的机器学习的入门必备项目科赛网上有着这个项目详细的讲解对小白十分友好 1.了解项目概况 RMS泰坦尼...
逻辑回归
问题逻辑回归预测应当无偏差。即：“预测平均值”应当约等于“观察平均值” 机器学习面试之逻辑回归输出的值是真实的概...
数据分析学习笔记（6）—— 泰坦尼克号生存预测
本次笔记主要记录了一个机器学习的入门实战，泰坦尼克号生存预测。主要涉及的知识点有，python的pandas包，机...
机器学习之Logistic回归(逻辑蒂斯回归）
机器学习之Logistic回归(逻辑蒂斯回归）
Python从零开始第六章机器学习①逻辑回归实战（1）
在本节中，您将使用机器学习算法解决泰坦尼克号预测问题：Logistic回归。 Logistic回归是一种分类算法，...
机器学习 Day 4 | Logistic Regression
机器学习第四天逻辑回归什么是逻辑回归？逻辑回归被用来处理不同的分类问题，这里的目的是预测当前被观察的对象属于...
2019-10-29
Day2 简单线性回归模型机器学习入门--简单线性回归机器学习算法之线性回归算法导入库matplotlib 绘...
线性回归和逻辑回归
线性回归和逻辑回归是机器学习中基础又比较常用的内容。线性回归主要用来解决连续值预测的问题，而逻辑回归用来解决分类的...
实战1-Kaggle-Tatanic
泰坦尼克生存预测问题是机器学习入门的经典案例，通过分析已知训练集的乘客信息和生存结果，对预测集中的乘客做出预测。简...
逻辑回归（鸢尾花案例）
一、什么是逻辑回归？逻辑回归是机器学习中的一个基础的算法，他与线性回归类似，与线性回归不同的是它预测的分类问题。...

网友评论

本文标题：机器学习入门之逻辑回归：泰坦尼克号生存预测

本文链接：https://www.haomeiwen.com/subject/ajhbsctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|机器学习入门之逻辑回归：泰坦尼克号生存预测|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！