XGBoost解决Titanic(kaggle)

XGBoost解决Titanic(kaggle)

作者: Cheney康 | 来源:发表于2017-11-18 21:44 被阅读0次

XGBoost解决Titanic(kaggle)
Kaggle-Titanic,XGBoost
用TensorFlow完成Kaggle Titanic竞赛
Kaggle:Titanic预测存活(1)
Kaggle|数据科学Hello World: Titanic生
自动机器学习工具NNI给xgboost模型调参
kaggle-Titanic生存分析
练习赛1：Titanic
浅谈 GBDT
Kaggle—Titanic

问题描述

数据读取

features选取。选取数据中的features进行训练，根据对题目的分析，可知’PassengerId’是冗余信息,而’Name’,’Ticket’,'Cabin'三者对于乘客生存无明显影响，所以不选取。其余七项为选取的训练features

缺失数据填充。首先填充训练集缺失数据，Embarked列填补S是因为该列S出现的次数最多，所以缺失值是S的可能性最大，Age列选择填补均值。

再填充测试集缺失数据，Embarked列，Age列和训练集一样，但是测试集中Fare列也出现了缺失值，这里采用了填补均值的办法

用DictVectorizer进行分类变量特征提取，将dict类型的list数据，转换成numpy array

选择XGBOOST，这个模型在大部分kaggle比赛中都有很好的表现，控制过拟合的效果很好。

设置参数，booster：gbtree (基于树的模型） objective ：multi:softmax (使用softmax的多分类器，返回预测的类别） num_class ：2 (类别数目为2) learning_rate ：0.1 (通过减少每一步的权重，可以提高模型的鲁棒性，试了几个值，0.1准确率最高） max_depth ：2 (这个值也是用来避免过拟合的。max_depth越大，模型会学到更具体更局部的样本) silent ：0 (能显示运行情况，让我们更好地理解模型)

设置迭代次数

sklearn.cross_validation进行训练数据集划分，训练集和交叉验证集比例。我这里划分了20%的数据作为验证集

矩阵赋值

watchlist 显示train-error和val-error，方便查看运行情况，帮助调整参数。

训练模型。 early_stopping_rounds 当设置的迭代次数较大时，early_stopping_rounds 可在100次迭代次数内准确率没有提升就停止训练。

用训练出的模型对测试集的数据进行预测。

将测试的结果保存为CSV文件

完整代码（准确率0.79）

相关文章

XGBoost解决Titanic(kaggle)
Kaggle-Titanic,XGBoost
XGBoost现在风头正盛，把它也用在Titanic试试咯这个Kernel值得一试最终测试结果0.8866442...
用TensorFlow完成Kaggle Titanic竞赛
Kaggle Titanic竞赛[https://www.kaggle.com/c/titanic/overvie...
Kaggle:Titanic预测存活(1)
本文针对Kaggle上面的Titanic问题进行了入门学习，搭建了一个简单的xgboost基础模型，达到了75%的...
Kaggle|数据科学Hello World: Titanic生
Kaggle数据科学的入门项目：Titanic[https://www.kaggle.com/c/titanic/...
自动机器学习工具NNI给xgboost模型调参
基于Kaggle的Titanic入门赛，跑一个xgboost模型。使用NNI后，调参只需要3步，就可以自动搜索定义...
kaggle-Titanic生存分析
数据来源：来自kaggle的数据集Titanic：Titanic: Machine Learning from ...
练习赛1：Titanic
kaggle Titanic项目主页：https://www.kaggle.com/c/titanicTitani...
浅谈 GBDT
在 Xgboost 那篇文章 (Kaggle 神器 xgboost) 中提到了 Gradient Boosted ...
Kaggle—Titanic
It's a picture : )

网友评论

本文标题：XGBoost解决Titanic(kaggle)

本文链接：https://www.haomeiwen.com/subject/ayuyvxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|XGBoost解决Titanic(kaggle)|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！