参加kaggle-home credit比赛 top1经验分享

参加kaggle-home credit比赛 top1经验分享

作者: Hugh_1 | 来源:发表于2018-08-21 23:58 被阅读26次

为入门数据挖掘领域，我参加kaggle比赛积累经验，参加比赛时间21天，排名62/6660，达到top1。

image

image.png

背景介绍
image
image.png

大数据普及人们生活，因此，互联网公司提供各类应用解决人们生活所需，但是大数据也面临一些问题，为了集智，大数据挖掘者们通过大数据竞赛促进交流。
image
image.png

Kaggle比赛是典型的代表，可以从三个方面了解。
image.gif
image.png

参加kaggle比赛，不可避免用下以下工具。
image
image.png

参加Kaggle比赛流程如下：

image

image.png

2.案例讲解: Home Credit Default Risk
1)数据介绍
该数据集包括以下几个CSV文件，关系图如下图所示：

image

image.png

image

image.png

通过可视化，可以看到该数据集存在Unbalance现象，因此有必要开展数据清洗。

image

image.png

如图，可以看到数据中存在Missing value:

image

image.png

2)特征提取-手动
举例说明，application_train.csv的相关代码如下，其他几个CSV文件。

image

image.png

特征维度过高，存在冗余，因此，按照特征重要性可视化。

image

3)特征提取-自动

举例，通过下列代码可以建立数据间关系，自动生成特征:
Import featuretools as ft
es = ft.EntitySet(id=‘clients’)

image

image.png

image

image.png

模型
可选择模型如下，LightGBM具有较强的优势：
LR
Random forest
Xgboost
LightGBM

更快的训练效率
低内存使用
更好的准确率
支持并行学习
可处理大规模数据

4)超参数微调

目前，业界用的较多的方法分别是Grid search、Random search和Bayesian Optimization。
其中，Grid search和random search简单高效, 通常后者会表现出更好性能。
在参数空间维度较高时, Grid search和Random search会产生组合爆炸, 训练回合急剧增加, 尝试更高效的Bayesian optimization。

image

image.png

对比效果如下：

image

参考资料如下：

https://zhuanlan.zhihu.com/p/29923137
https://zhuanlan.zhihu.com/p/33903267
https://www.kaggle.com/plantsgo/kernels
https://www.kaggle.com/aharless/xgboost-cv-lb-284
https://zhuanlan.zhihu.com/p/31271282
https://zhuanlan.zhihu.com/p/35363444

相关文章

网友评论

数据挖掘

本文标题：参加kaggle-home credit比赛 top1经验分享

本文链接：https://www.haomeiwen.com/subject/xgnlmftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

数据挖掘

关于我们|服务条款|联系我们|参加kaggle-home credit比赛 top1经验分享|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！