美文网首页数据挖掘
参加kaggle-home credit比赛 top1经验分享

参加kaggle-home credit比赛 top1经验分享

作者: Hugh_1 | 来源:发表于2018-08-21 23:58 被阅读26次

    为入门数据挖掘领域,我参加kaggle比赛积累经验,参加比赛时间21天,排名62/6660,达到top1。

    image

    image.png

    1. 背景介绍

      image

      image.png

      大数据普及人们生活,因此,互联网公司提供各类应用解决人们生活所需,但是大数据也面临一些问题,为了集智,大数据挖掘者们通过大数据竞赛促进交流。

      image

      image.png

      Kaggle比赛是典型的代表,可以从三个方面了解。

      image.gif

      image.png

      参加kaggle比赛,不可避免用下以下工具。

      image

      image.png

    参加Kaggle比赛流程如下:

    image

    image.png

    2.案例讲解: Home Credit Default Risk
    1)数据介绍
    该数据集包括以下几个CSV文件,关系图如下图所示:

    image

    image.png

    image

    image.png

    通过可视化,可以看到该数据集存在Unbalance现象,因此有必要开展数据清洗。

    image

    image.png

    如图,可以看到数据中存在Missing value:

    image

    image.png

    2)特征提取-手动
    举例说明,application_train.csv的相关代码如下,其他几个CSV文件。

    image

    image.png

    特征维度过高,存在冗余,因此,按照特征重要性可视化。

    image

    3)特征提取-自动

    举例,通过下列代码可以建立数据间关系,自动生成特征:
    Import featuretools as ft
    es = ft.EntitySet(id=‘clients’)

    image

    image.png

    image

    image.png

    1. 模型
      可选择模型如下,LightGBM具有较强的优势:
      LR
      Random forest
      Xgboost
      LightGBM
    • 更快的训练效率

    • 低内存使用

    • 更好的准确率

    • 支持并行学习

    • 可处理大规模数据

    4)超参数微调

    目前,业界用的较多的方法分别是Grid search、Random search和Bayesian Optimization。
    其中,Grid search和random search简单高效, 通常后者会表现出更好性能。
    在参数空间维度较高时, Grid search和Random search会产生组合爆炸, 训练回合急剧增加, 尝试更高效的Bayesian optimization。

    image

    image.png

    对比效果如下:

    image

    参考资料如下:

    https://zhuanlan.zhihu.com/p/29923137
    https://zhuanlan.zhihu.com/p/33903267
    https://www.kaggle.com/plantsgo/kernels
    https://www.kaggle.com/aharless/xgboost-cv-lb-284
    https://zhuanlan.zhihu.com/p/31271282
    https://zhuanlan.zhihu.com/p/35363444

    相关文章

      网友评论

        本文标题:参加kaggle-home credit比赛 top1经验分享

        本文链接:https://www.haomeiwen.com/subject/xgnlmftx.html