美文网首页
Kaggle过程概要

Kaggle过程概要

作者: FrankOnTheWay | 来源:发表于2018-10-12 00:17 被阅读0次

    kaggle 比赛的基本流程

    先对比赛的基本流程进行简述,然后再根据具体步骤进行仔细学习,顺便把PUBG那个做了,数据分析和机器学习方面就算是不用再准备别的比赛或者信息了(Challenge AI那个算CV的)。

    1 Data Exploration

    首先是要进行EDA(Exploratory Data Analysis),对数据进行探索性的分析,从而为之后的处理和建模提供分析。

    1.1 Visualization

    1.2 Statistical Tests

    2 Data Preprocessing

    2.1 Outlier

    2.2 Dummy Variables

    3 Feature Engineering

    Kaggle 比赛是 “Feature 为主,调参和 Ensemble 为辅”,我觉得很有道理。Feature Engineering 能做到什么程度,取决于对数据领域的了解程度。比如在数据包含大量文本的比赛中,常用的 NLP 特征就是必须的。怎么构造有用的 Feature,是一个不断学习和提高的过程。

    一般来说,当一个变量从直觉上来说对所要完成的目标有帮助,就可以将其作为 Feature。至于它是否有效,最简单的方式就是通过图表来直观感受。

    3.1 Feature Selection

    3.2 Feature Encoding

    4 Model Selection

    4.1 Model Training

    4.2 Cross Validation

    5. Ensemble Generation

    5.1 Stacking

    6 Pipeline

    相关文章

      网友评论

          本文标题:Kaggle过程概要

          本文链接:https://www.haomeiwen.com/subject/syziaftx.html