kaggle 比赛的基本流程
先对比赛的基本流程进行简述,然后再根据具体步骤进行仔细学习,顺便把PUBG那个做了,数据分析和机器学习方面就算是不用再准备别的比赛或者信息了(Challenge AI那个算CV的)。
1 Data Exploration
首先是要进行EDA(Exploratory Data Analysis),对数据进行探索性的分析,从而为之后的处理和建模提供分析。
1.1 Visualization
1.2 Statistical Tests
2 Data Preprocessing
2.1 Outlier
2.2 Dummy Variables
3 Feature Engineering
Kaggle 比赛是 “Feature 为主,调参和 Ensemble 为辅”,我觉得很有道理。Feature Engineering 能做到什么程度,取决于对数据领域的了解程度。比如在数据包含大量文本的比赛中,常用的 NLP 特征就是必须的。怎么构造有用的 Feature,是一个不断学习和提高的过程。
一般来说,当一个变量从直觉上来说对所要完成的目标有帮助,就可以将其作为 Feature。至于它是否有效,最简单的方式就是通过图表来直观感受。
网友评论