https://www.edrawsoft.cn/viewer/public/s/81694615068708
总结:
特征预处理是数据预处理过程的重要步骤,是对数据的一个的标准的处理,几乎所有的数据处理过程都会涉及该步骤。
由于树模型(Random Forest、GBDT、xgboost等)对特征数值幅度不敏感,可以不进行无量纲化和统计变换处理;
同时,由于树模型依赖于样本距离来进行学习,所以也可以不进行类别特征编码(但字符型特征不能直接作为输入,所以需要至少要进行标签编码)。
依赖样本距离来学习的模型(如线性回归、SVM、深度学习等)
对于数值型特征需要进行无量纲化处理;
对于一些长尾分布的数据特征,可以做统计变换,使得模型能更好优化;
对于线性模型,特征分箱可以提升模型表达能力;
对数值型特征进行特征分箱可以让模型对异常数据有很强的鲁棒性,模型也会更稳定。
另外,分箱后需要进行特征编码。
网友评论