1:处理异常值:比如adaboost 可能过度关注异常值,所以可以先过滤异常值
2:为标准化 使用 L1/L2正则化有失偏颇,标准化之前,对应不同尺度上的特征,可能权重就不一样,这样正则化对不同的特征惩罚力度不一样
3:线性回归,逻辑回归只能发现线性关系。除非人为的编码非线性关系(比如做一个x => x^2的映射)
4:未经标准化:回归系数不能说明不同维度之间相对重要程度,归一化之后,只能一定程度上说明:因为有相关关系的特征,权重会相互转移。
5:样本少于维度时应使用低方差方法:否则很容易过拟合
网友评论