异常值检测特征分为类别特征和数字特征
数字特征
相关性分析、查看特征的偏度和峰度、数字特征相互之间的关系可视化、多变量互相回归关系可视化、数字特征的频数可视化
类别特征
ounique分布、箱形图可视化、小提琴图可视化、类别柱形图可视化
异常值处理
箱线图(没有对数据作任何限制性要求)
3-(Sigma)(符合正态分布)
BOX-COX转换(处理有偏分布)
长尾截断
聚类、k近邻、One Class SVM、Isolation Forest
关于高势集特征model,也就是类别中取值个数非常多的, 一般可以使用聚类的方式,然后独热
很多模型假设数据服从正态分布
数据整体服从正态分布,样本均值和方差则相互独立。当样本不服从正态分布时,可以做如下转换:
- 线性变化z-scores:基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’
- yeo-johnson变换:是幂变换(power transformation)的方法之一,通过构建一组单调函数对随机变量进行数据变换。
- Boxcox变换:一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。在做线性回归的过程中,一般需要做线性模型假定。
关于box-cox转换,一般是用于连续的变量不满足正态的时候,在做线性回归的过程中,一般线性模型假定:
其中满足正态分布,但是利用实际数据建立回归模型时,个别变量的系数通不过。例如往往不可观测的误差可能是和预测变量相关的,不服从正态分布,于是给线性回归的最小二乘估计系数的结果带来误差,为了使模型满足线性性、独立性、方差齐性以及正态性,需改变数据形式,故应用BOX-COX转换。具体详情这里不做过多介绍,当然还有很多转换非正态数据分布的方式:
在一些情况下(P值<0.003)上述方法很难实现正态化处理,所以优先使用BOX-COX转换,但是当P值>0.003时两种方法均可,优先考虑普通的平方变换。
BOX-COX的变换公式:
别不平衡
1.扩充数据集
2.尝试其他评价指标:AUC等
3.调整θ值
4.重采样:过采样/欠采样
5.合成样本: SMOTE
6.选择其他模型:决策树等
7.加权少类别的样本错分代价
8.将大类分解成多个小类
网友评论