美文网首页
异常处理

异常处理

作者: dingtom | 来源:发表于2020-10-03 07:57 被阅读0次

    异常值检测特征分为类别特征和数字特征

    数字特征

    相关性分析、查看特征的偏度和峰度、数字特征相互之间的关系可视化、多变量互相回归关系可视化、数字特征的频数可视化

    类别特征

    ounique分布、箱形图可视化、小提琴图可视化、类别柱形图可视化

    异常值处理

    箱线图(没有对数据作任何限制性要求)

    3-\sigma(Sigma)(符合正态分布)

    BOX-COX转换(处理有偏分布)

    长尾截断

    聚类、k近邻、One Class SVM、Isolation Forest

    关于高势集特征model,也就是类别中取值个数非常多的, 一般可以使用聚类的方式,然后独热

    很多模型假设数据服从正态分布

    数据整体服从正态分布,样本均值和方差则相互独立。当样本不服从正态分布时,可以做如下转换:

    • 线性变化z-scores:基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’
    • yeo-johnson变换:是幂变换(power transformation)的方法之一,通过构建一组单调函数对随机变量进行数据变换。
    • Boxcox变换:一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。在做线性回归的过程中,一般需要做线性模型假定。

    关于box-cox转换,一般是用于连续的变量不满足正态的时候,在做线性回归的过程中,一般线性模型假定: Y=X\beta + \epsilon

    其中\epsilon满足正态分布,但是利用实际数据建立回归模型时,个别变量的系数通不过。例如往往不可观测的误差\epsilon可能是和预测变量相关的,不服从正态分布,于是给线性回归的最小二乘估计系数的结果带来误差,为了使模型满足线性性、独立性、方差齐性以及正态性,需改变数据形式,故应用BOX-COX转换。具体详情这里不做过多介绍,当然还有很多转换非正态数据分布的方式:


    在一些情况下(P值<0.003)上述方法很难实现正态化处理,所以优先使用BOX-COX转换,但是当P值>0.003时两种方法均可,优先考虑普通的平方变换。
    BOX-COX的变换公式:

    别不平衡

    1.扩充数据集
    2.尝试其他评价指标:AUC等
    3.调整θ值
    4.重采样:过采样/欠采样
    5.合成样本: SMOTE
    6.选择其他模型:决策树等
    7.加权少类别的样本错分代价
    8.将大类分解成多个小类

    相关文章

      网友评论

          本文标题:异常处理

          本文链接:https://www.haomeiwen.com/subject/qphiuktx.html