美文网首页
Outlier 预处理流程图

Outlier 预处理流程图

作者: 史春奇 | 来源:发表于2017-11-08 13:48 被阅读180次

    ​我们在“一个奇异值的江湖 -- 经典统计观” 和 “一个奇异值的江湖 -- 机器学习观” 里面我们介绍了Outlier处理的基本的方法。  我们在“R语言和表数据分析” 里介绍了一个数据分析的流程。  根据8-2原则, 我们知道, 80%的时间都花在数据预处理上的。


    有了理论方面的积累, 这里我们给出一个默认对Outlier预处理的流程图, 方便大家实践。

    流程图

    第一层: 根据行业经验规则直接过滤

    第二层:可视化直接人肉。 但是这里要分高维数据和一二维数据的可视化。

    对于高维数据可视化, 又分成降维度的可视化, 一般适用于大维度。 和扩展坐标系的可视化, 一般适用于小维度。

    第三层:统计还是机器学习手段。 一般来说统计手段速度更快。 而机器学习手段一般效果更佳。  所以要根据数据量大小来决定。   当数据量大, 统计方法用的更多。  当数据量小的时候, 仅仅统计方法效果不太好的时候, 才会试试机器学习方法。

    第四层:多维数据还是一维数据的统计还是机器学习。 多维情况下, 统计的方法一般采用Cocharan Test的。一维一般采用Grubb Test 。


    小结:

    一般来说统计的Grubb效果很好,机器学习的LOF的效果有可能会更好, 但是LOF很慢很慢, 可是LOF使用多维情况。 可以优先实验这两个方法。

    相关话题:

    一个奇异值的江湖 -- 经典统计观

    一个奇异值的江湖 -- 机器学习观

    R语言和表数据分析

    数据变换

    非均衡数据处理--如何评价?

    非均衡数据处理--如何学习?

    机器学习模型常见对比

    广义XX分布概述

    机器学习平台的优化器 (优化篇)

    机器学习平台的优化器 (平台篇)



    相关文章

      网友评论

          本文标题:Outlier 预处理流程图

          本文链接:https://www.haomeiwen.com/subject/xfoemxtx.html