我们在“一个奇异值的江湖 -- 经典统计观” 和 “一个奇异值的江湖 -- 机器学习观” 里面我们介绍了Outlier处理的基本的方法。 我们在“R语言和表数据分析” 里介绍了一个数据分析的流程。 根据8-2原则, 我们知道, 80%的时间都花在数据预处理上的。
有了理论方面的积累, 这里我们给出一个默认对Outlier预处理的流程图, 方便大家实践。
流程图
第一层: 根据行业经验规则直接过滤
第二层:可视化直接人肉。 但是这里要分高维数据和一二维数据的可视化。
对于高维数据可视化, 又分成降维度的可视化, 一般适用于大维度。 和扩展坐标系的可视化, 一般适用于小维度。
第三层:统计还是机器学习手段。 一般来说统计手段速度更快。 而机器学习手段一般效果更佳。 所以要根据数据量大小来决定。 当数据量大, 统计方法用的更多。 当数据量小的时候, 仅仅统计方法效果不太好的时候, 才会试试机器学习方法。
第四层:多维数据还是一维数据的统计还是机器学习。 多维情况下, 统计的方法一般采用Cocharan Test的。一维一般采用Grubb Test 。
小结:
一般来说统计的Grubb效果很好,机器学习的LOF的效果有可能会更好, 但是LOF很慢很慢, 可是LOF使用多维情况。 可以优先实验这两个方法。
相关话题:
网友评论