美文网首页
如何处理噪声数据

如何处理噪声数据

作者: 鸣人吃土豆 | 来源:发表于2017-12-26 17:32 被阅读1055次

噪声:一个测量变量中的随机错误或偏差

噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归

1)分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。

  • 分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

1.统一权重,也称等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

2.统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。

3.用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。

例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。

统一权重:设定权重(箱子深度)为4,分箱后

箱1:800 1000 1200 1500

箱2:1500 1800 2000 2300

箱3:2500 2800 3000 3500

箱4:4000 4500 4800 5000

统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后

箱1:800 1000 1200 1500 1500 1800

箱2:2000 2300 2500 2800 3000

箱3:3500 4000 4500

箱4:4800 5000

用户自定义:如将客户收入划分为1000元以下、10002000、20003000、3000~4000和4000元以上几组,分箱后

箱1:800

箱2:1000 1200 1500 1500 1800 2000

箱3:2300 2500 2800 3000

箱4:3500 4000

箱5:4500 4800 5000

  • 数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。

⑴按平均值平滑

对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。

⑵按边界值平滑

用距离较小的边界值替代箱中每一数据。

⑶按中值平滑

取箱子的中值,用来替代箱子中的所有数据。

2)聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。

找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。

3)回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。

相关文章

  • 如何处理噪声数据

    噪声:一个测量变量中的随机错误或偏差 噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归 1)分箱:分箱方...

  • 大数据预处理之数据清洗

    现实世界的数据常常是不完全的、有噪声的、不一致的。数据清洗过程包括遗漏数据处理,噪声数据处理,以及不一致数据处理。...

  • 26 Noise Layers

    本篇介绍的内容主要是给输入数据加入高斯噪声的。高斯噪声是指噪声数据服从高斯分布。一般图像处理都是用高斯噪声过滤器进...

  • 6.more_about_feature_engineering

    1.数据处理、特征工程、特征选择内容 数据处理分析数据的分布模式 - 发现异常值/噪声(boxplot,quant...

  • 数据清洗

    数据清洗:删除原始数据集中的无关数据,重复数据,平滑噪声数据,处理缺失值和异常值 缺失值的处理:删除记录 数据插补...

  • 大数据预处理有哪些技术及方法呢?

    1. 目前常见的数据预处理技术 1)数据清理 数据清理例程就是通过填写缺失值、光滑噪声数据、识别或者删除离群点,并...

  • Opencv中图像噪声与图像平滑

    图像噪声 由于图像采集、处理等过程都存在一定的误差而存在响应的噪声。其中,噪声包括高斯噪声、均匀分布噪声、脉冲噪声...

  • 数据挖掘-数据预处理

    数据预处理的主要步骤包括数据清理、数据集成、数据归约和数据变换。数据清理可以用来清除数据中的噪声,纠正不一致。数据...

  • 如何给音频准确降噪?GoldWave的噪音门了解一下

    在对音频进行处理时,我们都可能遇到一个问题,如何给背景嘈杂的声音文件去除噪声。去除噪声的教程我们也出过一期, 不过...

  • 机器学习基石笔记:08 Noise and Error

    一、噪声 噪声:误标、对同一数据点的标注不一致、数据点信息不准确等。噪声是针对整个输入空间的。 存在噪声的情况下,...

网友评论

      本文标题:如何处理噪声数据

      本文链接:https://www.haomeiwen.com/subject/mcujgxtx.html