美文网首页
05-22-S_数据预处理

05-22-S_数据预处理

作者: 冯诺依曼 | 来源:发表于2017-05-22 12:21 被阅读0次

    数据预处理

    数据挖掘是统计学,机器学习,数据库三者的统一。它利用的思想有:

    (1)统计学的抽样、估计、假设检验;

    (2)人工智能、机器学习的算法、建模技术和理论;

    (3)此外需要数据库提供有效的存储、索引、查询等处理支持。

    数据挖掘过程中,数据基本来自生产、生活、商业中的实际数据,现实中我们采集到的数据往往存在:不正确、不完整、不一致这三个问题。

    数据预处理一般就四种:

    缺失值处理

    对于缺失值的处理总的来说分删除法和插补法

    (1)删除法:删除存在缺失值的记录(仅当样本量很大且缺失值记录所占样本比例小于5%时可行)

    (2)插补法:若属性是连续的,则使用该属性存在值的平均值去插补缺失值;若属性是离散的,则可取该属性的众数来插补缺失值。

    数据集成

    即相当于从原始的ODS中将各个数据表尽量整合成一个一个方便查询的表

    数据规约

    由于用于分析的数据集中可能包含数以百计的属性,但是其中大部分属性可能与挖掘任务不相关,或者是冗余的,则要尽量挑选出有用的属性,这是一项困难费时的任务。

    所以数据规约目标在于找到最小的属性集,使现有概率分布尽可能接近使用所有属性时的原始分布。

    数据变换

    数据变化是将数据由一种表现形式变为另一种表现形式。常见的数据变换方式是:数据标准化、数据离散化、语义转换。

    (1)数据标准化

    0-1标准化

    线性函数转换:
    $$y=\frac{x-min(x)}{max(x)-min(x)}$$

    对数函数转换:
    $$y=\log_{10}x$$

    反正切函数转换:
    $$y=\frac{\arctan x *2}{\pi}$$

    z-score标准化

    $$y=\frac{x-u}{\sigma }$$

    (2)离散化

    指将连续性数据切分为多个“段”,有些数据挖掘算法要求数据是分类属性的形式。

    (3)语义转换

    将{非常好,好,一般,差,非常差}这种转化为{1,2,3,4,5}来替代。

    参考:http://blog.csdn.net/dkcgx/article/details/46634471

    相关文章

      网友评论

          本文标题:05-22-S_数据预处理

          本文链接:https://www.haomeiwen.com/subject/ozpbxxtx.html