大数据挖掘1|数据预处理

作者: 是蓝先生 | 来源:发表于2016-05-09 21:05 被阅读637次

    今天是9.13r
    离中期答辩只有刚好两星期了,该死的还什么也没动。上次写这篇文章时是4个月前了,现在看去当时对数据挖掘的整体框架概念其实并不成熟,也可能在几个月后回头看我现在说的话一样会觉得幼稚,

    所以想再重新整理和梳理数据挖掘的相关知识。


    今天是5.9号。
    之前买的《数据挖掘导论》今天终于到了,准备好好看看好好研究。在群里看见其他人讨论简历,其实实习经历也没有很多,一般就两段,而且都是不怎么出名的公司,但有一点是,与找的工作的相关性较高。所以自己也不要给自己太大压力,争取在暑期找一份相关性较强的实习就ok,然后耐心等待论文的消息。


    数据挖掘:也就是data mining,是一个很宽泛的概念,字面意思就是从大型数据存储库中挖掘有用的信息。

    数据挖掘是统计学,机器学习,数据库三者的统一。它利用的思想有:
    (1)统计学的抽样、估计、假设检验;
    (2)人工智能、机器学习的算法、建模技术和理论;
    (3)此外需要数据库提供有效的存储、索引、查询等处理支持。

    之后的数据挖掘学习就分这几部分去学习:
    数据预处理,关联分析,回归分析,分类,聚类,预测,诊断

    在开始数据挖掘六大任务之前的,先了解数据预处理相关知识。
    由于数据挖掘的数据基本来自生产、生活、商业中的实际数据,现实中我们采集到的数据往往存在:不正确、不完整、不一致这三个问题。因此需要提高数据质量,满足数据挖掘的需要。

    数据预处理

    1.jpg

    所以可以看到数据预处理一般就四种:

    • 缺失值处理
      对于缺失值的处理总的来说分删除法和插补法
      (1)删除法:删除存在缺失值的记录(仅当样本量很大且缺失值记录所占样本比例<5%时可行)
      (2)插补法:若属性是连续的,则使用该属性存在值的平均值去插补缺失值;若属性是离散的,则可取该属性的众数来插补缺失值。

    • 数据集成
      即相当于从原始的ODS中将各个数据表尽量整合成一个一个方便查询的表

    • 数据规约
      由于用于分析的数据集中可能包含数以百计的属性,但是其中大部分属性可能与挖掘任务不相关,或者是冗余的,则要尽量挑选出有用的属性,这是一项困难费时的任务。

    所以数据规约目标在于找到最小的属性集,使现有概率分布尽可能接近使用所有属性时的原始分布。

    • 数据变换
      数据变化是将数据由一种表现形式变为另一种表现形式。常见的数据变换方式是:数据标准化、数据离散化、语义转换。
      (1)数据标准化
      分为0-1标准化和z-score标准化
      (2)离散化
      指将连续性数据切分为多个“段”,有些数据挖掘算法要求数据是分类属性的形式。
      (3)语义转换
      将{非常好,好,一般,差,非常差}这种转化为{1,2,3,4,5}来替代。

    相关文章

      网友评论

        本文标题:大数据挖掘1|数据预处理

        本文链接:https://www.haomeiwen.com/subject/nfrlrttx.html