美文网首页
《Python数据分析与挖掘实战》第四章 数据预处理

《Python数据分析与挖掘实战》第四章 数据预处理

作者: 大美mixer | 来源:发表于2019-08-13 11:17 被阅读0次

    主要包括数据清洗、数据集成、数据变幻和数据规约。

    数据清洗

    删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。

    缺失值处理

    方法:删除记录、数据差补和不处理
    数据插补方法:均值/中位数/众数、固定值、最近临插补、回归、插值(拉格朗日插值法、牛顿插值法)

    异常值处理

    方法:删除含有异常值的记录、视为缺失值、平均值修正、不处理

    数据集成

    将多个数据源合并存放在一个一直的数据仓库中的过程

    实体识别

    从不同数据源识别出现实世界的实体,统一矛盾。
    常见形式:同名异义、异名同义、单位不统一

    冗余属性识别

    例如:同一属性出现多次、同一属性命名不一致导致重复

    数据变换

    对数据进行规范化处理,转换数据形式

    简单函数变换

    例如平方、开放、取对数、差分运算等

    规范化

    方法:

    1. 最小-最大规范化(离差标准化)
      对原始数据线性变换,将数据映射到[0,1]之间
    2. 零-均值规范化(标准差标准化)
      经过处理的数据均值为0,标准差为1
    3. 小数定标规范化
      通过移动属性值的小数位数,将属性值映射到[-1,1]之间。

    连续属性离散化

    离散化过程:确定分类数、如何将连续属性映射到这些分类值
    离散化方法:

    1. 等宽法
      将属性的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定。
    2. 等频法
      将相同数量的记录放进每个区间。
    3. 基于聚类分析的方法

    属性构造

    利用已有属性构造出新的属性,并加入现有属性集合。

    小波变换

    数据规约

    产生更小但是保持原数据完整性的新数据集。
    意义:

    • 降低无效、错误数据对建模的影响
    • 减少挖掘时间
    • 降低储存数据的成本

    属性规约

    通过属性合并来创造新属性维数,或者删除不相关属性累减少数据维数
    常用方法:合并属性、逐步向前选择、逐步向后删除、决策树归纳、主成分分析

    数据规约

    通过选择替代的、较小的数据来减少数据量,包括有参数方法(线性回归、多元回归)和无参数方法(直方图、聚类、抽样)两类。

    相关文章

      网友评论

          本文标题:《Python数据分析与挖掘实战》第四章 数据预处理

          本文链接:https://www.haomeiwen.com/subject/twdvjctx.html