数据清洗

作者: 一月芷 | 来源:发表于2019-02-20 12:28 被阅读10次

第三章-数据预处理
2019-09-14 分析lianjia数据（四）——Power
2019-10-03 分析lianjia数据（五）——生成词云图
2019-08-19 分析lianjia数据（三）——SPSS数
数据清洗的步骤是什么（上）
机器学习-数据清洗
数据清洗
数据清洗
数据清洗
数据清洗

数据清洗：删除原始数据集中的无关数据，重复数据，平滑噪声数据，处理缺失值和异常值

缺失值的处理：删除记录数据插补不处理

拉格朗日插值法：
但插值节点增减时差值多项随之变化，计算量大

牛顿插值法：

python的scipy库中提供了拉格朗日插值法

函数lagrange()

数据变换

简单函数变换：平方开方取对数差分运算

简单函数变换常用来将不具有正态分布的数据变换成具有正态分布的数据

用对数变换可以将非平稳序列转换成平稳序列也可以用对数变换对数据进行压缩

数据规范化

为了消除指标之间量纲和取值范围的影响，将数据按照比例进行缩放是指落在一定特定的区域

最小-最大规范化：对原始数据的线性变换将数值映射在[0,1]之间

公式

x^*=(x-min)/(max-min)

零均值规范化经过处理后的数据均值为0，标准差为1

x=(x-x1)/n（x1为数据的平均值，n为原始数据的标准差）

小数定标规范化

通过移动属性值的小数点将其映射在[-1,1]之间，移动的小数值取决于属性值绝对值的最大值

连续属性离散化

等宽法
等频法
给予聚类的方法

一维聚类的方法包括两个步骤：将连续属性的只用聚类算法（knn)进行聚类，然后对得到的簇，合并簇

knn算法实现
```
  from  sklearn.cluster import KMeans
  kmodel = KMeans(n_cluster=k,n_jobs=4)#n_jobs是并行数一般等于cpu数
```

数据规约

为了降低无效数据对建模的影响，提高建模的准确性

降低存储数据的成本

方法：逐步向前选择，逐步向后删除，决策树归纳和主成分析前三种是直接删除不相关属性，后一种属于用于连续属性的数据降维，通过构造原始数据的正交变换

主成分析（PCA）算法在python中位于

    sklearn.decomposition,PCA(n_components = None,copy=True,whiten=False)
    n_components代表所要保留的主成成分个数n没有时默认为none 类型为int或string
    copy类型bool  是否在运算法时将原始训练数据复制一份
    whiten类型bool 白化使每个特征具有相同的方差