美文网首页
数据清洗

数据清洗

作者: 一月芷 | 来源:发表于2019-02-20 12:28 被阅读10次

数据清洗:删除原始数据集中的无关数据,重复数据,平滑噪声数据,处理缺失值和异常值

缺失值的处理:删除记录 数据插补 不处理

拉格朗日插值法:
但插值节点增减时差值多项随之变化,计算量大

牛顿插值法 :

python的scipy库中提供了拉格朗日插值法

函数lagrange()

数据变换

简单函数变换:平方 开方 取对数 差分运算

简单函数变换常用来将不具有正态分布的数据变换成具有正态分布的数据

用对数变换可以将非平稳序列转换成平稳序列 也可以用对数变换对数据进行压缩

数据规范化

为了消除指标之间量纲和取值范围的影响,将数据按照比例进行缩放是指落在一定特定的区域

最小-最大规范化:对原始数据的线性变换 将数值映射在[0,1]之间

公式

x^*=(x-min)/(max-min)

零均值规范化经过处理后的数据均值为0,标准差为1

x=(x-x1)/n(x1为数据的平均值,n为原始数据的标准差)

小数定标规范化

通过移动属性值的小数点将其映射在[-1,1]之间,移动的小数值取决于属性值绝对值的最大值

连续属性离散化

  • 等宽法

  • 等频法

  • 给予聚类的方法

    一维聚类的方法包括两个步骤:将连续属性的只用聚类算法(knn)进行聚类,然后对得到的簇,合并簇

    knn算法实现

      from  sklearn.cluster import KMeans
      kmodel = KMeans(n_cluster=k,n_jobs=4)#n_jobs是并行数一般等于cpu数
    

数据规约

为了降低无效数据对建模的影响,提高建模的准确性

降低存储数据的成本

方法:逐步向前选择,逐步向后删除,决策树归纳和主成分析 前三种是直接删除不相关属性,后一种属于用于连续属性的数据降维,通过构造原始数据的正交变换

主成分析(PCA)算法在python中位于

    sklearn.decomposition,PCA(n_components = None,copy=True,whiten=False)
    n_components代表所要保留的主成成分个数n没有时默认为none 类型为int或string
    copy类型bool  是否在运算法时将原始训练数据复制一份
    whiten类型bool 白化使每个特征具有相同的方差

数据清洗:删除原始数据集中的无关数据,重复数据,平滑噪声数据,处理缺失值和异常值

缺失值的处理:删除记录 数据插补 不处理

拉格朗日插值法:
但插值节点增减时差值多项随之变化,计算量大

牛顿插值法 :

python的scipy库中提供了拉格朗日插值法

函数lagrange()

数据变换

简单函数变换:平方 开方 取对数 差分运算

简单函数变换常用来将不具有正态分布的数据变换成具有正态分布的数据

用对数变换可以将非平稳序列转换成平稳序列 也可以用对数变换对数据进行压缩

数据规范化

为了消除指标之间量纲和取值范围的影响,将数据按照比例进行缩放是指落在一定特定的区域

最小-最大规范化:对原始数据的线性变换 将数值映射在[0,1]之间

公式

x^*=(x-min)/(max-min)

零均值规范化经过处理后的数据均值为0,标准差为1

x=(x-x1)/n(x1为数据的平均值,n为原始数据的标准差)

小数定标规范化

通过移动属性值的小数点将其映射在[-1,1]之间,移动的小数值取决于属性值绝对值的最大值

连续属性离散化

  • 等宽法

  • 等频法

  • 给予聚类的方法

    一维聚类的方法包括两个步骤:将连续属性的只用聚类算法(knn)进行聚类,然后对得到的簇,合并簇

    knn算法实现

      from  sklearn.cluster import KMeans
      kmodel = KMeans(n_cluster=k,n_jobs=4)#n_jobs是并行数一般等于cpu数
    

数据规约

为了降低无效数据对建模的影响,提高建模的准确性

降低存储数据的成本

方法:逐步向前选择,逐步向后删除,决策树归纳和主成分析 前三种是直接删除不相关属性,后一种属于用于连续属性的数据降维,通过构造原始数据的正交变换

主成分析(PCA)算法在python中位于

    sklearn.decomposition,PCA(n_components = None,copy=True,whiten=False)
    n_components代表所要保留的主成成分个数n没有时默认为none 类型为int或string
    copy类型bool  是否在运算法时将原始训练数据复制一份
    whiten类型bool 白化使每个特征具有相同的方差

相关文章

  • 第三章-数据预处理

    数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。 3.1数据清洗 数据清洗主要是删除原始数据集中的...

  • 2019-09-14 分析lianjia数据(四)——Power

    分析lianjia房源数据(一)——Python数据清洗 分析lianjia房源数据(二)——SPSS数据清洗 分...

  • 2019-10-03 分析lianjia数据(五)——生成词云图

    分析lianjia房源数据(一)——Python数据清洗 分析lianjia房源数据(二)——SPSS数据清洗 分...

  • 2019-08-19 分析lianjia数据(三)——SPSS数

    前置内容——lianjia数据清洗 分析lianjia房源数据(一)——Python数据清洗 分析lianjia房...

  • 数据清洗的步骤是什么(上)

    数据清洗工作是数据分析工作中不可缺少的步骤,这是因为数据清洗能够处理掉肮脏数据,如果不清洗数据的话,那么数据分析的...

  • 机器学习-数据清洗

    本文由brzhang发表 数据清洗 首先,为何需要对数据进行清洗 数据清洗的工作绝壁是非常枯燥的,做数据研究的的人...

  • 数据清洗

    从两个角度上看,数据清洗一是为了解决数据质量问题,二是让数据更适合做挖掘。不同的目的下分不同的情况,也都有相应的解...

  • 数据清洗

    数据清洗 重复数据处理(推荐使用顺序) 数据透视表可统计数据重复次数和重复数据 选中A、B两列,点击插入选项卡-数...

  • 数据清洗

  • 数据清洗

    数据清洗是指对提供的原始数据进行一定的加工,使得其方便后续的特征抽取。其与特征抽取的界限有时也没有那么明确。常用的...

网友评论

      本文标题:数据清洗

      本文链接:https://www.haomeiwen.com/subject/thzcyqtx.html