美文网首页
python数据分析与挖掘实战笔记

python数据分析与挖掘实战笔记

作者: ICDI_z | 来源:发表于2018-01-24 17:12 被阅读0次

    第四章,数据预处理:

    1,  数据预处理的过程主要包括:数据清洗,数据集成,数据转换和数据规约。

    2,牛顿插值法: https://www.zhihu.com/question/22320408/answer/141973314

    3 ,  数据规范化:

    3.1 最小最大规范化

    3.2 零-均值规范化

    σ 为标准差

    3.3 小数定标规范化

    K为数据绝对值最大的以10为底的次幂的向上取整。

    4,常用的离散化方法:

    4.1 等宽法

    4.2 等频法

    4.3 基于聚类分析的方法Kmeans

    5,  数据规约:

    意义:

    1, 降低无效,错误数据对建模的影响,提高建模的准确性

    2, 少量且具有代表性的数据架将大幅度缩减数据挖掘所需的时间

    3, 降低存储数据的成本

    6,属性规约常见方法:

    注:主成分分析是一种用于连续属性的数据降维方法,它构造了原始数据的一个正交变换,新空间的基底去除了原始空间基底下数据的相关性,只需使用少数新变量就能够解释原始数据中的大部分变异。

    主成分分析步骤:

    7,数值规约

    数值规约指通过选择代替的,较小的数据来减少数据量,包含有参数和无参数方法两类。有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放数据,例如回归(线性回归和多元回归)和对数线性模型(近似离散属性集中的多维概率分布)。无参数方法就需要存放实际的数据,例如直方图,聚类,抽样。

    7.1 直方图

    7.2 聚类

    7.3 抽样

        7.3.1 s个样本无放回简单随机抽样

        7.3.2 s个样本有放回简单随机抽样

        7.3.3聚类抽样

        7.3.4 分层抽样

      7.4参数回归

    8,python主要数据预处理函数

    相关文章

      网友评论

          本文标题:python数据分析与挖掘实战笔记

          本文链接:https://www.haomeiwen.com/subject/npwuaxtx.html