python数据分析与挖掘实战笔记

作者: ICDI_z | 来源:发表于2018-01-24 17:12 被阅读0次

1, 数据预处理的过程主要包括：数据清洗，数据集成，数据转换和数据规约。

3 , 数据规范化：

3.1 最小最大规范化

3.2 零-均值规范化

σ 为标准差

3.3 小数定标规范化

K为数据绝对值最大的以10为底的次幂的向上取整。

4，常用的离散化方法:

4.1 等宽法

4.2 等频法

4.3 基于聚类分析的方法Kmeans

5, 数据规约：

意义:

1, 降低无效，错误数据对建模的影响，提高建模的准确性

2, 少量且具有代表性的数据架将大幅度缩减数据挖掘所需的时间

3, 降低存储数据的成本

6，属性规约常见方法:

注：主成分分析是一种用于连续属性的数据降维方法，它构造了原始数据的一个正交变换，新空间的基底去除了原始空间基底下数据的相关性，只需使用少数新变量就能够解释原始数据中的大部分变异。

主成分分析步骤：

7，数值规约

数值规约指通过选择代替的，较小的数据来减少数据量，包含有参数和无参数方法两类。有参数方法是使用一个模型来评估数据，只需存放参数，而不需要存放数据，例如回归（线性回归和多元回归）和对数线性模型（近似离散属性集中的多维概率分布）。无参数方法就需要存放实际的数据，例如直方图，聚类，抽样。

7.1 直方图

7.2 聚类

7.3 抽样

7.3.1 s个样本无放回简单随机抽样

7.3.2 s个样本有放回简单随机抽样

7.3.3聚类抽样

7.3.4 分层抽样

7.4参数回归

8，python主要数据预处理函数

网友评论

本文标题：python数据分析与挖掘实战笔记

本文链接：https://www.haomeiwen.com/subject/npwuaxtx.html

python数据分析与挖掘实战笔记