美文网首页
「数据预处理」05数据规约与PCA算法

「数据预处理」05数据规约与PCA算法

作者: 林拂晓 | 来源:发表于2020-01-25 18:49 被阅读0次

1.数据规约

即数据精简,包括属性规约(行)和数值规约(列)。

2.降维

(1)定义:降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,对数据进行预处理的一种方法。

(2)优点:①使得数据集更易使用;

②降低算法的计算开销;

③去除噪声;

④使得结果容易理解。

(3)降维的算法:奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)等。

3.主成份分析PCA算法

(1)主要思想:PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。

(2)步骤:

>一行为一个特征,对每个特征求平均值,用原来的数据减去每个特征的平均值,得到新的中心化之后的数据;

>求特征协方差矩阵;

>根据协方差矩阵,求特征值和特征向量;

>对特征值按照降序顺序排列,相应的也给出特征向量,选择几个主成分,求投影矩阵。

>根据投影矩阵求出我们降维后的数据。

(3)优点:①仅仅需要以方差衡量信息量,不受数据集以外的因素影响。

②各主成分之间正交,可消除原始数据成分间的相互影响的因素。

③计算方法简单,主要运算是特征值分解,易于实现。

(4)缺点:①主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。

②方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。

(5)实例:

PCA算法实例

相关文章

  • 「数据预处理」05数据规约与PCA算法

    1.数据规约 即数据精简,包括属性规约(行)和数值规约(列)。 2.降维 (1)定义:降维是将高维度的数据保留下最...

  • Python数据挖掘005-数据清洗

    数据预处理包括有数据清洗,数据集成,数据转换,数据规约等过程。 数据预处理的目的是提高数据的质量,同时让数据更好的...

  • python数据分析与挖掘实战笔记

    第四章,数据预处理: 1, 数据预处理的过程主要包括:数据清洗,数据集成,数据转换和数据规约。 2,牛顿插值法: ...

  • 3. 数据预处理

    数据预处理主要包括4个部分: 数据清洗 数据集成 数据变换 数据规约 1. 数据清洗 缺失值处理: 删除数据 不处...

  • 主成份分析算法 PCA

    PCA 算法主要是把高维度的数据降为低维度数据。典型地应用包括数据压缩和数据可视化。本文介绍 PCA 算法及其典型...

  • 第三章-数据预处理

    数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。 3.1数据清洗 数据清洗主要是删除原始数据集中的...

  • PCA算法实现

    前言 PCA算法是数据降维中最常用的算法之一,利用PCA算法实现的数据降维能够有效减少算法运行时间和算法对硬件的消...

  • 《Python数据分析与挖掘实战第四章》(笔记)

    数据预处理的主要内容包括:数据清洗,数据集成,数据变换和数据/规约 原始数据会经常出现缺失的现象,常用的插补的方法...

  • 缺失值处理1

    数据预处理步骤有数据清洗、数据集成、数据变换、数据规约。实际工作中不是每一步都必须。 数据清洗包括缺失值和异常值,...

  • 无监督学习 - 降维 - PCA

    主成分分析 - PCA PCA是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理...

网友评论

      本文标题:「数据预处理」05数据规约与PCA算法

      本文链接:https://www.haomeiwen.com/subject/ybvrthtx.html