1.主成分分析(PCA)
主成分分析是寻找一个低纬平面,使得各个数据点到平面的投影距离最小,换句话说,就是寻找K个向量,作为子空间,将数据映射到这个子空间上,则数据的维度转换为K。
如下图所示,三维空间的数据几乎可以看作分布在以恶搞斜面上,则可通过这个斜面上建立一个二维的平面,将数据映射上去,转换为二维空间。
2.主成分分析的原理
主成分分析(Principal Component Analysis,PCA):主成分分析是一种用于连续属性的数据降维方法,它构造了原始数据的一个交换变换,新空间的基地去除了原始空间基底下数据的相关性,只需要使用少数新变量就能够解释原始数据中大部分变量。在应用中通常是选出比原始变量个数少,能够解释大部分数据中的变量的几个新变量,即所谓的主成分,来替代原始变量进行建模。通过线性变化,将原始数据集变化为一组各维度线性无关的表示
3.主成分分析计算步骤
1)设原始变量X1,X2,......Xp的n次观测数据矩阵为:
![](https://img.haomeiwen.com/i14870522/c347d98131a6fc5e.png)
2)将数据矩阵按列进行中心标准化(变量值与平均值的差除以方差),为了方便将标准化后的数据矩阵仍然记为X
3)求相关系数矩阵R
![](https://img.haomeiwen.com/i14870522/069243c7e01233cf.png)
4)求R的特征方程
![](https://img.haomeiwen.com/i14870522/2e454383c20253f9.png)
5)确定主成分的个数
![](https://img.haomeiwen.com/i14870522/c02b15ed1de7c8f1.png)
6)计算m个相应的单位特征向量:
![](https://img.haomeiwen.com/i14870522/83afd8bec2cb30f6.png)
7)计算主成分
网友评论