机器学习入门笔记系列（10） | 降维算法--主成分分析算法(P

作者: 胖三斤66 | 来源:发表于2018-10-01 16:57 被阅读52次

机器学习入门笔记系列（10） | 降维算法--主成分分析算法(P
5 主成分分析PCA
降维算法应用——PCA算法
Python机器学习（四）：PCA 主成分分析
机器学习(七)：PCA主成分分析和案例实现
PCA主成份分析
机器学习--无监督--PCA主成分分析
sklearn的常用函数以及参数——3. 聚类算法&降维算法
降维算法之PCA
无监督第一节：PCA 详细介绍及 kernal PCA ,pro

主成分分析(PCA, Principal Component Analysis)

主成分分析算法(PCA)是最流行的降维（降低维度）的算法。降维就是将高维特征 $x_1, x_2, .., x_n$ 映射到低维度特征 $z_1, z_2, ..., z_k$ ，其中 $k \leq n$ 。

降维的好处主要有 3 个：

数据压缩，减小数据所占内存或者硬盘空间；
降低运算量，提高机器学习的速度；
将数据维度降至三维或者二维，可以对数据可视化。

PCA 工作内容

PCA 所做的就是找到一个低维( $k \leq n$ )子空间对数据进行投影，然后数据由该数据在投影空间的投影向量表示，同时 PCA 会最小化投影误差。其中，「投影误差」是所有的数据点到该投影线的距离之和。

用公式解释「投影误差」，假设 $x^{(i)}$ 投影到低维子空间中的点 $x_{approx}^{(i)}$ ，那么「投影误差」 $= \sum^{m}_{i=1} ||x^{(i)} - x_{approx}^{(i)}||^2$

二维降至一维空间

以二维降至一维空间为例，PCA 所做的是找到一条投影线，使得所有的数据点到该投影线的距离之和最小。最后，每个样本表示从二维 $(x_1^{(i)}, x_2^{(i)})$ 变为一维 $z_1^{(i)}$ 。

PCA 计算

Step1：数据预处理，对对 $x^{(i)}_j$ 进行特征缩放 / 均值归一化；

Step2：计算协方差矩阵； $Sigma = \frac{1} {m} \sum_{m}^{i=1}(x^{(i)})(x^{(i)})^T = \frac{1} {m} X^T X$

Step3：计算协方差矩阵的特征向量，其中 svd()函数是奇异值分解， $Sigma \in \mathbb{R}^{n*n},U \in \mathbb{R}^{n*n} ,S \in \mathbb{R}^{n*n}$ ； $[U, S, V] = svd(Sigma)$

Step4：取矩阵 U 的前 k 列并计算 $z^{(i)}$ 来表示 $x^{(i)}$ ，其中 $z^{(i)} \in \mathbb{R}^{k*1}，x^{(i)} \in \mathbb{R}^{n*1}$ 。
$z^{(i)} = U_{reduce}^T x^{(i)} = U(:,1:k)^T x^{(i)} = \begin{bmatrix} | & | & ... & |\\ u^{(1)} & u^{(2)} & ... & u^{(k)}\\ | & | & ... & | \end{bmatrix}^T \begin{bmatrix} x_1^{(i)}\\ x_2^{(i)}\\ ...\\ x_n^{(i)} \end{bmatrix}$

用下图总结一下整个计算过程：

PCA 计算过程

下面用 MATLAB 代码表示 PCA 计算过程：

Sigma = (1/m) * X' * X; % compute the covariance matrix
[U,S,V] = svd(Sigma);   % compute our projected directions
Ureduce = U(:,1:k);     % take the first k directions
Z = X * Ureduce;        % compute the projected data points

涉及数学知识比较难，这里就暂时不解释原理。

主成分的数量 k 值的选取

如何选择主成分的数量 k ？

k 值选取公式

通过上图的公式选取出来的 k 值，它保留 99% 差异性，即降维后依旧保持着原本维度数据 99% 的变化情况，因此这样的降维改变并不会有多少影响。就分类的精确度而言，数据降维后对学习算法几乎没有什么影响。

一般，k 值选取是保留 99% 差异性，还有一个常用的是保留 95%、90% 差异性。

但如果实际上，一个一个遍历 k 值并重新计算上述公式，这种选取方法比较慢且运算量大。那么有没有一种更好的方法呢？

当然有啦！PCA 计算过程 Step3，得到矩阵 S，利用矩阵 S 来选择 k 值。通过遍历 k 值，选取满足 $1 - \frac{\sum_{i=1}^k S_{ii}} {\sum_{i=1}^n S_{ii}} \leq 0.01$ 的 k 值。这种方法还不需要重新计算矩阵 S。

K 值选取的实际算法

降维后恢复

如果我们使用PCA来压缩我们的数据，那么，如何解压我们的数据且回到原始数据？

降维后恢复

需要注意的是， $x_{approx}^{(i)}$ 就是之前所说的原始点投影在投影空间上的点，故此 $x_{approx}^{(i)}$ 与 $x_^{(i)}$ 有一定的误差。

应用：为机器学习提速

在机器学习中，使用 PCA 给数据降维可以减小运算量从而达到提高机器学习速度的功能。

需要注意的是，在训练集中运用了 PCA 将 $z^{(i)} \rightarrow x_{train}^{(i)}$ ，那么在验证集和测试集都要运用 PCA 。

而企图因为 PCA 能够降维，希望借此达到解决过拟合问题的想法是错误的。

总之，PCA 在为机器学习提速应用效果很好；而 PCA 在处理过拟合问题效果很差，处理过拟合问题还是要用正则化。

建议

一开始不要将 PCA方法就直接放到算法里，先使用原始数据 $x^{(i)}$ 看看效果。

只有一个原因可以考虑使用 PCA：学习算法收敛地非常缓慢且占用内存或者硬盘空间非常大，那么就考虑用 PCA 来进行压缩数据。

总结

参考文献

吴恩达机器学习 week8

机器学习入门笔记系列（10） | 降维算法--主成分分析算法(P
主成分分析(PCA, Principal Component Analysis) 主成分分析算法(PCA)是最流行...
5 主成分分析PCA
主成分分析(PCA)是最常见的降维算法。 PCA是非监督的机器学习算法主要用于数据的降维其他应用：可视化、去噪...
降维算法应用——PCA算法
之前总结了聚类算法，然后我们这一课来简单学习一下降维算法，常用的降维算法有PCA算法。主成分分析 Princip...
Python机器学习（四）：PCA 主成分分析
主成分分析法是一个非监督的机器学习算法，主要用于数据的降维。通过降维，可以发现更便于人类理解的特征。求解目标主...
机器学习(七)：PCA主成分分析和案例实现
一、算法简介主成分分析(Principal Component Analysis，简称PCA)算法是降维中最常用...
PCA主成份分析
原理 PCA主成分分析是一种非监督机器学习算法，主要用于数据的降维，相较于knn线性回归这两个监督学习的算法，其理...
机器学习--无监督--PCA主成分分析
PCA, Principal Components Analysis主成分分析是针对高维复杂数据降维的常用算法。 ...
sklearn的常用函数以及参数——3. 聚类算法&降维算法
聚类算法 1. knn算法 2.Kmeans算法 3. 层次聚类 4. DBSCAN 降维算法 1. 主成分分析法...
降维算法之PCA
机器学习降维算法
无监督第一节：PCA 详细介绍及 kernal PCA ,pro
1.PCA 主成分分析（Principal Component Analysis，PCA）是非常经典的降维算法，属...