1. PCA 定义

PCA（主成成分分析）是将输入特征转换为其主成分的系统化方式。这些主成分作为在分类或回归任务中新特征。

主成分的定义是数据中会使方差最大化的方向，它是在对特征数据执行投影或压缩时，最大化的降低信息丢失。

可对主成分划分等级。主成分等级越高，产生的方差越大。产生方差最大的主成分即为第一主成分。产生方差第二大的成分即为第二主成分。依次类推。

主成分在某种意义上是垂直的。因此从数学的角度出发，第一主成分不会与第二个主成分重叠。同样第二于第三也不会重叠。在某种意义上可作为单独的特征对待。

主成分数量上有限的。该最大值等于输入的特征数量。通常情况下只用到前面几个主成分。

2. 何时使用PCA

在什么情况下会用到PCA？

第一种情况是：想要访问隐藏的特征。简单说就是想知道第一个主成分的大小。

第二种情况是：降维。PCA 可以执行很多工作，能在降维上提供帮助。如下：

1. 可视化高纬数据。当需要画散点图时，通常情况下只有 x 和 y 两个轴，即两个维度。但数据集中通常不止两个特征，能做的就是投射到两个主成分，然后画出散点图。

2. 减少噪音。数据集中几乎都存在噪音。在PCA中捕获的第一、第二主成分为数据中真正的模式，而较小的主成分只表示噪音。实际中会抛弃较小的主成分。

3. 预处理。在使用另一个算法之前，对数据进行预处理。如果数据有很高的维度，而且算法也比较复杂。这导致运行比较慢，因此可食用PCA维度。