一句话总结PCA
核心:向重构误差最小(方差最大)的方向做线性投影。
PCA是一种数据降维和去除相关性的方法,它通过线性变换将向量投影到低维空间。对向量进行投影就是让向量左乘一个矩阵得到结果向量,这是线性代数中讲述的线性变换: y = Wx 降维要确保的是在低维空间中的投影能很好的近似表达原始向量,即重构误差最小化。下图是主分量投影示意图:

在上图中样本用红色的点表示,倾斜的直线是它们的主要变化方向。将数据投影到这条直线上即完成数据的降维,把数据从2维降为1维。计算最佳投影方向时求解的最优化问题为:

最后归结为求协方差矩阵的特征值和特征向量:

PCA是一种无监督的学习算法,它是线性模型,不能直接用于分类和回归问题。
网友评论