在机器学习领域,我们会对原始数据进行特征提取,有时候会得到较高维的特征向量。
这些高维数据有很多的多余以及噪声。可以通过降维的方式,降低训练数据的复杂度
主成分分析(PCA)作为降维中最经典的方法。它属于一种线性,非监督,全局降维的方式。
如何定义主成分?从这种定义出发,如何设计目标函数使得降维达到提取主成分的目的?针对这个目标函数,如何对PCA问题进行求解?
pca主要的目的就是找到主成分,并利用这些主成分表征这些原始数据,从而达到降维的目的
举一个例子,在三维空间中有系列数据点,但是想表示这个些点的话就需要三维坐标了,但是这些点只出现在二维平面上,如果我们可以通过旋转坐标的,那么我们就可以通过x和y
两个维度表达原始数据,并且不会有任何的损失。
这样就完成了数据降维,而x 和y
就是我们需要找到的主成分。
我们先从简单的二维数据来看pca是如何进行工作的
![](https://img.haomeiwen.com/i16715697/03d0770211748d88.png)
在信号处理领域中,我们认为信号具有较大的方差,而噪声具有较小的方差,信号与噪声比称为信噪比,信噪比越大意味着数据质量越好。当然信噪比越小意味着数据质量越差。
所以我们可以得出pca的目标
网友评论