美文网首页
第十四课 主成分分析法 PCA

第十四课 主成分分析法 PCA

作者: yz_wang | 来源:发表于2016-12-18 15:44 被阅读0次

笔记(原理解释):
http://blog.csdn.net/u012409883/article/details/17091097
形象解释:
http://www.360doc.com/content/13/1124/02/9482_331688889.shtml

PCA是最常用的数据降维方法,数据降维实际上是对输入特征的一次精简。通常来说当我们已经通过数据处理得到了一组变量(特征)之后,我们并不会直接将这些变量输入某种统计模型(比如SVM)。
因为第一,某些变量之间可能存在着某种线性非线性的关系,如果一股脑将全部变量都输入模型可能会影响模型的精度。
第二,变量(特征)数量相对数据条数有可能过大,从而不符合某些模型的需求。打个比方,如果你有100条数据,却有200个特征,那么大多数的模型都回报错,提醒你变量(特征)数量太多。
</br>
主要通过线性变换的方式,将观察变量组合成一些无关独立的变量(主成分),达到特征压缩解释变量的目的。

要点:

  • 怎么降维?
    矩阵相乘可解释为右边矩阵中每一列的向量变换到左边矩阵中每一行行向量为基所表示的空间中去。如果基的数量少于向量本身的维数,就可以达到讲维的效果。
  • 怎么选基?
    如果是一些二维坐标上的点,需要选一个方向向量作为基,将这些点投影上去。为了保留最大化信息,距离不要重叠,越远越好。所以对于N维向量,需要寻找一个K维基,使得所有数据变换为这个基上的坐标表示后,两两字段之间协方差为0,而方差最大。

算法主要分为6个步骤:
1)构建pxn阶的变量矩阵
2)将pxn阶的变量矩阵X的每一行(代表一个属性字段)进行标准化(减去平均值)
(均值化的原因:pca要分析的是数据在各个方向上分布的分散程度,而分散程度是二阶中心矩,不提前均值化算出来的是二阶原点矩,就不能代表分散程度了.)
3)求出协方差矩阵C
4)求出协方差矩阵的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k列组成矩阵P
6)Y=XP即为降维到k维后的数据

相关文章

网友评论

      本文标题:第十四课 主成分分析法 PCA

      本文链接:https://www.haomeiwen.com/subject/qytzmttx.html