PCA简述
PCA是一种较为常用的降维技术,PCA的思想是将n维特征映射到k维上,这维是全新的正交特征。这维特征称为主元,是重新构造出来的维特征。在PCA中,数据从原来的坐标系转换到新的坐标系下,新的坐标系的选择与数据本身是密切相关的。其中,第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选取的是与第一个坐标轴正交且具有最大方差的方向,依次类推,我们可以取到这样的个坐标轴。
步骤
去平均值,即每一位特征减去各自的平均值
计算协方差矩阵
计算协方差矩阵的特征值与特征向量
对特征值从大到小排序
保留最大的k个特征向量
将数据转换到k个特征向量构建的新空间中
协方差矩阵
协方差可以用来描述特征之间的相关性,如果结果为正值,则说明两者是正相关的。其定义与方差类似
协方差矩阵是一个半正定矩阵,是一个对称矩阵,定义为
求特征值和特征向量
网友评论