这是一种数据压缩的好方法
首先计算均值
然后计算其协方差矩阵
再对协方差矩阵进行特征值分解(SVD分解的特殊情况)
取特征值大的特征向量,作为数据的代表。
则原数据与特征向量的乘积就是元数据在这一方向上的投影(详见线性代数向量点积的意义)
如何从选取的特征向量近似恢复原数据
其实很简单那,将删去的特征向量补0后恢复成原来矩阵的大小,乘一下就OK
确定选取的特征向量的个数
这是复杂度和精确度的折中,可以根据选取的特征向量的个数来衡量复杂度,用特征值与总特征值之比来衡量精确度。
如何使用PCA
将原始数据均值弄到0,归一化方差调为1是一个不错的选择。
网友评论