十一.PCA案例分析及小结

作者: 愿风去了 | 来源:发表于2018-10-24 21:58 被阅读85次

PCA用做噪音过滤的方法——任何成分的方差都远大于噪音的方差，相对于噪音，主成分相对不受到影响。

因此，仅利用主成分的最大子集重构该数据，那么应该就可以实现选择性保留信号并且过滤噪音。

首先，定义一个创建输入的函数用于显示无噪音数据集：

创造一组包含噪声的手写数字图像集：

用噪音数据集训练一个PCA，要求投影后保留50%的方差：

这里的50%的方差对应12个主成分。接下来利用逆变换重构过滤后的手写数字：

去噪后手写数字

这个信号保留/噪音过滤性质是PCA一种非常有用的特征选择方式。

对于高维数据，可以利用PCA该性质在将数据投影到低维空间，然后进行分类器训练，在此过程中，该分类器将自动过滤输入数据中的随即噪音。

主成分分析是一个应用广泛的无监督方法，适用于数据可视化、噪音过滤、特征抽取和特征工程领域，主要用于数据降维。

对于高维数据，可以从PCA分析开始，可视化点间方差关系。

缺点：

（1）容易受到异常数据点影响，介于此，一些优化方法也被开发出来，如RandomizedPCA和SparePCA：

RandomizedPCA使用了一个非确定方法，快速近似计算一个高维度数据的前几个主成分；

SparePCA引入正则项来保证成分的稀疏性。

（2）除此之外，PCA一般只能处理线性分布的数据。

对于非线性数据，通常选择另一种方法——流形学习。

网友评论

本文标题：十一.PCA案例分析及小结

本文链接：https://www.haomeiwen.com/subject/kzcftqtx.html

十一.PCA案例分析及小结