主成分分析,Principal Component Analysis
主要作用:1.数据降维 2.数据可视化
一、PCA学习参考资料
-
吴恩达在网易公开课上机器学习课程 第15章节-降维
可以详细了解pca的作用,实现步骤,实践建议等 -
sklearn - PCA
通过对api的学习理解,对pca有更直观的理解
二、PCA原理
高维投影到低维
SVD,Singular Value Decomposition
LAPACK
各变量间存在一定的相关关系,因此有可能用较少的综合指标来综合存在于原指标中的离散信息。
PCA本质上是将方差最大的方向作为主要特征,并且在各个正交方向上将数据“离相关”,也就是让它们在不同正交方向上没有相关性。
三、实践
1.sklearn实现
降维后,特征损失了多少?
explained_variance_ratio_
singular_values_
2.python实现
todo
3.excel实现
todo
四、常见问题
五、随手记
excel:
https://blog.csdn.net/zhongkelee/article/details/44064401
1.方差, (s2) = Σ [(xi - x̅)2]/n - 1
2.协方差, 两组数值x和y的协方差可以用这个公式计算:1/(n -1)Σ(xi - xavg)(yi - yavg)。其中n为样本量,xi是每个x点的取值,xavg为x的平均值,yi和yavg也类似。
协方差矩阵,对角线上分别是x和y的方差,非对角线上是协方差。
协方差大于0表示x和y若一个增,另一个也增;小于0表示一个增,一个减。如果x和y是统计独立的,那么二者之间的协方差就是0;但是协方差是0,并不能说明x和y是独立的。
协方差矩阵?
excel: 对于协方差,covariance.p函数和原先的covar命令完全一样,是定义的协方差,covariance.s就是求的样本协方差,也就是真正需要的协方差.
在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。
最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。
http://www.real-statistics.com/multivariate-statistics/factor-analysis/principal-component-analysis/
http://blog.sina.com.cn/s/blog_62b13cf20101355a.html
网友评论