Principal Component Analysis
一、主成分分析的直观解释
例子:能否把这个数据的6个变量编程一两个综合变量
利用降维的思想,在损失很少信息的前提下,把多个指标转化为少数几个综合指标的多元统计方法。
把转化生成的综合指标称之为主成分,每个主成分都是原始变量的线性组合,且各个主成分之间互不相关(之前的各个维度可能信息有冗余),这就使主成分比原始变量具有某些更优越的性能。
总结:降维。希望降完丢失信息不要太多(约束条件),希望降维变换不要太麻烦。
主成分与原始变量之间有如下基本关系:
每一个主成分都是各原始变量的线性组合;主成分的数目大大少于原始变量的数目;主会场能分保留了原始变量绝大多数信息;各主成分之间互不相关。
求解主成分的过程,就是求满足上述原则的原始变量的线性组合的过程。
二、主成分分析的性质
1、协方差矩阵的性质
主成分就是,用协方差矩阵的特征向量对原始向量进行线性变换
2、主成分的性质
通常所取m使累积贡献率达到85%以上为宜。
碎石图是一种可以帮助确定主成分合适个数的可视化软件。
从协方差矩阵和从相关矩阵得到的主成分是不同的。
三、主成分分析的步骤
设有n个样品,每个样品有p个指标,共得到np个数据:
四、应用注意事项
常用R语言做主成分相关的统计分析。
princomp函数
summary
loadings
predict
推荐书:《使用多元统计分析》
网友评论