一. 主成分分析
1.1 主成分分析概述
image.png如果变量方差很小,也就是样本集中该变量的变化幅度不大,变量对结果的影响也不大。其实可以不考虑变量,从而达到了降维的目的。
剔除以后的其余变量如果贡献了整体方差的85%-90%及以上,剩余的变量就可以代表整体的样本集,从而达到降维的目的。
当然也可以使用x1+x2 或者 x1 - x2 这种组合变量。
1.2 主成分分析的直观几何意义
image.png通过对原始变量进行线性组合,得到优化的指标
把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)
基本思想:
设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标。
1.3 例子
还是以之前身高体重的例子为例
代码:
x1=c(171,175,159,155,152,158,154,164,168,166,159,164)
x2=c(57,64,41,38,35,44,41,51,57,49,47,46)
plot(x1, x2, xlim = c(145,180), ylim = c(25,75))
lines(c(150,178), c(33,66)); text(180,68,"y1")
lines(c(161,168), c(60,38)); text(161, 63, "y2")
image.png
二. 因子分析
2.1 因子分析概述
因子分析:
主成分分析的推广和发展
其实就是把变量组合起来一起看
例如学习成绩,可以分为理科、文科、体育等
因子分析的主要用途:
- 减少分析变量的个数
- 通过对变量间相关关系的探测,将原始变量分组,即将相关性高的变量氛围一组,用共性因子来代替该变量
- 使问题背后的业务因素的意义更加清晰呈现
与主成分分析的区别:
2.2 应用
员工绩效考核指标设计:
image.png image.png
网友评论