主成分分析是对原始数据进行一个线性变换,将具有相关性的变量转化为互不交互的新变量,并达到降维的效果。
主成分分析可以对协方差矩阵或相关系数矩阵进行分析;其结果可以用来削减回归分析和聚类分析中变量的数目。
成分选择:Kaiser主张(1960)将特征值小于1的成分放弃;
成功标准:如果能用不超过3-5个成分就能解释数据80%方差信息。
iris_pca<-princomp(iris[,-5],cor = T,scale=T)
summary(iris_pca, loadings=TRUE)
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation 1.7083611 0.9560494 0.38308860 0.143926497
Proportion of Variance 0.7296245 0.2285076 0.03668922 0.005178709
Cumulative Proportion 0.7296245 0.9581321 0.99482129 1.000000000
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4
Sepal.Length 0.521 -0.377 0.720 0.261
Sepal.Width -0.269 -0.923 -0.244 -0.124
Petal.Length 0.580 -0.142 -0.801
Petal.Width 0.565 -0.634 0.524
Standard deviation:标准差
Proportion of Variance:方差比例(每个主成分解释的信息量)
Cumulative Proportion:主成分解释信息累计百分比
石子图:一般选择特征值大于1的变量数作为PC个数
screeplot(iris_pca,type = "line")
iris_predict<-predict(iris_pca)
plot(iris_predict[,c(1,2)])
biplot(iris_pca,choices=1:2,scale=1)
Paste_Image.png
聚类:
kmeans(iris_pca$scores[,c(1,2)],3)
网友评论