@[toc]
对应分析基本概念
Q型分析:样本之间的关系(聚类算法等)
R型分析:变量之间的关系(主成分分析、因子分析等)。
有时候我们不仅要弄清样本之间和变量之间的关系,还要弄清样本与变量之间的关系,而对应分析就是这样一种分析方法。(变量就是指特征)
对应分析为我们可以提供三个方面的信息
- 变量之间的信息
- 样本之间的信息
- 变量与样本之间的信息
上述三方面信息都可以通过二维图呈现出来
当对两个分类变量进行的对应分析称为简单对应分析;
对两个以上的分类变量进行的对应分析称为多重对应分析。
对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图上,并使联系密切的类别点较集中,联系疏远的类别点较分散;通过观察对应分布图就能直观地把握变量类别之间的联系。
对于该方法,在减少维度方面与因子分析相似,在作分布图方面与多维尺度方法相似。
在对数据作对应分析之前,需要先了解因素间是否独立。如果因素之间相互独立,则没有必要进行对应分析,当因素间在统计学上具有显著的关联性时,在此基础上使用对应分析方法,其分析结果才具有意义。
R语言示例
高 中高 中 中低 低
好 121 57 72 36 21
轻微症状 188 105 141 97 71
中等症状 112 65 77 54 54
受损 86 60 94 78 71
- 首先进行卡方检验,验证两组分类型变量之间是否独立
##my example
X=read.table("test.txt",header=T)#读取test.txt
chisq.test(X) #卡方检验
Pearson's Chi-squared test
data: X
X-squared = 45.594, df = 12, p-value =
8.149e-06
p-value < 0.001,两组变量显著不独立,说明具有相关性。
- 对应分析结果
library(MASS) #加载MASS包
ca1=corresp(X,nf=2)#对应分析
ca1#对应分析结果
First canonical correlation(s): 0.16131842 0.03708777
Row scores:
[,1] [,2]
好 -1.60963036 0.3578469
轻微症状 -0.18259493 0.6086516
中等症状 0.08802881 -1.8862612
受损 1.47098263 0.5310007
Column scores:
[,1] [,2]
高 -1.13377133 -0.4184972
中高 -0.36589975 -0.6051416
中 0.05506891 1.1414935
中低 1.02532006 1.1682280
低 1.78331343 -1.6684803
- 绘制结果
par(mar=c(4,4,3,1),cex=0.8)
biplot(ca1)#双坐标轴图
abline(v=0,h=0,lty=3)#添加轴线














网友评论