相关性分析:
对两个或者多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在存在一定的联系或者概率才可以进行相关性分析。简单来说就是衡量变量之间是否有关系。
和独立性检验的异同:
两者都是检验两个变量之间是否有联系,但独立性检验适合用于因子之间的分析,而相关性分析则适用于连续型变量之间的相关程度的分析。独立性检验得出是否相关,相关性分析得出相关程度如何
相关系数
描述两个定量型变量(数值型变量)之间的相关程度,+-号表示正负相关,大小表示相关程度的强弱。一般相关系数取值范围为0-1
相关系数有多种:
- 1.Pearson相关系数
- 2.Spearman相关系数
- 3.Kendall相关系数
- 4.偏相关系数:控制一个或多个变量时其他两个变量之间的相关性
- 5.多分格(polychoric)相关系数
- 6.多系列(polyserial)相关系数
cor函数计算Pearson相关系数Spearman相关系数和Kendall相关系数
> head(state.x77)#以该数据集为例子
Population Income Illiteracy Life Exp Murder HS Grad Frost Area
Alabama 3615 3624 2.1 69.05 15.1 41.3 20 50708
Alaska 365 6315 1.5 69.31 11.3 66.7 152 566432
Arizona 2212 4530 1.8 70.55 7.8 58.1 15 113417
Arkansas 2110 3378 1.9 70.66 10.1 39.9 65 51945
California 21198 5114 1.1 71.71 10.3 62.6 20 156361
Colorado 2541 4884 0.7 72.06 6.8 63.9 166 103766
> cor(state.x77)#直接将数据集放入cor函数中为默认的皮尔森相关系数
Population Income Illiteracy Life Exp Murder HS Grad
Population 1.00000000 0.2082276 0.10762237 -0.06805195 0.3436428 -0.09848975
Income 0.20822756 1.0000000 -0.43707519 0.34025534 -0.2300776 0.61993232
Illiteracy 0.10762237 -0.4370752 1.00000000 -0.58847793 0.7029752 -0.65718861
Life Exp -0.06805195 0.3402553 -0.58847793 1.00000000 -0.7808458 0.58221620
Murder 0.34364275 -0.2300776 0.70297520 -0.78084575 1.0000000 -0.48797102
HS Grad -0.09848975 0.6199323 -0.65718861 0.58221620 -0.4879710 1.00000000
Frost -0.33215245 0.2262822 -0.67194697 0.26206801 -0.5388834 0.36677970
Area 0.02254384 0.3633154 0.07726113 -0.10733194 0.2283902 0.33354187
Frost Area
Population -0.3321525 0.02254384
Income 0.2262822 0.36331544
Illiteracy -0.6719470 0.07726113
Life Exp 0.2620680 -0.10733194
Murder -0.5388834 0.22839021
HS Grad 0.3667797 0.33354187
Frost 1.0000000 0.05922910
Area 0.0592291 1.00000000
#以上为输出结果
使用ggm包计算偏相关系数:
> cov(state.x77)#首先使用cov函数计算协方差
> library(ggm)#载入ggm包
> pcor(c(5,1,2,3,6),cov(state.x77))#使用pcor函数进行偏相关系数,(5,1,2,3,6)中前两个为代求相关系数的两个向量,后面的数字为固定不变的条件。数字为数据集里列的下标
[1] 0.3462724
网友评论