R语言相关性分析

作者: 小洁忘了怎么分身 | 来源:发表于2020-04-06 14:53 被阅读0次

R语言-相关系数计算(一)
R语言相关性分析
R语言相关性分析
R语言之可视化（31）扫地僧easystats（2）相关性分析
[R语言可视化-精美图形绘制系列]--组内相关性分析
R: 相关系数
R languge correlation plot
R语言网状Meta 分析-原理和实战
R语言meta分析（5）累积Meta分析
R语言meta分析（7）诊断性meta分析（meta4diag包

花花写于2020-04-06，TCGA和R包都学完了，开始学些统计学知识。收集了一些资料，statquest在B站有了中英字幕版（直接搜索statquest即可），也有成套的中文学习笔记可供参考，学习难度下降了不少。
笔记链接：https://www.yuque.com/biotrainee/biostat

1.示例数据

x1：R语言内置数据集iris的前4列。 x2：R语言内置数据集state.x77

x = iris[,-5]
x2 = state.x77

state.x77列名的含义：
Population：截至1975年7月1日的人口估计
Income：人均收入（1974）
Illiteracy：文盲率（1970年，占人口百分比）
Life Exp：预期寿命（1969-71年）
Murder：每10万人的谋杀和非过失杀人率（1976）
HS Grad 高中毕业生百分比（1970）
Frost：首都或大城市中最低温度低于冰点（1931-1960）的平均天数
Area：土地面积（平方英里）

2.协方差

使用cov()函数计算。

关于协方差：cov(x,y)>0,表示x、y的变化为正趋势，<0为负趋势，＝0为无趋势。协方差对数据的变化范围敏感，无法反应变化趋势的强弱和离散程度，但它是一些高级分析的基石。

cov(x$Sepal.Length,x$Petal.Length)
#> [1] 1.274315
cov(x)
#>              Sepal.Length Sepal.Width Petal.Length Petal.Width
#> Sepal.Length    0.6856935  -0.0424340    1.2743154   0.5162707
#> Sepal.Width    -0.0424340   0.1899794   -0.3296564  -0.1216394
#> Petal.Length    1.2743154  -0.3296564    3.1162779   1.2956094
#> Petal.Width     0.5162707  -0.1216394    1.2956094   0.5810063
pheatmap::pheatmap(cov(x))

image.png

3.相关

3.1计算相关性系数

cor函数可计算三种相关性系数：pearson,kendall和spearman,默认是pearson。pearson是参数检验，需要两个向量均服从正态分布。另外两个为非参数检验。

输入值为两个向量

cor(x$Sepal.Length,x$Petal.Length)
#> [1] 0.8717538
cor(x$Sepal.Length,x$Petal.Length,method = "kendall")
#> [1] 0.7185159
cor(x$Sepal.Length,x$Petal.Length,method = "spearman")
#> [1] 0.8818981

-输入值为一个数值型数据框/矩阵

cor(x)
#>              Sepal.Length Sepal.Width Petal.Length Petal.Width
#> Sepal.Length    1.0000000  -0.1175698    0.8717538   0.8179411
#> Sepal.Width    -0.1175698   1.0000000   -0.4284401  -0.3661259
#> Petal.Length    0.8717538  -0.4284401    1.0000000   0.9628654
#> Petal.Width     0.8179411  -0.3661259    0.9628654   1.0000000
pheatmap::pheatmap(cor(x))

image.png

可见，计算的结果是x的4个变量（4列）两两之间的相关性。

3.2 相关系数的显著性检验

cor.test(x$Sepal.Length,x$Petal.Length)
#> 
#>  Pearson's product-moment correlation
#> 
#> data:  x$Sepal.Length and x$Petal.Length
#> t = 21.646, df = 148, p-value < 2.2e-16
#> alternative hypothesis: true correlation is not equal to 0
#> 95 percent confidence interval:
#>  0.8270363 0.9055080
#> sample estimates:
#>       cor 
#> 0.8717538
cor.test(x$Sepal.Length,x$Petal.Length,method = "kendall")
#> 
#>  Kendall's rank correlation tau
#> 
#> data:  x$Sepal.Length and x$Petal.Length
#> z = 12.647, p-value < 2.2e-16
#> alternative hypothesis: true tau is not equal to 0
#> sample estimates:
#>       tau 
#> 0.7185159
cor.test(x$Sepal.Length,x$Petal.Length,method = "spearman")
#> Warning in cor.test.default(x$Sepal.Length, x$Petal.Length, method =
#> "spearman"): Cannot compute exact p-value with ties
#> 
#>  Spearman's rank correlation rho
#> 
#> data:  x$Sepal.Length and x$Petal.Length
#> S = 66429, p-value < 2.2e-16
#> alternative hypothesis: true rho is not equal to 0
#> sample estimates:
#>       rho 
#> 0.8818981

cor.test函数还有一个alternative参数，表示单边/双边检验。有三个取值：“two.sided”（双边检验）， “less”， “greater”。相关性系数大于0时，应使用greater；小于0时，应使用less；如果不指定，则默认“two.sided”。

4.偏相关

即在控制一个或多个其他变量时，两个变量之间的相互关系。（这里的变量都应是连续型变量）

控制某个变量，指的是排除该变量的影响。被控制的变量称为条件变量。

使用ggm::pcor()函数来计算。用法为：pcor(u, S)。

u为一个表示列号的向量，前两个元素为研究对象，其他元素是条件变量。例如c(1,2,4,5),表示在控制4、5列的条件下，研究1和2列的相关性。
S 是协方差矩阵

举个栗子

人口数量（第一列）和收入水平（第二列）都可能影响文盲率（第三列），如果直接分别计算相关性的话：

cor(x2[,1],x2[,3])
#> [1] 0.1076224
cor(x2[,2],x2[,3])
#> [1] -0.4370752

相关系数约为0.1和-4.3。控制其中一个变量计算另一个变量的影响，结果则不同。

#install.packages("ggm")
library(ggm)
#在控制收入的条件下，人口数量对文盲率的影响
pcor(c(1,3,2),cov(x2))
#> [1] 0.2257943
#在控制人口的条件下，收入对文盲率的影响
pcor(c(2,3,1),cov(x2))
#> [1] -0.4725271

偏相关系数为0.2和-0.47，相比原来，绝对值大了一些。

同样的道理，控制收入、文盲率的影响，研究人口与谋杀率的偏相关性：

pcor(c(1,5,2,3),cov(x2))
#> [1] 0.3621683

偏相关性的显著性检验

pcor.test(pcor(c(2,3,1),cov(x2)),q=3,n=50)
#> $tval
#> [1] -3.596675
#> 
#> $df
#> [1] 45
#> 
#> $pvalue
#> [1] 0.0007972922

用法为：pcor.test(r, q, n)

r是偏相关性计算结果，q是变量数，n是样本数，在帮助文档中有描述。

网友评论

R语言编程进阶

本文标题：R语言相关性分析

本文链接：https://www.haomeiwen.com/subject/rivmphtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！