[相关性检验参考link]
[独立性检验参考link]
[分布的相似性参考link]
-1- 两随机变量相关性检验
前提背景:有两个随机变量:一拨15岁同龄人群,他们三年后的高考成绩
、十三年后的月收入
。现在考虑这两个随机变量的相关性:会不会高考成绩越高的人,步入社会后的月收入也越高?这两个随机变量之间有没有明显的相关性?
-1.1- 皮尔森(线性
)相关系数
皮尔森相关系数(Pearson Correlation Coefficient
)也叫皮尔森积差相关系数(Pearson Product-Moment Correlation Coefficient
),是用来反映两个随机变量
相关程度
的统计量。
注意⚠️这里只是说两个变量之间的相关性,并不一定是因果关系,也有可能在客观世界中是一因的两果,比如努力程度(因)决定的高考数学成绩
(随机变量-果1)和高考理综成绩
(随机变量-果2)。
或者说用来计算两个向量的相似度,用于在基于向量空间的文本分类、用户喜好推荐系统中的应用。
皮尔逊相关系数的计算公式如下:
其中:
*
是协方差
*
是两个变量标准差的乘积,显然要求随机变量X、Y的标准差都不能为0。
当两个变量的线性关系增强时,相关系数趋于
-1
或1
,正相关时趋于1
,负相关时趋于-1
。
当两个变量相互独立时,相关系数为0,但反之不成立
。
*
相关系数为0,并不一定是两个随机变量相互独立
比如,两个随机变量X、Y满足,X服从上的均匀分布,此时:
、,所以:
但是,X、Y满足,明显不是两个互相独立的随机变量。所以不相关
和 独立
不能划等号。
当和服从联合正态分布
时,其不相关
和独立
是可以划等号的。
*
居中变量的相关系数 & 样本集合向量间夹角的cosin函数
什么是居中随机变量?对样本集中的每一个样本,减去它们的均值,这样处理后的样本均值就是0,我们称之为居中随机变量
。
对于居中的
数据来说,我们有,此时有:
即:,两个随机变量的相关系数可以看作是其样本集向量间夹角的函数。
进一步,当样本向量归一化后,有
此时,相关系数即为两个向量的点积:
-1.2- 秩相关系数
常用的秩相关系数有:Spearman秩相关系数、Kendal秩相关系数。这里我们着重讲Spearman秩相关系数。
上面我们讲到了Pearson线性相关系数
网友评论