参考书 《白话统计学》
相关系数变量间关联的基本测度之一。
相关系数的两个基本特征:
- 方向
- 强度或量级
方向
相关系数可正可负
- 正相关
- 负相关
强度
相关系数的强度为-1.00 ~ +1.00 。越接近两端,两个变量的关系就越强,完全负相关时系数为-1,完全正相关时系数为+1
皮尔逊相关系数
image每一个个体的一个变量取值乘以另一个变量取值之后,再对所有样本求和,然后除以样本容量,得到平均交叉乘积,就是协方差,协方差标准化后得到相关系数,上图公式是在计算乘积之前将变量标准化。
相关系数能表示什么
可以帮助确定,一个变量平均而言,是否与另一个变量相关联。
在这里注意的是:
相关并不代表因果,
相关仅仅意味着一个变量的变动对应于另一个变量的变动,而因果意味着一个变量的取值变动,导致了另一个变量取值的变动
统计显著相关
样本数据中发现的相关,是否代表了总体中两个变量存在关系,也就是说相关系数是否有统计显著,首先做出假设:
image
如果想用t检验来检验样本的相关系数是否显著异于零,那t检验的公式就是:
样本相关系数r减去总体相关系数的假设值,零假设中等于零,分母是样本相关系数的标准误。
相关系数的标准误计算:
image
代入之后的t值计算公式:
image
自由度等于样本对象数减去2
决定系数
在探究两个变量是否相关,其实研究的是:一个变量取值的变异是否与另一个变量取值的变异有某种程度的关联。
相关系数回答的就是:已知一个变量的取值,能否据此了解另一个变量取值的一些信息。
两个彼此相关的变量共享一定比例的方差,就叫做可释方差,相关性越强,共享方差的量就越大。
共享方差或者可释方差的精确比例是由相关系数的平方来决定的。
相关系数的平方即所谓的决定系数
网友评论