知识点普及
- 相关系数:相关系数是变量间关联程度的最基本测度之一(判定相关性标准)
- 相关性分析:是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法
-
基本特征:
-
方向
正相关:
两个变量变化方向相同
负相关:
两个变量变化方向相反 -
量级
低度相关:
0 <= |r| < 0.3
中度相关:
0.3 <= |r| < 0.8
高度相关:
0.8 <= |r| <= 1
-
方向
-
计算公式
相关系数计算公式
样例代码
#!/usr/bin/env python
# coding=utf-8
import numpy
X = [
12.5,33.4,56,3,13.22,34.4,
10.3,23.3,35,6,22.1,44.3
]
Y = [
23.1,44.6,77.5,33,89,89,
58.9,8.08,55.7,78,1,22
]
# 均值
XMean = numpy.mean(X)
YMean = numpy.mean(Y)
#标准差
XSD = numpy.std(X)
YSD = numpy.std(Y)
# Z分数计算
ZX = (X-XMean)/(XSD)
ZY = (Y-YMean)/(YSD)
#相关系数计算
r = numpy.sum(ZX*ZY)/(len(X))
print (r)
#numpy自带相关系数计算方法
print (numpy.corrcoef(X,Y))
#pandas自带相关系数计算方法
import pandas as pd
data = pd.DataFrame({
'X':X,
'Y':Y
})
print (data.corr())
相关性分析的缺点"安斯库姆四重奏"
安斯库姆四重奏(Anscombe's quartet)是四组基本的统计特性一致的数据,但由它们绘制出的图表则截然不同。每一组数据都包括了11个(x,y)点。这四组数据由统计学家弗朗西斯·安斯库姆(Francis Anscombe)于1973年构造,他的目的是用来说明在分析数据前先绘制图表的重要性,以及离群值对统计的影响之大。
我是阿羽,一枚正在学习的搬砖小工,希望大家多多指教!
网友评论