相关性分析

作者: 羽恒 | 来源:发表于2017-12-03 18:49 被阅读23次

    知识点普及

    • 相关系数:相关系数是变量间关联程度的最基本测度之一(判定相关性标准)
    • 相关性分析:是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法
    • 基本特征:
      • 方向
        正相关: 两个变量变化方向相同
        负相关: 两个变量变化方向相反
      • 量级
        低度相关: 0 <= |r| < 0.3
        中度相关: 0.3 <= |r| < 0.8
        高度相关: 0.8 <= |r| <= 1
    • 计算公式
      相关系数计算公式

    样例代码

    #!/usr/bin/env python
    # coding=utf-8
    
    import numpy 
    
    X =  [
        12.5,33.4,56,3,13.22,34.4,
        10.3,23.3,35,6,22.1,44.3
    ]
    
    Y = [
        23.1,44.6,77.5,33,89,89,
        58.9,8.08,55.7,78,1,22
    ]
     
    # 均值
    XMean = numpy.mean(X)
    YMean = numpy.mean(Y)
    
    #标准差
    XSD = numpy.std(X)
    YSD = numpy.std(Y)
    
    # Z分数计算
    ZX = (X-XMean)/(XSD)
    ZY = (Y-YMean)/(YSD)
    
    #相关系数计算
    r = numpy.sum(ZX*ZY)/(len(X))
    print (r)
    
    #numpy自带相关系数计算方法
    print (numpy.corrcoef(X,Y))
    
    #pandas自带相关系数计算方法
    import pandas as pd 
    data =  pd.DataFrame({
        'X':X,
        'Y':Y
    })
    
    print (data.corr())
    
    
    相关性分析的缺点"安斯库姆四重奏"

    安斯库姆四重奏(Anscombe's quartet)是四组基本的统计特性一致的数据,但由它们绘制出的图表则截然不同。每一组数据都包括了11个(x,y)点。这四组数据由统计学家弗朗西斯·安斯库姆(Francis Anscombe)于1973年构造,他的目的是用来说明在分析数据前先绘制图表的重要性,以及离群值对统计的影响之大。


    我是阿羽,一枚正在学习的搬砖小工,希望大家多多指教!

    相关文章

      网友评论

        本文标题:相关性分析

        本文链接:https://www.haomeiwen.com/subject/echzbxtx.html