美文网首页产品数据分析程序员@IT·互联网
【从零开始的AI学习】如何判断两个数据之间的相关性?

【从零开始的AI学习】如何判断两个数据之间的相关性?

作者: P与N的协奏 | 来源:发表于2017-07-03 06:47 被阅读5495次
    演示文稿1.jpg

    隔壁老王为何频频出入我家?天天加班却为何从未加薪?孩子天天要交补习费成绩却从未提高?这一切的背后,是现实的无奈还是有着不可告人的秘密?看似不相关的两件事情背后到底有着怎样的黑幕?

    欢迎观看《从零开始的AI学习》系列文章之皮尔逊相关值!

    大家好,我是黄瀚星,今天挖一个新的坑,给大家分享人工智能的相关知识。

    今天的主题是,皮尔逊相关系数,也叫简单相关系数,在统计分析上具有举足轻重的地位。

    如果你是一个互联网产品经理,想知道什么样的内容用户会喜欢。
    如果你是一个金融分析师,想知道国家政策与金融衍生品之间价格涨跌的关系。
    如果你是一个创业者,想知道产品的销售量与广告投放效果之间的关系。
    ……

    这些都可以用简单相关系数来进行分析,应用场景非常广泛。

    别看它叫“简单”相关系数,但来头可一点也不小,发明者是英国数学家,数理统计学的创立者卡尔·皮尔逊(Karl Pearson。1857~1936),

    他被誉为现代统计科学的创立者,代表作品是《科学入门》,而且这位大神不光有着牛逼的头脑,还有着英俊的外表,赶紧膜拜一下~


    什么是皮尔逊相关值

    那么什么是皮尔逊相关值呢?

    皮尔逊相关值是相关分析的一种,简单来说,就是比较两组数据之间的是否具有强烈的关联性,如果数据A在增大的同时,数据B也在增大,那么数据A和数据B增大的比例关系,就可以用皮尔逊相关值来表示,他的公式为:


    如果你看不懂这个复杂的公式也不要紧,只需要知道,皮尔逊相关系数的结果总是落在-1和1之间就可以了。
    结果为正数时表示两个变量成正相关,即一个变量增大时另一个变量也增大,比如气温越高,冷饮的销量就越多,这是正相关关系;
    结果为负数时两个变量呈负相关,即一个变量增大时另一个变量减小,例如海拔越高时,空气中的氧气含量就越少。
    如果为0,则表示两个变量不为线性关系,有可能两者不相关,但也有可能两者有更加复杂的关系。

    相关性的强弱大致可以按照如下分布来进行判定:
    0.8-1.0 极强相关
    0.6-0.8 强相关
    0.4-0.6 中等程度相关
    0.2-0.4 弱相关
    0.0-0.2 极弱相关或无相关

    那么,我们要如何计算皮尔逊相关值呢?如果你的数据只有很少的一部分,或者身为学霸的你想深刻的了解公式的原理,可以用手工套用公式进行计算。
    但如果数据量很大,或者刚刚开始接触数据挖掘的初学者,你可以选择更加简便的方式,一分钟快速算结果。

    如何用SPSS计算皮尔逊相关值

    我们可以使用IBM公司的专业数据分析工具SPSS来快速进行相关值计算,这里我用的是MAC版本的SPSS V23。

    接下来我们举一个简单的例子,以某班级学生的考试成绩与平时做题量来分析,讲解一下SPSS计算皮尔逊相关值的操作,看看这两者之间的相关系数有多少。

    1、首先,打开SPSS,在列表中的竖排输入需要计算相关性的变量。


    2、在功能菜单中选择“分析”-“相关”-“双变量”


    3、把变量从左边勾选到右边的窗口中,相关系数选择“皮尔逊”


    4、点击确定就可以看到结果了,这里我们可以看到相关性为0.93,属于极强相关,看来题海战术还是有一定作用的。


    5、如果要绘制图表的话,可以直接点击“图形”-“旧对话框”-“散点图”,再在弹出的对话框中选择“简单散点图”即可,因为我们的数据只有两个,所以二维的简单散点图非常适合。



    6、点击“定义”之后,会弹出设置X和Y坐标的页面,我们把考试成绩作为Y轴,做题量作为X轴来进行显示,点击确定。


    7、然后,SPSS就会自动生成散点图,你可以在这个窗口点击导出,把分析结果作为你的PPT内容的一部分。


    使用皮尔逊相关值需要注意的点

    任何工具都不是万能钥匙,无法解决所有的情况,皮尔逊相关值也是如此,在使用过程中,需要注意以下几点:

    1、皮尔逊的结果只能说两者有相关关系,但不一定是因果关系
    举例来说,哥哥和弟弟的身高有着近似的关系,哥哥的身高很高,那么弟弟的身高很高的可能性也很大,这两者用皮尔逊来计算会产生很高的相关性。
    但并不意味着弟弟身材高大是因为哥哥,而是二者有着共同的父母,是父母的基因决定了哥哥和弟弟的身高。

    2、皮尔逊相关值不适合数据量非常小的计算
    假设我们想要计算的样本数据只有一例,那么很有可能得到不准确的结论,也就是说公式的分子和分母必须不为零,相关系数才有意义。

    3、皮尔逊相关值不能计算所有的变量都一致的数据
    道理和上面的一样,因为标准差需要大量不同的数据取取值,算出相关性,如果数据值一样就无法进行计算了。

    皮尔逊相关值的应用场景举例

    1、互联网领域应用——产品推荐算法

    假设现在有3个用户对123三种产品的喜好程度,分别用-5~5来表示,最低为-5,最高为5,我们用皮尔逊计算三个用户之间的相似性。


    计算之后得到如下结果


    可以看出,用户1与用户2之间存在着显著相关的特点,即用户1喜欢的东西,用户2喜欢的可能性也很大,而用户1与用户3则完全是截然相反的类型,对产品的喜好完全不同。

    那么,当你上架了一个新的商品时,用户1很快就购买并给出了4分的评价,而用户2和用户3都还没看到新上架的商品,这时候你知道应该把这个产品推荐给谁更有可能促成销售了吧。

    2、金融领域应用——外汇货币对相关性分析

    假设我们需要查看美元指数与欧元、英镑、日元之间在过去三个星期时间内的走势关联性,以此来作出买卖外汇的交易决策,就可以使用皮尔逊相关值进行分析。

    输入过去15天内的价格涨跌幅


    通过SPSS进行分析之后得到如下结论:


    欧元与美元指数呈强烈的负相关关系,当美元指数涨时,欧元兑美元会下跌,反之亦然,而且可以看出涨的幅度与跌的幅度相近。也就是说,当美元指数下跌时,就可以买入欧元获利。

    英镑与美元指数的关系为强负相关,英镑的走势与美元指数的涨跌也有一定的关联,但并不如欧元那么强烈。

    日元与美元指数为中等程度的正相关,而与英镑的价格走势关系为0.99,几乎没有关联性。

    最后说几句

    皮尔逊相关值的应用场景远远不止这些,大家尽可以脑洞大开,把看似不想关的数据关联起来,查看关联性是否足够强。

    比如,是时候搞清楚这个问题了,吃木瓜与丰胸之间到底有没有关联性,我们分析统计妹纸吃木瓜的数量与cup大小之间的关联性,如果真的是强关联的话,就可以嘿嘿嘿✧(≖ ◡ ≖)~

    好了,今天的分享就到这里,想知道具体的数据结果吗?

    赶紧点击关注啊!

    相关文章

      网友评论

      • 南国红豆_a1e6:把复杂的统计学说得这样简明易懂。高手!高手!高高手!

      本文标题:【从零开始的AI学习】如何判断两个数据之间的相关性?

      本文链接:https://www.haomeiwen.com/subject/ltcacxtx.html