美文网首页产品数据分析程序员@IT·互联网
【从零开始的AI学习】如何判断两个数据之间的相关性?

【从零开始的AI学习】如何判断两个数据之间的相关性?

作者: P与N的协奏 | 来源:发表于2017-07-03 06:47 被阅读5495次
演示文稿1.jpg

隔壁老王为何频频出入我家?天天加班却为何从未加薪?孩子天天要交补习费成绩却从未提高?这一切的背后,是现实的无奈还是有着不可告人的秘密?看似不相关的两件事情背后到底有着怎样的黑幕?

欢迎观看《从零开始的AI学习》系列文章之皮尔逊相关值!

大家好,我是黄瀚星,今天挖一个新的坑,给大家分享人工智能的相关知识。

今天的主题是,皮尔逊相关系数,也叫简单相关系数,在统计分析上具有举足轻重的地位。

如果你是一个互联网产品经理,想知道什么样的内容用户会喜欢。
如果你是一个金融分析师,想知道国家政策与金融衍生品之间价格涨跌的关系。
如果你是一个创业者,想知道产品的销售量与广告投放效果之间的关系。
……

这些都可以用简单相关系数来进行分析,应用场景非常广泛。

别看它叫“简单”相关系数,但来头可一点也不小,发明者是英国数学家,数理统计学的创立者卡尔·皮尔逊(Karl Pearson。1857~1936),

他被誉为现代统计科学的创立者,代表作品是《科学入门》,而且这位大神不光有着牛逼的头脑,还有着英俊的外表,赶紧膜拜一下~


什么是皮尔逊相关值

那么什么是皮尔逊相关值呢?

皮尔逊相关值是相关分析的一种,简单来说,就是比较两组数据之间的是否具有强烈的关联性,如果数据A在增大的同时,数据B也在增大,那么数据A和数据B增大的比例关系,就可以用皮尔逊相关值来表示,他的公式为:


如果你看不懂这个复杂的公式也不要紧,只需要知道,皮尔逊相关系数的结果总是落在-1和1之间就可以了。
结果为正数时表示两个变量成正相关,即一个变量增大时另一个变量也增大,比如气温越高,冷饮的销量就越多,这是正相关关系;
结果为负数时两个变量呈负相关,即一个变量增大时另一个变量减小,例如海拔越高时,空气中的氧气含量就越少。
如果为0,则表示两个变量不为线性关系,有可能两者不相关,但也有可能两者有更加复杂的关系。

相关性的强弱大致可以按照如下分布来进行判定:
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

那么,我们要如何计算皮尔逊相关值呢?如果你的数据只有很少的一部分,或者身为学霸的你想深刻的了解公式的原理,可以用手工套用公式进行计算。
但如果数据量很大,或者刚刚开始接触数据挖掘的初学者,你可以选择更加简便的方式,一分钟快速算结果。

如何用SPSS计算皮尔逊相关值

我们可以使用IBM公司的专业数据分析工具SPSS来快速进行相关值计算,这里我用的是MAC版本的SPSS V23。

接下来我们举一个简单的例子,以某班级学生的考试成绩与平时做题量来分析,讲解一下SPSS计算皮尔逊相关值的操作,看看这两者之间的相关系数有多少。

1、首先,打开SPSS,在列表中的竖排输入需要计算相关性的变量。


2、在功能菜单中选择“分析”-“相关”-“双变量”


3、把变量从左边勾选到右边的窗口中,相关系数选择“皮尔逊”


4、点击确定就可以看到结果了,这里我们可以看到相关性为0.93,属于极强相关,看来题海战术还是有一定作用的。


5、如果要绘制图表的话,可以直接点击“图形”-“旧对话框”-“散点图”,再在弹出的对话框中选择“简单散点图”即可,因为我们的数据只有两个,所以二维的简单散点图非常适合。



6、点击“定义”之后,会弹出设置X和Y坐标的页面,我们把考试成绩作为Y轴,做题量作为X轴来进行显示,点击确定。


7、然后,SPSS就会自动生成散点图,你可以在这个窗口点击导出,把分析结果作为你的PPT内容的一部分。


使用皮尔逊相关值需要注意的点

任何工具都不是万能钥匙,无法解决所有的情况,皮尔逊相关值也是如此,在使用过程中,需要注意以下几点:

1、皮尔逊的结果只能说两者有相关关系,但不一定是因果关系
举例来说,哥哥和弟弟的身高有着近似的关系,哥哥的身高很高,那么弟弟的身高很高的可能性也很大,这两者用皮尔逊来计算会产生很高的相关性。
但并不意味着弟弟身材高大是因为哥哥,而是二者有着共同的父母,是父母的基因决定了哥哥和弟弟的身高。

2、皮尔逊相关值不适合数据量非常小的计算
假设我们想要计算的样本数据只有一例,那么很有可能得到不准确的结论,也就是说公式的分子和分母必须不为零,相关系数才有意义。

3、皮尔逊相关值不能计算所有的变量都一致的数据
道理和上面的一样,因为标准差需要大量不同的数据取取值,算出相关性,如果数据值一样就无法进行计算了。

皮尔逊相关值的应用场景举例

1、互联网领域应用——产品推荐算法

假设现在有3个用户对123三种产品的喜好程度,分别用-5~5来表示,最低为-5,最高为5,我们用皮尔逊计算三个用户之间的相似性。


计算之后得到如下结果


可以看出,用户1与用户2之间存在着显著相关的特点,即用户1喜欢的东西,用户2喜欢的可能性也很大,而用户1与用户3则完全是截然相反的类型,对产品的喜好完全不同。

那么,当你上架了一个新的商品时,用户1很快就购买并给出了4分的评价,而用户2和用户3都还没看到新上架的商品,这时候你知道应该把这个产品推荐给谁更有可能促成销售了吧。

2、金融领域应用——外汇货币对相关性分析

假设我们需要查看美元指数与欧元、英镑、日元之间在过去三个星期时间内的走势关联性,以此来作出买卖外汇的交易决策,就可以使用皮尔逊相关值进行分析。

输入过去15天内的价格涨跌幅


通过SPSS进行分析之后得到如下结论:


欧元与美元指数呈强烈的负相关关系,当美元指数涨时,欧元兑美元会下跌,反之亦然,而且可以看出涨的幅度与跌的幅度相近。也就是说,当美元指数下跌时,就可以买入欧元获利。

英镑与美元指数的关系为强负相关,英镑的走势与美元指数的涨跌也有一定的关联,但并不如欧元那么强烈。

日元与美元指数为中等程度的正相关,而与英镑的价格走势关系为0.99,几乎没有关联性。

最后说几句

皮尔逊相关值的应用场景远远不止这些,大家尽可以脑洞大开,把看似不想关的数据关联起来,查看关联性是否足够强。

比如,是时候搞清楚这个问题了,吃木瓜与丰胸之间到底有没有关联性,我们分析统计妹纸吃木瓜的数量与cup大小之间的关联性,如果真的是强关联的话,就可以嘿嘿嘿✧(≖ ◡ ≖)~

好了,今天的分享就到这里,想知道具体的数据结果吗?

赶紧点击关注啊!

相关文章

  • 【从零开始的AI学习】如何判断两个数据之间的相关性?

    隔壁老王为何频频出入我家?天天加班却为何从未加薪?孩子天天要交补习费成绩却从未提高?这一切的背后,是现实的无奈还是...

  • 数据的相关分析

    相关分析两个事物,表示为X和Y, 如何判断它们之间的存在相关性? X增大, Y增大,两个变量正相关 X增大, Y减...

  • T-test——T检验

    前面几节内容,我们了解了在回归分析中,如何判断变量之间的相关性——计算R2,如何判断相关的真实性——计算F值和P值...

  • 挖掘数据内部联系:相关性分析

    原文链接: 挖掘数据内部联系:相关性分析 相关性表示的是两个观测的数据向量之间的变化关系。一般来讲研究对象(样品或...

  • 7.数据降维--相关性系数的筛选

    一、原理 pandas中使用corr()这个函数,可以查看数据之间的相关性,检查两个变量之间变化趋势的方向以及程度...

  • 相关性分析的TIPS

    相关性分析 tips:相关性分析不要局限在数值型数据和数值型数据之间(散点图),还有其他的相关性可供分析: 1.数...

  • 相关性分析 | R语言 -- 相关性矩阵及可视化

    什么是相关矩阵? 相关矩阵 又称 相关性矩阵 之前,我们描述了如何在两个变量之间进行相关性测[https://ww...

  • 相关性热图

    关于相关性,表示数据之间的相互依赖关系。但需要注意,数据具有相关性不一定意味着具有因果关系。 相关性在组学数据挖掘...

  • 【现学现忘&Shell编程】— 40.Shell中的条件判断(三

    5、两个整数之间比较 通过下表来学习下如何在两个整数之间进行比较(常用): 测试选项作用整数1 -eq 整数2判断...

  • R - 相关性分析

    相关性分析用于评估两个或多个变量之间的关联性。 1. 两个变量的相关性分析 参数相关性检验( parametric...

网友评论

  • 4df707834657:把复杂的统计学说得这样简明易懂。高手!高手!高高手!

本文标题:【从零开始的AI学习】如何判断两个数据之间的相关性?

本文链接:https://www.haomeiwen.com/subject/ltcacxtx.html