「量学堂-8」成也相关系数，败也相关系数

作者: 小狸投资 | 来源:发表于2017-05-16 20:51 被阅读171次

「量学堂-8」成也相关系数，败也相关系数
皮尔森系数与斯皮尔曼等级相关系数在生物信息学上的使用
R语言相关性的度量
[数学建模第5.5讲] 斯皮尔曼相关系数
[数学建模第五讲] 皮尔逊相关系数
相关系数
python note
Pearson相关、Spearman相关、Kendall相关
【简单掌握】不同基因表达间的相关系数计算及作图
【Excel系列】Excel数据分析：相关与回归分析

为何cov和corrcoef函数返回的都是矩阵？

协方差矩阵是统计学中的一个重要概念。人们通常所说两个变量的协方差，实际上只是协方差矩阵中的一个元素。对于一个n*m的样本矩阵（n为变量个数，m为变量包含的样本点个数），得出的协方差矩阵C是n*n的矩阵，协方差矩阵每个元素Cij表示的随机变量Xi, Xj的协方差。矩阵的对角线表示变量本身的方差（即Cov(X,X)或Var(X)）。协方差矩阵是基于对角线对称的。

现在让我们来可视化展现一下变量之间（假设为 X 和 Y ）正相关的例子：

进一步地，我们通过增大“噪声”的偏离程度，来降低变量间的相关程度：

下面的例子展示了变量之间存在负相关的情形：

相关性的局限

1、显著性

当变量不服从正态分布时，很难严格界定相关性是否显著（还起作用）。拿上例来说，苹果和泛林集团的相关系数接近1时，可以认为在选取的时间范围内，它们的股价是相关的，但并不能保证未来是否依然满足相关性。

同时，如果我们将这两只股票分别于标普500指数进行相关分析，也将得到很强的相关性。因此我们能够得出结论是：和平均股价（指标普500）的相关性比较，苹果和泛林集团的相关性略高。

根本问题在于，选择正确的时间段能够很容易地进行相关性数据采集。为了避免这种情况，一种方法是计算这两只股票以往多个历史时期的相关性，同时检测相关系数的分布情况。后续章节会进一步详细说明。上例中我们看到了这两只股票在 2014-1-1 到 2015-1-1这个时间段内的相关系数是0.98。让我们看一下这两只股票“滚动60天期”的相关性，看看它们是如何变化的。

2、非线性关系

相关系数能够用来检测两个变量间的相关程度。然而需要注意的是，变量之间可能以一种非线性、且可预知的方式互相关联影响。这时，相关系数就会显得束手无策。例如，一个变量可能紧随第二个变量的变化而变化，但有一定的延时。又或者是，一个变量可能与另一个变量的变化率相关。这些关系虽然不是线性的，但是如果能够被检测到，还是非常有用的。

另外，相关系数对异常值也是非常敏感的。换句话说，样本集中是否剔除含异常值的样本点，将会导致结果大相径庭。同时也很难界定这些异常样本点本身是有意义的，又或者是纯粹的噪声。

我们来看一个例子，通过使噪声服从泊松分布而非正态分布，我们来看一下会发生什么？

本章总结：相关性是一种强大的分析技术，但是在统计学中，应该时刻警惕小心它的局限性，不要去解释那些无中生有的结果。

「量学堂-8」成也相关系数，败也相关系数
相关系数相关系数是用于衡量两个变量之间，是否存在线性相关。其值范围介于 [-1, 1] 之间，为正则代表正相关 ...
皮尔森系数与斯皮尔曼等级相关系数在生物信息学上的使用
皮尔森相关系数在所有相关系数的计算方法里面，最常见的就是皮尔森相关。皮尔森相关系数也称皮尔森积差相关系数，是一种...
R语言相关性的度量
R可以计算多种相关系数，包括pearson相关系数、Spearman相关系数、Kendall相关系数、偏相关系数、...
[数学建模第5.5讲] 斯皮尔曼相关系数
斯皮尔曼相关系数另一种定义：斯皮尔曼相关系数被定义成等级之间的皮尔逊相关系数。因为把得出的等级当做数据去算皮尔...
[数学建模第五讲] 皮尔逊相关系数
皮尔逊相关系数两种最常用的相关系数：皮尔逊person相关系数和斯皮尔曼spearman等级相关系数。他可以用...
相关系数
定距变量：Pearson相关系数定序变量：Spearman相关系数分类变量：Kendall相关系数
python note
准备相关系数热图 [x] annot: 是否显示相关系数 [x] fmt: 显示相关系数的格式，例如'.2f'...
Pearson相关、Spearman相关、Kendall相关
1、三大相关系数 1.1 Pearson相关系数要理解Pearson相关系数，首先要理解协方差（Covarian...
【简单掌握】不同基因表达间的相关系数计算及作图
相关系数计算：相关系数、P值相关系数作图补充ggcorrplot 更详细的作图细节可参考：https://ww...
【Excel系列】Excel数据分析：相关与回归分析
相关系数 15.1 相关系数的概念著名统计学家卡尔·皮尔逊设计了统计指标——相关系数(Correlation c...