美文网首页
-0.1- 两个随机变量的相关性、独立性、两个概率分布之间的相似

-0.1- 两个随机变量的相关性、独立性、两个概率分布之间的相似

作者: emm_simon | 来源:发表于2020-04-20 14:27 被阅读0次

[相关性检验参考link]
[独立性检验参考link]
[分布的相似性参考link]

-1- 两随机变量相关性检验

前提背景:有两个随机变量:一拨15岁同龄人群,他们三年后的高考成绩X、十三年后的月收入Y。现在考虑这两个随机变量的相关性:会不会高考成绩越高的人,步入社会后的月收入也越高?这两个随机变量之间有没有明显的相关性?

-1.1- 皮尔森(线性)相关系数

皮尔森相关系数(Pearson Correlation Coefficient)也叫皮尔森积差相关系数(Pearson Product-Moment Correlation Coefficient),是用来反映两个随机变量 相关程度的统计量。
注意⚠️这里只是说两个变量之间的相关性,并不一定是因果关系,也有可能在客观世界中是一因的两果,比如努力程度(因)决定的高考数学成绩(随机变量X-果1)和高考理综成绩(随机变量Y-果2)。
或者说用来计算两个向量的相似度,用于在基于向量空间的文本分类、用户喜好推荐系统中的应用。
皮尔逊相关系数的计算公式如下:
\begin{equation}\begin{split} \rho_{X,Y} &= \frac {cov(X, Y)} {\sigma_{X}\sigma_{Y}}\\ &= \frac {E((X - \mu_X)·(Y - \mu_Y))} {\sigma_{X}·\sigma_{Y}} \\ &= \frac {E(XY)-E(X)·E(Y)} {\sqrt{E(X^2)-E^2(X)}·\sqrt{E(Y^2)-E^2(Y)}} \end{split}\end{equation}
其中:
* cov(X, Y)是协方差
* \sigma_{X}\sigma_{Y}是两个变量标准差的乘积,显然要求随机变量X、Y的标准差都不能为0。

当两个变量的线性关系增强时,相关系数趋于-11,正相关时趋于1,负相关时趋于-1
当两个变量相互独立时,相关系数为0,但反之不成立

* 相关系数为0,并不一定是两个随机变量相互独立
比如,两个随机变量X、Y满足y_i = x_i^2,X服从[-1, +1]上的均匀分布,此时:
E(X, Y) = 0E(X) = 0,所以:
\rho_{X,Y} = \frac{cov(X, Y)}{\sigma_{X}\sigma_{Y}}= 0

但是,X、Y满足y_i = x_i^2,明显不是两个互相独立的随机变量。所以不相关独立不能划等号。
YX服从联合正态分布时,其不相关独立是可以划等号的。

* 居中变量的相关系数 & 样本集合向量间夹角的cosin函数
什么是居中随机变量?对样本集中的每一个样本,减去它们的均值,这样处理后的样本均值就是0,我们称之为居中随机变量
对于居中的数据来说,我们有E(X) = E(Y) = 0,此时有:
\begin{equation} \begin{split} \rho_{X,Y} &= \frac {cov(X, Y)} {\sigma_{X}·\sigma_{Y}} \\ &= \frac {E((X-\mu_X)·(Y-\mu_Y))} {\sigma_X·\sigma_Y} \\ &= \frac {E(XY)-E(X)·E(Y)} {\sqrt{E(X^2)-E^2(X)}·\sqrt{E(Y^2)-E^2(Y)}}\\ &= \frac {E(XY)}{\sqrt{E(X^2)}·\sqrt{E(Y^2)}} \\ &= \frac {\frac{1}{N}\sum_{i=1}^{N}{x_i·y_i}}{\sqrt{\frac{1}{N}\sum_{i=1}^{N}{x_i^2}}·\sqrt{\frac{1}{N}\sum_{i=1}^{N}{y_i^2}}}\\ &= \frac {\sum_{i=1}^{N}{x_i·y_i}}{\sqrt{\sum_{i=1}^{N}{x_i^2}}·\sqrt{\sum_{i=1}^{N}{y_i^2}}}\\ &= \frac {\overrightarrow{X}·\overrightarrow{Y}}{||\overrightarrow{X}||*{||\overrightarrow{Y}||}}\\ &= cos(\theta_{\overrightarrow{X},\overrightarrow{Y}}) \end{split} \end{equation}

即:\rho_{X,Y} = cos(\theta_{\overrightarrow{X},\overrightarrow{Y}}),两个随机变量的相关系数可以看作是其样本集向量间夹角的cosin()函数。

进一步,当样本向量归一化后,有||\overrightarrow{X}|| = ||\overrightarrow{Y}|| = 1
此时,相关系数即为两个向量的点积:\rho_{X,Y} = cos(\theta_{\overrightarrow{X},\overrightarrow{Y}}) = \overrightarrow{X} ·\overrightarrow{Y}

-1.2- 秩相关系数

常用的秩相关系数有:Spearman秩相关系数、Kendal秩相关系数。这里我们着重讲Spearman秩相关系数。

上面我们讲到了Pearson线性相关系数

-2- 两随机变量独立性检验

-3- 两个概率分布的相似性

相关文章

  • -0.1- 两个随机变量的相关性、独立性、两个概率分布之间的相似

    [相关性检验参考link][独立性检验参考link][分布的相似性参考link] -1- 两随机变量相关性检验 前...

  • 概率和数理统计

    1. 事件的关系与运算 2. 概率的基本公式 3. 事件的独立性 4. 随机变量及其概率分布 随机变量及概率分布:...

  • 大数据中的统计学基础——Day5

    本章内容: 导数与微积分公式 二维随机变量、联合分布 多维随机变量、边缘分布 条件分布 随机变量之间的独立性 一、...

  • 概率论与数理统计—二维随机变量

    二维随机变量 边缘概率密度 条件分布 相互独立的随机变量 两个随机变量的函数的分布、卷积公式 (一)Z=X+Y的分...

  • 协方差矩阵

    协方差的定义 在统计学上,协方差用来刻画两个随机变量之间的相关性,反映的是变量之间的二阶统计特性,两个随机变量Xi...

  • 概率论概念列举

    一、随机变量及其分布 1、随机变量、概率 2、离散型随机变量,分布率, 3、概率: (1)逆事件 (2)概率的加法...

  • 2018-06-25

    客观概率 不断的重复采样 主观概率 贝叶斯概率贝叶斯公式(重要) 随机变量 随机变量概率分布二项式的随机变量分布 ...

  • loss函数之KLDivLoss

    KL散度 KL散度,又叫相对熵,用于衡量两个分布(离散分布和连续分布)之间的距离。 设 、 是离散随机变量的两个概...

  • 145、Python实现概率分布

    一、概率分布概率分布,是概率论的基本概念之一,主要用以表述随机变量取值的概率规律。为了使用的方便,根据随机变量所属...

  • Python实现概率分布

    概率分布基础 概率分布,是概率论大的基本概念之一,主要用以表述随机变量取值的概率规律。为了使用的方便,根据随机变量...

网友评论

      本文标题:-0.1- 两个随机变量的相关性、独立性、两个概率分布之间的相似

      本文链接:https://www.haomeiwen.com/subject/htqdihtx.html