-0.1- 两个随机变量的相关性、独立性、两个概率分布之间的相似

作者: emm_simon | 来源:发表于2020-04-20 14:27 被阅读0次

-0.1- 两个随机变量的相关性、独立性、两个概率分布之间的相似
概率和数理统计
大数据中的统计学基础——Day5
概率论与数理统计—二维随机变量
协方差矩阵
概率论概念列举
2018-06-25
loss函数之KLDivLoss
145、Python实现概率分布
Python实现概率分布

[相关性检验参考link]
[独立性检验参考link]
[分布的相似性参考link]

-1- 两随机变量相关性检验

前提背景：有两个随机变量：一拨15岁同龄人群，他们三年后的高考成绩 $X$ 、十三年后的月收入 $Y$ 。现在考虑这两个随机变量的相关性：会不会高考成绩越高的人，步入社会后的月收入也越高？这两个随机变量之间有没有明显的相关性？

-1.1- 皮尔森(`线性`)相关系数

皮尔森相关系数(Pearson Correlation Coefficient)也叫皮尔森积差相关系数(Pearson Product-Moment Correlation Coefficient)，是用来反映两个随机变量 相关程度的统计量。
注意⚠️这里只是说两个变量之间的相关性，并不一定是因果关系，也有可能在客观世界中是一因的两果，比如努力程度(因)决定的高考数学成绩(随机变量 $X$ -果1)和高考理综成绩(随机变量 $Y$ -果2)。
或者说用来计算两个向量的相似度，用于在基于向量空间的文本分类、用户喜好推荐系统中的应用。
皮尔逊相关系数的计算公式如下：
$\begin{equation}\begin{split} \rho_{X,Y} &= \frac {cov(X, Y)} {\sigma_{X}\sigma_{Y}}\\ &= \frac {E((X - \mu_X)·(Y - \mu_Y))} {\sigma_{X}·\sigma_{Y}} \\ &= \frac {E(XY)-E(X)·E(Y)} {\sqrt{E(X^2)-E^2(X)}·\sqrt{E(Y^2)-E^2(Y)}} \end{split}\end{equation}$
其中：
* $cov(X, Y)$ 是协方差
* $\sigma_{X}\sigma_{Y}$ 是两个变量标准差的乘积，显然要求随机变量X、Y的标准差都不能为0。

当两个变量的线性关系增强时，相关系数趋于-1或1，正相关时趋于1，负相关时趋于-1。
当两个变量相互独立时，相关系数为0，但反之不成立。

* 相关系数为0，并不一定是两个随机变量相互独立
比如，两个随机变量X、Y满足 $y_i = x_i^2$ ，X服从 $[-1, +1]$ 上的均匀分布，此时：
$E(X, Y) = 0$ 、 $E(X) = 0$ ，所以：
$\rho_{X,Y} = \frac{cov(X, Y)}{\sigma_{X}\sigma_{Y}}= 0$

但是，X、Y满足 $y_i = x_i^2$ ，明显不是两个互相独立的随机变量。所以不相关和 独立不能划等号。
当 $Y$ 和 $X$ 服从联合正态分布时，其不相关和独立是可以划等号的。

* 居中变量的相关系数 & 样本集合向量间夹角的cosin函数
什么是居中随机变量？对样本集中的每一个样本，减去它们的均值，这样处理后的样本均值就是0，我们称之为居中随机变量。
对于居中的数据来说，我们有 $E(X) = E(Y) = 0$ ，此时有：
$\begin{equation} \begin{split} \rho_{X,Y} &= \frac {cov(X, Y)} {\sigma_{X}·\sigma_{Y}} \\ &= \frac {E((X-\mu_X)·(Y-\mu_Y))} {\sigma_X·\sigma_Y} \\ &= \frac {E(XY)-E(X)·E(Y)} {\sqrt{E(X^2)-E^2(X)}·\sqrt{E(Y^2)-E^2(Y)}}\\ &= \frac {E(XY)}{\sqrt{E(X^2)}·\sqrt{E(Y^2)}} \\ &= \frac {\frac{1}{N}\sum_{i=1}^{N}{x_i·y_i}}{\sqrt{\frac{1}{N}\sum_{i=1}^{N}{x_i^2}}·\sqrt{\frac{1}{N}\sum_{i=1}^{N}{y_i^2}}}\\ &= \frac {\sum_{i=1}^{N}{x_i·y_i}}{\sqrt{\sum_{i=1}^{N}{x_i^2}}·\sqrt{\sum_{i=1}^{N}{y_i^2}}}\\ &= \frac {\overrightarrow{X}·\overrightarrow{Y}}{||\overrightarrow{X}||*{||\overrightarrow{Y}||}}\\ &= cos(\theta_{\overrightarrow{X},\overrightarrow{Y}}) \end{split} \end{equation}$

即： $\rho_{X,Y} = cos(\theta_{\overrightarrow{X},\overrightarrow{Y}})$ ，两个随机变量的相关系数可以看作是其样本集向量间夹角的 $cosin()$ 函数。

进一步，当样本向量归一化后，有 $||\overrightarrow{X}|| = ||\overrightarrow{Y}|| = 1$
此时，相关系数即为两个向量的点积： $\rho_{X,Y} = cos(\theta_{\overrightarrow{X},\overrightarrow{Y}}) = \overrightarrow{X} ·\overrightarrow{Y}$

-1.2- 秩相关系数

常用的秩相关系数有：Spearman秩相关系数、Kendal秩相关系数。这里我们着重讲Spearman秩相关系数。

上面我们讲到了Pearson线性相关系数

-2- 两随机变量独立性检验

-3- 两个概率分布的相似性

-0.1- 两个随机变量的相关性、独立性、两个概率分布之间的相似
[相关性检验参考link][独立性检验参考link][分布的相似性参考link] -1- 两随机变量相关性检验前...
概率和数理统计
1. 事件的关系与运算 2. 概率的基本公式 3. 事件的独立性 4. 随机变量及其概率分布随机变量及概率分布：...
大数据中的统计学基础——Day5
本章内容：导数与微积分公式二维随机变量、联合分布多维随机变量、边缘分布条件分布随机变量之间的独立性一、...
概率论与数理统计—二维随机变量
二维随机变量边缘概率密度条件分布相互独立的随机变量两个随机变量的函数的分布、卷积公式（一）Z=X+Y的分...
协方差矩阵
协方差的定义在统计学上，协方差用来刻画两个随机变量之间的相关性，反映的是变量之间的二阶统计特性，两个随机变量Xi...
概率论概念列举
一、随机变量及其分布 1、随机变量、概率 2、离散型随机变量，分布率， 3、概率：（1）逆事件（2）概率的加法...
2018-06-25
客观概率不断的重复采样主观概率贝叶斯概率贝叶斯公式（重要）随机变量随机变量概率分布二项式的随机变量分布 ...
loss函数之KLDivLoss
KL散度 KL散度，又叫相对熵，用于衡量两个分布（离散分布和连续分布）之间的距离。设、是离散随机变量的两个概...
145、Python实现概率分布
一、概率分布概率分布，是概率论的基本概念之一，主要用以表述随机变量取值的概率规律。为了使用的方便，根据随机变量所属...
Python实现概率分布
概率分布基础概率分布，是概率论大的基本概念之一，主要用以表述随机变量取值的概率规律。为了使用的方便，根据随机变量...