Data, Models and Decisions in Bu

作者: 真依然很拉风 | 来源:发表于2018-08-20 00:28 被阅读8次

版权所有。转载请保留作者和原文链接信息。

随机变量

随机变量是统计学最基本的研究对象,是各种定理、模型、推断的基础。

概率

概率是用来衡量随机变量发生某个事件的可能性大小,是一个介于0到1的数。

期望

期望是随机变量取各个可能值的加均平均值,权重就是取各个值的概率。
对于离散型随机变量:
E(X) = \sum_{i=1}^{n}X_i*P(X=x_i)
对于连续型随机变量:
E(X) = \int_{-\infty}^{+\infty}xf(x)dx
这是概率密度函数f(x)x乘积的积分,可以理解f(x)dx是在x点处的概率,积分就是累加的过程,所以无论离散型变量和连续型变量,本质都是一样的,都是概率与随机变量的加权平均值。

方差与标准差

Var(X) = E([X-E(X)])= \\ \sum_{i=1}^{n}P(X=x_i)*|x_i-E(X)|^2=\\ E(X^2)-E^2(X)
上面的方差的定义和基本公式。注意到期望是概率的加权平均值,而不是简单的算术平均值,只有随机变量取各个值都是等可能的时候,期望才等价于算术平均值。此时随机变量总体方差E(X)=\frac{\sum_{i=1}^n(X-E(X))^2}{n}

总体方差与样本方差有一个差异在于:总体方差除以n,样本方差是除以n-1。为什么会有这种差异?因为样本应为总体的无偏估计,由于样本量总是小于总体量,方差有偏小的趋势,为了使样本方差无偏(即多次抽样的样本方差的期望等于总体方差),将分母n减小成n-1;为什么是n-1,可以见参考资料。

样本空间和事件

样本空间指的是随机变量全部可能的取值范围,事件是指随机变量取样本空间中的特定值的组合。清晰地理解样本空间,及取每一个值的概率,就可以计算事件发生的概率。一个事件可由多个子事件复合而成,这个逻辑包含基本的与、或、非,对应着基本的概率计算属性,比如:
P(A \cup B) = P(A)+P(B)-P(A \cap B)
尽管这条公式很简单,但是在基本的数据处理与数据构建中有重要意义:在统计学中划分是指将样本空间拆分成若干个互斥的子集,所以数据分析中指标拆解、维度拆分必须都保证互斥,否则指标和概率无法累加,而且有重叠的部分无法消除混淆、清晰解释。

条件概率

涉及到概率的专业术语有先验概率后验概率,区别在于同一个事件在是否有额外的信息(条件)下发生的可能性大小。在有更多的信息输入下,对某个事件发生与否的概率会更为确定,这是条件概率(后验概率)与先验概率的区别。
P(A/B) = P(A \cap B)/P(B)
这是基本的条件概率定义公式,也是贝叶斯定理的基础。

贝叶斯定理

根据条件概率定义,可以推导出贝叶斯公式
P(A/B)= P(A \cap B)/P(B)=\frac{P(A)*P(B/A)}{P(B)}
意即只要知道P(A)P(B)以及任一个条件概率,及可计算出另一个条件概率。
全概率公式:若B_1,B_2...B_n是B的一个划分,则
P(A)=\sum_{i=1}^{n}P(A/B_i)*P(B_i)
根据全概率公式可以计算出贝叶斯公式的分母,从而计算出条件概率。

贝叶斯定理的意义在于根据先验概率求后验概率,而这个后验概率就是推断的依据,比如朴素贝叶斯分类器就是一种常见的机器学习分类模型。

独立

在统计学中独立是指事件之间没有联系,一件事件是否发生或者变化完全不影响别一个事件。独立随机变量的一个基本性质在于:
P(A \cap B) = P(A)*P(B)
从公式上看,可以理解成对于一起发生的独立事件,可以单独拆开分开计算;这样可以把一个复杂抽象的问题拆解成多个简单、清晰、可解释性强且互不影响的多个问题。

那么如何判断变量之间是否独立?
一般来说从业务的角度判断是否独立,从数据的角度上也有统计方法来作独立性检验(比如卡方分布。)

参考资料

相关文章

网友评论

    本文标题:Data, Models and Decisions in Bu

    本文链接:https://www.haomeiwen.com/subject/pmohiftx.html