版权所有。转载请保留作者和原文链接信息。
随机变量
随机变量
是统计学最基本的研究对象,是各种定理、模型、推断的基础。
概率
概率
是用来衡量随机变量发生某个事件的可能性大小,是一个介于0到1的数。
期望
期望
是随机变量取各个可能值的加均平均值,权重就是取各个值的概率。
对于离散型随机变量:
对于连续型随机变量:
这是概率密度函数与乘积的积分,可以理解是在点处的概率,积分就是累加的过程,所以无论离散型变量和连续型变量,本质都是一样的,都是概率与随机变量的加权平均值。
方差与标准差
上面的方差的定义和基本公式。注意到期望是概率的加权平均值,而不是简单的算术平均值,只有随机变量取各个值都是等可能的时候,期望才等价于算术平均值。此时随机变量总体方差
总体方差与样本方差有一个差异在于:总体方差除以n,样本方差是除以n-1。为什么会有这种差异?因为样本应为总体的无偏估计,由于样本量总是小于总体量,方差有偏小的趋势,为了使样本方差无偏(即多次抽样的样本方差的期望等于总体方差),将分母减小成;为什么是,可以见参考资料。
样本空间和事件
样本空间
指的是随机变量全部可能的取值范围,事件
是指随机变量取样本空间中的特定值的组合。清晰地理解样本空间,及取每一个值的概率,就可以计算事件发生的概率。一个事件可由多个子事件复合而成,这个逻辑包含基本的与、或、非,对应着基本的概率计算属性,比如:
尽管这条公式很简单,但是在基本的数据处理与数据构建中有重要意义:在统计学中划分
是指将样本空间拆分成若干个互斥的子集,所以数据分析中指标拆解、维度拆分必须都保证互斥,否则指标和概率无法累加,而且有重叠的部分无法消除混淆、清晰解释。
条件概率
涉及到概率的专业术语有先验概率
和后验概率
,区别在于同一个事件在是否有额外的信息(条件)下发生的可能性大小。在有更多的信息输入下,对某个事件发生与否的概率会更为确定,这是条件概率
(后验概率)与先验概率的区别。
这是基本的条件概率定义公式,也是贝叶斯定理的基础。
贝叶斯定理
根据条件概率定义,可以推导出贝叶斯公式
:
意即只要知道和以及任一个条件概率,及可计算出另一个条件概率。
全概率公式
:若,...是B的一个划分,则
根据全概率公式可以计算出贝叶斯公式的分母,从而计算出条件概率。
贝叶斯定理的意义在于根据先验概率求后验概率,而这个后验概率就是推断的依据,比如朴素贝叶斯分类器
就是一种常见的机器学习分类模型。
独立
在统计学中独立
是指事件之间没有联系,一件事件是否发生或者变化完全不影响别一个事件。独立随机变量的一个基本性质在于:
从公式上看,可以理解成对于一起发生的独立事件,可以单独拆开分开计算;这样可以把一个复杂抽象的问题拆解成多个简单、清晰、可解释性强且互不影响的多个问题。
那么如何判断变量之间是否独立?
一般来说从业务的角度判断是否独立,从数据的角度上也有统计方法来作独立性检验(比如卡方分布。)
网友评论