独立性假设与先验后验

作者: 谢小帅 | 来源:发表于2020-03-01 12:49 被阅读0次

1.机器学习假设训练集样本独立同分布

机器学习建立在当前获取到的历史数据 [训练集]，对未来数据进行预测、模拟。

https://www.zhihu.com/question/41222495/answer/790291550

选定模型，优化参数 $\theta$ ，使 likelihood 最大。

极大似然估计 (MLE) 是经验风险最小化 (ERM) 的一个例子. 当模型是条件概率分布, 损失函数是对数损失函数时, 经验风险最小化等价于极大似然估计.
贝叶斯估计中的最大后验概率估计 (MAP) 是结构风险最小化 (SRM) 的一个例子. 当模型是条件概率分布, 损失函数是对数损失函数, 模型复杂度由模型的先验概率表示时, 结构风险最小化等价于最大后验概率估计.

1.1 独立同分布 independent and identical distribution

x1,x2 不独立，说明其具备一定相关性，即之间存在某种函数关系，取值互相影响
同分布：对于离散变量有相同分布律，对于连续变量有相同的概率密度函数 PDF；也反映了训练集中这些数据属于同一 task

1.2 likelihood 极大似然估计 MLE

当样本符合独立性假设后，likelihood 转化为各个样本发生概率之积
$l(\theta)=P(x_1,x_2,x_3,...,x_n|\theta)=P(x_1|\theta)*P(x_2|\theta)*...*P(x_n|\theta)$

$l(\theta) = P(x_1,x_2,x_3,...,x_n|\theta) = \prod_{i=1}^{n} P(x_i|\theta)$

likelihood 取 max，再使用 log 将乘法转化为加法，即 条件对数似然，起到简化问题作用

$\operatorname*{argmax}_\theta l(\theta) = \operatorname*{argmax}_\theta log(l(\theta)) = \operatorname*{argmax}_\theta \sum_{i=1}^{n} log(P(x_i|\theta))$

2.贝叶斯公式与先验后验

参考：https://zhuanlan.zhihu.com/p/38567891

2.1 全概率与贝叶斯

二者互为“逆”定义

全概率：由因推果
贝叶斯：由果溯因
右侧分子是全概率公式中右侧求和的某一项
右侧分母是全概率公式中右侧求和

2.2 先验 prior 后验 posterior

贝叶斯判断 A 事件的发生源于哪个因素的概率，类比分类问题
此时分母 $P(A) = P(x)$ 即此样本已经产生
判断这个样本属于哪个类 $y_i$ ，即 $P(y_i|x)$

先验概率： $P(y_i)$ ，由数据集统计信息得到的各类 $y_i$ 发生概率，预先得到的先验知识
后验概率： $P(y_i|x)$ ，取样本 $x$ 后，计算 $x$ 属于某个已知类的概率

先验后验关系
$posterior = \frac{prior * likelihood}{evidence}$

$prior = P(y_i)$ ，已知样本中， $y_i$ 类所占概率
$likelihood = P(x|y_i)$ ，已知样本中，假设 $x \in y_i$ 类， $x$ 发生的概率
$evidence = P(x)$ ，取样本 $x$ ，此概率常视为常数
$posterior = P(y_i|x)$ ，取样完成后，计算后验概率

实例，假设有两个盒子，分别为红色和蓝色。
在红色盒子中放着2个青苹果和6个橙子，在蓝色盒子中放着1个橙子和3个青苹果
假设每次实验的时候会随机从某个盒子里挑出一个水果

随机变量 $B$ 表示挑出的是哪个盒子， $P(B=blue) = 0.6, P(B=red) = 0.4$
随机变量 $F$ 表示挑中的是哪种水果， $F$ 的取值为"a (apple)"和"o (orange)"。

现取出1个橘子，求其取自红盒的概率，此例中

$prior:P(B=red)$ 红盒这个类发生的概率
$likelihood:P(F=o|B=red)$ 假设是红盒，取出橘子的概率
$evidence:P(F=o)$ 取出水果是橘子的概率（全概率求解）
$posterior:P(B=red|F=o)$ 事实取出橘子，来自红盒的概率

$P(B=red|F=o) = \frac{P(B=red)*P(F=o|B=red)}{P(F=o)}$

3. 朴素贝叶斯 Naive Bayes

朴素贝叶斯分类器 - 维基百科
独立性假设：https://zhuanlan.zhihu.com/p/35605570
https://sylvanassun.github.io/2017/12/20/2017-12-20-naive_bayes/

两个独立性假设上

数据样本独立同分布，样本之间独立，使训练集样本整体 likelihood 求解简单
特征条件独立性假设，样本内部特征独立，使 $P(F_1,...,F_n|C)$ 条件概率求解简单
样本内部特征：比如图像 $x$ 表示成 $n$ 维向量，这 $n$ 个特征独立使条件概率求解简单
总结来看，假设 2 是为了实际 code 需要从提取特征维度让条件概率独立

NB 是生成模型，分子 $P(C)P(F_1,...,F_n|C)$ 等价于联合分布 $P(C,F_1,...,F_n)$

独立性假设与先验后验

1.机器学习假设训练集样本独立同分布

1.1 独立同分布 independent and identical distribution

1.2 likelihood 极大似然估计 MLE

2.贝叶斯公式与先验后验

2.1 全概率与贝叶斯

2.2 先验 prior 后验 posterior

3. 朴素贝叶斯 Naive Bayes

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

独立性假设 与 先验后验

1.机器学习假设训练集样本独立同分布

1.1 独立同分布 independent and identical distribution

1.2 likelihood 极大似然估计 MLE

2.贝叶斯公式与先验后验

2.1 全概率与贝叶斯

2.2 先验 prior 后验 posterior

3. 朴素贝叶斯 Naive Bayes

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

独立性假设与先验后验