机器学习系列3:概率模型、朴素贝叶斯和sigmod函数推导

作者: _世界和平_ | 来源:发表于2019-05-25 20:38 被阅读0次

机器学习系列3:概率模型、朴素贝叶斯和sigmod函数推导
Machine Learning (4)
机器学习数学原理（4）——朴素贝叶斯模型
Day 681：机器学习笔记（10）
朴素贝叶斯分类算法
朴素贝叶斯
朴素贝叶斯概述
机器学习 Day 12 | 朴素贝叶斯基础
朴素贝叶斯
朴素贝叶斯以及三种常见模型推导

一、贝叶斯公式推导

1.条件概率

设 $E、F$ 是任意两个事件，已知 $F$ 发生的条件下， $E$ 发生的条件概率为：
$p(E|F)=\frac{p(EF)}{p(F)}$

2.全概率公式

设 $B_1,B_2,\cdots$ 为有限或无限个事件，他们两两互斥，即：
$B_jB_j=\varnothing(不可能事件) (i \ne q)$ $B_1+B_2+\cdots=\Omega(必然事件)$
$B_1,B_2,\cdots$ 被称为一个完备事件群。
对于一个事件 $A$ ，可以得出：
$A=A\Omega=AB_1+AB_2+\cdots$
因为 $B_1,B_2,\cdots$ 两两互斥，所以 $AB_1,AB_2,\cdots$ 也两两互斥，
由加法定理可知：
$p(A)=p(AB_1)+p(AB_2)+\cdots$
根据条件概率： $p(AB)=p(A|B)p(B)$ ,代入上式可得：
$p(A)=p(B_1)p(A|B_1)+p(B_2)p(A|B_2)+\cdots$
上式即为全概率公式。
全概率公式的意义在于，直接计算 $p(A)$ 不容易的时候，可以通过构造一系列 $B$ 来简化计算。

3.贝叶斯公式

在全概率公式的基础上可推导得：
$p(B_i|A)=\frac{p(AB_i)}{p(A)} (条件概率) {}\\ =\frac{p(B_i)p(A|B_i)}{\sum_jp(B_j)p(A|B_j)}$
若把事件A的发生看成结果，事件 $B_1,B_2,\cdots$ 看成原因，全概率公式可以看做是“由原因推结果”，被称为先验概率。
贝叶斯公式可以看成是“由结果推原因”，是后验概率，即A已经发生了，那么众多可能的原因中，到底是哪一个B导致了这个结果的发生。
在进一步介绍朴素贝叶斯之前，先简单介绍一下先验概率和后验概率。

二、先验概率

假设输入空间有一系列样本 $X=\{ x_1,x_2, \cdots ,x_n\}$ ,标签 $Y=\{ y_1,y_2.\cdots, y_n \}$
数据集可以表示成： $T= \{ (x_1,y_1),\cdots, (x_n,y_n) \}$
则其中的先验概率为：
$p(Y=y_k),k=1,2,\cdots,k$ $p(X=x)=P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},\cdots,X^{(n)}=x^{(n)} )$
这个概率值是通过统计得到的，即概率分布是已知的，被称为先验概率。

三、后验概率

已知 $Y=y_k$ 的概率，
求 $X$ 的某种组合 $X=x X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},\cdots,X^{(n)}=x^{(n)}$ ,为：
$p(X=x|Y=y_k)$
即为后验概率。
后验概率也是一种条件概率，但和一般的条件概率不同之处在于：
条件概率的条件和目标事件都是任意的；后验概率限定了目标事件和隐变量取值，其中的条件为观测结果，即后验概率是由果求因。
举一个例子：已知车祸有一定概率导致堵车，其中车祸是因，堵车是果。
即P(堵车）是先验概率（执因求果）；
P(车祸|堵车）是后验概率（由果求因）
先验和后验是相对的，如果以后还有新的信息引入，更新了现在所谓的后验概率，那么新的概率值即为后验概率。

四、朴素贝叶斯公式推导

朴素贝叶斯重要的先决条件是 $x_1,x_2, \cdots ,x_n$ 之间都是相互独立的。
即可得式4-1：
$p(X=x|Y=y_k)= p(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},\cdots,X^{(n)}=x^{(n)}|Y=y_k) {}\\ =\prod_{j=1}^{n}p(X^{(j)}=x^{(j)}|Y=y_k) \qquad$
由贝叶斯公式可推得式4-2：
$p(Y=y_k|X=x)=\frac{p(X=x|Y=y_k)p(Y=y_k)}{p(X=x)} {}\\ \qquad \qquad \qquad \qquad \qquad = \frac{p(X=x|Y=y_k)p(Y=y_k)}{\sum_kp(X=x|Y=y_k)p(Y=y_k)}$
将式4-1代入式4-2可得式4-3：
$p(Y=y_k|X=x)=\frac{p(Y=y_k)\prod_j p(X^{(j)}=x^{(j)}|Y=y_k)} {\sum_kp(Y=y_k) \prod_j p(X^{(j)}=x^{(j)}|Y=y_k)}$
式4-3即为朴素贝叶斯分类的基本公式
如果要确定某个样本x属于哪一类，则需要计算出归属不同类的概率，再从中挑选出概率的最大值。即朴素贝叶斯分类器可以表示为：
$y=f(x)=argmax_{y_k}\frac{p(Y=y_k)\prod_j p(X^{(j)}=x^{(j)}|Y=y_k)} {\sum_kp(Y=y_k) \prod_j p(X^{(j)}=x^{(j)}|Y=y_k)}$
在上式中，分母对于所有的 $y_k$ 都是相同的，可以简化成：
$y=f(x)=argmax_{y_k} p(Y=y_k)\prod_j p(X^{(j)}=x^{(j)}|Y=y_k)$

五、逻辑回归的线性回归的区别

两者都是广义的线性模型（GLM）
线性回归的优化目标是最小二乘，而逻辑回归则是似然函数
线性回归的输出是实域上的连续值，而逻辑回归则被sigmod函数映射到了[0,1]，通过设置阈值被转换成分类类别。
线性回归期望拟合数据，通过feature的线性加权来预测；逻辑回归是在训练一个最大似然分类器。

六、sigmod函数的推导

1.伯努利分布

一个事件x，其结果只有两种：x=1 or 0，比如抛硬币。
when $x=1$ , $p(1)=p\{x=1\}=p$
when $x=0$ , $p(0)=p\{x=0\}=1-p$
伯努利分布的概率质量函数为：
$f(x|p)=p^x(1-p)^{1-x}$
可以写成 $x - Bernoulli(p)$

2.指数族分布

如果一个分布能用以下的方式写出，就设这类分布属于指数族：
$p(y|n)=b(y)e^{\eta T(y)-\alpha(\eta)}$
伯努利分布可以表示成：
$\begin{split} p(x|y)= {} & p^x(1-p)^{1-x} {}\\ & = e^{xlnp+(1-x)ln(1-p)} {} \\ &=e^{x(lnp-ln(1-p))+ln(1-p)} {}\\ & = e^{xln\frac{p}{1-p }+ln(1-p)} \end{split}$
可以发现，伯努利分布是指数族分布，其中：
$\begin{cases} T(y) =x \\ b(y)=1 \\ \eta =ln\frac{p}{1-p} \\ \alpha(\eta)=-ln(1-p)=ln(1+e^{\eta} ) \end{cases}$

3.sigmod函数的推导

标准的逻辑回归问题中，是二分类的，与伯努利分布类似。
$\eta = ln\frac{p}{1-p}$ $\Rightarrow e^\eta = \frac{p}{1-p}$ $\Rightarrow p = \frac{1}{1+e^{-\eta}}$
上式即为sigmod函数的由来。
综上：若有一个样本空间 $y|x;\theta - Bernoulli(p)$ ，
那么 $E[y|x;\theta]=p$
有 $h_\theta(x)=E[y|x;\theta]=p=\frac{1}{1+e^{-\eta}}=\frac{1}{1+e^{-\theta^Tx}}$
$h_\theta(x)$ 即为 $sigmod \quad function$

机器学习系列3:概率模型、朴素贝叶斯和sigmod函数推导
一、贝叶斯公式推导 1.条件概率设是任意两个事件，已知发生的条件下，发生的条件概率为： 2.全概率公式设为有限...
Machine Learning (4)
贝叶斯公式推导，朴素贝叶斯公式学习先验概率学习后验概率 LR 和 Linear Regression 之间的区...
机器学习数学原理（4）——朴素贝叶斯模型
机器学习数学原理（4）——朴素贝叶斯模型朴素贝叶斯模型（Naive Bayes Model），是一种基于贝叶斯定...
Day 681：机器学习笔记（10）
HMM是隐马尔科夫模型，它和前面学的朴素贝叶斯、逻辑回归等都属于概率模型。机器学习中的概率模型，就是将学习归结为计...
朴素贝叶斯分类算法
朴素贝叶斯分类算法多项式和高斯朴素贝叶斯的解释朴素贝叶斯是一种有监督的机器学习方法，是概率分类器家族的一员。它采...
朴素贝叶斯
序本次记录朴素贝叶斯的相关原理，并上一张手写的面试级推导过程朴素贝叶斯模型是什么？朴素贝叶斯是基于贝叶斯定理...
朴素贝叶斯概述
朴素贝叶斯本质上是一种简单的概率图模型朴素贝叶斯与LR的区别？简单来说：朴素贝叶斯是生成模型，根据已有样本进行贝...
机器学习 Day 12 | 朴素贝叶斯基础
机器学习第十二天基于概率论的分类方法：朴素贝叶斯朴素贝叶斯概述贝叶斯分类是一类分类算法的总称，这类算法均...
朴素贝叶斯
理论基础条件概率：朴素贝叶斯最核心的部分是贝叶斯法则，而贝叶斯法则的基石是条件概率。贝叶斯法则如下：词集模型：...
朴素贝叶斯以及三种常见模型推导
朴素贝叶斯在机器学习中，朴素贝叶斯分类器是一系列以假设特征之间强（朴素）独立下运用贝叶斯定理为基础的简单概率分类...