美文网首页
贝叶斯(naive Bayes)

贝叶斯(naive Bayes)

作者: 夜猫子丶CC | 来源:发表于2020-07-05 12:56 被阅读0次

    一. 贝叶斯定理

    1. 为了解决“逆概率”问题,而提出了贝叶斯定理:在有限的已知信息下,回推出概率

    2. P(A|B)=P(A)\frac{P(B|A)}{P(B)}

    (1)  A:要求解信息,B:已知信息

    (2) 把P(A)称为"先验概率"(Prior probability),即在不知道B事件的前提下,我们对A事件概率的一个主观判断。

    (3) P(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,即新信息B带来的调整,作用是使得先验概率更接近真实概率。

    (4) P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。

    3. 全概率:P(B)=P(A)·P(B|A)+P(A’)·P(B|A’)

    某件事情的发生可以由很多情况导致,那么这件事情发生的全部概率,就是每个事件导致他发生的概率,乘以每个事件发生的概率。


    二. 贝叶斯分类器

    1. 分类

                    P(类|特征)=P(类)·\frac{P(特征|类)}{P(特征)}     (后验概率=先验概率×调整因子)


    2. 朴素贝叶斯分类【有监督】

    (1) 原理:假设每个特征 独立 地对分类结果产生影响:

       ∵  P(AB)=P(A)P(B)           P(A|B) = P(A)、P(B|A) =P(B)

            P(C|X)=P(C)·\frac{P(X|C)}{P(X)} =\frac{P(CX)}{P(X)}=P(C)

        ∴  P(类|特征)=P(类)·\prod_{i=1}^n P(特征|类)    P(特征|类)也叫似然概率)

    朴素贝叶斯分类器即求上式的最大值,即求最大似然估计。

    *拉普拉斯平滑修正:P>0,实际上假设了特征值和类别的均匀分布,分子+1,分母+类别个数

    (2) 算法

    ① 输入:训练数据集T={(x_1,y_1),(x_2,y_2),...,(x_n,y_n
)}

    ② 计算P(y_1∣x),P(y_2∣x),...,P(y_n∣x)

    ③输出:将上式 max P(y|x)作为x的分类结果

    3. 半朴素贝叶斯分类

    (1) 引入:特征之间 非独立,有依赖关系。

    常见模型

    (2) SPODE:超父属性

    假设所有属性都依赖于同一个属性(超父, super-parent),然后通过交叉验证确定超父。

                                       P(c_i|x)\propto P(c_i)*\prod_{j=1}^{n} {P(x_j|c_i,pa_j)}    (pai为超父属性)

    (3) AODE:将每个元素作为超父属性建立SPODE模型,然后从中筛选较好的属性集成起来作为最终的模型。

                                      P(c_i|x) \propto  \sum_{x_j属性}P(c_i,x_j)*\prod_{k=1}^{n} {P(x_k|c_i,x_j)}

    (4) TAN:假设每个属性只依赖一个属性,但是并不是统一的超父。相反,TAN将N个属性看成一个无向完全图,然后设定每条边的权重为两条边的相关性。

    建立无向完全图之后,通过最大生成树算法,挑选根变量,并将边设置为有向。建立依赖图之后,就可以和AODE中一样计算概率,只不过每个属性有自己独特的父类而已,其余皆相同。

                                      I(x_i,x_j|y)=\sum_{c}P(x_i,x_j|c)*log{\frac {P(x_i,x_j|c)}{P(x_i|c)P(x_j|c)}}

    三. 最大似然函数

    1. 似然:P(x|θ)

    (1) x表示某一个具体的数据;θ表示模型的参数。

    (2) 若θ是已知确定的,x是变量,这个函数叫概率函数(probability function),它描述对不同的样本点x,其出现概率是多少。——已知硬币均匀,求抛硬币结果的可能性。

    (3) 若x是已知确定的,θ是变量,这个函数叫似然函数(likelihood function),它描述对不同的模型参数,出现x样本点的概率是多少。——通过抛硬币结果,求硬币是否均匀(参数)。

    2. 最大似然估计MLE——频率学派

    (1) 定义:假设参数θ,然后计算实验结果的概率。似然函数P(x|θ)越大,那么这个假设的参数就越可能是真的。即推测参数的分布。

    (2) 缺点:数据量缺乏时会产生严重偏差。——抛5次硬币均为正,认为θ=1。

    (3) 推导:假设数据 X=(x1,x2,......,xn) 是i.i.d.的一组抽样

                    \hat{\theta} _{MLE} =argMaxP(X;\theta)=argMax\prod_{i=1}^n P(x_{i} ;\theta)

                   argMax\lg P(X;\theta )=argMax\sum_{I=1}^n \lg P(x_{i};\theta)=argMin-(\sum_{I=1}^n \lg P(x_{i};\theta))

    *对数似然/负对数似然:取lg将连乘变为连加,减少了计算量;不影响单调性;能将[0,1]的数据放大到图像中央。

    3. 最大后验概率估计MAP——贝叶斯学派

    (1) 定义:最大似然估计是使似然函数P(x|θ)最大,最大后验概率估计则是求θ使P(x|θ)·P(θ)最大。——抛5次硬币均为正,认为硬币大概率是均匀的,预估先验概率即P(θ)=0.5,认为θ在0.5~1之间。

    (2) 推导:假设数据 X=(x1,x2,......,xn) 是i.i.d.的一组抽样

                      \hat{\theta} _{MAP} =argMaxP(\theta|X)=argMax\frac{P(X|\theta)P(\theta )}{P(X)}

                    argMax\lg P(\theta|X )=argMin -\lg P(X|\theta)-\lg P(\theta )

    *贝叶斯展开后 lgP(X)可以舍去是因为与θ无关

    *MLE和MAP在优化时的不同就是在于先验项 -lgP(θ),在MAP中使用一个高斯分布的先验=在MLE中采用L2的正则化

    参考:

    [1]详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解_nebulaf91的博客-CSDN博客_最大后验概率

    [2]聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计 - 知乎

    相关文章

      网友评论

          本文标题:贝叶斯(naive Bayes)

          本文链接:https://www.haomeiwen.com/subject/ajdexktx.html