朴素贝叶斯

作者: 晨光523152 | 来源:发表于2019-07-01 16:58 被阅读0次

    朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
    首先基于特征条件独立假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y

    朴素贝叶斯法的学习与分类

    设输入特征向量x\in R^{n},y\in \{ c_1,c_2,...,c_k\}P(X,Y)是X和Y的联合概率分布。训练数据集T=\{(x1,y1),(x2,y2),...,(x_n,y_n)\}(由P(X,Y)独立同分布产生。)
    朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。(具体地,学习以下先验概率分布和条件概率分布)。
    先验概率分布:P(Y=c_{k}), k = 1,2,...,K
    条件概率分布:P(X=x|Y=c_k) = P(X^{(1)}=x^{1},...,X^{n}=x^{n}|Y=c_k),k=1,2,..,K
    条件概率分布P(X=x|Y=c_k)有指数级数量的参数,其估计实际上是不可行的。(假设x^{i}可取值有S_{i}个,i=1,2,...,nY的取值有K个,那么参数总共有S_1*S_2*...*S_n*K,因为不独立)。

    朴素贝叶斯法对条件概率分布做了条件独立性的假设(为什么要做这个假设呢,做完之后也没有改变参数的个数)
    条件独立性假设是:

    条件独立性假设.png
    条件独立假设等于是说:用于分类的特征在类确定的条件下的都是条件独立的。

    朴素贝叶斯学习到生成数据的机制,所以属于生成模型

    朴素贝叶斯法进行分类时,对给定的输入x,通过学习到的模型计算后验概率分布P(Y=c_k|X=x),将后验概率最大的类作为x的类输出。
    P(Y=c_k|X=x)=\frac{P(Y=c_k,X=x)}{P(X=X)}
    接着分母用全概率公式,分子再用次条件概率公式。就得到用贝叶斯公式计算厚颜概率:

    根据贝叶斯公式计算后验概率.png
    把条件独立的假设写进去就是:
    朴素贝叶斯分类基本公式.png

    朴素贝叶斯分类器可表示为:


    朴素贝叶斯分类器.png

    后验概率最大化的含义

    朴素贝叶斯法将实例分到后验概率最大的类中,这等价于期望风险最小化。

    期望风险

    损失函数值越小,模型就越好。由于模型的输入,输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是
    R_{exp} = E_{P}[L(Y,f(X,Y))] = \int_{X\times Y} L(y,f(x))P(x,y)dxdy

    这里推到和极大似然估计没看懂,等看懂了在接着写。

    相关文章

      网友评论

        本文标题:朴素贝叶斯

        本文链接:https://www.haomeiwen.com/subject/vbwgcctx.html