美文网首页
data mining-基础算法-简单概率算法

data mining-基础算法-简单概率算法

作者: crishawy | 来源:发表于2018-09-20 21:20 被阅读0次

    朴素贝叶斯方法

    理解:使用先验概率来进行推演后验概率进而进行预测分类。

    注意点:

    1. 只有当各个属性独立时,才可以使用,具体实例见天气例子。
    2. 如果某个属性为名目值时,则直接以频率作为概率,如果某个属性为数值类型时,则假设其具有正态或者高斯分布,然后利用正态分布函数计算各个属性值的概率密度,并不需要转化到概率,因为计算每种分类情况时,都会包含概率密度,在归一化成概率的过程中具有相同的影响力。
    3. 对于含有缺失值的实例,则直接丢弃,应为朴素贝叶斯表达式是用概率形式来进行二分或n分预测。
    4. 对于某些属性,如名目属性,当其频数为0时,其概率为0,则经过贝叶斯公式计算得到分类概率也为0,显然结果不尽人意。此时,可以通过拉普拉斯估计器将0概率转为小概率 image.png
      其中m为分子,n为分母,u和p为常量,这样便可以转化为小概率。

    文档分类的朴素贝叶斯

    输入:各个文档主体。
    输出:各个文档的分类
    算法:多项式朴素贝叶斯
    注意点:

    1. 采用阶乘多项式的形式作为概率计算公式:


      image.png

      该式表示有模型H生成文档E的概率,模型H表示一个文档类别,E表示一个待确定分类文档。N=n1+n2+n3+...+nk是文档单词的数量。使用阶乘是为了去除单词的排序特性。根据以上公式可以计算出模型H适用于文档E的概率,从而确定文档E的类型。

    讨论

    1. 朴素贝叶斯是最简单基本的方法,对于解决一些简单问题具有非常令人满意的结果。
    2. 不能解决属性之间有联系的问题。
    3. 正态分布的假设是另一个限制,可以采用核密度估计分布。

    相关文章

      网友评论

          本文标题:data mining-基础算法-简单概率算法

          本文链接:https://www.haomeiwen.com/subject/oeannftx.html