美文网首页
基于概率论的分类方法: 朴素贝叶斯

基于概率论的分类方法: 朴素贝叶斯

作者: 芮芮cat | 来源:发表于2017-11-26 23:16 被阅读0次

    计算特征值取某个值的概率时涉及了一些概率知识, 那里我们先统计特征在数据集中取某个特定值次数, 然后除以数据集的实例总数 ,就得到了特征取该值的概率。
    我们现在用p1(x,y) 表示数据点(x,y)属于类别1的概率,用p2(x,y)表示数据点(x,y)属于类别2的概率,
    那么对于一个新数据点(x,y),可以用下面的规则来判断它的类别:
    □ 如果p1(x,y), > p2 (x,y), 那么类别为1。
    □如 果 p2 (x,y), > p1(x,y), 那么类别为2。
    也就是说,我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想,即选择具有 最高概率的决策

    如果特征之间相互独立,所谓独立指的是统计意义上的独立,即一个特征或者单词出现的可能性与它和其他单词相邻没有关系, 这个假设正 是朴素贝叶斯分类器中朴素一词的含义。当然,我们知道这种假设并不正确。
    朴素贝叶斯分类器中的另一个假设是,每个特征同等重要®。其实这个假设也有问题。如果要判断留言板的留言是否得当,那么可能不需要看 完所有的1000个单词,而只需要看10~20个特征就足以做出判断了。尽管上述假设存在一些小的 瑕疵,但朴素贝叶斯的实际效果却很好。

    训练算法:从词向量计算概率
    计算每个类别中的文档数目
    对每篇训练文档:
    对每个类别:
    如果词条出现文档中―增加该词条的计数值
    增加所有词条的计数值
    对每个类别:
    对每个词条:
    将该词条的数目除以总词条数目得到条件概率
    返回每个类别的条件概率

    我们将每个词的出现与否作为一个特征,这可以被描述为词集模型。如果一个词在文档中出现不止一次,这可能意味着包含该词是否出现在文档中所不能表 达的某种信息,这种方法被称为词袋模型

    相关文章

      网友评论

          本文标题:基于概率论的分类方法: 朴素贝叶斯

          本文链接:https://www.haomeiwen.com/subject/cjplbxtx.html